Koneoppimisen käytön haasteet sukupuolen tunnistamiseksi kuvissa

Viime vuosina tietokoneohjatut kuvantunnistusjärjestelmät, jotka tunnistavat ja luokittelevat automaattisesti ihmiskohteet, ovat levinneet yhä enemmän. Näitä algoritmijärjestelmiä käytetään monissa olosuhteissa - sosiaalisen median sivustojen auttamisesta kertomaan, onko käyttäjä kissan omistaja vai koiran omistaja, yksittäisten ihmisten tunnistamiseen tungosta julkisissa tiloissa. Koneen älykkyys, jota kutsutaan syväoppimiseksi, on näiden kuvien tunnistusjärjestelmien perusta, samoin kuin monet muut tekoälytoimet.

Tämä esseeopit syvällisistä oppimisjärjestelmistä ja sukupuolen tunnustamisestaon yksi osa konenäköteknologiaan liittyvien kysymysten kolmiosaisesta tutkimuksesta. Katso myös:

Interaktiivinen: Kuinka tietokone “näkee” sukupuolen?Peittämällä järjestelmällisesti tai 'peittämällä' osia yksittäisten ihmisten kasvojen valokuvista ja syöttämällä sitten nämä kuvat luomallemme tietokonemallille, voimme nähdä, mitkä kasvojen elementit ovat tärkeimpiä mallin luokittelussa miehille ja naisille. Olemme luoneet interaktiivisen ominaisuuden, jossa voit luoda kyseisen analyysin uudelleen ja nähdä, mitkä muutokset saavat syvällisen oppimisalgoritmimme muuttamaan arvaansa kuvan henkilön sukupuolesta.

Kasvojentunnistusta koskeva julkisen mielipiteen kysely.Kasvontunnistusjärjestelmät, jotka voivat määrittää yksilöiden identiteetin valokuvan tai videon perusteella, ovat yksi koneen näkemyksen kiistanalaisimmista sovelluksista (mallit, joita käytimme tässä projektissa, voivat luokitella sukupuolen, mutta eivät pysty tunnistamaan yksittäisiä ihmisiä). Keskus toteutti äskettäin tutkimuksen yhdysvaltalaisista aikuisista tutkien yleistä mielipidettä kasvojentunnistustekniikasta ja sen käytöstä mainostajien, lainvalvontaviranomaisten ja muiden tahojen keskuudessa. Katso tätä kyselyä koskeva raporttimme täältä.

Syväoppimisjärjestelmät ovat usein 'koulutettuja' suorittamaan nämä tehtävät esittämällä monia esimerkkejä kuvista, esineistä tai skenaarioista, jotka ihmiset ovat jo merkinneet 'oikeiksi' tai 'virheellisiksi'. Tarkastelemalla tarpeeksi esimerkkejä nämä järjestelmät voivat lopulta oppia tunnistamaan merkitsemättömät objektit tai skenaariot, joita he eivät ole koskaan ennen kokeneet. Näitä merkittyjä esimerkkejä, jotka auttavat järjestelmää oppimaan, kutsutaan 'harjoitustiedoiksi', ja niillä on tärkeä rooli näiden järjestelmien yleisen tarkkuuden määrittämisessä.

Nämä järjestelmät tarjoavat mahdollisuuden suorittaa monimutkaisia ​​tehtäviä nopeudella ja mittakaavassa, joka ylittää ihmisen kyvyt. Mutta toisin kuin ihmiset, syvälliset oppimisjärjestelmät eivät yleensä pysty tarjoamaan selityksiä tai perusteluja yksilöllisille valinnoilleen. Ja toisin kuin perinteiset tietokoneohjelmat, jotka noudattavat hyvin määrättyjä vaiheita saavuttaakseen tuloksensa, nämä järjestelmät ovat joskus niin monimutkaisia, että edes ne suunnittelevat datatieteilijät eivät ymmärrä täysin, miten he tekevät päätöksensä.



Tämän seurauksena nämä järjestelmät voivat epäonnistua tavoilla, jotka vaikuttavat vaikealta ymmärrettäviltä ja vaikeasti ennustettavilta - esimerkiksi osoittavat korkeampia virheitä tummemmalla iholla olevien ihmisten kasvoissa verrattuna vaaleamman ihon ihmisiin tai luokittelemalla merkittävät kongressin jäsenet rikollisiksi . Näiden järjestelmien käyttö esimerkiksi terveydenhuollossa, rahoituspalveluissa ja rikosoikeudessa on herättänyt pelkoa siitä, että ne saattavat lopulta lisätä nykyisiä kulttuurisia ja sosiaalisia ennakkoluuloja algoritmisen puolueettomuuden varjolla.

Pew Research Center sovelsi äskettäin syvällisiä oppimistekniikoita raporttisarjassa, jossa tarkasteltiin sukupuolen edustusta Googlen kuvahakutuloksissa ja Facebook-uutislähetysten kuvia. Koska ihmisen tutkijoiden ei ollut mahdollista lajitella ja luokitella näiden online-järjestelmien tuottamia tuhansia kuvia, loimme oman työkalumme havaitsemaan ja luokittelemaan löydettyjen kuvien ihmisten sukupuolen automaattisesti.

Koulutustiedoista riippumatta, kaikki mallit tunnistivat paremmin yhden sukupuolen kuin toisenRakennettaessa syvällistä oppimisjärjestelmää sukupuolten tunnistamiseksi erilaisissa ihmiskasvoissa kuvissa opimme omakohtaisesti näiden järjestelmien toiminnan ymmärtämisen vaikeudet; haasteet sopeuttamalla ne toimimaan tarkemmin; ja heidän kouluttamiseensa käytettyjen tietojen kriittinen rooli saadakseen heidät toimimaan tehokkaammin (tai vähemmän) tehokkaasti. Koulutimme ja testasimme yli 2000 ainutlaatuista mallia, jotka perustuivat yhteiseen syvällisen oppimisen arkkitehtuuriin, ja paljastimme prosessin aikana paljon vaihtelua näiden mallien kyvyssä tunnistaa sukupuoli tarkasti erilaisissa kuvajoukoissa.

Yksi yleinen rajoitus monille sukupuoliluokitusjärjestelmille (mukaan lukien sille, jota käytimme omassa tutkimuksessamme) on, että he eivät voi ottaa huomioon yksilöitä, jotka eivät tunnista itseään naisina tai miehinä, eikä heillä ole käsitystä sukupuoli-identiteetistä erillään fyysinen ulkonäkö. Mutta jopa näiden tunnettujen rajoitusten lisäksi saimme tietää, että näiden mallien kouluttamiseen käytetyillä harjoitustiedoilla on merkitystä. Mallit, jotka olemme kouluttaneet monipuolisemmilla kuvajoukoilla (mukaan lukien niiden väestökokoonpano sekä kussakin sarjassa käytettyjen kuvien laatu ja tyypit), pystyivät paremmin tunnistamaan sukupuolen yhtä monipuolisessa valokuvaryhmässä kuin mallit, joita koulutettiin enemmän rajalliset tiedot.

Huomasimme myös näiden mallien suorituskyvyssä vaihtelua, joka oli joskus yllättävää ja vaikeaa selittää. Esimerkiksi, vaikka mallit, jotka koulutettiin käyttämällä suurempaa monimuotoisuutta, olivatsuurin osatarkat, jotkut vähemmän erilaisista kuvista koulutetut mallit olivat tarkempia kuin toiset. Vastaavasti jotkut näistä malleista tunnistivat paremmin miehet kuin naiset, kun taas toiset ylittivät naiset eikä miehet.

Kuinka rakensimme koneoppimismalleja käyttämällä erilaisia ​​kuvia

Tässä analyysissä käytetyt tietokokoelmat

Keskus käytti seitsemää tietokokoelmaa malliemme kouluttamiseen. Jokaisella kokoelmalla on omat ainutlaatuiset ominaisuutensa, joten mikään yksittäinen kokoelma ei heijasta maailman väestön monimuotoisuutta. Kokoelmat sisältävät seuraavat:

Brasilian poliitikot:Laadukkaita poseerattuja kuvia Brasilian poliitikoista kameran edessä, koottu paikasta, joka isännöi kunnan tason vaalituloksia.

Merkityt kasvot luonnossa:Massachusettsin yliopiston tutkijoiden kokoama kasvokuvien tietokanta kasvontunnistustekniikan tutkimiseen.

Bainbridge:Kokoelma kasvokuvia, jotka vastaavat vuoden 1990 Yhdysvaltain väestönlaskennan väestötietoja, kerännyt Wilma Bainbridge ja yhteistyökumppanit kasvojen mieleenpainuvuuden tutkimiseen.

Aasian julkkikset:Keskuksen kokoamat kuvat 30 kuuluisasta aasialaisesta henkilöstä (15 miestä ja 15 naista).

Mustat julkkikset:Keskuksen kokoamat kuvat 22 kuuluisasta mustasta henkilöstä (11 miestä ja 11 naista).

Kuuluisat eläkeläiset:Kuvia 21 julkkis-eläkeläisestä (11 miestä ja 10 naista), koottu keskus.

Maa-sukupuoli -kuvahaku:Keskuksen kokoamat kuvat miehistä ja naisista kaikista sadasta maailman väkirikkaimmasta maasta.

Koneoppimismallit alkavat yleensä tyhjinä taulukoina, joille ei ole näytetty tietoja ja jotka eivät kykene suorittamaan luokituksia tai muita tehtäviä. Tässä esseessä käsittelemämme mallit on rakennettu tekniikalla, jota kutsutaan siirtoharjoitukseksi, joka antaa heille perustietoa yhteisten esineiden tunnistamisesta, mutta ei välttämättä tietoja, jotka ovat erityisen merkityksellisiä sukupuolen arvioimiseksi. Riippumatta käytetystä koneoppimisen tyypistä, tutkijat alkavat yleensä rakentaa mallia valitsemalla tietojoukon, joka kuvaa monia tehtävän tai luokituksen suorituksia oikein. Nähtyään riittävästi esimerkkejä tästä niin kutsutusta koulutustiedosta malli lopulta tunnistaa systemaattiset mallit ja kehittää oman lähestymistavansa erottaakseen 'oikeat' vastaukset 'vääristä'. Sitten se voi käyttää tätä lähestymistapaa tehtävän suorittamiseen, joka on koulutettu tekemään tiedoille, joita hän ei ole koskaan ennen nähnyt.

Kuitenkin esimerkit, jotka ovat puolueellisia tai eivät edusta tarkemmin laajempaa yksilöryhmää, jota voidaan kohdata, voivat opettaa järjestelmälle odottamattomia ja merkityksettömiä malleja, mikä saa järjestelmän kehittämään lähestymistavan, joka ei toimi hyvin uusissa tiedoissa. Esimerkiksi malli, joka on koulutettu kuville, joissa jokaisella miehellä on silmälasit, saattaa olla vakuuttunut siitä, että silmälasien käyttö on vahva merkki siitä, että joku on mies. Vaikka tämä esimerkki saattaa tuntua itsestään selvältä, voi olla vaikea tietää etukäteen, koostuvatko harjoittelutiedot tehtävän heikoista esimerkeistä vai eivätkö ne ole edustavia.

Koska halusimme analyysissämme tehdä eron miesten ja naisten välillä kuvissa, koulutustietomme koostuivat yhtä suurista kuvasarjoista miehistä ja naisista, joissa jokainen kuva oli merkitty mieheksi tai naiseksi. Halusimme nähdä, kuinka harjoitteludatan valinta vaikutti malliemme yleiseen tarkkuuteen, joten etsimme verkossa erilaisia ​​kokoelmia ihmiskasvoista. Lopulta keräsimme seitsemän kuvakokoelmaa, joita käytimme malliemme kouluttamiseen. Jokainen kokoelma koostui merkittyistä kuvista yksilöistä, mutta jokaisella oli oma ainutlaatuinen yhdistelmä ikäryhmiä, rotuja ja kansallisuuksia sekä sekoitus kuvan ominaisuuksia, kuten kuvan laatu ja yksilön sijainti.

Käyttämällä näitä kokoelmia lähtökohtana loimme sitten kahdeksan erilaista koulutustietoa syväoppimismalleihimme. Seitsemän koulutusaineistoa koostui kuvista, jotka oli piirretty vain yhdestä alkuperäisestä kokoelmasta (erityyppisten simulaatio)Vähemmänmonipuoliset harjoitustiedot), kun taas yksi koulutustietojoukko koostui kuvista, jotka oli piirretty kaikkien seitsemän kokoelman sekoituksesta (simulaatiolisääerilaisia ​​harjoittelutietoja). Tärkeää on, että kaikki kahdeksan harjoittelussa käytettyä aineistoa olivat samankokoisia ja sisälsivät yhtä paljon miehiä ja naisia.

Kuinka nämä mallit tekivät sukupuolen tunnistamisen erilaisissa kuvajoukoissa

Kun jokainen malli oli koulutettu yhdestä kahdeksasta koulutusprojektista, jotka olemme luoneet tälle projektille, testasimme sen. Eri mallien suorituskyvyn vertaamiseksi loimme ainutlaatuisen tietojoukon, joka koostui kaikista seitsemästä alkuperäisestä tietokokoelmasta otetuista kuvista - mutta joita ei koskaan käytetty minkään yksittäisen mallin kouluttamiseen. Tämän tyyppinen tietojoukko tunnetaan nimellä 'testaustiedot', ja sitä käytetään eri mallien suorituskyvyn arviointiin ja vertailuun. Tämän projektin testaustiedot sisälsivät saman määrän kuvia kustakin seitsemästä tietokokoelmasta, samoin kuin yhtä monta kuvaa, jotka yksilöitiin kuvaavan naisia ​​ja miehiä jokaisessa yksittäisessä kokoelmassa.

Kun käytimme koulutettuja malleja testaustietojen perusteella, huomasimme, että jotkut mallit suoritettiin tarkemmin kuin toiset. Erityisesti malli, joka oli koulutettu kaikista seitsemästä yksittäisestä kokoelmasta otetuista kuvista (eli malli, joka on koulutettu monipuolisimmasta koulutustiedoista), toimi parhaiten. Se tunnisti tarkasti oikean sukupuolen 87%: lle harjoitteludatakuvista, kun taas vain yhtä yksittäistä tietokokoelmaa käyttäen koulutetut mallit saivat 74–82%: n tarkkuuden.

Koneoppimismallit, jotka on koulutettu useille tietolähteille, olivat tarkempia kuin yhdelle tietolähteelle koulutetut

Toisin sanoen malli, joka koulutettiin erilaisista lähteistä, toimi huomattavasti paremmin kuin yksittäisistä lähteistä koulutettu malli, vaikka jokaisessa mallissa nähtiin sama määrä kokonaiskuvia ja sama miesten ja naisten suhde. Tämä ei ole täysin yllättävää, koska monipuolinen harjoitteludata ja testaustiedot sisälsivät sekoituksen seitsemästä tietokokoelmasta. Tämä tuo esiin keskeisen haasteen niille, jotka rakentavat tai käyttävät tämän tyyppisiä malleja: Mallit, jotka on rakennettu käyttämään harjoitustietoja, jotka näyttävät erilaisilta kuin reaalimaailman tiedot, ja kaikki siihen liittyvä reaalimaailman monimuotoisuus eivät välttämättä toimi odotetulla tavalla.

Vaikka malli, joka on koulutettu mahdollisimman monipuoliseen dataan, toimi parhaiten, kaikki vähemmän erilaisten tietojen perusteella koulutetut mallit eivät toimineet yhtä huonosti. Yhdellä tietolähteellä koulutettujen mallien huonoin suorituskyky saavutti vain 74 prosentin tarkkuuden, mutta näiden mallien parhaiten suoriutuneet pisteet kasvattivat 8 prosenttiyksikköä. Kuten edellä todettiin, nämä kuvat eroavat monin eri tavoin kuin kuvissa olevien ihmisten väestötiedot - kuten kuvanlaatu, kuvan tarkkuus, kuvan suunta ja muut vaikeasti kvantifioitavat tekijät. Tämä tuo esiin toisen haasteen, jota näiden järjestelmien käyttäjät ja suunnittelijat kohtaavat: On vaikea ennustaa etukäteen, kuinka tarkkoja nämä mallit perustuvat vain tietoihin, joihin heille on koulutettu. Voimme kuitenkin ennustaa, että monipuolisemmat näytteet ovat yleensä vankempia.

Tutkimme myös kuinka tarkkoja kukin malli oli miesten ja naisten tunnistamisessa ja havaitsimme, että jokainen malli oli ainakin jonkin verran tarkempi yhden sukupuolen tunnistamisessa kuin toisen - vaikka jokainen malli oli koulutettu yhtä monelle nais- ja miestekuvalle . Nämä ristiriidat eivät ole ilmeisiä tekemättä tätä tarkempaa analyysiä: Malli voidaan esittää 76 prosentin tarkkuudella paljastamatta, että se luokittelee oikein vain 60 prosenttia naisista, kun taas oikein 93 prosenttia miehistä.

Laajalla tasolla näillä malleilla oli yleensä vaikeuksia tunnistaa naiset: Kuusi kahdeksasta (mukaan lukien malli, joka rakennettiin käyttäen mahdollisimman monipuolista koulutustietoa) tunnisti miehet paremmin kuin naiset. Mutta kahdesta mallista oli huomattavasti tarkempi tunnistaa naiset kuin miehet. Ja kuten niiden yleisen tarkkuuden suhteen, ei ole täysin selvää tai ennustettavissa, miksi tietyt mallit saattavat paremmin tunnistaa miehet kuin naiset, tai päinvastoin.

Vaikutukset konenäön tutkimukseen

On tärkeää huomata, että tutkimuksessa on useita rajoituksia, jotka on pidettävä mielessä tulkittaessa tuloksia. Ensinnäkin käyttämämme siirtooppimismenetelmä perustuu ennalta koulutettuihin malleihin jo olemassa olevaan tietoon. Toiseksi, koska olemme luoneet yli 2000 mallia tälle projektille - ja mallien, jotka on koulutettu käyttämällä suurempia määriä koulutustietoja, luominen vie kauemmin - käytimme jokaisen mallin kouluttamiseen suhteellisen vaatimattomaa määrää kuvia. Tämän seurauksena nämä mallit voivat olla vähemmän tarkkoja kuin järjestelmät, jotka käyttävät monimutkaisempia mallintamisstrategioita tai enemmän koulutustietoja. Kolmanneksi kuvien, joita käytimme koulutuksessa ja testauksessa, ei ole tarkoitettu edustavan kaikkea mahdollista kasvojen monimuotoisuutta ihmisten kasvoissa. Tämän projektin tavoitteena oli pikemminkin kaapata kuvasarja, joka oli riittävän monipuolinen, jotta voitaisiin tehdä mielekkäitä vertailuja siitä, miten tämäntyyppiset järjestelmät oppivat sukupuolesta.

Lopuksi on tärkeää huomata, että nämä mallit on suunniteltu hyvin erityiseen tehtävään: luokitella kuvia naisista tai miehistä puhtaasti heidän ulkoisten, fyysisten ominaisuuksiensa perusteella. Kuten edellä todettiin, työkalumme pystyi osoittamaan ihmisiä vain yhteen näistä kahdesta binääriluokasta eikä pystynyt ottamaan huomioon muiden sukupuolten ihmisiä, mukaan lukien ei-binääriset henkilöt. Sillä ei myöskään ollut perusteellista ymmärrystä sukupuolesta tai sukupuoli-identiteetistä käsitteinä, eikä se pystynyt erottamaan jonkun fyysistä ulkonäköä ja henkilökohtaista sukupuoli-identiteettiä. Ja vaikka tämän analyysin laajoja otoksia voidaan soveltaa kaikenlaisiin koneoppimisjärjestelmiin, tässä ilmoitetut erityiset tulokset eivät välttämättä yleisty muuntyyppisiin järjestelmiin, jotka on suunniteltu luokittelemaan sukupuoli, tai järjestelmiin, jotka on suunniteltu tekemään täysin erilaisia ​​tehtäviä.

Mutta näistä varoituksista huolimatta tämä analyysi voi antaa käsityksen tämän tyyppisen koneoppimismallin luonteesta ja rajoituksista. On odotettavissa, että nämä mallit ovat epätäydellisiä. Vähemmän ilmeistä on, että ne voivat olla huomattavasti vähemmän luotettavia joillekin ryhmille kuin toiset - ja että nämä erot eivät välttämättä johdu intuitiivisista tai ilmeisistä tekijöistä. Yleensä on tärkeää, että nämä mallit koulutetaan tietoihin, jotka ottavat huomioon niiden tilanteiden monimuotoisuuden, joita he kohtaavat tosielämän tilanteissa, niin paljon kuin se on mahdollista. Jos mallia kehotetaan toimimaan esimerkiksi useilla ikäisillä, roduilla ja muilla ominaisuuksilla, on tärkeää, että mallia koulutetaan samalla tavalla erilaisilla harjoitusryhmillä. Viime kädessä ihmisten, jotka luottavat näiden järjestelmien tekemiin päätöksiin, tulisi lähestyä tuottamiaan tuloksia tietäen, että he saattavat piilottaa ongelmia tai ennakkoluuloja, joita on vaikea ennakoida tai ennustaa etukäteen.

Katso menetelmästä lisätietoja siitä, miten keskus suoritti tämän analyysin. Kiitämme Besheer Mohamedia, Onyi Lamia, Brian Broderickiä, Skye Tooria, Adam Hughesia ja Peter Bellia korvaamattomasta panoksestaan ​​tähän projektiin. Selena Qianin esittämä informaatiografiikka.