Nu de maatschappelijke rol van Artificial Intelligence blijft toenemen, is het belangrijk om te weten hoe accuraat AI-voorspellingen zijn. J. B. Brown, een onderzoeker van de Kyoto University Graduate School of Medicine, heeft een evaluatiemethode ontwikkeld om die nauwkeurigheid te controleren.
Maatschappelijke rol
Nieuwe toepassingen van AI komen bijna dagelijks voorbij in het nieuws, en de technologie heeft inmiddels al zijn intrede gemaakt in onder andere de financiële wereld, de farmaceutische industrie en de beveiligingssector. Doordat AI zich baseert op big data, is de technologie bij uitstek geschikt voor het voorspellen van uitkomsten. Maar gaat dat altijd goed?
“Hoewel de prestatiestatistieken indrukwekkend lijken, komen de onderzoeksteams die de resultaten beoordelen voor twee problemen te staan”, legt Brown uit. “Ten eerste moeten ze vaststellen of de resultaten niet per toeval gegenereerd worden. En ten tweede moeten ze de toepasbaarheid van de statistieken correct interpreteren.”
Nauwkeurigheid van AI
In het onderzoeksrapport van Brown, dat gepubliceerd is in Molecular Informatics, wordt de bruikbaarheid van AI onder de loep genomen. Daarnaast geeft hij een analyse van de maatstaven die normaliter gebruikt worden om de effectiviteit van AI te meten.
De techniek die Brown ontwikkeld heeft, genereert een nieuw soort kansberekening van de prestaties. Het wordt dus gebruikt om vragen te beantwoorden zoals: wat is de kans dat de nauwkeurigheid van de voorspellingen groter is dan 90 procent?
AI-voorspellingen
Het meten van de nauwkeurigheid van AI-voorspellingen is een complex probleem. Als een AI-applicatie bijvoorbeeld ingesteld is om te voorspellen of iemand de loterij gaat winnen, zal de uitkomst altijd negatief zijn. Het programma bereikt dan een nauwkeurigheid van 99,99 procent, maar de interpretatie van de uitkomsten is essentieel bij het vaststellen van de effectiviteit.
Hierin schuilt het probleem: de meeste AI-voorspellingen kunnen alleen compleet vertrouwd worden als er een gelijk aantal positieve en negatieve uitkomsten zijn. Als de data die gebruikt wordt voor de voorspellingen meer naar één uitkomst leunt, zal de effectiviteit van de AI-applicatie groter lijken dan het daadwerkelijk is.
Innovatieve evaluatiemethode
Om dit probleem te bestrijden heeft Brown een nieuwe techniek ontwikkeld waarmee de prestaties uitsluitend geëvalueerd worden op basis van de invoergegevens. “Het innovatieve van deze techniek is dat het niet afhankelijk is van één soort AI-technologie, zoals Deep Learning”, zegt Brown. Het kan dus toegepast worden op meerdere AI-applicaties.
“De techniek kan helpen met het ontwikkelen van nieuwe maatstaven door te kijken hoe een bepaalde maatstaf in verhouding staat met de balans van de voorspelde data. Zo kunnen we zien of er een bepaalde veronderstelling is doorgevoerd in de resultaten.” Brown hoopt dat deze analyse niet alleen de aandacht zal vestigen op hoe we in de toekomst over AI moeten gaan denken, maar ook bijdraagt aan de ontwikkeling van sterkere AI-applicaties.
Andere maatstaven
Naast de nauwkeurigheidsmaatstaf, testte Brown zes andere maatstaven in zowel theoretische als praktische scenario’s. Hierbij ontdekte hij dat geen enkele maatstaf eigenlijk het beste is, en volgens Brown is het belangrijk om meerdere maatstaven te hanteren bij het evalueren van AI-voorspellingen.
“AI kan ons helpen met het begrijpen van verschillende verschijnselen in de wereld, maar om een goed inzicht te krijgen moeten we weten hoe we de juiste vragen stellen. We moeten oppassen dat we ons niet te veel richten op één getal als de maatstaf voor de betrouwbaarheid van AI.”