Machine learning en geneeskunde, een complex verhaal

Midden in de grote vakantie ontstond er grote discussie, vooral in Engelstalige media, over de risico’s van artificiële intelligentie. Daarbij stonden Elon Musk (o.a. Tesla, SpaceX) en Mark Zuckerberg (Facebook) lijnrecht tegenover elkaar. Het klonk onrustwekkend met titels als ‘Facebook legt experiment rond artificiële intelligentie stil nadat robots eigen geheime taal ontwikkelen’ (HLN, 1/08/2017).

Wat was er gebeurd?

Facebook had in zijn laboratorium voor Artificiele Intelligentie (AI) een experiment opgezet, waarbij 2 AI programma’s, ook wel chatbots genoemd, in het Engels moesten leren onderhandelen. De programma’s kregen de vrijheid om de algoritmes die ze daarvoor gebruikten zelf aan te passen. Na een tijdje bleek echter dat de discussie tussen de chatbots voor de mens niet meer te verstaan was. Het leek alsof ze codewoorden gebruikten en rare zinnen met veel herhalingen, kortom een geheimtaal. Daarnaast probeerden ze elkaar te slim af te zijn door te doen alsof ze iets leuk vonden, om het daarna in de onderhandeling te gebruiken als ‘offer’ om zo een compromis te sluiten. Door die misleiding brachten ze in feite geen echt offer.

Zijn we nu robots aan het creeren die we niet meer in de hand hebben? Ook bij experten robotica roept het resultaat van het experiment vragen op. Wat als later militaire robots ongecontroleerd hun ding beginnen te doen?

Voor Elon Musk is het duidelijk dat de technologie nu zo ver staat dat overheden dringend werk moeten maken van afspraken en regels daarover. Anders vreest hij dat het slecht kan aflopen. Ook Stephen Hawking, de bekende astrofysicus, vreest dat artificiele intelligentie zonder grenzen het einde kan betekenen van de mensheid.

Mark Zuckerberg gelooft echter niet in zo’n doemscenario, maar is er zich wel bewust van dat je ook deze technologie zowel voor goede als slechte doelen kan gebruiken. Bewustzijn over de mogelijkheden en risico’s is zeker nodig.

Wat is ML? AI vs ML vs DL

Wat betekenen al die moeilijke termen zoals Artificiële intelligentie (AI), Machine Learning (ML) en Deep Learning (DL)? Wat zijn de verschillen en wat kunnen ze?

Je kan ze het makkelijkste voorstellen als 3 concentrische cirkels met aan de buitenkant AI, dan ML en centraal DL. Deep Learning is een onderdeel van Machine Learning, wat op zijn beurt een deel is van Artificiele Intelligentie.

AI werd in 1956 als eerste geboren. Het idee was om machines te voorzien van ‘menselijke intelligentie’. Computers waren daar een eerste stap in. In het begin werd er geëxperimenteerd met spelletjes zoals dammen. De computer leerde logische problemen op te lossen waarbij een stelling waar of onwaar (true/false) is en daaruit akties volgen (if/else). Nadien werd de Turing Test algemeen aanvaard. Deze test, genoemd naar de Engelse wiskundige Alan Turing,die beschouwd wordt als een van de vaders van de informatica en kwam er op neer dat wanneer een computer een mens kan laten geloven dat hij een mens is, dat deze computer intelligent is.

Pas in de laatste jaren, sinds het algemener gebruik van grafische processoren (GPU’s) die veel sneller kunnen rekenen omdat ze gegevens in parrallel kunnen verwerken, is heel deze technologietak in een stroomversnelling geraakt. Wat we nu al kunnen, is computers specifieke taken laten doen, en dit soms beter dan mensen kunnen. Gezichtsherkenning in Facebook en het classificeren van foto’s in Pinterest zijn hier voorbeelden van.

Machine Learning (ML) kan je bekijken als een benadering om tot Artificiele Intelligentie te komen. Het is een combinatie van statistiek, dat verbanden zoekt in gegevens en computerwetenschap dat efficiente algoritmes gebruikt.

Data wordt opgedeeld in een reeks kenmerken

Via algoritmes (reeks instructies) worden de kenmerken verwerkt, wordt informatie afgeleid uit de verbanden tussen de gegevens en wordt er uit geleerd. Uiteindelijk worden er vaststellingen gedaan of zelfs voorspellingen gemaakt.

Een Spam-filter is hier een alledaags voorbeeld van. Je mail wordt geanalyseerd en op basis van woorden, patronen, afzenders, info van andere gebruikers of van jezelf zal de filter de mail al of niet in de Spam-box terecht laten komen. In vroegere versies van Spam-filters gebeurde de filtering enkel op basis van trefwoorden. Visiesystemen vormen een ander gekend voorbeeld, zoals voor het herkennen van verkeersborden, wat nu in auto’s stilaan beschikbaar wordt.

Deep Learning gaat nog een stap verder en is op zijn beurt een deelgebied van machine learning. Via neurale netwerken worden onze hersenen in zekere zin nagebootst. Processoren die vergelijkbaar zijn met neuronen in onze hersenen, zijn verbonden met elkaar. Deze verbinding past zich aan aan de interactie tussen de processoren. Hoe meer communicatie, hoe sterker de verbinding. Zo kan een verbinding ook getraind worden. Neurale netwerken worden op verschillende manieren georganiseerd in functie van de aard van de toepassing.

In tegenstelling tot de hersenen waar neuronen die zich niet te ver van elkaar bevinden ‘connectie’ kunnen maken, werkt men bij artificiele neurale netwerken met aparte lagen met neuronen. Elk neuron heeft verbindingen met alle neuronen uit de laag eronder. De data wordt verdeeld en gaat dan door verschillende lagen die elk een specifieke taak hebben. Dit kan het opslaan van informatie zijn, maar ook het transformeren van data. Bij elk neuron en elke laag krijgt de data een soort weging mee die aangeeft hoe.sterk het signaal aankomt in het volgende neuron. Uiteindelijk krijgt data een bepaalde classificatie op basis van het totaal van die wegingen van de passage door de verschillende lagen. Zo kan je bv. een foto ‘opdelen’ en via deep learning catalogeren als kat of hond. Het neuraal netwerk wordt eerst getraind met testdata om zo tot betere resultaten te komen. Hoe beter getraind, hoe hoger de kans dat de foto correct gecatalogeerd wordt. Ook voor elke toepassing is er een ander model of architectuur. Met dank aan Deep Learning worden bv. zelfrijdende auto’s mogelijk.

Mogelijkheden en moeilijkheden voor ML in geneeskunde?

Inleiding

Vanwege de evolutie van de technologie met meer rekenkracht, meer en snellere opslag en meer beschikbare data worden computers meer en meer ingezet om complexere leertaken aan te pakken. Dit lukt met steeds meer succes. Computers hebben nu geleerd om poker te spelen en worden experts in videogames. In het verleden werd reeds veel onderzoek gedaan met algoritmen op medische data, maar de impact op de gezondheidszorg was tot nu beperkter dan het effect in andere sectoren. Privacy speelt hier een uitermate belangrijke rol omdat het om persoonlijke en uiterst gevoelige data gaat.

Goede statistische modellen bouwen voor gigantische hoeveelheden data is een grote uitdaging en machine learning kan hierbij erg goed van pas komen. Hoewel het nu een hot topic is, is men al sinds de jaren ’90 bezig om computers te gebruiken om grote hoeveelheden data te verwerken en daar conclusies uit te trekken, waardoor je kan leren van de resultaten. Men is het er ondertussen over eens dat intelligentie niet kan zonder leren. Zo versloeg in 1997 IBM’s schaakcomputer ‘Deep Blue’ de legendarische wereldkampioen schaken Gary Kasparov.

Hoe was het in de beginperiode? Wat waren de eisen, verwachtingen en knelpunten?

Van in het begin werd machine learning ook op medische data toegepast. In het begin van deze eeuw hadden ziekenhuizen al mogelijkheden om data op te slaan en te verwerken met grote computers. Vooral voor het stellen van een medische diagnoses voor speciale gevallen was er belangstelling. Sterk vereenvoudigd kwam het er op neer dat men zou leren van de ervaring van sterk gespecialiseerde centra en zo diagnostische kennis versprijden om zo te komen tot betere en snellere diagnoses of om studenten op te leiden.

Om een hulp te kunnen zijn voor medische diagnoses moet een machine learning systeem aan een hele reeks voorwaarden voldoen. Het moet performant zijn, d.w.z. dat het algoritme betekenisvolle informatie uit de beschikbare data moet kunnen halen. Een algoritme moet minstens zo accuraat diagnoses kunnen stellen op basis van de data als een arts. Omdat in patiëntendossiers dikwijls elementen over de patiënt ontbreken, moet het systeem daar mee om kunnen gaan. Hetzelfde geldt ook voor onzekerheden en fouten in medische data.

De door het systeem gegenereerde kennis alsook de uitleg over de beslissingen en keuzes moet transparant en duidelijk zijn voor de arts. Wanneer een arts bij een nieuwe patient een diagnose voorgesteld krijgt, die hij/zij niet verwacht had, dan moet het systeem bijkomende uitleg kunnen geven hoe en waarom het tot die diagnose is gekomen.

Zowel medische onderzoeken als het verzamelen en verwerken van data zijn tijdrovend en duur. Wat is het minimum aan gegevens dat nodig is voor een algoritme om tot een juiste diagnose te komen? Sommige algoritmes zijn in staat om zelf de gegevens te beperken tot het noodzakelijke minimum, relevante subset genoemd.

Testen wezen uit dat bij algoritmes die rond het jaar 2000 ‘State of the art’ waren, de verschillen tussen de prestaties vooral lagen op het vlak van transparantie en het geven van uitleg. Net die punten zijn erg belangrijk om vertrouwen te hebben in dergelijke systemen, zeker als het om de gezondheid van mensen gaat. Als je de discussie rond de stopgezette test van Facebook bekijkt alsook het standpunt van Elon Musk, maar ook van Stephen Hawking, dan gaat het er over dat de mensheid zicht moet blijven hebben op wat er gebeurt en ook de eindcontrole moet kunnen bewaren. Ook artsen hebben meer vertrouwen in combinaties van algoritmes dan in 1 specifiek algoritme. Men wil duidelijk niet alle eieren in 1 mand leggen, wat een gezond principe is.

Wat waren de toekomstverwachtingen in die periode rond het jaar 2000?

Machine learning was nog niet erg geaccepteerd in medische diagnose, hoewel men er wel mogelijkheden in zag. De verwachting was dat door de technologische evolutie de techniek ook in de praktijk zou doorbreken.

Het werk van een arts is op zich al erg complex en het kan niet de bedoeling zijn om het nog complexer te maken. Het zal de overvloed aan technologische hulpmiddelen voor de arts nog vergroten. Om technologie ook echt in te zetten, is het noodzakelijk dat het zo goed mogelijk past in de medische praktijk. De verwachting was dat een diagnostisch programma een bijkomend hulpmiddel zou worden voor de arts en dat het ook meer zicht zou geven op de resultaten van alternatieve geneeswijzen.

Huidige stand van zaken en recente evolutie

In die meer dan 15 jaar is er grote technologische vooruitgang op gebied van rekencapaciteit, geheugen en opslag geboekt. Daarnaast is de beschikbare data enorm toegenomen en zijn computers veel ‘slimmer’ geworden en kunnen ze ook pokeren en Go spelen.

Heeft dit alles er nu voor gezorgd dat de hoge verwachtingen over de toepassing van machine learning ondertussen ingelost zijn? In de praktijk blijken verschillende technieken van ‘geautomatiseerd’ leren verschillend toegepast te worden gewoon omdat ze vanwege hun manier van werken beter passen bij een bepaalde medische toepassing.

Een van de grote onderverdelingen in machine learning is die tussen supervised en unsupervised learning. Supervised learning is het meest gebruikelijk en is te vergelijken met hoe een kind op school leert. Bij supervised learning wordt door de mens een uitkomst vooropgesteld en het algoritme wordt begeleid om tot die uitkomst te komen. Problemen van classificatie waarbij men telkens moet kiezen onder welke subgroep de data valt behoren hiertoe net zoals algoritmes voor regressie. Voorbeelden zijn bv. het herkennen van handschrift of van beelden bv kat of hond. Getrainde mensen zijn hier dikwijls goed in.

Uit de medische wereld zijn zeker volgende

voorbeelden bekend, zoals automatische interpretatie van een electrocardiagram (ECG) of het automatisch herkennen van afwijkingen in het longweefsel (long nodules) op een röntgenfoto. Ook hier gaat het telkens om het herkennen van specifieke vormen. Hoe nauwkeuriger dit kan, hoe beter men ziektes in een vroeg stadium kan opsporen en detecteren.

Unsupervised learning ligt meer in lijn met ‘echte’ artificiële intelligentie. Bij unsupervised learning worden er geen outputs voorspeld, maar daar wordt getracht patronen of groepen te herkennen in de data. Dit is moeilijker en wordt dan ook dikwijls gecontroleerd met supervised learning.

Is dit bruikbaar in geneeskunde?

Het nauwkeuriger indelen en structureren van ziektes is een voorbeeld. Veel ziektes zijn afhankelijk van een hele reeks factoren, waardoor het aantal varianten en dus ook het aantal mogelijke behandelingen en de variatie daarop erg groot zijn. Een naukeuriger indeling zou niet alleen meer duidelijkheid kunnen brengen, maar ook nieuwe patronen en mechanismen van ziektes naar boven kunnen brengen, waaruit dan nieuwe behandelingsmogelijkheden kunnen volgen.

Maar al die verschillende algoritmes werken anders, hebben andere vrije parameters en hoe laten we het model weten dat het goed gepresteerd heeft? In sommige gevallen bv. bij het lezen van een ECG mogen we er van uitgaan dat alle gegevens beschikbaar zijn, maar wat bij classificatie van hartinfarcten of ziektes waarvan we nog maar weinig weten? Hoe moeten we dit aanpakken en aanleren?

Een van de methodes van leren voor machine learning systemen is om de fout bij training zo klein mogelijk te houden. Dit kan in principe door in te spelen op verschillende vrije parameters maar dat is op zich al ingewikkeld. Daarnaast wil je zeker voor geneeskundige toepassingen dat de fout bij echte testen minstens even laag is als deze bij de training. Dit is nodig om het nodige vertrouwen te hebben in het systeem. Over het verband tussen trainingfouten en testfouten bestaan er heel wat ‘wiskundige bewijzen’, maar over het algemeen is het aantal bruikbare trainingsamples een probleem. Zeker bij gespecialiseerde onderzoeken en zeldzame ziektes zijn de datasets beperkt van omvang maar ook in aantal. Daarnaast zijn de datasets zelf dikwijls niet op elkaar afgestemd zodat ze niet goed te combineren zijn. Zo zitten er bv in de ene dataset gegevens over erfelijke risico’s en in de andere datasets niet.

Daarnaast is er ook steeds de afweging tussen specialiseren van het model (op basis van training data) en het algemeen bruikbaar houden voor nieuwe datasets. Zo kan een ‘overtraind’ model dat ‘perfect’ werkt voor testdata in de realiteit toch slechte resultaten geven. Zeker om modellen te krijgen met ‘voorspellende kracht’, moet er een serieuze hoeveelheid geschikte trainingdata zijn. Hoe complexer het probleem en bijhorend model, hoe meer data er nodig is. Vraag is hoe je die bij elkaar krijgt, zeker als het over speciale, weinig voorkomende ziektes of varianten van ziektes gaat waarvan de aantallen op zich al vrij klein zijn en die enkel in gespecialiseerde ziekenhuizen vastgesteld zullen worden.

Er zijn echter heel wat onderzoeksgroepen die mogelijke toepassingen bestuderen en uittesten. Hoe komt het dat performante algoritmes in heel wat gevallen toch minder goede resultaten opleveren dan een eenvoudiger algoritme? Performante algoritmes houden rekening met veel meer factoren en zijn ook qua leercapaciteit veel beter, maar je moet dit systeem ook met de voldoende en betrouwbare gegevens kunnen vullen. Wanneer dit echter niet het geval is, bv. omdat formulieren met gegevens niet goed of onvolledig ingevuld zijn, heeft het systeem geen ‘leerstof’ om zichzelf beter te maken en zal het dus ook niet beter scoren dan een eenvoudiger algoritme.

Toch zijn er regelmatig hoopvolle berichten

Zo ontwikkelde men bijvoorbeeld aan de universiteit van Stanford een tool om de identificatie te verbeteren van mensen met een verhoogd risico op borstkanker door gebruik te maken van ziek weefsel. In plaats van enkel reeds lang gekende parameters in een nieuw model te stoppen, zocht men naar aanvullende nieuwe invloedsfactoren of indicatoren. Zo werd er info gehaald door automatische beeldherkenning op tumoren toe te passen. Zo werden meer dan 6000 voorspellende items (predictors) gevonden die onderzocht werden op hun invloed, zowel apart als gecombineerd. Bepaalde elementen werden gebruikt in het nieuwe model om de overlevingskans te voorspellen en op verschillende testdatasets bleek het resultaat duidelijk beter dan wat bereikt werd door artsen.

Uit deze studie bleek dus dat er nog een groot potentieel aan voorspellende factoren en indicatoren zijn waarvan we gebruik zouden kunnen maken voor een betere classificatie van ziekte. Daarnaast bleek dat het voor de classificatie gebruikte algoritme zelf relatief eenvoudig was en toch heel goede resultaten opleverde.

Dergelijke eenvoudige algoritmes kunnen tot zeer goede resultaten leiden wanneer de relatie tussen de onderliggende elementen (gegevens, parameter, …) en de output eenvoudig is en de hoeveelheid trainingdata beperkt is. Complexere algoritmes hebben veel en gediversifieerde trainingdata nodig om goede prestaties te leveren en breed genoeg bruikbaar te zijn.

Ook is er de ethische kant en wat met de privacy? Het gaat hier om zeer persoonlijke en gevoelige informatie. Wellicht is er mede daardoor minder een cultuur van data verzamelen dan in andere sectoren. KU Leuven ontwikkelde een algoritme dat zou voorspellen of je depressief zou worden of verslaafd op basis van een ingevulde vragenlijst. Wie die voorspelling kreeg, ontving automatisch een mail. Is dit gepast? Ook in de richting van Alzheimer en kanker wordt gewerkt naar betere voorspelbaarheid en vroege(re) detectie.

Hoe zullen we reageren op de voorspelling dat we bv X% meer kans hebben op een bepaalde kanker dan doorsnee?

Besluit

Het is duidelijk dat machine learning, net zoals in heel wat andere sectoren gebruikt kan worden voor problemen die terug te brengen zijn tot het voorspellen van zaken op basis van een reeks indicatoren en voor het vinden van patronen in grote hoeveelheden data.

Analyseren van datasets voor het ontwikkelen van risicomodellen en een betere classificatie van ziekten en patiënten zijn ook zeker een toepassing die tot de mogelijkheden binnen de geneeskunde horen.

Er zijn echter nog veel obstakels en minstens zoveel vragen

Is ons gezondheidssysteem er er klaar voor om dat machines bepaalde taken toe te vertrouwen als ze die beter zouden uitvoeren dan de mens zelf? Zullen we dit soort technologie toch gebruiken als hulp of aanvulling als die niet beter zou presteren dan de mens? Hoe reageer je op de voorspelling dat je Y% meer kans hebt op een bepaalde ziekte? Daarnaast is er de complexiteit van de techniek zelf en de statistische modellen.

Machine learning is met haar combinatie van wiskunde en informatica op zich al erg moeilijk, laat staan gecombineerd met de complexiteit van het menselijk lichaam. De snelle technologische evolutie en de steeds grotere praktijk en ervaring met machine learning in andere sectoren bieden echter mogelijkheden om verder stappen te zetten, die in de vorige 15 jaar niet mogelijk waren.

Daarom zullen we ook mentaal een evolutie moeten maken, willen we op een goede manier van die bijkomende mogelijkheden gebruik willen kunnen maken.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.