Video transcript
Bij veel organisaties speelt het gebruik van imagery, zoals luchtfoto’s, dronebeelden of opnames met een mobiele telefoon van de omgeving, een steeds grotere rol. Deep Learning helpt om objecten of fenomenen in imagery sneller te vinden, met een hoge nauwkeurigheid en wendbaar om op elke gewenste schaal toe te passen.
Wat is het doel?
Het lijkt een open deur wanneer ik zeg dat het eerst het doel van een Deep Learning-analyse goed moet definiëren. Maar het doel heeft wel degelijk invloed op wat voor type analyse u gaat uitvoeren en hoe u de resultaten kunt gebruiken. Denk eens aan het detecteren van op een beeld. Wilt u dat het model enkel een label voorspelt? Dit wordt ook wel ‘image classification’ genoemd. Of wilt u dat het model een ‘bounding box’ voorspelt waar de boom zich bevindt? Dit is object detection en geeft dus ook de locatie van het object. Of wilt u nog meer detail en precies weten wat de begrenzing van de boom is, zodat u iets kan zeggen over de diameter of oppervlakte van de kruin? Dan spreken we over ‘instance segmentation’. Elk van deze typen analyses gebruikt een ander soort Deep Learning-algoritme. Het is dus van belang vooraf een goed doel te definiëren.
Welke imagery is geschikt voor Deep Learning?
Wellicht heeft u een mooi doel gesteld, maar één van de essentiële vragen is dan ook: is er geschikte imagery beschikbaar waarmee je dit doel kunt bereiken? De stelregel daarbij is: wanneer u een object met het blote oog niet kunt waarnemen, kan een Deep Learning-model dat hoogstwaarschijnlijk ook niet. Één van de belangrijke algemene eigenschappen daarbij is de resolutie van uw imagery. Als voorbeeld kijken we naar dit water met een mooi onbewoond eiland. Als we dit opdelen in een grid met 16 cellen, is het eiland heel blokkerig en nauwelijks herkenbaar weergegeven. Als we de resolutie verdubbelen kunnen we met 64 cellen de oorspronkelijke vorm en oppervlakte al veel beter benaderen. Resolutie heeft dus een directe relatie met de representatie van een object uit de echte wereld in de imagery. Zelf gebruik ik altijd een richtlijn waarbij ik stel dat de resolutie minimaal een factor 10 hoger is dan het te detecteren object. Dus wanneer ik een zonnepaneel van 2,5 meter breed wil detecteren, gebruik dan imagery van 25 cm of nauwkeuriger.
Hoeveel voorbeelden heb je nodig?
Naast het resolutievraagstuk zijn er ook andere factoren die imagery minder of meer geschikt maken. Wanneer u geïnteresseerd bent in het herkennen van vegetatie in een beeld, kan een imagery met een extra nabij-infrarode-band bijvoorbeeld helpen om het contrast van een object ten opzichte van de omgeving beter inzichtelijk te maken op basis van de spectrale eigenschappen. En hou met luchtfoto’s daarnaast ook rekening met bewolking, iets waar radardata dan weer geen last van heeft.
Data augmentatie
Als u geschikte imagery heeft gevonden, is het zaak om deze te prepareren voor het gebruik in een Deep Learning model. Een vraag die ik vaak hoor is: hoeveel gelabelde data heb ik dan precies nodig? Een eenduidig antwoord daarop is niet te geven. Hoewel ik zelf vaak minimaal duizend voorbeelden prepareer bij de meeste imagery vraagstukken, zijn een aantal andere factoren minstens zo belangrijk om in acht te nemen. Denk bijvoorbeeld aan de variatie in de trainingsdata. Bij een algemeen vraagstuk om bomen te detecteren, wil je zowel kleine als grote bomen in de trainingsdata hebben en bomen met veel en weinig begroeiing op de takken meenemen. Hierdoor leert een Deep Learning-model om de verschillende verschijningsvormen uit de echte wereld te herkennen. Een andere factor is de mate van nauwkeurigheid die u verlangt. Over het algemeen gesproken wordt een Deep Learning-model beter, tot op zekere hoogte, naarmate het meer trainingsdata als input krijgt.
Een techniek die hierbij kan helpen is data augmentatie. Met deze beeldtransformaties worden de voorbeeldimages random geroteerd, geschaald of omgeklapt, zodat een Deep Learning-model steeds een andere variatie van het beeld tegenkomt. In de Export Training Data for Deep Learning tool wordt al een standaard augmentatie toegepast om verschillende soorten image chips te maken, of u kunt dit zelf configureren om daar extra smaken aan toe te voegen. Met deze afwegingen en technieken heeft u uiteindelijk een trainingsdataset waarmee u hopelijk goed bent voorbereid om een Deep Learning-model te kunnen trainen en gebruiken voor uw vraagstuk.
Als u al deze afwegingen heeft gemaakt bent u goed voorbereid om een Deep Learning-model te trainen. Wilt u dat een expert met u meedenkt of heeft u vragen naar aanleiding van deze video? Neem dan contact op via contact@esri.nl.