Deeplearning model: Text SAM

In het vorige GeoAI blog, schreven we over voorgetrainde deep learning modellen, die beschikbaar zijn in de Living Atlas. Eén van de modellen waar ik enthousiast over ben en die ik graag met u deel, is Text SAM. Dit is een open-source model dat objecten detecteert op basis van een vrije invoer aan tekst. Hierdoor biedt het model veel mogelijkheden. In dit blog ga ik dieper in op wat Text SAM is, hoe het werkt en hoe u het kunt gebruiken binnen ArcGIS Pro.

Text SAM: een geavanceerd deep learning model

Text SAM is een combinatie van twee modellen: Grounding DINO en Segment Anything Model (SAM). Het Grounding DINO model analyseert een ingevoerde afbeelding (of imagery layer) en probeert hierin patronen te herkennen, die overeenkomen met objecten die het model kent. Door gebruik te maken van geavanceerde taalmodellen, begrijpt het model een vrije tekstinvoer. Hierdoor hoeft u geen gebruik te maken van voorgedefinieerde labels, maar kunt u alles invoeren wat u wilt, zoals ‘rode auto’ of ‘vliegtuig’. Het model zet de ingevoerde tekst om in numerieke waarden, waarmee met model zoekt naar objecten in de afbeelding die overeenkomen met deze waarden. Het resultaat van het Grounding DINO model, zijn bounding boxes rondom het object: kaders die de objecten definiëren.

Deze bounding boxes worden vervolgens doorgegeven aan het SAM model. Dit model analyseert de bounding boxes en bepaalt de grenzen van de objecten of regio’s. De segmentaties worden omgezet naar polygonen, waaraan de ingevoerde tekst als attribuut aanwezig is. Zelfs in complexe situaties en luchtfoto’s, waar objecten vaak dichtbij elkaar liggen en de omgeving erg divers kan zijn, biedt Text SAM nauwkeurige resultaten. Dit komt doordat het model gebruik maakt van diepe neurale netwerken, die zijn getraind op grote hoeveelheden data. Door de diverse training, kan het model goed objecten en scenes herkennen. Daarnaast begrijpt het model de context van de taal goed, waardoor niet alleen de individuele objecten worden herkend, maar ook de relaties tussen de objecten in een foto.

Gebruiksmogelijkheden

U kunt het model gebruiken om snel en eenvoudig verschillende objecten te herkennen op luchtfoto’s, zonder dat u daarvoor verschillende deep learning-modellen nodig heeft. Zoals eerder gezegd, kunt u met Text SAM beschrijven waar u naar op zoek bent, in een taal die voor u natuurlijk is. Dit maakt het model niet alleen krachtig, maar ook gebruiksvriendelijk. Denk aan het detecteren van zonnepanelen op daken, het aantal auto’s op een parkeerplaats of de aanwezigheid van bomen in een park. Daarnaast kunt u Text SAM ook gebruiken om verschillende landbedekkingstypes te segmenteren en te classificeren. Door ‘landbouwgrond’ als tekst in te voeren, wordt het landgebruik, en verschillen hierin, snel geanalyseerd. Een andere mogelijke invoer is ‘vegetatie’, om alle gebieden met vegetatiebedekking in kaart te brengen. Handig voor milieu- en groenbeheer.

Voordat u enthousiast aan de slag gaat met dit model, is het belangrijk om te weten wat u nodig heeft om het model succesvol te gebruiken. Dit leest u op de informatiepagina van het Text SAM model. Heeft u alles in huis? Top! Dan kunt u beeldmateriaal, zoals foto’s, dronebeelden of satellietfoto’s, bij elkaar verzamelen voor uw interessegebied. Met behulp van de geoprocessingtool ‘Detect Objects Using Deep Learning’, kunt u de model definition van Text SAM inladen. De beelden worden, samen met de tekstinvoer, in Text SAM geladen en zo worden de gewenste objecten gesegmenteerd. Na het controleren en verfijnen van de resultaten, laadt u deze in ArcGIS Pro voor verdere analyse en visualisatie.

Wilt u ook graag aan de slag met dit model? Download het deep learning package, via de Living Atlas: Text SAM model

Volgend Artikel

GIS onmisbaar bij efficiënt samenwerken, maar het is en blijft mensenwerk

Lees dit artikel