Een voorspelling maken: waar begin je?

Wanneer u data visualiseert op een kaart, kijkt u vaak eerst waar bepaalde fenomenen optreden. Maar als u beter wilt begrijpen waarom iets gebeurt, zal u relaties moeten leggen tussen diverse variabelen in uw data.

Een voorspelling maken

Lineaire regressie

Lineaire regressie

Dit wordt regressie-analyse genoemd, waarbij u ruimtelijke relaties onderzoekt en modelleert zodat u daarmee bijvoorbeeld ook een voorspelling kunt maken. De basis van alle typen regressie-analyses en tevens een goede uitgangspositie is de lineaire regressie, ook wel Ordinary Least Square Regression genoemd. De eerste opdracht die u daarbij hebt is het kiezen van de variabele die u wilt begrijpen of voorspellen. Dit noemen we ook wel de afhankelijke variabele. Denk bijvoorbeeld aan overgewicht bij jonge kinderen, wat door diverse andere factoren kan worden verklaard.

Vervolgens moet u bepalen welke factoren helpen om deze variabele te verklaren. Dit zijn de verklarende variabelen. Het overgewicht kan wellicht worden verklaard door factoren als inkomen, educatie of de prijs van gezond voedsel.

De relatie van de verklarende variabelen en de afhankelijke variabele wordt uitgedrukt in coëfficiënten.  Een positieve waarde duidt op een positief verband, denk bijvoorbeeld aan een hoger aantal inbraken op plekken waar ook een hoger percentage aan vandalisme optreedt. Een negatief verband zou bijvoorbeeld het aantal verkochte terrasverwarmers zijn tegenover de buitentemperatuur. Tenslotte heeft een model altijd een foutmarge, dit is het deel van de afhankelijke variabele wat niet kan worden verklaard en wordt het residu genoemd.

Iteratief proces

Iteratief proces

Het opstellen van een regressiemodel is een iteratief proces waarbij u de meest effectieve onafhankelijke variabelen probeert te bepalen die een afhankelijke variabele kunnen verklaren. De Explanatory Regression tool helpt u om de relaties in diverse sets van variabelen te verkennen. Om kandidaten voor uw variabelen te vinden helpt het om literatuur na te gaan, te praten met vakexperts en te vertrouwen op uw eigen common sense. U zou in staat moeten zijn om een hypothese op te kunnen stellen over een relatie tussen variabelen en vraagtekens te stellen als een model deze relaties niet laat zien.

Belangrijke overwegingen

Belangrijke overwegingen

Daarnaast is van belang dat u weet dat data aan bepaalde voorwaarden moet voldoen om lineaire regressie toe te kunnen passen. U moet uiteraard toetsen of de relaties tussen variabelen lineair zijn. Ook moet u toetsen of er outliers in de data zitten en bepalen hoe u hiermee omgaat.

Een andere belangrijke vraag is de stationariteit van de data. Dit houdt in dat de relatie tussen variabelen even sterk is over verschillende gebieden heen. Uw data is bijvoorbeeld niet stationar wanneer bij het rode dorp de relatie tussen twee variabelen anders is dan bij het blauwe dorpje. Een lokaal regressiemodel kan hierbij een oplossing bieden. 

U wilt verder dat de foutmarge van het model normaal is verdeeld over het geheel en door de ruimte heen, zodat het model voor elke range aan waarden goed presteert. Een laatste belangrijke overweging is de toetsing of meerdere variabelen ook sterk met elkaar gerelateerd zijn, in plaats van enkel met de onafhankelijke variabele. Dit kan voor een instabiel model zorgen.

Globaal versus lokaal

Globaal vs lokaal

Er zijn manieren om het model wendbaarder te maken over een gebied heen. Tot nu toe spreken we over regressie als een globaal model met één enkele regressievergelijking voor alle data binnen het gebied dat u bestudeert. Hierbij zijn de relaties ook statisch. Het is ook mogelijk om een lokaal regressiemodel te maken, hierbij maakt u een vergelijking per gebiedseenheid, waarbij een aantal omliggende gebieden in acht neemt. De relaties kunnen hierbij dus ook dynamisch veranderen over het studiegebied heen. Binnen ArcGIS is lokale regressie bijvoorbeeld mogelijk met de Geographically Weighted Regression analyse ofwel GWR. Deze manier van modelleren geeft u ook meer inzicht waar een voorspellingsmodel binnen uw studiegebied goed of juist minder goed werkt.

In deze whiteboardsessie ziet u hoe u zelf een voorspellingsmodel opzet. Heeft u vragen of bent u benieuwd hoe u voorspellingsmodellen voor uw toepassingen inzet? Neem dan contact met ons op via contact@esri.nl.

Slimmer werken met GeoAI

Volgend Artikel

Deep Learning: Hoe valide is een model?

Lees dit artikel