Ruimtelijke analystechnieken
Lessen en examens | |
---|---|
Docent | Ate Poorthuis |
Lesvorm | Hoorcollege |
Examenvorm | Schriftelijk en 3 taken |
Achtergrond | |
Studiepunten | 6 |
Wanneer? | 2e bach, 2e sem |
ECTS | Link |
Sinds 2020-2021 geeft Ate dit vak. De examens van voor 2020-2021 verschillen enorm qua vragen, maar zijn voor de volledigheid toch bijgevoegd.
2023
Juni
12 juni
Theorie
Vraag 1 (2 punten): Je collega heeft een analyse over de samenhang tussen twee variabelen in jullie bedrijfsenquete gedaan. In de wekelijkse teamvergadering rapporteert de collega een Pearson's r correlatiecoefficient van 0.6 en je baas concludeert enthousiast dat er inderdaad een vrij sterke samenhang tussen de twee variabelen is. Klopt dit? Welke informatie zou je adviseren om nog toe te voegen of te berekenen? Beargumenteer je advies.
Vraag 2 (4 punten): Je doet een analyse van de verspreiding van verschillende flora in Vlaanderen op basis van een dataset zoals de [Florabank]. Omdat er honderden verschillende soorten bestaan, heeft je teamleider gevraagd om Vlaanderen op te delen in verschillende regio's die vergelijkbare aantallen en typen planten hebben. De Florabank data maakt gebruik van een grid met cellen van 1km2, en heeft informatie over óf en hoe vaak een bepaalde soort voorkomt in elke cel. Beschrijf welke analysetechniek je zou gebruiken voor deze taak en hoe je hierbij te werk zal gaan.
Vraag 3 (3 punten): Je doet een regressieanalyse van de gemiddelde reistijd die een persoon doorbrengt onderweg. Dit gaat dus om forens-trips, maar ook winkelen, sociale bezoeken enz. Je onderzoekseenheid is de postcode. Je probeert de totale reistijd per persoon (in minuten) per postcode te verklaren door de volgende variabelen:
- Percentage inwoners met niet-westerse migratieachtergrond (P_NW_MIG_A)
- Percentage inwoners met laag inkomen (P_LINK_HH)
- Aantal supermarkten binnen straal van 5km (AV5_SUPERM)
- Adressendichtheid (in adressen per km2) (OAD)
Je lineaire regressie levert de volgende coëfficienten op:
- (regressieoutput gegeven: term | estimate | std.error | statistic | p.value)
Interpreteer het geschatte effect van elke variabele en leg uit hoeveel minuten mensen gemiddeld kwijt zijn aan reizen in een postcode met
- (observaties gegeven)
Praktijk
In alle volgende vragen zul je een analyse doen van de ruimtelijke patronen in pendelstromen (woon-werk verkeer) in België. Je hebt hiervoor een data-bestand (`data/pendel.csv.gz`) in gecomprimeerd csv-formaat gekregen met kolommen voor de gemeentenaam en -code van de woonlocatie (`RESIDENCE`); de gemeentenaam en -code van de werklocatie (`WORK`); en het aantal pendelbewegingen dat zich dagelijks tussen de woon- en werkgemeente verplaatst (`COUNT`). Let op: elke forensbeweging vindt plaats tussen *twee* gemeenten en je kunt de data dus bekijken (d.m.v. bijvoorbeeld een `filter` of `group_by` op de betreffende kolom) vanuit zowel de woongemeente of de werkgemeente).
Je kunt naast dit bestand ook gebruik maken van de vertrouwde bestanden die je met joins aan elkaar kunt verbinden: censusdata en gemeenteshapefile.
Vraag 4 (2 punten): Lees de benodigde bestanden in en beantwoord de volgende vragen:
- Hoeveel mensen forenzen er van van Leuven naar Ukkel?
- Hoeveel mensen werken er in totaal in de provincie Antwerpen?
- Wat is de top-5 van woonlocaties voor mensen die in Leuven werken? (beantwoord deze vraag met een staafdiagram waarbij de x-as gesorteerd is op basis van de frequentie)
Vraag 5 (3 punten): Het in kaart brengen van alle forens-stromen is een cartografische uitdaging die vaak resulteert in een kaart met heel veel lijnen die kris-kras door elkaar lopen. Daarom worden stromen vaak in kaart gebracht met een choropletenkaart van de totalen van inkomende óf uitgaande forensstromen. Voor dat soort kaarten is het meestal noodzakelijk de data op te tellen of te bekijken vanuit dan wel de woonlocatie-kolom, dan wel de werklocatie-kolom. Maak de volgende 3 choropletenkaarten van de woon-werk data:
- Een kaart die weergeeft waar (en in welke aantallen) mensen die in Leuven wonen naar hun werk gaan.
- Een kaart die weergeeft waar (en in welke aantallen) de woonlocatie is van mensen die in Leuven werken.
- Een kaart die het forenssaldo weergeeft voor gemeenten in de provincie Oost-Vlaanderen. Het forenssaldo is het verschil tussen het aantal inkomende forensen (d.w.z. woon-werk verplaatsingen *naar* een gemeente) en uitgaande forensen (d.w.z. woon-werk verplaatsingen *vanuit* een gemeente). Als er in totaal 1000 werkende mensen in Plaats A wonen, en er werken in diezelfde plaats 1200 mensen (die vanuit eender welke gemeente forensen) dan is het saldo dus -200.
Zorg ervoor dat je kaarten een correct kleurenschema, een goede legenda en een titel hebben.
Vraag 6 (2 punten): In plaats van de choropletenkaarten in de vorige vraag zou je ook graag een kaart willen maken waarbij de aantallen forensen tussen Leuven en andere gemeenten met een lijn wordt weergegeven, waarbij de dikte van de lijn varieert naar gelang het aantal forensen. Zo'n kaart noemen we in het Engels vaak een 'flow map'. Dat heb je nog nooit eerder gedaan maar je ziet in de volgende paper een aantal figuren die dat precies ook doen in een andere context:
Poorthuis, A, T. Shelton and M. Zook, (2021). Changing neighborhoods, shifting connections: mapping relational geographies of gentrification using social media data. Urban Geography. Online at http://dx.doi.org/10.1080/02723638.2021.1888016
Gelukkig hebben de auteurs hun code beschikbaar gesteld en kun je dus de kunst afkijken. Je vindt de code hier. Zodat je niet daadwerkelijk de hele code hoeft te lezen, lichten we er hier twee specifieke, relevante stukjes code uit:
- Om de lijnen van/naar een gemeente te moeten tekenen zul je de lijn moeten laten beginnen en eindigen in de centroide van de bewuste gemeenten. Om die centroides uit te rekenen voor elke polygoon in je dataset gebruiken ze in het paper de onderstaande code. In deze code heet de tabel `acs_ky` maar je zult dit aan moeten passen aan jouw ruimtelijke gemeentetabel met de juiste namen.
- (stuk code gegeven)
- Vervolgens kun je de daadwerkelijke geometrie van de lijnen creëeren aan de hand van dit voorbeeld. Ook hier zul je de namen weer moeten aanpassen aan jouw context.
- (stuk code gegeven)
Maak gebruik van deze twee stukjes code om een 'flow map' te maken die met lijnen weergeeft hoeveel forensen *vanuit* Mechelen naar andere gemeenten forensen. Tip: `tmap` heeft een specifieke functie en symbologie voor lijnen.
Vraag 7 (4 punten): Bereken het saldo van forensen voor elke gemeente in België. Tip: dit is het makkelijkst door eerst twee aparte tabellen te creëeren met enerzijds alle inkomende forensen per gemeente, en in de andere tabel alle uitgaande forensen per gemeente. Deze twee tabellen kunnen vervolgens met een join aan elkaar verbonden worden.
Dit saldo van forensen zegt iets over de centrum- en woonfunctie van elke gemeente. Doe een regressieanalyse met dit saldo als afhankelijke variabele. Kies 1 of meer onafhankelijke variabelen zodaning dat de R2 van je analyse minimaal 0.4 zal zijn. Bespreek de regressieresultaten, karteer de residuen van je analyse, bespreek de rol van outliers en hoe je je analyse eventueel verder zou kunnen verbeteren.
2022
Juni
Theorie
Vraag 1 (2 punten) Vierkantenanalyse (quadrat analysis) en het berekenen van Moran's I zijn allebei manieren om ruimtelijke correlatie op een kwantitatieve manier uit te drukken. Leg uit wat ruimtelijke correlatie precies is en wat de verschillen tussen beide methoden zijn.
Vraag 2 (3 punten) Tijdens het semester hebben we zowel lineaire als logistische regressie toegepast. Beschrijf de aanpak van de beide methoden, de verschillen, en voor welke toepassingen je elke techniek kan gebruiken.
Vraag 3 (3 punten) Twee bekende technieken voor dimensie reductie zijn multidimensionsal scaling (MDS) en principal component analysis (PCA). Bespreek de benaderingen van beide technieken en de belangrijkste voor- en nadelen van elke techniek.
Praktijk
In alle volgende vragen zul je een analyse doen van de ruimtelijke patronen in het gebruik van voornamen in Belgische gemeenten in 2021. Je hebt hiervoor een data-bestand (`data/voornamen.csv.gz`) in gecomprimeerd csv-formaat gekregen dat de volgende kolommen heeft: `nis`, `gemeentenaam`, `voornaam`, `aantal` en `gender`. In dit bestand heb je dus een rij/waarneming voor elke unieke combinatie van gemeente en voornaam. Een voornaam is alleen opgenomen als er in de betreffende gemeente meer dan 5 mensen met die voornaam aanwezig zijn. De data komt uit de officiele overheidsregisters.
Je kunt naast dit bestand ook gebruik maken van de vertrouwde bestanden die je met joins aan elkaar kunt verbinden:
- `data/census.csv` voor census variabelen alsook de provincie- en gewestnamen behorende bij elke gemeente.
- `data/municipalities.sqlite` voor de ruimtelijke informatie die nodig is voor kaarten en ruimtelijke analyses.
Vraag 4 (2 punten) Lees de benodigde bestanden in en beantwoord de volgende vragen:
- Hoeveel mensen met de naam 'Marc' zijn er in totaal in België?
- Hoeveel mensen met de naam 'Sam' zijn er in elk van de 3 gewesten?
- Wat is de top-10 van voornamen in Leuven voor mensen die zich in de overheidsdata als vrouw identificeren? (beantwoord deze vraag met een staafdiagram waarbij de x-as gesorteerd is op basis van de frequentie)
Vraag 5 (3 punten) Je zult niet verbaasd zijn dat de verdeling van voornamen in België specifieke ruimtelijke patronen laat zien. Maak 3 kaarten van de ruimtelijke verdeling van de volgende namen: Godelieve, Elisabeth, en Monique. Let op dat je hiervoor de absolute aantallen zal moeten normaliseren aan de hand van de totale bevolking. Bereken daartoe een nieuwe variabele die het aantal mensen met de betreffende naam uitdrukt als 'voornamen per 1000 inwoners'. Zorg ervoor dat je kaarten een correct kleurenschema, een goede legenda en een titel hebben.
Vraag 6 (3 punten) De kaarten uit de vorige vraag doen vermoeden dat we hier te maken hebben met een zekere ruimtelijke samenhang. Kies één van de namen uit de vorige vraag en kwantificeer de ruimtelijke samenhang. Kies daartoe een correcte techniek. Interpreteer de resultaten, inclusief de bijbehorende p-waarde.
Vraag 7 (4 punten) Sommige regionale verschillen in naamkeuze hangen samen met cultuur-historische reden, terwijl voor andere namen wellicht sociaal-economische motieven een rol spelen. In deze laatste vraag maak je een lineair regressiemodel om het aantal mensen met de voornaam 'Luc' per 1000 inwoners in elk gemeente te verklaren aan de hand van (sociaal-economische) census-variabelen.
- Maak bij het maken van je model gebruik van tenminste 3 verklarende variabelen en kies die zo dat je tenminste een R2 van 0.35 hebt.
- Bespreek kort de uitkomst van je model (fit en coefficienten)
- Karteer de residuen van je regressie. Bespreek de patronen die je ziet en geef aan hoe je in een opvolganalyse je model eventueel nog verder zou kunnen verbeteren (N.B. dit hoef je dus niet uit te voeren).
2021
Juni
15 juni
Theorie vragen
- Gedurende de laatste maanden heb je intensief kennis gemaakt met het gebruik van ‘computational notebooks’, zoals ook dit RMarkdown document. Dit soort notebooks zijn de laatste jaren steeds populairder geworden in verschillende wetenschappelijke disciplines, vooral in workflows die kwantitatieve methoden en data benutten. Beschrijf in je eigen woorden ten minste twee specifieke voordelen van zulke notebooks voor wetenschappelijke workflows ten op zichte van traditionelere methoden.
- Dimensie reductie en clustering zijn allebei methoden die we kunnen gebruiken om complexe datasets beter te doorgronden. Beschrijf de verschillen tussen de benaderingswijze van beide methoden (waarvoor gebruik je welke methode?) en bespreek voor zowel dimensie reductie als clustering ten minste 1 praktische techniek of algoritme dat hiervoor gebruikt kan worden.
- Geografen zijn vaak geïnteresseerd in ruimtelijke samenhang of correlatie. Achter deze interesse kan zowel een inhoudelijke als een technische reden zitten. Benoem deze redenen en bespreek daarbij ook de meestgebruikte kwantitatieve maat voor ruimtelijke correlatie.
Praktijk vragen
- Je hebt een data-bestand (data/brussels-districts-population.csv) in csv-formaat gekregen dat informatie heeft over de bevolking in elke wijk (Engels: ‘district’) in het Brussels Gewest in 2020. Lees dit bestand in en beantwoord de volgende vragen:
- Wat is de totale bevolking in het Brussels Gewest?
- Hoeveel mensen wonen er gemiddeld in een wijk?
- Wat is de verdeling van de bevolking over alle wijken? (beantwoord deze vraag door een histogram te maken)
- De wijken uit de vorige vraag hebben natuurlijk ook een specifieke vorm en locatie. Voer een ‘join’ uit met de URBIS_ADM_MD shapefile (data/URBIS_ADM_MD/UrbAdm_MONITORING_DISTRICT.shp) en maak twee kaarten:
- Een kaart van de bevolking in elke wijk.
- Een kaart van de bevolkingsdichtheid in elke wijk.
- De kaarten uit de vorige vraag doen vermoeden dat we hier te maken hebben met een ruimtelijke samenhang van dicht- en dunbevolkte wijken in Brussel. Gebruik de data uit de vorige vraag om de ruimtelijke samenhang van de bevolkingsdichtheid te kwantificeren. Kies daartoe een correcte techniek en maak gebruik van ruimtelijke gewichten gebaseerd op afstand (met een cut-off waarde van 2 kilometer). Interpreteer de resultaten, inclusief de bijbehorende p-waarde.
- Het aantal COVID-19 gevallen per inwoner verschilt behoorlijk tussen Belgische gemeenten. Je bent gevraagd een korte analyse te maken van mogelijke oorzaken daarvan. Je hebt daartoe beschikking over een dataset met COVID gevallen (data/covid.csv) en de vertrouwde census data (data/census.csv) alsook de ruimtelijke data voor de gemeenten (data/municipalities.sqlite). Om de analyse te doen, loop je door de volgende stappen:
- Maak een kaart van het aantal COVID gevallen per 100.000 inwoners.
- Maak een linear regressiemodel van het aantal gevallen per 100.000 inwoners. Gebruik daartoe ten minste 3 verklarende (census) variabelen en kies die zo dat je tenminste een R2 van 0.3 hebt. Bespreek kort de uitkomst van je model (fit en coefficienten).
- Karteer de residuen van je regressie. Bespreek de patronen die je ziet en geef aan hoe je in een opvolganalyse je model nog verder zou kunnen verbeteren (N.B. dit hoef je dus niet uit te voeren).
2020
Juni
15 juni
- artikel China: hoe menselijk en natuurlijk effect op NDVI onderscheiden
- gegeven figuur, is dit puntenpatroon random, geclusterd of uniform. Welke werkwijze gebruik je om dit te achterhalen
- 4 bodemstalen met allerlei variabelen (zowel numerisch als categorisch) welke bodemstalen lijken het meest op elkaar?
- Op computer:
- Script lineaire regressie schrijven (ppt met codes gegeven)
- Script voor PCA gegeven
- Vragen over uitkomst. Hoe interpreteren?
2018
Augustus
- Tabel gegeven met allemaal Wijken in Californië met bijhorende afstand tot zee, gemiddelde huisprijs en landgebruik (industrieel/residentieel) . Bij bepaalde wijk enkel landgebruik en afstand tot zee gegeven.
- Hoe kan men de gemiddelde huisprijs in deze wijk bepalen?
- Er wordt een onderzoek gedaan bij boeren in Uganda, er wordt gepeild naar hun gemiddeld inkomen, opleidingsniveau, welke gewassen ze kweken (met ja of nee),…
- Hoe kan deze data verwerkt worden?
- 4x4 kader gegeven met witte en zwarte vakken.
- Bereken Moran’s I + uitleg
- PC: Databank met luchtgegevens in China gekregen:
- verschillende vraagjes hierover. Was vooral Regressie. Ppt 2 van de oefenzittingen mocht op het examen gebruikt worden.
- Ook kleine oefening om gegeven script te openen en te runnen
2017
Juni
19 juni
Theorie:
- Formule's van Pearson, Spearman en Moran's I gegeven, leg uit hoe deze in verband staan en aan welke voorwaarde moet voldaan zodat de Pearson een significante betekenis heeft?
- Regressieanalyse
- Doe een regressieanalyse in Excel (handmatig en via data analysis)
- Hoe kom ja aan de fomrule B=(XXt)^-1*Xt*Y (2 slides hierover gegeven)
- Wat is colineariteit en ga na in Excel voor gegeven dataset.
- Leg de stappen van een PCA uit. Wat is het verschil met PLS?
Praktijk:
- Enkelvoudige regressie
- Meervoudige regressie
- PCA
2016
Juni
Theorie:
- Hoe berekenen of punten random, uniform of geclusterd verdeeld zijn.
- Tabel met numerische en categorische variabelen gegeven voor 4 observaties van bodemstalen. Welke bodemstalen lijken het hardst op elkaar? Bereken met een predictor die je ook zou gebruiken bij clusteranalyse.
- Leg aan de hand van deze figuur uit hoe de klimatologische impact en de menselijke impact op de vegetatieve bedekking worden gescheiden. '(zelfde figuur als 2013-2014)
- Hoe wordt een scorematrix bij PCA bepaald? Wat wilt deze matrix zeggen?
Oefeningen:
6 opdrachtjes:
- 5 over Regressie en ANOVA/ANCOVA, script maken obv ppt. en beetje interpreteren.
- 1 over PCA, enkel interpreteren van de output: script is gegeven
2015
Juni
Theorie
- Welke banden gebruiken om legertanks te zien in een bos
- Hoe berekenen of punten random, uniform of geclusterd verdeeld zijn
- Voer een lineaire stretch uit voor de waarden in een 3x3 matrix (waarden zijn gegeven)
- average, single,complete linkage tekenen
Oefeningen
- Regressie en ANOVA (zelf script maken obv ppt)
- PCA (alleen ctrl-r en interpreteren)
2014
Juni
16 juni
Theorie
- Gegeven: tabel met gemeentes, gemiddelde verkoopprijs per huis, afstand tot de kust en landschapstype (natural of industrial), met de gemiddelde verkoopprijs per huis voor de laatste gemeente ontbrekend. Is het mogelijk om op basis van de afstand tot de kust en het landschapstype de gemiddelde verkoopprijs te berekenen? Leg je werkwijze uit.
- Leg aan de hand van deze figuur uit hoe de klimatologische impact en de menselijke impact op de vegetatieve bedekking worden gescheiden.
- Bereken de ruimtelijke autocorrelatie voor een gegeven zwart-wit-rasterbeeld (4 x 4).
- Gegeven: 3 x 3 rasterbeeld met brightness-waarden. Verhoog het lineair contrast in het rasterbeeld door een lineaire stretch uit te voeren.
- Leg uit met een voorbeeld hoe je met gegevens van spectrale banden en een DHM een contextuele classificatie kan uitvoeren.
Oefeningen
- Clusteranalyse
- Lineaire regressie en variantie-analyse
2013
Juni
17 juni
Theorie
- Gegeven: tabel van laatste slide van laatste PPT
- bereken de gemiddelde accuurraatheid
- bereken de Omissie en Comissie fouten van graan en water
- bij welke vd 2 zijn deze fouten het kleinst en Waarom?
- Gegeven: tabel met Sediment Export van rivier, Landgebruik (akker/weide/bos) en hellingsgraad. Van een aantal plaatsen ontbreekt de sediment export. Leg uit hoe je deze kan voorspellen.
- Gegeven: Clusterprofiel:wat zie je op de y-as ? Hoe kan je de y-as berekenen?
Oefeningen
- Regressie en ANOVA
- PCA
2011
Theorie
- Verschil pearson en spearmancorrelatie + figuur geven
- Minnaertcorrectie
- single linkage, complete linkage en average linkage
- Stellingen: Waar of fout? Leg kort uit waarom
- Indien de residu's van Y=a+b*X1 en Y=a+b*X2 niet met elkaar gecorreleerd zijn is er een inhoudelijke band tussen X1 en X2.
- Het verband tussen de oorspronkelijke variabelen en de nieuwe componenten (na PCA) kan worden afgeleid uit een scree-plot.
- Indien de Moran's I gelijk is aan 0 is de range van een variogram ook gelijk aan 0.
- In het geval van Lambertiaanse reflectie is een Minaert-correctie niet nodig.
Oefeningen
- anova
- cluster
- beeldclassificatie
2010
Theorie (3 open vragen):
- Iets van minaert
- leg complete linkage uit bij clustering
- hoe kun je zien dat 2 ruimtelijke variabelen X1 en X2 een inhoudelijk verband hebben?
Oefeningen:
- een pca uitvoeren
- een covariantie analyse
- bereken de ontbossing in roemenie adhv 4 spectrale banden van 1987 en vanuit 2009 (beeldclassificatie)
2007
Eerste zit
Van Rompaey:
- Dataset met gemeentes in Amerika, de gemiddelde woningprijs ervan, de afstand tot de kust en of het een natuurlijk of industrieel landschap is. Van 1 gemeente is de woningprijs niet gegeven, en die moet je voorspellen adhv de andere.
- Atmosferische correctie: waarom en hoe?
- Raster met resolutie 4x4, zwart of wit ingekleurd: bereken de ruimtelijke autocorrelatie.
Vanneste:
- PCA: Wat zijn de gelijkenissen en de verschillen tussen de variantie van de oorspronkelijke variabelen en de componenten?
- PCA: Waarom doet men soms twee rotaties? beschrijf beide rotaties uitvoerig.
- (Xk-X)/S(X) (boven de eerste twee x-en stond nog een streepje). Wat betekent deze formule? Waarvoor kan men ze gebruiken?
Tweede zit
Van Rompaey:
- 2 rasterbeelden, 40x40 ofzo: Verwacht je pos. of neg. autocorrelatie? Teken bij benadering een variogram voor de beide rasterbeelden.
- Van enkele rivieren in Europa ken je de sedimentconcentratie. Je kent ook de gemiddelde hellingsgradiënt (in %), het landgebruik (bos, akker, weide) en de bodemtextuur (zand, silt, klei). Je moet de sedimentconcentratie voorspellen van een andere rivier. Hoe ga je te werk?
- Tabelletje met grijswaarden op band 1 en band 2 van zeven luchtfoto's. 3 zijn bos, 3 zijn akker. Voorspel door middel van een grafiek het vermoedelijke landgebruik van de zevende foto.
Vanneste:
- De PCA is geen echte ruimtelijke analyse techniek. Waarom wordt ze toch vaak gebruikt voor ruimtelijke data? Leg uitgebreid uit.
- Waarom gebruikt men PCA en clusteranalyse soms samen? Wat zijn de voor- en nadelen hiervan?
- De clusteranalyse is wiskundig niet al te stevig. Geef minstens twee aspecten ervan die dit verklaren. Wat zijn de gevolgen?
2006
Van Rompaey:
- Woordjes:
- ecological fallacy
- radiometrische resolutie
- Moran's I
- point spread function
- Je beschikt over een aantal gegevens per stroomgebied: landgebruik( bos /weide/akker), hellingsgraad en erosiesnelheid. Van bepaalde stroomgebieden is de erosiesnelheid niet gegeven. Welke methode gebruik je om deze ontbrekende gegevens te bepalen? Wat kan je zeggen over de nauwkeurigheid van je schattingen?
- Je beschikt over Spot beeld met 3 banden (resolutie 20m) en een DTM. Bespreek hiervan de niet gesuperviseerde classificatiemethode
Vanneste:
- Gegeven is de formule : K’K=B’Y’YB=Landa
- in welke context gebruik je die?
- wat stelt elke letter voor?
- waarvoor dient formule?
- schets geometrisch zodat het duidelijk wordt
- Bij formule WARD methode: idem
- in welke context gebruik je die?
- wat stelt elke letter voor?
- waarvoor dient formule?
- schets geometrisch
2005
- 10 definities van een score, duidt de correcte aan. Verklaar geometrisch wat een score juist is. En dit in de juiste variabelen ruimte. Dit wil niet zeggen bespreek heel de PCA, maar enkel de elementen die invloed hebben op en aanduiden wat een score net is.
- Kn = lambda ^1/2
- verklaar de componenten + waarvoor wordt deze formule gebruikt
- Waarom is een clustertechniek nooit ideaal (minstens 3 fundamentele verschillen)
- Gegeven: residuplot, hoe wordt deze geconstrueerd. Hoe spoor je outliers, invloedrijke waarnemingen en hefboompunten op? Benoem de assen, en hoe zou deze beter benaderen ?
- Geef uitleg over Wilcoxon, negatieve ruimtelijke autocorrelatie en nog eentje
Deel 1:
- Hoe onderzoek je of 2 variabelen een inhoudelijke band hebben?
- Onderzoekers willen het aantal dassen in Belgie schatten, rekening houdend met het bodemgebruik (bos, akker, weide bebouwd) en de afstand tot een rivier. Voor een aantal kleine stroomgebieden zijn de dassen geteld. Hoe ga je te werk? welke tussenstappen gebruik je?
- Woordjes: multicollineariteit, ecological fallacy, covariabele, covariantie met interactieterm
Deel 2:
- Waarom is normalisatie bij PCA noodzakelijk. Schets dit zowel in een matrix als geometrisch. Vermeld variantie, covariantie, eigenwaarde
- Clusteranalyse kan zowel space-contracting als space-dilating zijn. licht toe
- Formule van T-waarde gegeven. Verklaar alle componenten, schets geometrisch en waarvoor dient de formule?
- Wanneer is een voorstellingsruimte strikt genomen niet correct? maak in je toelichting duidelijk dat je weet wat een voorstellingsruimte is. Waarvoor dient een voorstellingsruimte?
2004
Eerste zit
Deel I (Hoofdstuk I)
- Leg uit waarom regressie en co-variantie een continue ruimte beschrijven in tegenstelling tot de variantie-analyse die een discontinue ruimte beschrijft. Geef bvn om uw standpunt te verduidelijken.
- Ethiopië: n percelen, 3 parameters: bodemtextuur (silt-klei-zand), ploegmethode (os/tractor) en gemiddelde hellingsgraad (%). Van 50 percelen zijn enkele jaren de gemiddelde bodemerosiesnelheid (ton/ha.jaar) opgemeten. Hoe bepaal je de significante impact van de drie parameters op de 50 percelen en hoe verklaar je de bodemerosiesnelheid van de n (2000) percelen? Geef de nodige uitleg bij elke stap.
- Leg bondig uit:
- Ecological Fallacy
- Partiële residuplot
- Ruimtelijke correlatie
- variantie - inflatie - getal (VIF)
Tweede deel (Hoofdstukken II en III)
- Waarom is normalisatie van de ruwe gegevens bij PCA nodig? Verduidelijk dit in zowel de Euclidische ruimte (Geometrisch) als matrix. Verduidelijk tevens wat eigenwaarde, variantie en covariantie betekenen in beide. Zorg voor duidelijke tekeningen en duid alles aan!!!!
- Wanneer is de voorstellingsruimte een juiste en strikt genomen niet een juiste weergave van de rotatietechniek bij PCA? Waarom wordt in alle gevallen gebruik gemaakt van de voorstellingsruimte, zorg dat in je antwoord duidelijk is wat een voorstellingsruimte betekent!
- Formule voor de t-waarde van het clusterprofiel gegeven
- Leg alle componenten (betekenis) van deze formule uit
- Verduidelijk dit aan de hand van de Euclidische ruimte
- Leg uit wanneer en waarom men deze formule gebruikt.
Tweede zit
Deel1 (Van Rompaey)
- Woordjes: MEER, 'kracht' bij statistische test, niet parametrische test, ruimtelijke autocorrelatie
- Wat is heteroscedasticiteit? Waarom gebruikt in geografie?
- 30 velden, bodemtextuur( klei/zand/leem), erosie (veel/weinig/geen), type(A,B,C) ~welke procedure gebruik je, hoe bepaal je de gemiddelde graanopbrengst (kg/m²)
Deel 2 (Vanneste)
- Stellingen over wat al dan niet de definitie is van ladingen:lambda i; vierkantswortel lambda i; diagonaalelementen op de matrix zijn lambda i; ......
- Geef grafiek van variabelenruimte Y'=B*K' en Y=K*B' en beknopte uitleg bij beide
- wat is ESS? hoe gebruikt in geografie? hoe kom je aan die waarde?
2003
- De regressie-analyse en de variantie-analyse (expliciete weergave van de ruimte) hebben een verschillende ruimtelijke benadering.
- geef hun types verklarende variabelen + vbn
- met welk kaarttype vergelijken?
- gevolgen voor de veronderstelling over de metingen in de ruimte
- Geg: fig. 1.26 (p. 47): leg uit
- Kn = K*(lambda)-1/2
- verklaar de verschillende factoren
- waarom wordt deze bewerking uitgevoerd? Doel?
- hoe zou je dit tekenen in een gepaste euclidische ruimte?
- Welke zijn de hulpmethodes om het aantal clusters te bepalen? Waarom kan het nuttig zijn meerdere clusteroplossingen te hebben?
Typevragen
- Wat is de rol van dummyvariabelen? Geef de algemene formule voor variantie-analyse. Geef de interpretatie van de referentiehypothese.
- Gegeven: 3 dendogrammen
- Welke clusteringmethode werd toegepast? Leg uit.
- Wat is de referentiewaarde voor de ESS op de grafieken? Leg uit.
- Bespreek de tabellen (gegeven) uit de cursus i.v.m. testen bij variantie-analyse (Tukey).
- In welke context worden de termen MSD en LSD gebruikt? Leg ze uit. Hoe komt met tot de verschillende waarden?
- Weerleg of nuanceer de volgende stelling: “ De analyse van een verdeling in een populatie houdt GEEN rekening met de lokalisatie; uit een verdeling zijn dus enkel verschillen binnen de populatie af te leiden maar kunnen geen gevolgen worden getrokken i.v.m. ruimtelijke structuren “.
- Leg uit en illustreer met schetsen waaruit duidelijk blijkt wat variantie is.
- De totale variantie van Y is de som van de variantie van de nieuwe onafhankelijke / ongecorreleerde variabelen of componenten, geschikt van groot naar klein. De componenten (PC1, PC2, …) nemen achtereenvolgens een maximaal deel van de totale variantie van Y voor hun rekening.
- Gegeven: de output van een regressie-analyse.
- Schrijf het model uit.
- Leg de verschillende termen uit.
- Evalueer het model.
- Evalueer het variantie-inflatiegetal en het conditiegetal. Geef ook de betekenis ervan.
- Leg de ‘error sum of squares’ bij de hiërarchische Ward-methode uit aan de hand van de formule. Waarom spreekt men eigenlijk van een ‘fout’?
- Waarom wordt bij de variantie-analyse gesproken van een discontinue benadering van de ruimte?
- Duid de juiste definitie van variantie aan (uit verschillende gegeven mogelijkheden).
- Tussen de hierna volgende definities bevinden zich omschrijvingen van lading of score. Wat is score? Duid de juiste definities aan.
- De informatieve waarde van een component.
- Bxsqrt(A)
- De karteerbare waarde van een component.
- De projectiecoördinaten van de componentenassen op de oorspronkelijke variabelenassen.
- De projectiecoördinaten van de observatiepunten op de componentenassen.
- K'=B'xY'
- De correlatie tussen de componenten en de oorspronkelijke variabelen.
- lambda
- De manier waarop het oorspronkelijk assenstelsel geroteerd is zodanig dat de componenten achtereenvolgens een maximaal deel van de totale informatie voor hun rekening nemen.
- De waarde die het mogelijk maakt om het profiel of de inhoudelijke betekenis van een component te omschrijven.
- Leg uit: “De geografie en de statistiek komen in conflict omwille van de ruimtelijke autocorrelatie.” Laat uit je antwoord blijken wat ruimtelijke autocorrelatie inhoudt en illustreer met enkele concrete voorbeelden.
- Wat zijn ‘storende’ waarnemingen of metingen? Hoe spoor je ze op? Wat doe je ermee?
- Toon aan dat de variantie-analyse gelijkaardig (maar niet gelijk) is aan de regressie-analyse op het gebied van:
- Structuur van het model;
- Te testen hypothese;
- Benadering = berekeningswijze (schets indien nuttig).
- Waarom is normalisatie van gegevens bij PCA zo belangrijk? Illustreer via een schets met matrices enerzijds en geometrisch anderzijds. Duid hier de eigenwaarde, variantie en covariantie op aan zodanig dat duidelijk wordt wat deze begrippen inhouden of vertegenwoordigen.
- Wat is hiërarchisch, agglomeratieve clustering?
- Hoe optimaliseert men de (subjectieve) keuze van het aantal clusters?