# üíª Geopandas: en introduksjon

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/GMGI221-2024/forelesninger/blob/main/04_geopandas.ipynb)

I denne seksjonen vil vi dekke det grunnleggende med *geopandas*, et Python-bibliotek for
√• samhandle med romlig vektordata.

[Geopandas](https://geopandas.org/) gir et brukervennlig grensesnitt til vektordatasett. Det kombinerer mulighetene til *pandas*
med geometrikapabilitetene til
[shapely](#02_geometriske_objekter), [romlig-filformateringst√∏tte
fra fiona](#03_vektor) og kartprojeksjonsbibliotekene til
pyproj(som vi ser p√• neste uke).

Hoveddatastrukturene i geopandas er `GeoDataFrame`s og `GeoSeries`. De
utvider funksjonaliteten til `pandas.DataFrame`s og `pandas.Series`.

Det er en n√∏kkelforskjell mellom pandas dataframes og geopandas
[`GeoDataFrame`s](https://geopandas.org/en/stable/docs/user_guide/data_structures.html#geodataframe):
en `GeoDataFrame` inneholder en ekstra kolonne for geometrier. Som standard er
navnet p√• denne kolonnen `geometry`, og det er en
[`GeoSeries`](https://geopandas.org/en/stable/docs/user_guide/data_structures.html#geoseries)
som inneholder geometrier (punkter, linjer, polygoner, ...) som
`shapely.geometry` objekter.

In [None]:
import pathlib
import geopandas
import numpy

DATA_MAPPE = pathlib.Path().resolve() / "data"

HIGHLIGHT_STYLE = "background: #f66161;"

# s√• f√∏lgende blokk er litt d√•rlig magi for √• f√• tabellutdataen til √• se
# fin ut (denne cellen er skjult, vi er bare interessert i en kort tabellisting
# der geometrikolonnen er fremhevet).
#
# For dette, vi
#    1. konverterer geopandas tilbake til en ‚Äònormal‚Äô pandas.DataFrame med en forkortet
#       WKT-streng i geometrikolonnen
#    1b. samtidig som vi gj√∏r det, blir vi kvitt de fleste av kolonnene (gir de gjenv√¶rende kolonner nye navn)
#    2. bruker stilen p√• alle celler i kolonnen "geometry", og til aksen-1-indeksen "geometry"

# Hvorfor gikk jeg via en ‚Äòplain‚Äô `pandas.DataFrame`?
# `pandas.set_option("display.max_colwidth", 40)` ble ignorert, s√• dette s√• ut som den reneste m√•ten

df = geopandas.read_file(DATA_MAPPE / "arealdekke" / "ArealdekkeN50.gpkg")

df["geom"] = df.geometry.to_wkt().apply(lambda wkt: wkt[:40] + " ...")

df = df[["klasse", "klasse_navn", "geometry"]]

(
    df.head().style
        .map(lambda x: HIGHLIGHT_STYLE, subset=["geometry"])
        .apply_index(lambda x: numpy.where(x.isin(["geometry"]), HIGHLIGHT_STYLE, ""), axis=1)
)

## Inputdata: Arealdekke over √Ös kommune

I denne notebooken skal vi jobbe med et modifisert datasett fra [Kartverkets N50-serie](https://www.kartverket.no/api-og-data/kartgrunnlag-fastlands-norge).

Til denne notebooken har vi lastet ned Arealdekke-data og endret det noe for √• passe til form√•let for denne timen. Dataene er lastet ned fra [Geonorge](https://kartkatalog.geonorge.no/metadata/n50-kartdata/ea192681-d039-42ec-b1bc-f3ce04c189ac). Filen vi skal jobbe med ligger i `data/ArealdekkeN50.gpkg`.

---

## Les og utforsk romlig datasett

F√∏r vi pr√∏ver √• laste inn noen filer, la oss ikke glemme √• definere en konstant
som peker til v√•r datamappe:

In [None]:
import pathlib 


I denne notebooken skal vi fokusere p√• arealdekke-klasser

**M√•let v√•rt i denne notebooken er √• lagre alle arealdekke-klassene i separate filer**.

*Arealdekke-klasser i den datasettet:*

|  Klasse | Navn p√• klasse   
|----------------|-----------
| 100          | myr
| 110          | steinbrudd
| 120          | tettbebyggelse
| 200          | innsj√∏
| 300          | indstriomr√•de
| 400          | havflate
| 500          | gravplass
| 600          | dyrket mark
| 700          | √•pent omr√•de
| 800          | skog
| 900          | sportidrettplass

:::{admonition} S√∏k etter filer ved hjelp av et m√∏nster
:class: hint


F√∏rst, sjekk datatype av det leste datasettet:

Alt gikk bra, og vi har en `geopandas.GeoDataFrame`. 
La oss ogs√• utforske dataene: (1) skriv ut de f√∏rste f√• radene, og 
(2) list opp kolonnene.

Dette datasettet har flere kolonner enn vi trenger, la oss gj√∏re et utvalg av de vi trenger. Vi beholder 'klasse‚Äô og ‚Äôklassenavn‚Äô, og selvf√∏lgelig kolonnen `geometry`.

Hvordan ser datasettet ut n√•?

:::{admonition} Sjekk din forst√•else:
:class: hint

Bruk dine pandas ferdigheter p√• dette geopandas datasettet for √• finne ut f√∏lgende
informasjon:

- Hvor mange rader har datasettet?
- Hvor mange unike klasser?
:::




---

### Utforsk datasettet p√• et kart:

Som geografer, elsker vi kart. Men utover det, er det alltid en god id√© √•
utforske et nytt datasett ogs√• p√• et kart. For √• lage et enkelt kart av en
`geopandas.GeoDataFrame`, bruk ganske enkelt dens `plot()` metode. Den fungerer likt som
i pandas, men **tegner et kart basert p√• geometriene i datasettet** i stedet for et diagram.

Voil√°! Det er faktisk s√• enkelt √• lage et kart ut av et geografisk datasett.
Geopandas posisjonerer automatisk kartet ditt p√• en m√•te som dekker hele
utstrekningen av dataene dine.

### Geometrier i geopandas

Geopandas drar nytte av shapelys geometriobjekter. Geometrier lagres
i en kolonne kalt *geometry*.

La oss skrive ut de f√∏rste 5 radene av kolonnen `geometry`:

Kolonnen `geometry` inneholder kjente verdier:
*Well-Known Text* (WKT) strenger. La deg ikke lure, de er faktisk,
`shapely.geometry` objekter (du husker de kanskje fra [forrige uke](#02_geometriske_objekter)) som n√•r man bruke `print()` eller konverterer til
en `str`, blir representert som en WKT-streng).

Siden geometriene i en `GeoDataFrame` er lagret som shapely-objekter, kan vi
bruke **shapely metoder** for √• h√•ndtere geometrier i geopandas.

La oss ta en n√¶rmere titt p√• (en av) polygon-geometriene i datasettet,
og pr√∏ve √• bruke noe av shapely-funksjonaliteten vi allerede er kjent med. For enkelhetens skyld, jobber vi f√∏rst med geometrien til bare den aller f√∏rste linjen:

In [None]:
# Verdien av kolonnen `geometry` i rad 0:


In [None]:
# Skriv ut informasjon om arealet 
print(f"Omr√•de: {} m¬≤.")

:::{admonition} Omr√•dem√•lenhet
:class: note

Her kjenner vi koordinatsystemet (CRS) til inputdatasettet. CRS definerer ogs√• m√•leenheten (i v√•rt tilfelle, meter). Derfor kan vi skrive ut det beregnede omr√•det, inkludert en omr√•dem√•leenhet (kvadratmeter).
:::


La oss gj√∏re det samme for flere rader, og utforske ulike m√•ter √• gj√∏re det p√•.
F√∏rst bruker vi  `iterrows()`-metoden:

In [None]:
# Iterer over de f√∏rste 5 radene i datasettet


Som du ser er alle **pandas** funksjoner, som `iterrows()`-metoden, tilgjengelige i geopandas uten behov for √• kalle pandas separat. Geopandas bygger p√• toppen av pandas, og arver mesteparten av funksjonaliteten.

Selvf√∏lgelig er ikke `iterrows()`-metoden den mest praktiske og effektive m√•ten
√• beregne arealet til mange rader. B√•de `GeoSeries` (geometri-kolonner) og
`GeoDataFrame`s har en `area`-egenskap:

In [None]:
# `area`-egenskapen til en `GeoDataFrame`


In [None]:
# `area`-egenskapen til en `GeoSeries`


Det er enkelt √• lage en ny kolonne som holder arealet:

<div style="border: 1px solid #ccc; padding: 10px; border-radius: 5px; background-color:rgb(177, 226, 250); color:#000;">
<strong>Sp√∏rsm√•l:</strong><br>
Kj√∏r cellen under for √• svare p√• sp√∏rsm√•let:
</div>

In [1]:
from IPython.display import IFrame

IFrame("https://haavard-polling.vercel.app/answer/2e4018d5-d2cf-4c20-b79f-6c1f9c996966", width=800, height=600)

:::{admonition} Beskrivende statistikk
:class: hint

Vet du hvordan du beregner *minimum*, *maksimum*, *sum*, *gjennomsnitt*, og
*standardavvik* av en pandas-kolonne? ([Les mer her, hvis du trenger √• friske opp Pandas-kunnskapene dine](https://pythongis.org/part1/chapter-03/nb/00-pandas-basics.html#descriptive-statistics))
Hva er disse verdiene for arealkolonnen i datasettet?
:::



## Lagre en delmengde av data til en fil

[Tidligere](#03_vektor), har vi l√¶rt
hvordan vi skriver en hel `GeoDataFrame` til en fil. Vi kan ogs√• skrive en
filtrert delmengde av et datasett til en ny fil, f.eks. for √• hjelpe med behandlingen av komplekse datasett.

F√∏rst, isoler innsj√∏ene i inngangsdatasettet (klassenummer `200`, se tabell
over):

Deretter, tegn datadelmengden for √• visuelt sjekke om den ser riktig ut:

Og til slutt, skriv de filtrerte dataene til en Shapefile:

Sjekk [Vector Data I/O](#03_vektor) avsnittet for √• se hvilke dataformater
geopandas kan skrive til.

## Gruppering av data

En spesielt nyttig metode i (geo)pandas' dataframes er deres grupperingsfunksjon: [`groupby()`](https://pandas.pydata.org/docs/user_guide/groupby.html)
kan **dele data inn i grupper** basert p√• noen kriterier, **bruke** en funksjon
individuelt til hver av gruppene, og **kombinere** resultater av en slik
operasjon i en felles datastruktur.

Vi kan bruke *gruppering* her for √• dele inputdatasettet v√•rt i delmengder som relatere
til hver av `klasse`ne i arealdekke, deretter lagre en separat fil for hver
klasse.

La oss starte dette ved igjen √• ta en titt p√• hvordan datasettet faktisk ser ut:

Husk: kolonnen `klasse` inneholder informasjon om en polygons arealbrukstype. Bruk metoden [`pandas.Series.unique()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html) for √• liste alle verdier som forekommer:

For √• gruppere data, bruk data-rammens `groupby()` metode, oppgi et kolonnenavn som parameter:

S√•, `gruppert_data` er et `DataFrameGroupBy` objekt. Inne i et `GroupBy` objekt,
er egenskapen `groups` en ordbok som fungerer som en oppslagstabell: den registrerer
hvilke rader som h√∏rer til hvilken gruppe. N√∏klene i ordboken er de unike
verdiene av gruppekolonnen:

Imidlertid kan man ogs√• ganske enkelt iterere over hele `GroupBy` objektet. La oss
telle hvor mange rader med data hver gruppe har:

Det er for eksempel 80 innsj√∏polygoner (klasse `200`) i inngangsdatasettet.

For √• f√• alle rader som tilh√∏rer en bestemt gruppe, bruk `get_group()`
metoden, som returnerer en helt ny `GeoDataFrame`:

:::{caution}OBS
Indeksen i den nye data-frammen forblir den samme som i det ugrupperte inputdatasettet.
Dette kan v√¶re nyttig, for eksempel n√•r du vil sl√• sammen de grupperte dataene
tilbake til de originale inputdataene.
:::


## Skriv grupperte data til separate filer

N√• har vi alle n√∏dvendige verkt√∏y for h√•nden for √• dele inputdataene i
separate datasett for hver arealdekkeklasse, og skrive de individuelle delmengdene til
nye, separate, filer. Faktisk ser koden nesten for enkel ut, gj√∏r den ikke?

In [None]:
# Iterer over inngangsdataene, gruppert etter "klasse"
for key, group in data.groupby("klasse"):
    # lagre gruppen til en ny shapefile
    

:::{admonition} Filnavn
:class: attention

Vi brukte en `pathlib.Path` kombinert med en f-streng for √• generere den nye output-filens sti og navn. Sjekk [H√•ndtering av filstier-notebooken](#03_filstier)
for √• g√• gjennom hvordan de fungerer.
:::


## Ekstra: lagre sammendragsstatistikk til CSV regneark

N√•r resultatene av en operasjon p√• en `GeoDataFrame` ikke inkluderer en
geometri, vil data-rammen som kommer ut automatisk bli en 'vanlig'
`pandas.DataFrame`, og kan lagres til standard tabellformater.

En interessant anvendelse av dette er √• lagre grunnleggende beskrivende statistikk av et geografisk datasett til en CSV-tabell. For eksempel √∏nsker vi kanskje √• vite arealet hver arealdekkeklasse dekker.

Igjen starter vi med √• gruppere inputdataene etter arealdekke, og deretter beregne summen av hver klasses areal. Dette kan kondenseres til en linje med kode:

Vi kan deretter lagre den resulterende tabellen til en CSV-fil ved √• bruke  standard pandas tiln√¶rming.