# 游눹 Aggregering av data

Dataaggregering refererer til en prosess der vi kombinerer data i grupper. N친r
vi gj칮r romlig dataaggregering, sl친r vi geometriene sammen til grovere
enheter (basert p친 noen attributter), og kan ogs친 beregne sammendragsstatistikk for
disse kombinerte geometriene fra de opprinnelige, mer detaljerte verdiene. For eksempel,
antar at vi er interessert i 친 studere kontinenter, men vi har bare
landniv친data som datsettet for land. Hvis vi aggregerer dataene etter
kontinent, vil vi konvertere dataene p친 landsniv친 til et datasett p친
kontinentniv친.

I denne oppl칝ringen vil vi aggregere reisetidsdataene v친re etter reisetider med bil
(kolonne `car_r_t`), dvs. rutenettcellene som har samme reisetid til
Jernbanestasjonen vil bli sl친tt sammen.

La oss starte med 친 laste `intersection.gpkg`, utdatafilen fra
[forrige seksjon](overlay-analysis):

In [None]:
import pathlib 
NOTEBOOK_PATH = pathlib.Path().resolve()
DATA_DIRECTORY = NOTEBOOK_PATH / "data"

In [None]:
import geopandas
intersection = geopandas.read_file(DATA_DIRECTORY / "intersection.gpkg")

For 친 gj칮re aggregeringen vil vi bruke en metode som heter `dissolve()` som tar
som inngang kolonnen som vil bli brukt til 친 utf칮re aggregeringen:

In [None]:
# Utf칮re aggregeringen
dissolved = intersection.dissolve(by="car_r_t")

# Hva fikk vi
dissolved.head()

La oss sammenligne antall celler i lagene f칮r og etter aggregeringen:

In [None]:
print(f"Rader i opprinnelig intersection GeoDataFrame: {len(intersection)}")
print(f"Rader i oppl칮st lag: {len(dissolved)}")

Faktisk har antall rader i dataene v친re redusert og polygonene ble
sl친tt sammen.

Hva skjedde egentlig her? La oss ta en n칝rmere titt. 

La oss se hvilke kolonner vi n친 har i v친r GeoDataFrame:

In [None]:
dissolved.columns

Som vi kan se, kan ikke kolonnen som vi brukte for 친 utf칮re aggregeringen
(`car_r_t`) finnes lenger i kolonnelisten. Hva skjedde med
den?

La oss ta en titt p친 indeksene i v친r GeoDataFrame:

In [None]:
dissolved.index

Aha! Vel n친 forst친r vi hvor kolonnen v친r gikk. Den brukes n친 som indeks i
v친r `dissolved` GeoDataFrame. 

N친 kan vi for eksempel bare velge slike geometrier fra laget som er for
eksempel n칮yaktig 15 minutter unna Helsingfors jernbanestasjon:

In [None]:
# Velg bare geometrier som er innen 15 minutter unna
dissolved.loc[15]

In [None]:
# Se datatype
type(dissolved.loc[15])

Som vi kan se, har vi n친 som et resultat et Pandas `Series` objekt som inneholder
i utgangspunktet en rad fra v친r opprinnelige aggregerte GeoDataFrame.

La oss ogs친 visualisere disse 15 minutters rutenettcellene.

F칮rst m친 vi konvertere den valgte raden tilbake til en GeoDataFrame:

In [None]:
# Lag en GeoDataFrame
selection = geopandas.GeoDataFrame([dissolved.loc[15]], crs=dissolved.crs)

Plott utvalget p친 toppen av hele rutenettet:

In [None]:
# Plott alle rutenettcellene, og rutenettcellene som er 15 minutter
# unna jernbanestasjonen
ax = dissolved.plot(facecolor="gray")
selection.plot(ax=ax, facecolor="red")

En annen m친te 친 visualisere reisetidene i hele GeoDataFrame p친 er 친 plott ved hjelp av en spesifikk kolonne. For 친 bruke v친r `car_r_t` kolonne, som n친 er indeksen i GeoDataFrame, m친 vi tilbakestille indeksen:

In [None]:
dissolved = dissolved.reset_index()
dissolved.head()

Som vi kan se, har vi n친 v친r `car_r_t` som en kolonne igjen, og kan da plott GeoDataFrame ved 친 sende denne kolonnen ved hjelp av `column` parameteren:

In [None]:
dissolved.plot(column="car_r_t")