# DIGI 118: Heisann, Pandas 

I denne notatboken vil vi utforske hvordan du kan utforske og forberede dataene dine for visualisering ved hjelp av et populært Python-bibliotek, [`pandas`](https://pandas.pydata.org/). [`Pandas`](https://pandas.pydata.org/) er et raskt, fleksibelt og uttrykksfullt bibliotek for å administrere og manipulere tabellformede datastrukturer.

Vi introduserer `pandas` her fordi det er grunnlaget for å lese inn og transformere data i visualiseringsbiblioteket som brukes i dette kurset, `vega-altair`. `Pandas` har mange funksjoner. Vi skal komme inn på noen få aspekter her, akkurat nok til at du kan gjøre det du trenger med innholdet i dette kurset:
1. Importer `pandas` for å bruke i koden din
2. Forstå datastrukturer
3. Velg data
4. Les inn en datafil
5. Generer grunnleggende beskrivende statistikk


**La oss begynne!**

---

# 1. Importer

For å begynne, må vi importere 'pandas' for å bruke funksjonene øverst i filen vår. Vi vil ikke gå inn på detaljene om hva `import` gjør i dette kurset, men poenget er å gi koden din muligheten til å få tilgang til alle spesialfunksjonene i biblioteket som vi ønsker å bruke.

Vi skal gi den et kortere navn eller alias: `pd`. Den eneste grunnen til at vi gjør dette er for å sørge for mindre skriving gjennom koden vår. Hvis vi i stedet bare skrev 'import pandas', ville vi måtte skrive ut 'pandas.method()' når vi ønsket å bruke en funksjon fra `pandas` i koden vår. På denne måten kan vi skrive det mer konsist som `pd.method()`.

In [1]:
import pandas as pd

# 2. Datastrukturer
De to primære datastrukturene i `pandas` er [`Series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) (1D) og [`Dataframe`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)  (2D).

En **Series** er en kolonne med elementer, mens en **Dataframe** er en flerdimensjonal tabell (tenk på ditt vanlige Excel-regneark) som består av flere serier. I dette kurset skal vi stort sett jobbe med datarammer, men nedenfor hjelper vi deg å se hvordan disse er forskjellige.

## 2a. `Series`
Først lager vi en serie med fem primtall ved å lage et Series-objekt `pd.Series()` og tilordne det til en variabel `s`. Datamaskinen vil vise denne serien som en kolonne med primtall:

In [2]:
s = pd.Series([1, 3, 5, 7, 11])
s

0     1
1     3
2     5
3     7
4    11
dtype: int64

## 2a. `Dataframe`

Neste kommer en enkel dataramme som inneholder gjennomsnittlig nedbør (`precip`) for en gitt `city` og `month`. Vi gjør dette ved å lage et Dataframe-objekt `pd.DataFrame()` og tilordne det til en variabel `df`. Datarammen inneholder ni elementer, hver med 3 attributter

In [3]:
df = pd.DataFrame({
    'city': ['Seattle', 'Seattle', 'Seattle', 'New York', 'New York', 'New York', 'Chicago', 'Chicago', 'Chicago'],
    'month': ['Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec'],
    'precip': [2.68, 0.87, 5.31, 3.94, 4.13, 3.58, 3.62, 3.98, 2.56]
})
df

Unnamed: 0,city,month,precip
0,Seattle,Apr,2.68
1,Seattle,Aug,0.87
2,Seattle,Dec,5.31
3,New York,Apr,3.94
4,New York,Aug,4.13
5,New York,Dec,3.58
6,Chicago,Apr,3.62
7,Chicago,Aug,3.98
8,Chicago,Dec,2.56


# 3. Velge Data
**Hva om vi ønsker å se et spesifikt sett med data fra vår dataramme?** Det er tre måter å velge og returnere data i en dataramme. 

## 3a. Indeksering
Den første måten bruker indekseringsoperatorene `[]` for å velge en spesifikk kolonne etter navnet. Hvis du velger `city`-kolonnen, returneres en rekke byer som finnes i denne datarammen. Dette bør se kjent ut for skjæremetodene vi så i python-opplæringsnotatboken.

In [4]:
df["city"]

0     Seattle
1     Seattle
2     Seattle
3    New York
4    New York
5    New York
6     Chicago
7     Chicago
8     Chicago
Name: city, dtype: object

## 3b. `loc[]`
En annen måte å velge data på bruker metoden [`loc[]`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html). Denne metoden **lokaliserer** og trekker ut rader og kolonner innenfor datarammen som vi er interessert i. Vi spesifiserer vår forespørsel innenfor `[]`-parentesene.

`loc[]` kan ta enkle forespørsler, som å finne og returnere informasjon fra en bestemt rad i vår dataramme. For å returnere en rad, gir vi `loc[]` indeksen til den raden.

In [5]:
# Finn radindeks 3. Dette returnerer en serie.
df.loc[3]

city      New York
month          Apr
precip        3.94
Name: 3, dtype: object

`loc[]` kan også ta på seg mer komplekse forespørsler, for eksempel å finne og returnere flere rader eller kolonner innenfor datarammen vår. Vi kan be `loc[]` om å returnere enten en liste med rader eller deler av rader.

*Trenger du en oppfriskning på lister eller skjæring? Se [DIGI118 Modul 0: Heisann, Python!](https://www.kaggle.com/code/lauragarrison/digi118-h24-modul-0-heisann-pandas)*

In [6]:
# Finn radindeksene 3 og 7. Dette returnerer en dataramme.
# Legg merke til de doble parentesene her
df.loc[[3, 7]]

Unnamed: 0,city,month,precip
3,New York,Apr,3.94
7,Chicago,Aug,3.98


In [7]:
# Finn rad 3 til 7 ved hjelp av skiver. Dette returnerer en dataramme.
# OBS: I motsetning til vanlige pytonskiver er både start- og stoppindeksen inkludert!
df.loc[3:7]

Unnamed: 0,city,month,precip
3,New York,Apr,3.94
4,New York,Aug,4.13
5,New York,Dec,3.58
6,Chicago,Apr,3.62
7,Chicago,Aug,3.98


`loc[]` kan også returnere rader eller kolonner bare om de passer til en bestemt betingelse.

La oss si at vi bare vil se informasjon om byen Seattle. Vår forespørsel vil være å finne alle rader der verdiene i kolonnen `df["city"]` tilsvarer (`==`) navnet på byen,`"Seattle"`.

In [8]:
df.loc[df["city"] == "Seattle"]

Unnamed: 0,city,month,precip
0,Seattle,Apr,2.68
1,Seattle,Aug,0.87
2,Seattle,Dec,5.31


## 3c. `iloc[]`
En tredje måte å velge data på er å bruke metoden [`iloc[]`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html). Denne metoden kan gjøre mer spesifikke valg enn de to andre vi har beskrevet så langt. *I dette kurset vil vi ikke bruke denne metoden i detalj, og vi har tatt med et enkelt eksempel bare for å vise hvordan den brukes.*

`iloc[]` bruker indeksene til radene og kolonnene for å finne verdier i en dataramme. Vi kan skrive en forespørsel slik: `iloc[row, column]`.

For eksempel, hvis vi ønsker å vite nedbøren til Seattle i desember, gir vi `iloc[]` radindeksen til Seattle i desember og kolonneindeksen for nedbør. Vi kan se fra kodecellen over at dette er rad 2 og kolonne 2, så bruker vi denne informasjonen i forespørselen.

In [9]:
df.iloc[2, 2]


5.31

Hvis vi ønsker å trekke ut en rekke rader og kolonner, kan vi gi `iloc[]` skiver i stedet for indekser. I motsetning til `loc[]` følger `iloc[]` reglene for skjæring i pyton der stoppindeksen ikke er inkludert i utdataene.

In [10]:
df.iloc[ 1:5 , 1:3 ] 

Unnamed: 0,month,precip
1,Aug,0.87
2,Dec,5.31
3,Apr,3.94
4,Aug,4.13


---
## 3d. Prøv deg selv! 📝
Eksperimentere med å bruke indekseringsoperatorer `[]` og metodene `loc[]` og `iloc[]` på dataramme `df` til du får en følelse av hvordan dette fungerer. F.eks, kan du skrive kode som kan:
- se på værdata bare i byen Chicago?
- se på værdata bare i desember måned?
- se på værdata kun der nedbørsnivåene er høyere enn 3,50 cm?

In [17]:
df.loc[df["precip"] > 3.50]

Unnamed: 0,city,month,precip
2,Seattle,Dec,5.31
3,New York,Apr,3.94
4,New York,Aug,4.13
5,New York,Dec,3.58
6,Chicago,Apr,3.62
7,Chicago,Aug,3.98


---

# 4. Lese Data
En av de mest nyttige aspektene ved `pandas` er å lese inn data fra forskjellige formater til en dataramme som vi kan manipulere. 

La oss lese inn dette [Titanic-datasettet](https://www.kaggle.com/datasets/amykzhang/titanic-dataset-with-coordinates) ved å bruke metoden [`read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) og ta en titt på dataene:

In [18]:
# inkludert parameteren index_col=0 setter den første raden i datasettet som overskriftsrad
titanic = pd.read_csv("../input/titanic-dataset-with-coordinates/titanic_coord.csv", index_col=0)

FileNotFoundError: [Errno 2] No such file or directory: '../input/titanic-dataset-with-coordinates/titanic_coord.csv'

For å sjekke om vi har lest inn dataene våre riktig og se hvordan dataene våre ser ut, kan vi forhåndsvise de fem første radene i datarammen vår ved å bruke metoden [`head()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html#).

In [19]:
titanic.head()

NameError: name 'titanic' is not defined

Som vi kan se fra denne forhåndsvisningen av de første fem radene, er det antall data *kolonner* (også kjent som *felt eller attributter*) som tilsvarer:
- `PassengerId`: ID for hver passasjer.
- `Survived`: Indikasjon på om passasjeren overlevde. `1` = ja and `0` = nei.
- `Pclass`: Billettklasse for passasjer. Dette kan være en proxy for sosioøkonomisk status: 1. klasse ~ Øvre; 2. ~ Midt; 3. ~ Nedre.
- `Name`: Navn på passasjer.
- `Sex`: Kjønn på passenger.
- `Age`: Passasjerens alder (i år).
- `SibSp`: Antall søsken eller ektefeller om bord.
- `Parch`: Antall foreldre eller barn om bord.
- `Ticket`: Billettnummer på passasjer.
- `Fare`: Pris på billett.
- `Cabin`: Romnummer på passasjer.
- `Embarked`: Ombordstigningshavn hvor passasjerene gikk ombord på Titanic. C = Cherbourg, Frankrike; Q = Queenstown, Irland; S = Southampton, Storbritannia
- `Latitude` and `Longitude`: Ca. geolokalisering av ombordstigningshavn

I stedet for å forhåndsvise de fem første radene, kan vi også bruke metoden [`tail()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html) for å forhåndsvise den siste få rader. Vi kan også velge antall rader vi vil forhåndsvise:

In [None]:
# forhåndsvisning siste fire rader
titanic.tail(4) 

En annen nyttig metode, [`info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html), skriver ut informasjon om datarammen, dvs bestemt antall rader og kolonner datarammen din har, antall verdier som ikke er null eller mangler, typen data som er i hver kolonne og hvor mye minne dataene dine bruker.

Ved å bruke `info()` ser vi nå at noen kolonner som `Age` og `Cabin` mangler verdier.

In [None]:
titanic.info()

[`shape`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html) er en annen nyttig metode som forteller oss om dimensjonene til datarammen vår. Ved å bruke denne metoden kan vi se at vi har 891 rader (med passasjerer) og 13 kolonner (med attributter som beskriver disse passasjerene). Dette er spesielt nyttig å bruke hvis du skal gjennom mye datarensing/transformering.

In [None]:
titanic.shape

# 5. Grunnleggende dataanalyse
Etter å ha lest inn dataene våre, kan vi bruke `pandas`-funksjoner til å beregne **beskrivende statistikk** som kvantitativt beskriver og oppsummerer datasettet vårt. Eksempler på beskrivende statistikk inkluderer:
- `count()`: det totale antallet elementer i et datasett som ikke er null eller mangler verdier
- `mean()`: gjennomsnittet av verdier i et sett med data
- `median()`: den midterste verdien av et datasett når det er sortert fra minst til størst
- **maksimum** eller 'maks()'-verdien i et datasett
- `sum()`: det totale beløpet som er resultatet av å legge til to eller flere verdier i et datasett

La oss stille dataene våre noen spørsmål. F.eks, hvor mange forskjellige aldre er registrert i dette datasettet?

In [None]:
titanic["Age"].count()

Vi ser at det var registrert 714 forskjellige aldre. Nå lurer jeg på hva gjennomsnittsalderen og gjennomsnittlig billettpris var for alle passasjerer?

In [None]:
titanic[["Age", "Fare"]].mean()

Og hva var medianalderen for passasjerer på Titanic?

In [None]:
titanic["Age"].median()

Medianalderen var 28 år gammel. Jeg lurer nå hvor gammel var den eldste passasjeren om bord på Titanic?

In [None]:
titanic["Age"].max()

Dette er interessant, og jeg vil vite **hvem** som var denne eldste passasjeren om bord på Titanic?

Vi kan bruke `idxmax()` for å finne radindeksen til denne eldste passasjeren, og bruke `loc[]` for å finne denne raden.

In [None]:
titanic.loc[titanic["Age"].idxmax()]

Det var Mr. Algernon Henry Wilson Barkworth (for et navn!) som var den eldste passasjeren ombord, og han var i 1. klasse. Vi ser også at han overlevd. Hvem var den eldste passasjeren om bord på Titanic som *ikke* overlevde? Vi kan finne dette i to trinn. Vi kunne lenke dette sammen, men for klarhetens skyld viser vi dem hver for seg.

In [None]:
# Finn først alle passasjerer som overlevde Titanic. I dette datasettet indikerer 0 en passasjer som ikke overlevde.
survivors = titanic.loc[titanic["Survived"] == 0]

# Finn den eldste passasjeren i disse passasjerene.
survivors.loc[survivors["Age"].idxmax()]

Her ser vi hvordan billetttypen påvirket overlevelsen. Johan Svensson var den eldste ikke-overlevende, og han var i 3. klasse.

Når vi tenker på billettprisen, hvor mye penger ble samlet inn for Titanic-billettpriser? Vi skal lagre dette i en variabel for å bruke senere

In [None]:
total_fare = titanic["Fare"].sum()
total_fare

Hvor mange prosent av dette ble nettopp hentet fra 1. klasse passasjerer?

In [None]:
# What percentage of that fare was collected from first class passengers?
first_fare = titanic.loc[titanic["Pclass"] == 1]["Fare"].sum()
first_fare / total_fare * 100

Ca. 63% av totalt billetprisen kom fra 1. klasse. 

I eksemplene ovenfor fant vi ofte et **delsett** av «titanic»-datarammen først før vi brukte andre metoder på dataene.

Som nevnt tidligere, er `loc[]` en av de nyttige metodene vi kan bruke for å trekke ut spesifikke rader og kolonner fra en dataramme. Vi lagrer denne mindre datarammen i en ny variabel for å jobbe med.

Etter å ha opprettet et undersett av data, kan vi bruke `info()` for å sikre at vi har trukket ut dataene riktig.

F.eks, la oss for eksempel se på datasettet med bare attributtene `"Survived`", `"Pclass"`, `"Age"` og `"Sex"` inkludert.

In [None]:
titanic_subset = titanic.loc[:, ["Survived", "Pclass", "Age", "Sex"]]
titanic_subset.info()

En av fordelene med å jobbe med et undersett av det større datasettet er at du har færre unødvendige beregninger å utføre, og koden din vil kjøre raskere.

---
## 5a. Prøv deg selv! 📝

Utforsk dataene selv! Prøv å skrive kode som:
- genererer beskrivende statistikk beskrevet ovenfor og i [`pandas`-dokumentasjonen](https://pandas.pydata.org/docs/getting_started/intro_tutorials/06_calculate_statistics.html)
- lokaliserer eller deler ut undergrupper av dataene
- svarer på ulike spørsmål om datasettet

Hensikten med denne øvelsen er å gjøre deg kjent med Pandas-biblioteket. For et dypere dykk, besøk [Pandas-dokumentasjonen](https://pandas.pydata.org/docs/user_guide/10min.html).

In [None]:
# skriv koden din her

---
# Kilder og videre lesing

**Du har nådd slutten av Heisann, Pandas! 🎉**

Denne notatboken er bare en kort introduksjon til funksjonene og funksjonene som `pandas` tilbyr for utforskende dataanalyse. Hvis du er interessert i å lære mer om dette biblioteket, her er flere lenker til veiledninger og dokumentasjon:
- UiO - Introduksjon til pandaer og øvelser (norsk): https://computationalscienceuio.github.io/RefreshProgrammingSkills/notebooks/Python/pandas.html
- pandaer - Offisiell dokumentasjon (engelsk): https://pandas.pydata.org/docs/user_guide/index.html#user-guide
- W3Schools - Simpler Pandas-dokumentasjon (engelsk): https://www.w3schools.com/python/pandas/default.asp
- Kaggle - Pandas-opplæring (engelsk): https://www.kaggle.com/learn/pandas
- leetcode - Pandas tutorial (engelsk): https://leetcode.com/studyplan/introduction-to-pandas/

**Datasett brukt i denne modulen:**
- Titanic-datasett med koordinater https://www.kaggle.com/datasets/amykzhang/titanic-dataset-with-coordinates

*Denne introduksjonen er delvis basert på Cagatay Turkays [CEDAS-NORBIS Summer School-forelesninger om Visual Data Science](https://github.com/cagatayTurkay/2023_CEDAS_NORBIS-PhDSummerSchool-VisualDataScience/tree/main).*

---
By Laura Garrison and Ke Er Zhang. © Copyright 2024.