# Introduktion til pandas data frames (live coding)

Pakken `pandas` (https://pandas.pydata.org/) er et Python bibliotek til datahåndtering og dataanalyse. Pandas egner sig særligt til data i tabeller struktureret i rækker og kolonner. En datatabel kaldes inden for pandas en "DataFrame"; et bestemt Python objekt specifikt til at lagre og bearbejde data i tabeller.

Denne lektion gennemgår diverse basale funktioner til at indlæse, udforske og håndtere en pandas data frame. Se også den officielle dokumentation for flere guides, introduktioner og beskrivelser til at arbejde med pandas: https://pandas.pydata.org/docs/

## Indlæs data med `pandas`

`pandas` pakken indeholder funktioner til at indlæse data i forskellige formater; herunder CSV, JSON, Excel, Stata, SAS osv.

I det nedenstående indlæses pandas biblioteket, hvorefter datasættet "eurobarometer-96_dk_subset.csv" indlæses.

In [None]:
import pandas as pd

eurob = pd.read_csv("")

*Bemærk importkonventionerne for `pandas`. `pandas` typisk som `pd`.*

**Navngivning af datasæt**

Der er forskellige præferencer og holdninger til, hvordan man bør navngive sine objekter. 

Som hovedregel bør man gå efter navne, som både er relativt korte (man kan ende med at skulle skrive det mange gange) og som er sigende for, hvad objektet indeholder.

Dog kan man også argumentere for at navngive meget generisk, sådan at ens kode kan anvendes på andet data.

### Om datasættet
Datasættet, som indlæses her, er et uddrag af datasættet fra Eurobarometer 96.1 fra 2021 (https://search.gesis.org/research_data/ZA7846).

Eurobarometer er en gentaget holdningsundersøgelse, der både indeholder standardrunder og "specialrunder", hvor der sættes fokus på specifikke temaer. I Eurobarometer 96.1 sættes bl.a. fokus på "Future of Europe, and Digital rights and principles ". I dette uddrag er der kun inkluderet de danske respondenter og et mindre udpluk variable.

I kan finde en variabel-beskrivelse i fællesmappen på UCloud under mappen "doc": `varlist_eurobarometer-96_dk_subset.pdf`.

## Inspicer data med `pandas`

Datasættet er nu indlæst som et dataframe objekt i Python, som man kan interagere med. 

Metoden `.head()` printer de første fem rækker af datasættet:

In [None]:
eurob.head()

Dataframes er et tabulært dataformat. Når en fil indlæses som en pandas dataframe, skal filen derfor være i et format, der kan konverteres til tabelformat (data i rækker og kolonner).

I dette datasæt udgør observationerne (rækkerne) enkeltpersoner, som har besvaret spørgeskemaet. De enkelte kolonner indeholder oplysninger om de enkelte personer. 

### Kolonner/variable 

En dataframe består af en samling af kolonner. En kolonne i en dataframe kaldes en `series`.

Navnene på kolonnerne, som en dataframe indeholder, kan ses af attributen `.columns`:

In [None]:
eurob.columns

## Inspicer variable

En enkelt variabel/kolonne i datasættet referes til med `[]`:

In [None]:
eurob['polintr'].head()

Vi kan bruge en metode som `.value_counts()` til at optælle værdierne inden for én kolonne:

In [None]:
eurob['polintr'].value_counts()

# Udforskning af data (live coding)

## Visualisering med `pandas`

`pandas` dataframes har en række indbyggede metoder til at plotte enkelte variable. 

Vi kan fx bruge metoden `.plot.hist()` til at lave et histogram:

In [None]:
eurob['d11_num'] = pd.to_numeric(eurob['d11'], errors = "coerce")

eurob['d11_num'].plot.hist(bins = 30)

`.plot.bar()` kan bruges til at lave søjlediagrammer over optællinger fra `.value_counts()` :

In [None]:
eurob['polintr'].value_counts().plot.bar()

## Deskriptive mål

Metoden `.describe()` danner deskriptive mål for alle (kompatible) variable i datasættet:

In [None]:
eurob.describe()

Metoden fungerer også på enkeltvariable:

In [None]:
eurob['d11_num'].describe()

`.describe()` danner følgende mål:
- `count`: Antal svar ekskl. missing
- `mean`: Middelværdien
- `std`: Standardafvigelsen
- `min`: Minimumværdien
- `25%`: 1. kvartil
- `50%`: 2. kvartil
- `75%`: 3. kvartil
- `max`: Maksimumværdien

Der knytter sig også en række metoder til at danne de enkelte deskriptive mål.

Herunder printes fx middelværdien, standardafvigelsen, minimums- og maksimumsværdien for variablen `weight`:

In [None]:
print(eurob['d11_num'].mean())
print(eurob['d11_num'].std())
print(eurob['d11_num'].min())
print(eurob['d11_num'].max())

## Split-apply-combine

![sac](https://unlhcc.github.io/r-novice-gapminder/fig/12-plyr-fig1.png)

*Billede fra [Software Carpentry](https://unlhcc.github.io/r-novice-gapminder/16-plyr/)*

## Split-apply-combine

**Split**: Opdel (split) data i grupper baseret på et eller flere kriterier.

**Apply**: Anvend (apply) en funktion (fx en beregning, filtrering eller andet) til hver gruppering.

**Combine**: Kombinér (combine) resultaterne til en ny datastruktur.

In [None]:
eurob.groupby(['d10'])['d11_num'].mean().to_frame().reset_index()

**Split**: `.groupby()` - Hvilke variable skal der grupperes efter? (her `d10` - køn).

**Apply**: `.mean()` - Funktion der anvendes på hver gruppering (her middelværdi for `d11` - alder).

**Combine**: Pandas returnerer automatisk en ny datastruktur ved brug af en funktion. Dog kan strukturen tilpasses.
- `.to_frame()` - Tving om til data frame
- `.reset_index()` - Nulstil index (rækkenavne)

## Split-apply-combine med pandas (groupby)

Her skal vi se på nogen forskellige måder, hvor der kan udregnes deskriptive mål og dannes visualiseringer for grupper i data

Vi starter med at indlæse de nødvendige pakker og data. Aldersvariablen (som også blev tilføjet i lektion 3) tilføjes igen:

### Brug af split-apply til at opsummere data (aggregeringer)

Metoden `.groupby()` grupperer datasæt efter de givne variable:

In [None]:
grouped_df = eurob.groupby(['d10'])

Selve objektet, som bliver dannet, indeholder ikke information, der bare kan kaldes frem direkte:

In [None]:
grouped_df

Dog kan vi danne de samme deskriptive mål, som vi kan for hele datasættet, men hvor de opsummeres på gruppeniveauet:

In [None]:
grouped_df.describe()

Det samme kan gøres for enkeltvariable:

In [None]:
grouped_df['d11_num'].describe()

En lang række metoder kan bruges på grupperede data. Se dem alle her: https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html.

- `mean()`: Middelværdi for grupperne

- `size()`: Størrelse af grupperne

- `count()`: Tællinger inden for grupperne

- `describe()`: Deskriptive mål inden for grupperne

- `min()`: Minimum for grupperne

- `max()`: Maximum for grupperne

Metoden `value_counts()` kan bruges til at lave optællinger af kategoriske inden for grupperne.

Herunder laves optælling for variablen `vote` fordelt på køn:

In [None]:
grouped_df['polintr'].value_counts()

### Brug af split-apply til at filtrere data

Split-apply kan også bruges til at filtrere data - fx ved kun at beholde grupper over en vis størrelse:

In [None]:
eurob['d9b'].value_counts() # Enkelte uddannelsesgrupper meget små

In [None]:
eurob_groupfilter = eurob.groupby('d9b').filter(lambda x: len(x) > 20)

In [None]:
eurob_groupfilter['d9b'].value_counts()

# Basal datahåndtering i pandas (live coding)

## Subsetting

"Subsetting" vil sige at udvælge specifikke dele af data.

Man subsetter pandas med metoderne `.loc()` og `.iloc()`. `.loc()` bruges til at subsette ud fra række- og kolonnenavne, mens `.iloc()` bruges til at subsette ud fra række- og kolnneindeks.

Format for subsetting: `data.loc[rækker, kolonner]`

Selekter bestemte rækker:

In [None]:
eurob.loc[2:10, :]

Selekter bestemte kolonner (specificeres som en liste):

In [None]:
eurob.loc[:, ['d10', 'polintr']].head()

Selekter bestemte rækker og kolonner:

In [None]:
eurob.loc[2:10, ['d10', 'polintr']]

Selekter ud fra kolonneindeks:

In [None]:
eurob.iloc[2:10, [8, 5]]

### Dan subset

Bemærk at datasæt ikke ændres. Hvis subset skal gemmes, skal det gemmes i et nyt objekt (ny dataframe):

In [None]:
eurob_subset = eurob.loc[2:10, ['d10', 'polintr']]

eurob_subset.head()

### Subsetting med booleans (logiske værdier)

I stedet for at specificere indeksnumrene, kan man i stedet specificere betingelser:

In [None]:
eurob.loc[eurob['polintr'] == "Low", :].head()

In [None]:
eurob.loc[(eurob['polintr'] == "Low") & (eurob['d10'] == 'Woman'), :].head()

## Nye variable

Ofte har man brug for at tilføje oplysninger til et datasæt i form af nye variable.

Man danner en ny variabel blot ved at referere til et kolonnenavn, som endnu ikke er brugt.

I nedenstående dannes en variabel for interviewlængde i minutter:

In [None]:
eurob['inwtm'] = eurob['p3'] / 60

eurob.head()

## Rekodning

Ofte har man brug for at rekode variable.

Variable rekodes ved at overskrive værdier i en eksisterende variabel.

Det er god praksis ikke at rekode de oprindelige variable i datasættet, så man vil i stedet lave en kopi af variablen og så rekode den i stedet.

Hvis man fx vil rekode en kontinuerlig variabel til kategorisk, kan man gøre brug af booleans. 

I nedenstående dannes en kategorisk variabel over interviewlængde:

In [None]:
eurob['intl_cat'] = np.nan # Danner en "tom" variabel bestående af missing

eurob.loc[eurob['inwtm'] <= 40, 'intl_cat'] = "short interview"
eurob.loc[eurob['inwtm'] > 40, 'intl_cat'] = "long interview"

eurob.head()

In [None]:
eurob['intl_cat'].value_counts()

## Datatyper

Pandas adskiller mellem forskellige typer af information i kolonnerne i en data frame. Ligesom at variable i Python har forskellige *classes*, der dikterer, hvad der er muligt, dikterer datatypen for en kolonne i en data frame, hvad der kan lade sig gøre.

Man kan inspicere datatypen for en kolonne via attribute `.dtypes` (virker både på hel data frame eller enkelt kolonne / series):

In [None]:
eurob['d11'].dtypes

Datatype `'O'` står for `object`. Denne kan betragtes som en midlertidig type, da det ikke er angivet, hvilken type data det er (tal, tekst, dato eller andet).

### Typecasting

Typecasting (dvs. at tvinge en datatype om til en anden) kan gøres på flere måder i pandas. Den mest generelle er metoden `.astype()`, hvor man angiver datatypen som argument.

Ellers findes der også specifikke funktioner til at tvinge datatypen om. Herunder bruges funktionen `pd.to_numeric()` til at tvinge datatypen for `d11` om. **BEMÆRK**: I nedenstående tvinges ikke gyldige værdier om til missing:

In [None]:
eurob['d11_num'] = pd.to_numeric(eurob['d11'], errors = "coerce")

# Rekodning med mappings (live coding)

## Missingværdier: NaN

`NaN` angiver missingværdi. En missingværdi er en ikke-gyldig værdi; fx hvis en person ikke svarer, informationen ikke har været muligt at skaffe eller andet.

For at man kan kode med missing, skal selve missingværdien importeres. Denne kan hents fra pakken `numpy`:

In [None]:
import numpy as np

print(np.nan)

## Rekodning med mapping

Tidligere blev der dannet en numerisk udgave af `d11` (alder) ved brug af typecasting. Her blev ikke-gyldige værdier blot tvunget om til missing.

Som det ses af nedenstående, var dette ikke hensigtsmæssigt:

In [None]:
eurob['d11'].unique()

`"15 years"` indgår som svar, så denne skal rekodes manuelt. Dette kunne fx gøres med en mapping:

In [None]:
age_recode = {"15 years": 15, "Refusal": np.nan}

Metoden `.replace()` bruges til at rekode ved brug af en mapping. Derefter kan kolonnen igen laves om til numerisk:

In [None]:
eurob['d11'] = eurob['d11'].replace(age_recode)
eurob['d11'] = eurob['d11'].astype('float') # float = floatpoint

print(eurob['d11'].dtypes)