In [None]:
# prep
import pandas as pd
import numpy as np

data_path = "/work/809805/data/eurobarometer-96_dk_subset.csv"

eurob = pd.read_csv(data_path)

age_recode = {"15 years": 15, "Refusal": np.nan}

eurob['d11'] = eurob['d11'].replace(age_recode)
eurob['d11'] = eurob['d11'].astype('float') # float = floatpoint

# Introduktion til pandas data frames

## Hvad er en (pandas) data frame?

- En datastruktur til tabeldata i python (en repræsentation af data)

![df](https://pandas.pydata.org/pandas-docs/stable/_images/01_table_dataframe.svg)

- Hver række og kolonne har et *index*
- Rækker typisk identificeret ved *index* (rækkenummer - men kan også være andet!)
- Kolonner typisk identificeret ved kolonnenavn

### Hver kolonne i en data frame er en `Series`

- `Series` et enkeltkolonne-format i pandas
- Sammenlignet med en python liste, kan en `Series` kun have én type data
- Indexes i en `Series` behøver ikke starte ved 0

![series](https://pandas.pydata.org/pandas-docs/stable/_images/01_table_series.svg)

## Fra data til data frame

- En data frame er blot en repræsentation af data i python
- Mange dataformater kan konverteres til en data frame
- Data frames er brugbare til mange former for analyse

Eksempler på filer, som kan læses til data frames (hvis i korrekt format!): 
- .csv
- .json
- .xls (Excel)
- .dta (Stata)
- .sas7bdat (SAS)

# Introduktion til pandas data frames (live coding)

# Udforskning af data (live coding)

# Basal datahåndtering i pandas

## Vælg kolonner

![col](https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns.svg)

In [8]:
eurob['polintr']

0      Not at all
1          Medium
2          Medium
3          Medium
4          Medium
          ...    
988        Strong
989        Medium
990        Strong
991        Medium
992           Low
Name: polintr, Length: 993, dtype: object

## Vælg rækker

![rows](https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_rows.svg)

In [9]:
eurob[eurob['polintr'] == "Low"].head(2) #boolean indexing

Unnamed: 0,uniqid,d11,polintr,qb1,qb3_1,qb3_2,qb3_3,qb3_4,qb3_5,qb3_6,...,d10,d15a,d15b,d25,d63,d1,p1,p2,p3,region_denmark
10,110005583,91.0,Low,Don't know (SPONTANEOUS),Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,...,Man,"Retired, unable to work","Employed position, travelling",Large town,The working class of society,5,17 Sep 21,13 - 16 h,2636,DK05 - Nordjylland
19,110005592,18.0,Low,Very important,Use of personal data and information by compan...,Not mentioned,Not mentioned,The safety and well-being of children,Not mentioned,The difficulty of disconnecting and finding a ...,...,Woman,Student,"Unskilled manual worker, etc.",Rural area or village,The middle class of society,3,17 Sep 21,13 - 16 h,3252,DK04 - Midtjylland


## Subsetting med `.loc[]` og `.iloc[]` (specifikke rækker og kolonner)

![loc](https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns_rows.svg)

In [10]:
eurob.loc[eurob['polintr'] == "Low", ['polintr', 'd10']].head(3) 

Unnamed: 0,polintr,d10
10,Low,Man
19,Low,Woman
24,Low,Woman


## Subsetting med `.loc[]` og `.iloc[]` 

- `.loc[]`: "label-based location" (baseret på navngivningen af rækker og kolonner)
- `.iloc[]`: "index-based location" (baseret på index for rækker og kolonner)

**Syntax:**

`.loc[rows,columns]`

- `rows` kan specificeres som rækkenavne eller via betingelser ("boolean indexing")
- `columns` kan specificeres som liste af kolonnenavne

## Rekodning med `.loc`

- Tænk rekodning som, at man lokaliserer specifikke dele af data, som overskrives med en værdi

<img src="../img/loc_example.png" style="width:50.0%" />

```python
df.loc[df['v1'] > 10, 'v1'] = 0
```

<img src="../img/loc_example2.png" style="width:28.0%" />

## Rekodning med mappings

- Ved rekodning af kategorier, kan det være besværligt at bruge `.loc[]`
- Alternativt kan man bruge en *mapping*, hvor man angiver, hvilke værdier der skal erstattes med hvad
- En mapping kan betragtes som en form for "søg-og-erstat" skema, som man anvender på en kolonne
- Mapping laves som dictionary med gammel værdi som nøgle og den nye værdi som key:

```
mapping = {"old value x": "new value x", "old value y": "new value y"}
```

- Mapping kan bruges til at erstatte værdier i en kolonne (eller `Series`) med metoden `.replace()`


## Rekodning med mappings - eksempel

In [12]:
eurob['qb1'].value_counts()

qb1
Very important              716
Fairly important            191
Not very important           44
Not at all important         32
Don't know (SPONTANEOUS)     10
Name: count, dtype: int64

In [13]:
qb1_map = {"Very important": "Important", 
          "Fairly important": "Important", 
          "Not very important": "Not important",
          "Not at all important": "Not important",
          "Don't know (SPONTANEOUS)": np.nan}

eurob['qb1_bin'] = eurob['qb1'].replace(qb1_map)

eurob['qb1_bin'].value_counts()

qb1_bin
Important        907
Not important     76
Name: count, dtype: int64

# Opsummering

- Pandas data frames er en datastruktur i python til at arbejde med data i tabeller
- En kolonne i en data frame kaldes en `Series`
- Split-apply-combine metoder kan bruges til at opsummere og filtere på gruppeniveau (`.groupby()`)
- `.loc[]` bruges til både subsetting og rekodning af data frames

# LAB ØVELSE: Datahåndtering i Python