# Introduktion til Python I - Data i Python

## Program

- Hvad er Python? (opfølgning fra e-kursus)
- Brug af JupyterLab på UCloud
- Data, dataformater og datastrukturer
- Introduktion til pandas dataframes
- Datahåndtering med pandas
- Opsummering af data med pandas

## Hvad er Python?

- Python som programmeringssprog 
- Python som fortolker
- Man arbejder med Python gennem kommandoer, som evalueres
- "Objekt-orienteret": Alt defineres som "variable", som kan bruges til forskellige formål afhængigt af typen/klassen

## Python som sprog

Begrænset vokabular - resten "opdigtes"!

```
and       del       global     not    with
as        elif      if         or    yield
assert    else      import     pass
break     except    in         raise
class     finally   is         return
continue  for       lambda     try
def       from      nonlocal   while
```


## Python som fortolker

Kommandoer, som er skrevet i Python, evalueres af en "Python-fortolker".

Meget bogstaveligt sprog: Der gives en fejl, hvis kommandoen ikke er forstået.

## Python som "objekt-orienteret"

Man interagerer med Python ved at definere og redefinere *objekter*.

*Objekter* defineres som *variable* - Blot et navn til at kalde objektet frem!

Alle *variable* er en eller anden *class*.

*Class* sætter betingelser for, hvad *variablen* kan.

![dog1](../img/python-dog.png)

In [1]:
bolden = [2, 4, 6, 10, 21]

![dog1](../img/conf-dog-text.png)

In [2]:
print(bold)

NameError: name 'bold' is not defined

![dog1](../img/dog-happy-text.png)

In [3]:
print(bolden)

[2, 4, 6, 10, 21]


## Classes

<img src="../img/classes-example.png" style="width:85.0%" />

In [4]:
b = 2

In [11]:
b.skuffe

AttributeError: 'int' object has no attribute 'skuffe'

# Opfølgning fra e-kursus (Kahoot quiz)

# Opstart af UCloud (live-coding)

## FÆLLES ØVELSE: Simpel problemløsning med Python

Hvordan kan vi lave en funktion, der udregner arealet af en cirkel ud fra en given radius?

$A = \pi * r^2$

# Dataformater og datastrukturer

## Data -> Datasæt -> Datastruktur

![data-structure](../img/data_set_structure.png)

## Relationel datastruktur

- Data i tabeller
- Hver tabel har kun 2 dimensioner (rækker og kolonner)

![hierarch](../img/expanse_relational.png)

## Hierarkisk datastruktur

- Data i træ-lignende struktur
- Ikke bundet til 2 dimensioner (hver gren kan have så mange undergrene, som  der er behov for)

![hierarch](../img/expanse_hierarchical.png)

## Liste af lister

In [33]:
names = ["James", "Naomi", "Alex", "Clarissa"]
ethnicities = ["earther", "belter", "martian", "earter"]
vocation = ["captain", "technician", "pilot", "mechanic"]

data = [names, ethnicities, vocation]

In [34]:
data

[['James', 'Naomi', 'Alex', 'Clarissa'],
 ['earther', 'belter', 'martian', 'earter'],
 ['captain', 'technician', 'pilot', 'mechanic']]

In [35]:
[items[0] for items in data]

['James', 'earther', 'captain']

## Dictionary (JSON)

In [36]:
data = {"James":
        {"ethnicity": "earther", 
         "vocation": "captain"},
        "Naomi":
        {"ethnicity": "belter", 
         "vocation": "technician"},
        "Alex":
        {"ethnicity": "martian", 
         "vocation": "pilot"},
        "Clarissa":
        {"ethnicity": "earther", 
         "vocation": "mechanic"}
       }

In [37]:
data

{'James': {'ethnicity': 'earther', 'vocation': 'captain'},
 'Naomi': {'ethnicity': 'belter', 'vocation': 'technician'},
 'Alex': {'ethnicity': 'martian', 'vocation': 'pilot'},
 'Clarissa': {'ethnicity': 'earther', 'vocation': 'mechanic'}}

In [38]:
data["James"]

{'ethnicity': 'earther', 'vocation': 'captain'}

## Liste af dictionaries (JSON records)

In [45]:
data = [{"name": "James", "ethnicity": "earther", "vocation": "captain"},
        {"name": "Naomi", "ethnicity": "belter", "vocation": "technician"},
        {"name": "Alex", "ethnicity": "martian", "vocation": "pilot"},
        {"name": "Clarissa", "ethnicity": "earther", "vocation": "mechanic"}
       ]

In [46]:
data

[{'name': 'James', 'ethnicity': 'earther', 'vocation': 'captain'},
 {'name': 'Naomi', 'ethnicity': 'belter', 'vocation': 'technician'},
 {'name': 'Alex', 'ethnicity': 'martian', 'vocation': 'pilot'},
 {'name': 'Clarissa', 'ethnicity': 'earther', 'vocation': 'mechanic'}]

In [40]:
data[0]

{'name': 'James', 'ethnicity': 'earther', 'vocation': 'captain'}

## Data frame

In [41]:
import pandas as pd

data = pd.DataFrame.from_records(data)

In [42]:
data

Unnamed: 0,name,ethnicity,vocation
0,James,earther,captain
1,Naomi,belter,technician
2,Alex,martian,pilot
3,Clarissa,earther,mechanic


In [43]:
data.loc[0, :]

name           James
ethnicity    earther
vocation     captain
Name: 0, dtype: object

## Hyppige dataformater: .csv

- csv: "Comma-separated values"
- Én række per observation
- Værdier adskilt med kommaer
- To-dimensionel datastruktur

```
name,ethnicity,vocation
James,earther,captain
Naomi,belter,technician
Alex,martian,pilot
Clarissa,earther,mechanic
```

## Hyppige dataformater: .json

- Hierarkisk dataformat
- Værdier i nøgle-værdi par
- Flere "grene" kan tilføjes

```
{'Nemesis Games': {
    "Characters": {
        "James Holden": {
            "Occupation": "Captain", 
            "Ethnicity": "Earther", 
            "Ship": {
                "Name": "Rocinante",
                "Class": "Corvette",
                "Owner": "James Holden",
                "Crew-size": 6
            }
        },
        "Naomi Nagata": {
            "Occupation": "Technician", 
            "Ethnicity": "Belter",
            "Children": {
                "Filip Nagata": {
                    "Name": "Filip Nagata",
                    "Occupation": "Unknown"
                }
            }
        }
    }
}
```

# Introduktion til pandas data frames

## Hvad er en (pandas) data frame?

- En data struktur til tabeldata i python (en repræsentation af data)

![df](https://pandas.pydata.org/pandas-docs/stable/_images/01_table_dataframe.svg)

- Hver række og kolonne har et *index*
- Rækker typisk identificeret ved *index* (rækkenummer - men kan også være andet!)
- Kolonner typisk identificeret ved kolonnenavn

### Hver kolonne i en data frame er en `Series`

- `Series` et enkeltkolonne-format i pandas
- Sammenlignet med en python liste, kan en `Series` kun have én type data
- En `Series` indexes behøver ikke starte ved 0

![series](https://pandas.pydata.org/pandas-docs/stable/_images/01_table_series.svg)

## Fra data til data frame

- En data frame er blot en repræsentation af data i python
- Mange dataformater kan konverteres til en data frame
- Data frames er brugbare til mange former for analyse

Eksempler på filer, som kan læses til data frames (hvis i korrekt format!): 
- .csv
- .json
- .xls (Excel)
- .dta (Stata)
- .sas7bdat (SAS)

# Introduktion til pandas data frames (live coding)

# Basal datahåndtering i pandas

## Vælg kolonner

![col](https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns.svg)

In [20]:
eurob['polintr']

0      Not at all
1          Medium
2          Medium
3          Medium
4          Medium
          ...    
988        Strong
989        Medium
990        Strong
991        Medium
992           Low
Name: polintr, Length: 993, dtype: object

## Vælg rækker

![rows](https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_rows.svg)

In [25]:
eurob[eurob['polintr'] == "Low"].head(2) #boolean indexing

Unnamed: 0,uniqid,d11,polintr,qb1,qb3_1,qb3_2,qb3_3,qb3_4,qb3_5,qb3_6,...,d10,d15a,d15b,d25,d63,d1,p1,p2,p3,region_denmark
10,110005583,91.0,Low,Don't know (SPONTANEOUS),Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,Not mentioned,...,Man,"Retired, unable to work","Employed position, travelling",Large town,The working class of society,5,17 Sep 21,13 - 16 h,2636,DK05 - Nordjylland
19,110005592,18.0,Low,Very important,Use of personal data and information by compan...,Not mentioned,Not mentioned,The safety and well-being of children,Not mentioned,The difficulty of disconnecting and finding a ...,...,Woman,Student,"Unskilled manual worker, etc.",Rural area or village,The middle class of society,3,17 Sep 21,13 - 16 h,3252,DK04 - Midtjylland


## Subsetting med `.loc[]` og `.iloc[]` (specifikke rækker og kolonner)

![loc](https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns_rows.svg)

In [24]:
eurob.loc[eurob['polintr'] == "Low", ['polintr', 'd10']].head(3) 

Unnamed: 0,polintr,d10
10,Low,Man
19,Low,Woman
24,Low,Woman


## Subsetting med `.loc[]` og `.iloc[]` 

- `.loc[]`: "label-based location" (baseret på navngivningen af rækker og kolonner)
- `.iloc[]`: "index-based location" (baseret på index for rækker og kolonner)

**Syntax:**

`.loc[rows,columns]`

- `rows` kan specificeres som rækkenavne eller via betingelser ("boolean indexing")
- `columns` kan specificeres som liste af kolonnenavne

## Rekodning med `.loc`

- Tænk rekodning som, at man lokaliserer specifikke dele af data, som overskrives med en værdi

<img src="../img/loc_example.png" style="width:50.0%" />

In [None]:
df.loc[df['v1'] > 10, 'v1'] = 0

<img src="../img/loc_example2.png" style="width:28.0%" />

# Basal datahåndtering i pandas (live coding)

# Rekodning med mappings

- Eksempel: Træls at rekode kategorier med `loc[]`
- `.replace()`
- Brug af `replace()` ved missing værdier

# Rekodning med mappings (live coding)

# Split-apply-combine

![sac](https://unlhcc.github.io/r-novice-gapminder/fig/12-plyr-fig1.png)

*Billede fra [Software Carpentry](https://unlhcc.github.io/r-novice-gapminder/16-plyr/)*

## Split-apply-combine

**Split**: Opdel (split) data i grupper baseret på et eller flere kriterier.

**Apply**: Anvend (apply) en funktion (fx en beregning, filtrering eller andet) til hver gruppering.

**Combine**: Kombinér (combine) resultaterne til en ny datastruktur.

In [15]:
import pandas as pd
import numpy as np

data_path = "C:/Users/kgk/OneDrive - Aalborg Universitet/Undervisning/E22/sds/datasets/eurobarometer-96_dk_subset.csv"

eurob = pd.read_csv(data_path)

age_recode = {"15 years": 15, "Refusal": np.nan}

eurob['d11'] = eurob['d11'].replace(age_recode)
eurob['d11'] = eurob['d11'].astype('float') # float = floatpoint

In [11]:
eurob.groupby(['d10'])['d11'].mean().to_frame().reset_index()

Unnamed: 0,d10,d11
0,Man,56.792233
1,Woman,54.750524


**Split**: `.groupby()` - Hvilke variable skal der grupperes efter? (her `d10` - køn).

**Apply**: `.mean()` - Funktion der anvendes på hver gruppering (her middelværdi for `d11` - alder).

**Combine**: Pandas returnerer automatisk en ny datastruktur ved brug af en funktion. Dog kan strukturen tilpasses.
- `.to_frame()` - Tving om til data frame
- `.reset_index()` - Nulstil index (rækkenavne)

# Udforskning af data (live coding)

## Opsummering

# ØVELSE: Datahåndtering i Python