In [1]:
# prep

# Introduktion til Python III

## Program

- Brug af egne funktioner i Python
- Dataformater og datastrukturer
- Sammensætning af data (concatenation, joins)
- Ændring af dataformat (wide, long)

# Brug af egne funktioner (live-coding)

# Dataformater og datastrukturer

## Data -> Datasæt -> Datastruktur

![data-structure](../img/data_set_structure.png)

## Relationel datastruktur

- Data i tabeller
- Hver tabel har kun 2 dimensioner (rækker og kolonner)

![hierarch](../img/expanse_relational.png)

## Hierarkisk datastruktur

- Data i træ-lignende struktur
- Ikke bundet til 2 dimensioner (hver gren kan have så mange undergrene, som  der er behov for)

![hierarch](../img/expanse_hierarchical.png)

## Hyppige datafilformater: .csv

- csv: "Comma-separated values"
- Én række per observation
- Værdier adskilt med kommaer
- To-dimensionel datastruktur

```
name,ethnicity,vocation
James,earther,captain
Naomi,belter,technician
Alex,martian,pilot
Clarissa,earther,mechanic
```

## Hyppige datafilformater: .json

- Hierarkisk dataformat
- Værdier i nøgle-værdi par
- Flere "grene" kan tilføjes

```
{'Nemesis Games': {
    "Characters": {
        "James Holden": {
            "Occupation": "Captain", 
            "Ethnicity": "Earther", 
            "Ship": {
                "Name": "Rocinante",
                "Class": "Corvette",
                "Owner": "James Holden",
                "Crew-size": 6
            }
        },
        "Naomi Nagata": {
            "Occupation": "Technician", 
            "Ethnicity": "Belter",
            "Children": {
                "Filip Nagata": {
                    "Name": "Filip Nagata",
                    "Occupation": "Unknown"
                }
            }
        }
    }
}
```

## Datastruktur i Python: Liste af lister

In [2]:
names = ["James", "Naomi", "Alex", "Clarissa"]
ethnicities = ["earther", "belter", "martian", "earter"]
vocation = ["captain", "technician", "pilot", "mechanic"]

data = [names, ethnicities, vocation]

In [3]:
data

[['James', 'Naomi', 'Alex', 'Clarissa'],
 ['earther', 'belter', 'martian', 'earter'],
 ['captain', 'technician', 'pilot', 'mechanic']]

In [4]:
[items[0] for items in data]

['James', 'earther', 'captain']

## Datastruktur i Python: Dictionary (JSON)

In [5]:
data = {
    "James": {"ethnicity": "earther", "vocation": "captain"},
    "Naomi": {"ethnicity": "belter", "vocation": "technician"},
    "Alex": {"ethnicity": "martian", "vocation": "pilot"},
    "Clarissa": {"ethnicity": "earther", "vocation": "mechanic"},
}

In [6]:
data

{'James': {'ethnicity': 'earther', 'vocation': 'captain'},
 'Naomi': {'ethnicity': 'belter', 'vocation': 'technician'},
 'Alex': {'ethnicity': 'martian', 'vocation': 'pilot'},
 'Clarissa': {'ethnicity': 'earther', 'vocation': 'mechanic'}}

In [7]:
data["James"]

{'ethnicity': 'earther', 'vocation': 'captain'}

## Datastruktur i Python: Liste af dictionaries (JSON records)

In [8]:
data = [
    {"name": "James", "ethnicity": "earther", "vocation": "captain"},
    {"name": "Naomi", "ethnicity": "belter", "vocation": "technician"},
    {"name": "Alex", "ethnicity": "martian", "vocation": "pilot"},
    {"name": "Clarissa", "ethnicity": "earther", "vocation": "mechanic"},
]

In [9]:
data

[{'name': 'James', 'ethnicity': 'earther', 'vocation': 'captain'},
 {'name': 'Naomi', 'ethnicity': 'belter', 'vocation': 'technician'},
 {'name': 'Alex', 'ethnicity': 'martian', 'vocation': 'pilot'},
 {'name': 'Clarissa', 'ethnicity': 'earther', 'vocation': 'mechanic'}]

In [10]:
data[0]

{'name': 'James', 'ethnicity': 'earther', 'vocation': 'captain'}

## Datastruktur i Python: (pandas) Data frame

In [11]:
import pandas as pd

data = pd.DataFrame.from_records(data)

In [12]:
data

Unnamed: 0,name,ethnicity,vocation
0,James,earther,captain
1,Naomi,belter,technician
2,Alex,martian,pilot
3,Clarissa,earther,mechanic


In [13]:
data.loc[0, :]

name           James
ethnicity    earther
vocation     captain
Name: 0, dtype: object

## ØVELSE: Datastrukturer i Python

Udled relevante oplysninger af nedenstående sætninger og sæt dem i en datastruktur, som du selv synes giver mening. Man skal kunne kalde alle oplysninger frem ved at kalde èn variabel.

    For at blive klogere på deres kundebase, har SuperGroce ansat en konsulent til at observere, hvad kunderne køber i deres supermarked. Der blev observeret følgende:

    Emily, en 32-årig grafisk designer, fyldte sin kurv med avocadoer, mandelmælk, grønkål, quinoa og mørk chokolade, mens hendes loyale golden retriever, Max, tålmodigt ventede ved hendes side.

    Anders, en 45-årig arkæolog, købte fin-spidsede penne, kaffebønner, pitabrød og hummus, mens han forestillede sig sin aften med forskning sammen med sin nysgerrige papegøje, Luna.

    Liam, en 28-årig fitness-træner, greb hurtigt kyllingebryster, spinat, proteinbarer, bananer og græsk yoghurt. Han kunne ikke vente med at komme i træningscenteret efter at have taget sin energiske australske hyrdehund, Bella, med på en løbetur.

    60-årig pensionist Eleanor samlede i sin kurv tomater, mozzarella, basilikum, olivenolie og baguetter for at skabe hendes signaturret, caprese-salat, alt imens hendes kat, Whiskers, slappede af i hendes indkøbsvogn.

    Pavel, en 42-årig børnelæge, valgte omhyggeligt babymad, bleer, æblemos, gulerødder og fuldkornskiks og forventede en weekend sammen med familien.

    Alex, en 19-årig universitetsstuderende, fyldte op med instant nudler, energidrikke, mikrobølgepopcorn, peanutbutter og brød. Sene studie-sessioner og hans stille guldfisk, Bubbles, ventede hjemme på kollegieværelset.

    Kokken Ramirez, en 50-årig kulinarisk ekspert, gik gennem gangene og valgte frisk basilikum, modne tomater, hvidløg, pasta og olivenolie for at tilberede en skøn pastaret, alt imens hans frække kæledyrsilder, Tango, kiggede ud fra hans skuldertaske.

    35-årig astronaut Thomas tog astronaut-is, tørret frugt, proteinbarer, vakuum-pakket kylling og tortillas i sin kurv.

    Sarah, en 25-årig romanforfatter, overvejede sine plot-ideer, mens hun valgte sort te, honning, mandler, blåbær og mørk chokolade, forestillede sig en hyggelig skrive-session forude, med hendes pjuskede kæledyrskat, Oliver, puttet op tæt ved.

## ØVELSE: Datastrukturer i Python

Udled af data hvilke kæledyr personerne over 40 år har.

# Sammensætning af data

## Sammensætning af data

Man kan af forskellige årsager have behov for at sammensætte datasæt. 

Man adskiller typsik mellem at udvide med flere *observationer* eller med flere *variable/oplysninger*.

**Udvide med flere observationer**
- Data indsamlet over flere omgange
- Løbende opdatering af data

**Udvide med flere variable/oplysninger**
- Data samles på tværs af flere kilder
- Oplysninger på forskellige enhedsniveauer

## Udvid med flere observationer - appending/concatenating

At udvide data med flere observationer kaldes typisk *appending* eller *concatenating* (for tabulær data).

Bruges typisk når datasæt har samme kolonner, men forskellige rækker.

![concat](https://pandas.pydata.org/pandas-docs/stable/_images/merging_concat_basic.png)

*Source: pandas.pydata.org/*

## Udvid med flere variable/oplysninger - join/merge

At udvide data med flere variable/oplysninger kaldes typisk for *join* eller *merge* (for tabulær data).

Bruges typisk når datasæt deler nogle af de samme observationer, men har forskellige variable/oplysninger.

Man *joiner* typisk to datasæt ad gangen. De to datasæt, som joines, kaldes typisk *left* og *right* (terminologien kommer fra SQL - et databasesprog).

Datasæt joines ud fra en eller flere *nøglevariable* - noget som unikt identificerer observationen/enheden.

![join](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key.png)

*Source: pandas.pydata.org/*

## Typer af joins

![join-types](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fadaptabiz.com%2Fwp-content%2Fuploads%2F2020%2F10%2Fsql-joins.jpg)

*Source: adaptabiz.com*

# Dataformater (wide-long)

## Dataformater (wide-long)

Datasæt kan have forskellige formater og strukturer. Det kan ofte være nødvendigt at ændre på datas format - enten for at det passer med den metode/funktion/model, som det skal bruges i, eller fordi det skal sættes sammen med andre datasæt.

For datasæt i en tabelstruktur (rækker og kolonner), kan man overordnet adskille mellem to formater:
- wide: én række per observeret enhed (fx person), hvor hver oplysning/variabel har sin egen kolonne
- long: en observeret enhed kan have flere rækker, hvor en variabel indikerer, hvilken oplysning der er tale om for enheden

Man støder ofte på det ene eller andet format i forbindelse med tidsserier, hvor man har gentagne målinger for de samme enheder. 

In [14]:
import pandas as pd
import random

wide_df = pd.DataFrame({'person': ['A', 'B', 'C'],
                        '2010': random.sample(range(0,100), 3),
                        '2011': random.sample(range(0,100), 3),
                        '2012': random.sample(range(0,100), 3),
                       }
                      )

wide2_df = pd.DataFrame({'person': ['A', 'B', 'C', 'D'],
                         'age': [22, 53, 36, 42],
                         'car_colour': ['red', 'white', 'blue', 'orange']
                        }
                       )

long_df = pd.melt(wide_df, id_vars = ['person'], var_name = 'year', value_name = 'train_rides')
long2_df = pd.melt(wide2_df, id_vars = ['person'], var_name = 'variable', value_name = 'value')

### Fra wide til long - eksempel 1

In [15]:
wide_df

Unnamed: 0,person,2010,2011,2012
0,A,32,16,30
1,B,83,37,8
2,C,8,55,55


In [16]:
long_df

Unnamed: 0,person,year,train_rides
0,A,2010,32
1,B,2010,83
2,C,2010,8
3,A,2011,16
4,B,2011,37
5,C,2011,55
6,A,2012,30
7,B,2012,8
8,C,2012,55


### Fra wide til long - eksempel 2

In [17]:
wide2_df

Unnamed: 0,person,age,car_colour
0,A,22,red
1,B,53,white
2,C,36,blue
3,D,42,orange


In [18]:
long2_df

Unnamed: 0,person,variable,value
0,A,age,22
1,B,age,53
2,C,age,36
3,D,age,42
4,A,car_colour,red
5,B,car_colour,white
6,C,car_colour,blue
7,D,car_colour,orange


# Sammensætning af data og ændring af dataformat (live-coding)

# Opsummering

- Man kan lave egne funktioner i Python, som er skræddersyet til de data og de problemstillinger, som man sidder med
- Data kan struktureres i forskellige formater og strukturer
    - *Relationel* datastruktur er data i tabeller, som er begrænset til to dimensioner
    - *Hierarkisk* datastruktur er data i træ-lignende struktur
    - Valg af datastruktur hænger sammen med, hvad data skal bruges til
- Datasæt kan sammensættes på forskellig vis
    - Sammensætning af *rækker* kaldes typisk *appending* eller *concatenating* for tabulær data
    - Sammensætning af *varible* kaldes typisk *join* eller *merge* for tabulær data
- Tabulær data kan være i forskellige formater
    - Data i *wide* format indeholder én række per enhed
    - Data i *long* format kan indeholde flere rækker per enhed (fx ved tidsserier)