# Hvordan er dataframes opbygget?

Lad os se nærmere på, hvordan en dataframe er opbygget.

Kort sagt består dataframes af rækker (index) og kolonner (series). 

## Kolonner (`Series`) i en dataframe

En pandas `Series` er en en-dimensionel datastruktur; svarende til en kolonne eller en variabel.

En enkelt `Series` kan lagres som sit eget objekt. Hermed kan vi se, at typen ændrer sig fra "dataframe" til "series".

In [1]:
import pandas as pd

ess2018 = pd.read_csv("https://github.com/CALDISS-AAU/course_ndms-I/raw/master/datasets/ESS2018DK_subset.csv")

In [2]:
ess2018_vote = ess2018['vote']
type(ess2018)

pandas.core.frame.DataFrame

In [3]:
type(ess2018_vote)

pandas.core.series.Series

### Series og metoder

Bemærk, at mange af de metoder, som vi har brugt indtil videre, bliver kaldt på en enkelt variabel (`Series`), og ikke et helt datasæt.

Husk at Python metoder er relateret til bestemte objekter. Når man bruger fx metoder, så vær opmærksom på, om I forsøger at gøre det på et helt datasæt eller en enkelt `Series`.

### Series og Python lister

`Series` er på mange måder kompatible med Python lister. Python lister er en grundlæggende datastruktur, som kan være brugbar i mange sammenhænge.

Man kan altid tvinge en `Series` om til at være en liste med funktionen `list()`:

In [4]:
ess2018_votelist = list(ess2018_vote)
print(ess2018_votelist)

['Yes', 'Yes', nan, 'Not eligible to vote', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Not eligible to vote', 'Yes', 'Yes', 'Yes', 'Yes', 'No', 'Not eligible to vote', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Not eligible to vote', 'No', 'Not eligible to vote', 'Not eligible to vote', 'Yes', 'Yes', 'Yes', 'Yes', 'Not eligible to vote', 'Yes', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'Not eligible to vote', 'Yes', 'Yes', '

Omvendt kan man også tvinge en liste om til at være en `Series` med `pd.Series`.

In [5]:
ess2018_voteseries = pd.Series(ess2018_votelist)
print(ess2018_voteseries)

0                        Yes
1                        Yes
2                        NaN
3       Not eligible to vote
4                        Yes
                ...         
1567    Not eligible to vote
1568                     Yes
1569                     Yes
1570                     Yes
1571                      No
Length: 1572, dtype: object


## Index i en dataframe

Et "indeks" er en generel betegnelse i Python for værdiers ID, så at sige.

I en dataframe bruges index til at referere til rækkenavnene. Disse kan ses af `.index`:

In [6]:
list(ess2018.index)[0:10]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Index i Python starter ved 0. Den første række i en dataframe har derfor index 0.

Et index behøver dog ikke være rækkenumre, da man altid kan ændre index-værdierne.

### Index i groupby

Husk at vi ofte arbejder med mange objekter på en gang i Python. Når vi fx bruger `.groupby()` får vi returneret et groupby objekt, uden at ændre på det oprindelige data.

Når så vi bruger en metode som fx `.value_counts` på en variabel i et groupby objekt, så får vi en ny datastruktur returneret. Denne ligner en dataframe, men faktisk er det blot en enkelt kolonne (`Series`) med et index, der refererer til de forskellige grupperinger.

In [7]:
grouped_df = ess2018.groupby(['gndr'])

In [8]:
grouped_votecounts = grouped_df['vote'].value_counts()
grouped_votecounts

gndr    vote                
Female  Yes                     626
        Not eligible to vote     63
        No                       34
Male    Yes                     706
        Not eligible to vote     77
        No                       60
Name: vote, dtype: int64

### Index i en `Series`

I en enkelt `Series`, kan man refere til et bestemt index med `[]` (ligesom ved en Python liste):

In [9]:
ess2018_voteseries[10] # Refererer til 11. værdi i serien/kolonnen

'Yes'

In [10]:
grouped_votecounts[0] # Refererer til første værdi i optællingen

626