# Programmeren 2.1

## Les 6.1 -- Pandas en werken met data bestanden

10 Okt 2022

## Inhoud

- Herhaling inlezen bestanden
- Pandas
- Programmeerstijl

## Inlezen bestanden

Eerder hebben we gezien hoe we d.m.v. het **open** commando en **for** loops bestanden kunnen inlezen.

Bijvoorbeeld, het bestand getallenxyz2.txt heeft de volgende structuur:

    X,Y,Z
    +2.038,  +1.233,  +0.435
    +0.052,  -1.155,  +1.239
    -0.266,  -0.006,  +0.144
     
Dit word ook wel een *comma seperated values* of (.csv) bestand genoemd. Labels en waarden zijn gescheiden met komma's, bij bestanden die gebruik maken van decimale komma's is deze *delimiter* vaak een puntkomma '**;**'. Als de *delimiter* een tab (**'\t'**) is, dan spreekt men over *tab seperated values* (.tsv).

Eerder hebben we gezien hoe we een *comma seperated value* bestand kunnen inlezen in lijsten.

In [1]:
file = open('getallenxyz2.txt')
labels = file.readline().strip().split(',')

# Maak lege lijsten aan
xs, ys, zs = [], [], []
for line in file:
    # Lees regel, zet om naar drie getallen, en voeg toe aan xs, ys en zs.
    x, y, z = (float(s) for s in line.split(','))
    xs.append(x)
    ys.append(y)
    zs.append(z)
    
print(f"Totaal X = {sum(xs):.3f},\nTotaal Y = {sum(ys):.3f},\nTotaal Z = {sum(zs):.3f}.")

Totaal X = 54.702,
Totaal Y = 71.221,
Totaal Z = 0.013.


Of als een dictionary van lijsten...

In [2]:
file = open('getallenxyz2.txt')
labels = file.readline().strip().split(',')

# Maak een dictionary met lege lijsten aan
data = {label:[] for label in labels}
for line in file:
    # Lees regel en zet om naar getallen
    values = [float(s) for s in line.split(',')]
    
    # Voeg getallen toe aan bijbehorende lijsten in data
    for k, v in zip(labels, values):
        data[k].append(v)
print(f"""
Totaal X = {sum(data['X']):.3f},
Totaal Y = {sum(data['Y']):.3f},
Totaal Z = {sum(data['Z']):.3f}.""")


Totaal X = 54.702,
Totaal Y = 71.221,
Totaal Z = 0.013.


Of als een geneste lijst...

In [3]:
file = open('getallenxyz2.txt')
labels = file.readline().strip().split(',')

# Lees data, ieder element van data is een lijst van [x, y, z] waarden.
data = [[float(s) for s in line.split(',')] for line in file]

# Bereken sommen
somx = sum(v[0] for v in data)
somy = sum(v[1] for v in data)
somz = sum(v[2] for v in data)

print(f"Totaal X = {somx:.3f},\nTotaal Y = {somy:.3f},\nTotaal Z = {somz:.3f}.")

Totaal X = 54.702,
Totaal Y = 71.221,
Totaal Z = 0.013.


## Pandas

Data bestanden inlezen is iets dat je heel vaak zal moeten doen, dit zelf programmeren met al deze **for** loops is omslachtig. Voor meeste bestandstypes zijn hier standaard commando's voor, deze zijn onderdeel van het **pandas** package.

Zie ook [https://pandas.pydata.org/docs/user_guide/index.html](https://pandas.pydata.org/docs/user_guide/index.html) voor meer info.

De basis van **pandas** is een **DataFrame**, onderstaand code zet een **dict** van lijsten om naar een dataframe.

In [4]:
import pandas as pd

data_dict = {'X':[1,2,3], 'Y':[4,5,6],'Z':[7,8,9]}
df = pd.DataFrame(data_dict)
display(df)

Unnamed: 0,X,Y,Z
0,1,4,7
1,2,5,8
2,3,6,9


Voor het inlezen van bestanden bestaat onder andere de **read_csv** functie.

In [5]:
data = pd.read_csv('getallenxyz2.txt')

print(type(data))
print(data)

<class 'pandas.core.frame.DataFrame'>
          X      Y      Z
0     2.038  1.233  0.435
1     0.052 -1.155  1.239
2    -0.266 -0.006  0.144
3     0.769  0.425  1.206
4    -0.942  1.523 -0.621
...     ...    ...    ...
9995 -0.332 -0.930  2.245
9996 -0.975  0.360  1.281
9997 -1.708 -0.539 -0.645
9998  1.723  0.359  0.574
9999  2.222 -2.344 -0.324

[10000 rows x 3 columns]


In [6]:
print(f"""
Totaal X = {data['X'].sum():.3f},
Totaal Y = {data['Y'].sum():.3f},
Totaal Z = {data['Z'].sum():.3f}.""")


Totaal X = 54.702,
Totaal Y = 71.221,
Totaal Z = 0.013.


Voor het inlezen van Excel (**.xlsx**) bestanden bestaat de **read_excel** functie.

In [20]:
data = pd.read_excel('getallenxyz.xlsx')
display(data)

Unnamed: 0,X,Y,Z
0,2.038,1.233,0.435
1,0.052,-1.155,1.239
2,-0.266,-0.006,0.144
3,0.769,0.425,1.206
4,-0.942,1.523,-0.621
...,...,...,...
9995,-0.332,-0.930,2.245
9996,-0.975,0.360,1.281
9997,-1.708,-0.539,-0.645
9998,1.723,0.359,0.574


De data wordt ingelezen in een zogenaamde *Pandas Dataframe* (Later dit jaar zullen jullie ook met *dataframes* in de statistische programmeertaal *R* gaan werken.)

Een *dataframe* gedraagd zich een beetje als a *dictionary* met als *key*'s de kolomnamen, en als *values* de lijsten met data. Maar een *dataframe* heeft nog wat extra functionaliteiten. Zo geeft **print(data)** een mooie tekst weergave van je data, en **display(data)** geeft een tabel weergave.

Zie ook **help(pd.DataFrame)** voor meer info.

In [8]:
print(data)

          X      Y      Z
0     2.038  1.233  0.435
1     0.052 -1.155  1.239
2    -0.266 -0.006  0.144
3     0.769  0.425  1.206
4    -0.942  1.523 -0.621
...     ...    ...    ...
9995 -0.332 -0.930  2.245
9996 -0.975  0.360  1.281
9997 -1.708 -0.539 -0.645
9998  1.723  0.359  0.574
9999  2.222 -2.344 -0.324

[10000 rows x 3 columns]


In [9]:
display(data)

Unnamed: 0,X,Y,Z
0,2.038,1.233,0.435
1,0.052,-1.155,1.239
2,-0.266,-0.006,0.144
3,0.769,0.425,1.206
4,-0.942,1.523,-0.621
...,...,...,...
9995,-0.332,-0.930,2.245
9996,-0.975,0.360,1.281
9997,-1.708,-0.539,-0.645
9998,1.723,0.359,0.574


Kolommen kunnen worden aangeroepen alsof het *dataframe* een *dictionary* is. Als de kolomnaam geen spaties bevat kan je ook **data.\<kolomnaam\>** gebruiken.

In [10]:
print(data['X'])

0       2.038
1       0.052
2      -0.266
3       0.769
4      -0.942
        ...  
9995   -0.332
9996   -0.975
9997   -1.708
9998    1.723
9999    2.222
Name: X, Length: 10000, dtype: float64


In [11]:
print(data.X)

0       2.038
1       0.052
2      -0.266
3       0.769
4      -0.942
        ...  
9995   -0.332
9996   -0.975
9997   -1.708
9998    1.723
9999    2.222
Name: X, Length: 10000, dtype: float64


Je kan meerdere kolommen selecteren door een lijst van kolomnamen mee te geven:

In [12]:
kolommen = ['X', 'Y']
display(data[kolommen])

Unnamed: 0,X,Y
0,2.038,1.233
1,0.052,-1.155
2,-0.266,-0.006
3,0.769,0.425
4,-0.942,1.523
...,...,...
9995,-0.332,-0.930
9996,-0.975,0.360
9997,-1.708,-0.539
9998,1.723,0.359


In [13]:
# Een enkele kolom in een display
display(data[['X']])

Unnamed: 0,X
0,2.038
1,0.052
2,-0.266
3,0.769
4,-0.942
...,...
9995,-0.332
9996,-0.975
9997,-1.708
9998,1.723


- Wiskundige operaties werken op *alle waarden* in een kolom. (Optelling en vermenigvuldiging werken dus anders dan met lijsten!)
- Veel wiskundige/statistische functies kunnen ook met een **.** achter een kolom geplaatst worden.

In [14]:
print(2*data.X + 3*data.Y)

0       7.775
1      -3.361
2      -0.550
3       2.813
4       2.685
        ...  
9995   -3.454
9996   -0.870
9997   -5.033
9998    4.523
9999   -2.588
Length: 10000, dtype: float64


In [15]:
print(f"Totaal X = {data.X.sum():.3f}")
print(f"Totaal X = {sum(data.X):.3f}")

Totaal X = 54.702
Totaal X = 54.702


In [16]:
print(f"""
Gemiddelde X = {data.X.mean():.5f}
Gemiddelde Y = {data.Y.mean():.5f}
Gemiddelde Z = {data.Z.mean():.7f}""")


Gemiddelde X = 0.00547
Gemiddelde Y = 0.00712
Gemiddelde Z = 0.0000013


Ook de vergelijkingsoperatatoren werken op de waardes in een kolom

Een lijst van **True/False** waardes kan gebruikt worden om rijen te selecteren

In [17]:
# Welke X zijn positief?
print(data.X > 0)

0        True
1        True
2       False
3        True
4       False
        ...  
9995    False
9996    False
9997    False
9998     True
9999     True
Name: X, Length: 10000, dtype: bool


In [18]:
# Wat zijn de waardes van Y bij positieve X?
print(data.X[data.X > 0])

0       2.038
1       0.052
3       0.769
9       1.077
11      0.532
        ...  
9990    0.162
9991    1.162
9992    0.587
9998    1.723
9999    2.222
Name: X, Length: 5007, dtype: float64


In [19]:
# De sum functie beschouwt True als 1 en False als 0, we kunnen deze dus gebruiken om te tellen
print(sum(data.X > 0))

5007


## Programmeerstijl

- Het is gebruikelijk om pandas **as pd** in te lezen.
- Gebruikelijke namen voor *dataframes* zijn **data** of **df**.

- Pandas gebruik je voornamelijk als je *statistiek* wilt doen. Voor veel andere toepassingen is het inlezen in lijsten of **dict**s handiger.

Tip: Pandas heeft verschrikkelijk veel opties en mogelijkheden. Het is onmogelijk dit in één les allemaal te noemen. Google is je beste vriend!