# Referenties

Altijd beginnen met 'getting started':

https://pandas.pydata.org/docs/getting_started/index.html#getting-started

Dan een snel overzicht:

https://pandas.pydata.org/docs/user_guide/10min.html

Daarna kijken naar de API beschrijving:

https://pandas.pydata.org/docs/reference/index.html

# Installatie

Run `pip3 install pandas` in the terminal to install the Pandas library.

# Imports

In [81]:
import pandas as pd

import matplotlib.pyplot as plt

# Schetsen

In [82]:
# Dataframe maken
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [
            22,
            35,
            58
        ],
        "Sex": [
            "male",
            "male",
            "female"
        ],
    }
    # },
    # index = ["a", "b", "c"]
)

# Standaard print
print(df)

# Vergelijk met  (dit is de jupyter- manier om een df 'mooi' te maken)
df
# Vergelijk met (dit is de pandas manier om een df 'mooi' te maken)
display(df)

                       Name  Age     Sex
0   Braund, Mr. Owen Harris   22    male
1  Allen, Mr. William Henry   35    male
2  Bonnell, Miss. Elizabeth   58  female


Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [83]:
# Data opslaan als csv - kijk hier: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html: 
# pandas.DataFrame.to_csv
df.to_csv('./persons.csv', header = True, index = False) 
# header = False laat de headers weg uit de csv die je gaat aanmaken
# index = False doet hetzelfde vwb de index

In [84]:
# Data inlezen: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=csv#pandas.read_csv
df_saved = pd.read_csv('./persons.csv')
display(df_saved)
#pandas toont altijd een index, ookal moet 'ie 't zelf maken

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [85]:
# De kolomnamen laten zien:
df.columns
#Wil je maar 1 naam laten zien, dan kan je dit doen:
#display(df.columns[1])

Index(['Name', 'Age', 'Sex'], dtype='object')

In [86]:
# Een kolom uitlezen
display(df["Age"]) #<-- deze notatie geniet voorkeur omdat je deze dynamisch kan gebruiken. Je kunt de string tussen de blokhaken laten varieren.
leeftijd = "Age"
df[leeftijd]
# of (hardcoded): 
#display(df.Age)

0    22
1    35
2    58
Name: Age, dtype: int64

0    22
1    35
2    58
Name: Age, dtype: int64

In [87]:
# Een type weergeven:
type(df["Age"])

pandas.core.series.Series

In [88]:
# Een kolom verwijderen kan op 2 manieren:
# 1) DataFrame.drop() of
# DataFrame.pop()
#df.pop("Age")
# display(df)
df_copy = df.copy() # kopie aangemaakt voor de pop - actie
col = df_copy.pop("Age")
display(col)
display(df)
display(df_copy)

0    22
1    35
2    58
Name: Age, dtype: int64

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Allen, Mr. William Henry",male
2,"Bonnell, Miss. Elizabeth",female


In [89]:
# 2) Een kolom verwijderen kan ook met: DataFrame.drop() 
#df.drop("Age")
# display(df)
df_copy2 = df.copy() #Deze kopie aangemaakt voor de drop-actie
display(df_copy2)
# Zie: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html?highlight=dataframe%20delete%20column
# om te zien waarom de extra parameters nodig zijn... Anders krijg je niet het gewenste resultaat
df_copy2.drop("Age", axis = 1, inplace = True)
display(df_copy2)

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Allen, Mr. William Henry",male
2,"Bonnell, Miss. Elizabeth",female


In [90]:
# Een rij lezen: dat doe je met .loc[] - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html
# loc werkt met labels. Dat werkt hier omdat de index i.c. labels heeft
display(df.loc[1])
# een cel inlezen:
display(df.loc[1]["Sex"])

Name    Allen, Mr. William Henry
Age                           35
Sex                         male
Name: 1, dtype: object

'male'

In [91]:
# .iloc[] https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html
# iloc = index-loc. Je kunt .iloc gebruiken als je over een kolom (?) wilt itereren
df.iloc[0]

Name    Braund, Mr. Owen Harris
Age                          22
Sex                        male
Name: 0, dtype: object

In [92]:
df.iloc[0, 1] # vgl dit met een excel veld (0,1)

22

In [93]:
# Dit is hetzelfde als:
df.iloc[0]['Age']

22

In [94]:
# Dit is hetzelfde als:
df.iloc[0][1]

22

In [102]:
# Functie getRow() maken - je kunt ook zelf functionaliteiten aanmaken
def getRow(dataframe, index):
    return dataframe.iloc[index]
display(getRow(df,2)) #df moet de naam zijn van het dataframe waarmee je op dat moment werkt

Name    Bonnell, Miss. Elizabeth
Age                           58
Sex                       female
Name: 2, dtype: object

In [106]:
# Een rij toevoegen
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.add.html?highlight=dataframe%20add#pandas.DataFrame.add
df_copy3 = df.copy()
# df_copy3.add(["Ruud", 44, "male"])
# display(df_copy3)
# Dit zou een ongewenst resultaat moeten geven omdat add op celbasis werkt3
display(df)
df_copy3.loc[3] = ["Ruud", 44, "male"]
display(df_copy3)
#.append() is deprecated


Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female
3,Ruud,44,male


In [108]:
# Concat https://pandas.pydata.org/docs/reference/api/pandas.concat.html?highlight=concat#pandas.concat

# df_copy4 = df.copy()

# df_copy4.concat(["Hans", 54, "male"])
# display(df_copy4)
# geeft foutmelding. Het lijkt erop dat we eerst een pdSeries moeten aanmaken van de nieuwe gegevens en dat we dan pas die Series kunnen concatenate met het dataframe

In [112]:
# Functie insertAt(row, index) Je wilt iets invoegen tussen de 0 en de 1 index
df_copy4 = df.copy()
df_copy4.loc[0.5] = ["Mrs. Bea Orange", 85, "female"]
display(df_copy4)
# Index sorteren zodat je alsnog de regel op de juiste plaats krijgt
df_copy4_copy = df_copy4.sort_index().reset_index(drop = True)
display(df_copy4_copy)

Unnamed: 0,Name,Age,Sex
0.0,"Braund, Mr. Owen Harris",22,male
1.0,"Allen, Mr. William Henry",35,male
2.0,"Bonnell, Miss. Elizabeth",58,female
0.5,Mrs. Bea Orange,85,female


Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,Mrs. Bea Orange,85,female
2,"Allen, Mr. William Henry",35,male
3,"Bonnell, Miss. Elizabeth",58,female


In [98]:
# Verkennen
# ...

In [113]:
# Filteren
df.query("Age > 30") 

Unnamed: 0,Name,Age,Sex
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [124]:
df.query("Age > 30 and Sex == 'male' ") 
#zoek op leeftijd van Bonnell, Miss. Elizabeth
mss = df.query("Name == 'Bonnell, Miss. Elizabeth'")
mss['Sex']



2    female
Name: Sex, dtype: object

In [126]:
#filteren 2
over_30 = df[df["Age"] > 30] 
display(over_30)

Unnamed: 0,Name,Age,Sex
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [132]:
# filter 3
display(df[df["Name"].str.contains("Bonn")])
display(df[df["Name"].str.contains("Bonn")].index)
display(df[df["Name"].str.contains("B")])
# Je kunt geen zoekopdracht geven die leidt tot een antwoord als 'rij 4, kolom 6' 

Unnamed: 0,Name,Age,Sex
2,"Bonnell, Miss. Elizabeth",58,female


Int64Index([2], dtype='int64')

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
2,"Bonnell, Miss. Elizabeth",58,female


In [125]:
# Groeperen
# ...

In [101]:
# Extra: toepassing OOP en het bouwen van je eigen library
# ...