# Referenties

Altijd beginnen met 'getting started':

https://pandas.pydata.org/docs/getting_started/index.html#getting-started

Dan een snel overzicht:

https://pandas.pydata.org/docs/user_guide/10min.html

Daarna kijken naar de API beschrijving:

https://pandas.pydata.org/docs/reference/index.html

# Installatie

Run `pip3 install pandas` in the terminal to install the Pandas library.

# Imports

In [1]:
import pandas as pd

import matplotlib.pyplot as plt

# Schetsen

In [45]:
# Dataframe maken: een dictionary met een aantal keys

df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [
            22,
            35,
            58
        ],
        "Sex": [
            "male",
            "male",
            "female"
        ], 
    }, index = ['a', 'b', 'c']
)

# Standaard print
print(df)

# Vergelijk met (dit is een functie van jupyter):
df

# standaard index is 0 1 2 en je kan ervan maken , index = ['a', 'b', 'c']

# vergelijk met (dit is een functie van python):
display(df)

                       Name  Age     Sex
a   Braund, Mr. Owen Harris   22    male
b  Allen, Mr. William Henry   35    male
c  Bonnell, Miss. Elizabeth   58  female


Unnamed: 0,Name,Age,Sex
a,"Braund, Mr. Owen Harris",22,male
b,"Allen, Mr. William Henry",35,male
c,"Bonnell, Miss. Elizabeth",58,female


In [46]:
# Data opslaan

# df.to_csv('../csv/persons.csv')

df.to_csv('../csv/persons.csv', header=True, index=False)

# als header = True den index = True dan dubbele index

In [30]:
# Data inlezen

df_saved = pd.read_csv('../csv/persons.csv')

display(df_saved)

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [31]:
# De kolomnaam

df.columns

Index(['Name', 'Age', 'Sex'], dtype='object')

In [37]:
df['Age']

display(df['Age']) # interne structuur en met blokhaken verwacht hij een string (uitoznderingen voor integers)

type(df['Age']) # het type oftewel de class

a    22
b    35
c    58
Name: Age, dtype: int64

pandas.core.series.Series

In [41]:
df.Age # werkt ook


a    22
b    35
c    58
Name: Age, dtype: int64

In [129]:
# Een kolom lezen

age = 'Age'
df[age]

In [44]:
# Een kolom verwijderen

df.pop('Age')


a    22
b    35
c    58
Name: Age, dtype: int64

In [None]:
df_copy = df.copy()

col = df_copy.pop('Age')

display(col)
display(df_copy)

In [49]:
# axis = 0 for index (rows) and 1 for columns
# let op: dit is anders bij pop

df_copy = df.copy()

df_copy2 = df_copy.drop('Age', axis=1)

display(df_copy)
display(df_copy2)


Unnamed: 0,Name,Age,Sex
a,"Braund, Mr. Owen Harris",22,male
b,"Allen, Mr. William Henry",35,male
c,"Bonnell, Miss. Elizabeth",58,female


Unnamed: 0,Name,Sex
a,"Braund, Mr. Owen Harris",male
b,"Allen, Mr. William Henry",male
c,"Bonnell, Miss. Elizabeth",female


In [55]:
# Een rij lezen met loc en iloc waarbij staat voor index (ik wil rij 23 hebben) en met loc heb je het label
# als de labels cijfers zijn dan werkt het met loc toevallig wel(dit is vaak zo)

# df.loc[0] werkt niet als index is a b c en wel als index is 0 1 2
df.iloc[0]
type(df.iloc[0])

pandas.core.series.Series

In [66]:
# Een cel lezen:
df.iloc[0, 1]
df.iloc[0][1]
df.iloc[0]['Age']

# df.iloc[0, 'Age'] werkt niet omdat 'Age' geen index is

# df.loc[a, 'Age'] werkt niet omdat je bij loc met labels moet werken, dus wat werkt wel:
df.loc['a', 'Age']
df.loc['a']['Age']

# zo kan je ook kolommen uitlezen: df.loc[,'Age'] maar beter direct via het df


22

In [67]:
# Functie getRow() maken

def getRow(dataframe, index):
    return dataframe.iloc[index]

display(getRow(df, 2))

Name    Bonnell, Miss. Elizabeth
Age                           58
Sex                       female
Name: c, dtype: object

In [None]:
# df.method() is een methode en heeft ronde haken
# df.iloc[] is een property en heeft blokhaken

In [89]:
# Een rij toevoegen

df_copy = df.copy()

# df_copy.add(['Ruud', 44, 'male']) hiermee wordt de info aan de bestaande velden toegevoegd
# Het is een element wise add, je bijvoorbeld kan over alle elementen een getal verhogen 

df_copy.loc[3] = ['Ruud', 44, 'male']
display(df_copy)


df_copy.loc[0.5] = ['Hans', 18, 'male'] # voegt onderaan toe en index wordt een float

# display(df_copy3 = df_copy.sort_index()) # werkt niet goed en wel als je met cijfers werkt

# display(df_copy3 = df_copy.sort_index().reset_index(drop=True)) # dan bouw je de index opnieuw op

Unnamed: 0,Name,Age,Sex
a,"Braund, Mr. Owen Harris",22,male
b,"Allen, Mr. William Henry",35,male
c,"Bonnell, Miss. Elizabeth",58,female
3,Ruud,44,male


In [133]:
# Functie insertAt(row, index)

df_copy = df.copy()





In [134]:
# Verkennen
# ...

In [93]:
# Filteren

# alle mannen boven de 30 filteren:

df.query('Age > 30 and Sex == "male"') # let op de verschillende soorten haakjes om het te laten werken


Unnamed: 0,Name,Age,Sex
b,"Allen, Mr. William Henry",35,male


In [99]:
# Zoek op leeftijd van mevrouw Bonnell

mss = df.query("Name == 'Ruud'")

mss['Sex']

Series([], Name: Sex, dtype: object)

In [103]:
# Filteren 2

display(df['Age'] > 30) # geeft boolean waarde terug maar als je het hele df pakt, krijg je de inhoud

df[df['Age'] > 30]

a    False
b     True
c     True
Name: Age, dtype: bool

Unnamed: 0,Name,Age,Sex
b,"Allen, Mr. William Henry",35,male
c,"Bonnell, Miss. Elizabeth",58,female


In [107]:
# Filteren 3

# Op een Series kan je een str uitvoeren:

df['Name'].str.contains('Bonnell') # geeft True or False

df[df['Name'].str.contains('Bonnell')] # True als voorwaarde voor selectie in het df

df[df['Name'].str.contains('Bonnell')].index # geeft rij terug waar Bonnell in staat

Index(['c'], dtype='object')

In [136]:
# Groeperen
# ...

In [137]:
# Extra: toepassing OOP en het bouwen van je eigen library
# ...