# Data engineering

## Imports

In [None]:
import pandas as pd
import numpy as np
import math

## CSV bestanden

### CSV maken

In [None]:
# een data frame wegschrijven naar een bestand
f = pd.DataFrame({"a":["bla", "boe", "bla"], "b":[1.1, 2.2, 3.3]})
print(f)
# je kan ook de huidige directory wijzigen:
# import os
# os.chdir("/tmp")
f.to_csv("testje_nl.csv", sep=";", decimal=",", index=False)
f.to_csv("testje_en.csv", sep=",", decimal=".", index=False)

### CSV lezen

In [None]:
# Engelstalig bestand
data_en = pd.read_csv("data_en.csv", sep=",", decimal=".", header=0)
print(data_en)

In [None]:
# Nederlandstalig bestand
data_nl = pd.read_csv("data_nl.csv", sep=";", decimal=",", header=0)
print(data_nl)

In [None]:
# Met en zonder header
data_nl = pd.read_csv("data_nl.csv", sep=";", decimal=",", header=None)
print(data_nl)

In [None]:
# algemeen:
# data = pd.read_csv('bestandsnaam.csv', sep='separator', decimal='komma', skiprows=aantalCommentaarRegels, header=regelnummer, encoding='encodering')
data_nl = pd.read_csv("data_nl.csv", sep=";", decimal=",", skiprows=0, header=0, encoding='utf-8')
print(data_nl)

fouten bij inlezen:

In [None]:
tabel = pd.read_csv('bestand1.csv', sep=',')

In [None]:
tabel = pd.read_csv('bestand1.csv', sep=',', on_bad_lines='skip')

# Informatie verkrijgen

In [None]:
print(data_en)

In [None]:
print(data_en.head(n=3))

In [None]:
data_en.info()

In [None]:
data_en.describe()

In [None]:
data_en.gewicht.describe()

In [None]:
s = pd.Series(['bla', 'bla', 'boe', 'bie', 'boo', 'boo', 'bla'])
s.describe()

## Ontbrekende waarden

In [None]:
data = pd.Series([1, np.nan, 2, None, pd.NA, math.nan])
print(data)

In [None]:
print(data.isna())

In [None]:
data.isna().sum()

In [None]:
data.dropna(inplace=True)
print(data)

werkt ook op tabellen:

In [None]:
df = pd.DataFrame({'a':[1, np.nan, 2, None, pd.NA, 3], 'b':range(6)})
df.iloc[2, 1] = math.nan
print(df)

In [None]:
df.isna().sum().sum() # totaal aantal ontbrekende waarden

In [None]:
df = df.dropna() # wis alle rijen met ontbrekende waarden
print(df)

In [None]:
df.dropna(inplace=True)
print(df)

## Ontbrekende waarden bij het inlezen

In [None]:
tabel = pd.read_csv('bestand2.csv', sep=';', decimal=',')
tabel.info() # lengte en gewicht werden niet herkend als getallen.  Waarom?

In [None]:
print(tabel)

In [None]:
print(tabel.lengte.unique())

Zet alle komma's om naar punten in kolom "lengte":

In [None]:
tabel.lengte = tabel.lengte.str.replace(',', '.', regex=False)
print(tabel)

Zet kolom "lengte" om naar getallen

In [None]:
tabel.lengte = pd.to_numeric(tabel.lengte, errors='coerce')
print(tabel)

In [None]:
print(tabel.info())

Zet kolom gewicht nu ook om naar getallen:

In [None]:
tabel.gewicht = pd.to_numeric(tabel.gewicht, errors='coerce')
print(tabel)
tabel.info()

Dit kon ook allemaal iets sneller:

In [None]:
tabel = pd.read_csv('bestand2.csv', sep=';', decimal='.', header=0, na_values=['Missing'])
tabel.lengte = tabel.lengte.str.replace(',', '.', regex=False)
tabel.lengte = pd.to_numeric(tabel.lengte, errors='coerce')
print(tabel)

In [None]:
tabel.info()

In [None]:
tabel.describe()

## Ontbrekende waarden bij omzettingen

In [None]:
kolom = pd.Series(['a', 'b', 'a', 'c', 'a', 'b'])
cats = pd.Categorical(kolom, categories=['a', 'b'])
print(cats)

In [None]:
print(kolom.unique())

## Omgaan met ontbrekende waarden

Niets doen...

## Omgaan met ontbrekende waarden: verwijderen

In [None]:
print(tabel.dropna(axis='rows'))

In [None]:
print(tabel.dropna(axis='columns'))

## Omgaan met ontbrekende waarden: vervangen

In [None]:
waarden = ['geslaagd', 'geslaagd', np.nan, 'niet geslaagd']
scores = pd.Series(waarden)
print(scores)

In [None]:
scores.fillna("niet deelgenomen", inplace=True)
print(scores)

Let op: vervang ontbrekende getallen niet zomaar door 0!  Dat beïnvloed de data te veel.

## Interpoleren

In [None]:
waarden = [18.4, math.nan, 19.5, 20.5, 20.5, 19.5, math.nan, 17.8]
temps = pd.Series(waarden)
print(temps.tolist())

In [None]:
import matplotlib.pyplot as plt
plt.plot(temps, 'o-')

In [None]:
new_temps = temps.interpolate() # lineaire interpolatie
print(new_temps.tolist())

In [None]:
(18.4+19.5)/2

In [None]:
plt.plot(new_temps, 'o-')

In [None]:
new_temps = temps.interpolate(method='spline', order=3) # cubic splines
print(new_temps.tolist())

In [None]:
plt.plot(new_temps, 'o-')

## Verkeerde waarden

In [None]:
geslacht = pd.Series(['v', 'm', 'x', 'f', 'v', 'm', 'v', 'v'])
x = range(8)
tabel = pd.DataFrame({'geslacht': geslacht, 'x': x})
print(tabel)

In [None]:
print(tabel.geslacht.unique())

In [None]:
rijen = tabel.geslacht == 'f'
print(rijen)

In [None]:
tabel.loc[rijen, 'geslacht'] = 'v'
print(tabel)

## Delen vervangen

In [None]:
kolom = pd.Series(['dit ', 'en dat', 'is een testje '])
print(kolom)

In [None]:
kolom = kolom.str.replace(' ', '_', regex=False)
print(kolom)

In [None]:
kolom = kolom.str.replace('d.t', 'dot', regex=True)
print(kolom)

## Datatypes

In [None]:
tabel = pd.read_csv('bestand3.csv', sep=',', decimal='.', header=0)
tabel.info()

In [None]:
print(tabel)

In [None]:
tabel.waarde = pd.to_numeric(tabel.waarde, errors='coerce')
print(tabel.waarde)
# kan je dit ook bij het inlezen al oplossen?

In [None]:
print(tabel.betrouwbaarheid.unique())

In [None]:
cats = [ "ontoereikend", "slecht", "goed"]
tabel.betrouwbaarheid = pd.Categorical(tabel.betrouwbaarheid, categories=cats, ordered=True)
print(tabel.info())

In [None]:
tabel.datum = pd.to_datetime(tabel.datum, format='%Y-%m-%d')
print(tabel.info())

In [None]:
tabel.tijdstip = pd.to_datetime(tabel.tijdstip, format='%H:%M')
print(tabel.info())

In [None]:
print(tabel) # bemerk dat een tijdstip altijd een datum bevat

In [None]:
print(tabel.tijdstip.dt.time)