# Data analyse met Python

## Introductie

Python wordt steeds populairder voor data-analyse. Dit komt voornamelijk door de grote ontwikkeling de afgelopen paar jaar ivan paketten die het doen van data-analyse in en met Python makkelijker maken, waaronder:
* **NumPy** voor numerieke bewerkingen en mathematische functies
* **pandas** voor het werken met tabulaire data
* **Matplotlib** voor het creëren van 2D grafische visualisaties
* ** Seaborn** uitbreiding op Matplotlib
* **Jupyter notebook** webapplicatie voor het documenteren van data-analyse projecten  


In [189]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://r4ds.had.co.nz/diagrams/data-science-explore.png")

Deze tutorial/workshop is opgebouwd uit de volgende onderdelen.
1. Creëren, inlezen en opslaan van gegevens
2. Het leren kennen van de dataset
3. Het verwerken en opschonen van gegevens
4. Exploratieve data analyse en visualisatie

Per onderdeel behandel ik in het kort de basisprincipes van de belangrijktste stappen in de data analyse, waarin je de meest gebruikte methoden en functies leert toe te passen aan de hand van een aantal datasets.

Maar voordat we beginnen moeten we eerst de pakketten **`numpy`** en **`pandas`** importeren. 

In [7]:
import numpy as np
import pandas as pd

### 1. Creëren, inlezen en opslaan van gegevens
Ruwe data worden meestal opgeslagen in de vorm van tabellen, oftewel een reeks van rijen en kolommen, waarin de kolommen de variabelen presenteren en de kolommen de individuele observaties. De twee krachtigste objecten in het `pandas` pakket om met tabellen te werken zijn `Series` en de `DataFrame`. 
Laten we eerst is kijken naar het `Series`-object.

Het voordeel van een panda-Series object is dat je de index ook een waarde kan meegeven en het maakt niet uit welk data-type dat is. Je kunt het je voorstellen als het geven van een naam aan de observaties in een dataset (de rijen van een tabel). Dus als we kijken naar het vorige voorbeeld dan wordt het commando van een panda-series object dus als volgt: `pd.Series([data], index=index)`.

Maar je kunt `Series` ook opvatten als een speciaal soort Python *dictionary*.

Nu naar de **Dataframe**. Dit is eigenlijk een **Series**, maar dan niet 1-dimensionaal, maar 2-dimensionaal. Naast dat het een `index` attribuut heeft voor de rijen, heeft het ook een `index` attribuut voor de kolommen. Op deze manier hebben we dus toegang tot alle waarden in de data via de rij-index en de kolom-index. Een pandas-dataframe kan op verschillende manieren worden gecreëerd. Ik laat hieronder twee manieren zien:

In [2]:
## Vanuit een bestaande pandas-Series


In [3]:
## Vanuit een dictionary van Series objecten

hoofdsteden = pd.Series(["Groningen", "Leeuwarden", "Assen", "Zwolle", "Lelystad", "Haarlem", 
                         "Den Haag", "Utrecht", "Arnhem", "Den Bosch", "Middelburg", "Maastricht"])
provincies = pd.Series(["GR", "FR", "DR", "OV", "FL", "NH", "ZH", "UT", "GD", "NB", "ZL", "Li"])
inwoners = pd.Series([195839, 96174, 67153, 122737, 76081, 154352, 507611, 324723, 150354, 143373, 54687, 121317])
specialiteit = pd.Series(["Grunneger Kouke", "Fryske dúmkes", "Knieperties", "Zwollse Balletjes", 
                          "Lekkerding", "Haarlemmer Halletjes", "Haagsche Kakker", "Tekantjes", 
                          "Arnhemse meisjes", "Bossche Bol", "Zeeuwse Bolus", "Limburgse Vlaai"])

df_hoofdsteden = pd.DataFrame({'Hoofdsteden': hoofdsteden, 'Provincie':provincies, 
                               'Inwonertal':inwoners, 'Lekkernij':specialiteit})



NameError: name 'pd' is not defined

## <font color="#990000">Opdracht 1
<font color="#990000"> 
Creëer hieronder een dataframe met de volgende vorm: <br> 

| Fruit  |Aantal|Kleur |
| ------ |:---:|:------|
| Banaan |3    |geel   |
| Appel  |5    |rood   |
| Peer   |2    |groen  | 
| Bosbes |50   |blauw  |

<br>Meestal zul je werken aan bestaande data. Deze kunnen zijn opgeslagen in verschillende type bestanden. Het pandas-pakket kent verschillende functies die het makkelijk maken om tabulaire data in Python in te laden als een DataFrame object. De functies die je het meest zult gebruiken zijn:
* **read_table** - voor het inlezen van data met tabs als scheidingsteken
* **read_csv**   - voor het inlezen van data met komma's als schedingsteken

Hieronder ga ik een csv-bestand inlezen. Dit bestand heeft de naam *titanic.csv*. Zorg ervoor dat je het bestand in de bestandsmap heb staan van waaruit je werkt. Anders kan jupyter notebook het bestand niet vinden.  

In het voorbeeld hierboven staat het argument `sep` voor *separator*. We hoeven in dit geval niet specifiek `sep=","` door te geven omdat de komma de defaultwaarde is. Maar het komt ook voor dat gegevens worden gescheiden door andere tekens, bijvoorbeeld een tab `'\t'` of een punt-komma `';'`. Dan moet dit wel specifiek worden doorgegeven aan het argument `sep`. De functie **`read_csv`** heeft nog veel meer additionele argumenten die je kunt gebruiken. Handig zijn bijvoorbeeld de argumenten voor het overslaan van rijen, het benoemen van kolommen of het verwijderen van `NaN`s (lege waarden). Een volledige lijst vind je in de documentatie: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html.

## <font color="#990000">Opdracht 2
<font color="#990000"> In jullie werkmap bevinden zich als het goed is ook de bestanden **Weerstations.csv** en **Temperatuur_2017.csv**. Lees deze bestanden in met de methode **read_csv**. Maar let op dat de bestanden een **;** gebruiken als scheidingsteken. <br> Verderop in deze tutorial gaan we naar deze datasets kijken, dus print ze nog niet naar de console.

In [None]:
weerstations =

In [None]:
temp_2017 =

<br> Het is ook makkelijk om je data weg te schrijven naar een bestand. Dit kan met de functie **`df.to_csv`**. Laten we hiervoor de dataframe nemen met de provinciehoofdsteden.

Als het goed is bevind er zich nu een bestand met de naam *Provinciehoofdsteden* in de bestandsmap waarin je nu werkt. 

## <font color="#990000">Opdracht 3
<font color="#990000"> In opdracht 1 heb je een dataframe gemaakt. Schrijf deze dataframe nu weg naar een csv-bestand. Noem dit bestand "Mijn_Dataframe.csv"
<br>

<br> 
## 2. Het leren kennen van de dataset
Een belangrijke stap nadat je een dataset hebt ingeladen, is het leren kennen ervan. Je wilt bijvoorbeeld weten wat de dimensies zijn, dat wil zeggen uit hoeveel rijen en kolommen de dataset bestaat. Ook is het belangrijk om te weten wat het datatype is van elke kolom en wat de betekenis is van elke variabele. Ook komt het vaak voor dat er gegevens missen en wil je weten hoeveel datapunten geen waardes hebben en waar zich die bevinden in de dataset. Hieronder laat ik een greep zien uit de functies en methoden die je kunt toepassen op je dataset om daarachter te komen en zo een goed beeld te krijgen waar je mee te maken hebt. 

Het eerste wat we gaan doen is het bekijken van onze dataset. Hiervoor kunnen we een aantal functies toepassen. 

In [1]:
## Laat de eerste 6 rijen van de dataset zien


In [3]:
## Laat de laatste 6 rijen van de dataset zien


In [4]:
# Produceert een tuple van de dimensies van de dataframe
      

In [5]:
# Selectie van de shape-tuple (aantal rijen)
    

In [6]:
# Selectie van de shape-tuple (aantal kolommen)
    

In [7]:
# Retourneert een index-lijst van de kolomlabels


In [8]:
# Toont een overzicht van de data-types van alle variabelen in de dataset (kolommen)


In [9]:
# Geheel overzicht van het aantal 'niet-ontbrekende' waardes per variabele en het datatype


In [10]:
## Count van alle ontbrekende waardes (NaN) per variabele


## <font color="#990000">Opdracht 4
<font color="#990000"> Pas nu bovenstaande methodes toe op de twee dataframes die je eerder hebt ingeladen (temp2017 en weerstations). Deze datasets bevatten de gemiddelde, minimum en maxium dagtemperaturen over 2017 van alle weerstations in Nederland en de tweede dataset bevat informatie over deze weerstations. De data is afkomstig van het KNMI.
<br>Beantwoord voor jezelf de volgende vragen: 
* Uit hoeveel rijen en kolommen bestaan de datasets?
* Wat zijn de datatypes van de variabelen?
* Zijn er ontbrekende waardes en hoeveel?

Vaak willen we alleen bepaalde kolommen selecteren. Dat wordt ook wel indexeren genoemd. Pandas biedt veel manieren om te indexeren en er is soms dan ook wat verwarring over. Ik laat jullie hieronder de 2 meest gangbare manier zien. De eerste is op basis van het selecteren op label (kolom- of rij-naam). Dit wordt ook wel expliciet indexeren genoemd en hiervoor gebruik je de `.loc[]` methode. De tweede is op basis van het selecteren op rij- of kolom-index. Dit wordt ook wel impliciet indexeren genoemd en hiervoor gebruik je de `.iloc[]` methode. 

In [11]:
## Een enkele kolom selecteren op basis van kolom-naam:


In [12]:
## Een enkele kolom selecteren op basis van kolom-index:


In [13]:
## Meerder opeenvolgende kolommen selecteren op basis van kolom-naam


We hebben deze dataset geen naam meegegeven voor de rijen, dus we kunnen rijen alleen *impliciet* indexeren:

In [14]:
## Een enkele rij selecteren op basis van rij-index:


In [16]:
## Selecteren van meerdere rijen
                                         # let wel op dat de selectie gaat van begin-index tot eind-index

We kunnen ook een selectie maken op basis van een bepaalde conditie.

In [15]:
## Selecteert alle pasagiers die in de eerse klas reisden


In [17]:
## Selecteert alle mannelijke passagiers


In [18]:
## Selecteert alleen alle overlevende mannen
 ## Hier gebruik ik de dot-notatie

Dus van de 577 mannelijke pasagiers van de Titanic hebben maar 109 mannen de ramp overleefd!


## <font color="#990000">Opdracht 5
<font color="#990000"> 
* Vanuit de titanic dataset, selecteer de kolom met de naam "fare" 
* Vanuit de titanic dataset, selecteer rij 121
* Selecteer nu alle vrouwelijke pasagiers. Hoeveel vrouwen waren er aan boord van de Titanic?
* Hoeveel vrouwen hebben de ramp overleefd?
    
<br>

## 3. Het verwerken en opschonen van gegevens
Een data-analist spendeerd het grootste gedeelte van zijn/haar tijd aan het opschonen van gegevens. Hetis dus belangrijk om deze stap van het data analyse proces te beheersen. Een aantal taken die vaak terugkomen zijn:

* Het verwijderen van onnodige kolommen
* Het hernoemen van kolommen met herkenbare labels
* Het samenvoegen van tabellen op basis van een identieke *key*
* Het opsporen en verwijderen van ontbrekende waarden

Voor dit onderdeel gaan we met opnieuw werken met de twee datasets van het KNMI. 

In [116]:
weerstations = pd.read_csv("Weerstations.csv", sep=";")
temp2017 = pd.read_csv("Temperatuur_2017.csv", sep=";")

Het eerste wat we gaan doen is de kolommen die we niet nodig hebben voor onze analyse verwijderen uit onze dataset. In dit geval zijn dat de kolommen LON(east), LAT(north) en ALT(m) in de weerstation-dataset. Dit gaan we doen door middel van de `.drop` methode. Als argument nemen we de index van de kolommen die we willen verwijderen. Het tweede argument is `axis=1` waarmee we aangeven dat we kolommen willen verwijderen (voor het verwijderen van rijen staat de default op `axis=0`).

## <font color="#990000">Opdracht 6
<font color="#990000"> Nu hebben we nog steeds twee kolommen die dezelfde informatie bevatten. Verwijder de kolom 'CODE' uit de weerstation-dataset. <br>Gebruik hiervoor de **.drop** methode.

<br>
Nu kunnen we de twee datasets samenvoegen op basis van de kolom **STN** die in beide datasets voorkomt. We gebruiken hiervoor de `pd.merge` methode vanuit het pandas pakket. Deze methode herkent de overeenkomstige kolom automatisch en gebruikt de kolom als 'key' om de twee datasets bij elkaar te voegen. Het resultaat is een nieuwe dataset.

We hebben nu één dataset. Verolgens is het tijd om betere labels te maken voor de kolommen, zodat de betekenis ervan duidelijker wordt. We maken eerst een lijst met de nieuwe labels en daarna vervangen we de oude labels door middel van de methode `.columns`.

We zijn al een heel eind zo. Maar het zal je niet ontgaan zijn dat bij de laatste drie kolommen die de temperatuurmetingen bevatten het woordje **NaN** staat. Dit betekent letterlijk *Not a Number* en is eigenlijk een lege waarde. Dit komt vaak voor in de data analyse en betekent vaak dat er voor deze specifieke datapunten geen meting is gedaan. De volgende stap is dan ook deze NaN-waardes te inspecteren en omdat we in dit geval alleen geïnteresseerd zijn in echte metingen gaan we de NaN's uit onze dataset verwijderen.

In [19]:
## Hoeveel NaN's zijn er?


In [20]:
# Het verwijderen van de rijen die NaN's bevatten


Nu gaan we wat zaken combineren. Ik ben bijvoorbeeld geïnteresseerd in de maximum-temperatuur en wil graag wanneer dat was en waar. Ik ga eerst de kolommen verwijderen waar ik niet in geïnteresseerd ben en sla de resterende kolommen op in een nieuwe dataframe.

In [133]:
temp_max = 

Nu kunnen we de functie `.sort()` gebruiken om de data te sorteren op maximum temperatuur. Dit kan op verschillende manieren.

In [21]:
## Via de dot-notatie. Retourneert een pandas series



In [22]:
# Alternatieve manier via de kolom-label. Resultaat is hetzlefde als hierboven.



In [23]:
# De hele dataframe sorteren op basis van een kolom


## <font color="#990000">Opdracht 7
<font color="#990000"> 
* Onderzoek wat de minimum-temperatuur was in 2017 en waar en wanneer dat was.
* De Titanic-dataset heeft aardig wat kolommen met dezelfde informatie (bijvoorbeeld de kolommen 'sex' en 'who'). Verwijder naar eigen inzicht dubbele kolommen en sla op als een nieuwe dataset met de naam **titanic2**. Hernoem de kolommen naar eigen inzicht met nieuwe labels. (Bijvoorbeeld 'Leeftijd' voor de kolom 'Age'.) 

<br>
## 4. Exploratieve data analyse en visualisatie

Op het moment dat we onze data hebben opgeschoond en geïnspecteerd kunnen we gaan beginnen met het exploratieve deel. Dit ga ik opnieuw illustreren aan de hand van de Titanic dataset. We hebben al gezien dat deze dataset veel informatie bevat over de befaamde tocht die eindigde in een catastrofe. We willen graag wat meer inzicht krijgen. Dit gaan we doen aan de hand van wat statistiek en draaitabellen. 

Ik heb de originele titanic-dataset wat opgeschoond. Dat wil zeggen, ik heb kolommen met dubbele informatie verwijderd en de kolommen een betekenisvolle naam in het nederlands gegeven. Deze nieuwe dataframe heb ik opgeslagen als **titanic2**.

In [152]:
titanic2 = pd.read_csv("Titanic2.csv", sep=";")

In [24]:
## Handige methode om een totaalbeeld te krijgen van de data


In [25]:
## Dit kunnen we ook per variabele bekijken


In [26]:
## De som van alle overlevenden:


Ik ben zelf erg nieuwsgierig naar de relatie tussen de overlevingsstatus en sexe. Dit kunnen we doen met de methode `groupby`.

Dat betekent dat drie-kwart van de vrouwen het hebben overleefd en minder dan een-vijfde van de mannen! <br>
Ik zou verder graag willen weten of er ook nog een relatie bestaat met de klasse. Maar de methode `groupby` wordt dan te ingewikkeld om te gebruiken voor het toevoegen van meer lagen. Gelukkig heeft pandas ook nog de methode `pivot_table` die veel geschikter is voor het werken met multi-dimensionale aggregaties:

Dit maakt het gelijk duidelijk dat meer dan 90% van de vrouwen in de eerste en tweede klassen de ramp hebben overleefd, terwijl de overlevingskansen voor de mannen in de tweede en derde klassen extreem laag waren. <br>
Laten we er nog een laag bij doen, die voor leeftijd en om de scheiding te maken tussen kinderen en volwassenen gebruiken we de `pd.cut` functie.

Laten we dit gaan visualiseren. Hiervoor moeten we nog twee andere pakketten importeren, namelijk **matplotlib** en **seaborn**. 

In [179]:
import matplotlib.pyplot as plt
import seaborn as sns

In [27]:
## Overlevingspercentages per sexe


In [28]:
## Overlevingspercentages per klasse



In [29]:
## Histogram van de leeftijdsverdeling van de passagiers


De leeftijdsdistributie voor overlevenden en niet-overlevenden is vrijwel gelijk. Wat vooral opvalt is dat de grafiek van de overlevenden uit twee pieken bestaat. Dit betekent dat een groter aantal kinderen de ramp hebben overleefd. Wel moeten we een kant-tekening zetten bij deze distributie, want zoals hierboven aangegeven, van 177 passagiers is de leeftijd niet bekend en dit heeft zonder twijfel invloed op de distributie. <br>
Laten we eenzelfde distributie maken van de prijs van een ticket.

Een schokkend resultaat. Er is duidelijk een verschil in ticketprijs voor overlevenden en niet-overlevenden!