# Data Processen
Data kan je op verschillende manieren verwerken in Python. Onder andere bij Programmeren IK heb je kennisgemaakt met de ingebouwde Python functionaliteit om een bestand te openen d.m.v. de `open()` functie. Dit ziet er zo uit:

```
with open("rit.tsv", "r") as f:
    # pass
```

Dit opent het bestand `rit.csv` in "read"-modus. Je kan er dus alleen uit lezen. Je kan het bestand ook openen in o.a. "write"-modus en "append"-modus, maar in deze opdracht is dat niet nodig.

Daarnaast heb je gewerkt met databestanden door deze in te lezen via ingebouwde Python functies zoals:


```
with open("rit.tsv", "r") as f:
    for line in f:
        print(line)
```

```
with open("rit.tsv", "r") as f:
    lines = f.readlines()
    for line in lines:
        print(line)
```

Deze manier van inlezen past goed bij ongestructureerde textuele data zoals een boek of deze opdrachttekst. Voor gestructureerde data zoals een excel sheet of een csv-bestand werkt dit minder. Hiervoor gaan we leunen op "the shoulders of giants".

## Pandas

Allereerst vragen we je in de opdrachten hieronder jezelf bekend te maken met `pandas`. Dat is een waanzinnig populaire Python library voor Data Science. Daarbij gebruiken we het boek van de auteur van `pandas` zelf. Soms moet je een stukje lezen, maar vaak kan je het boek beter ter referentie gebruiken. Alle informatie die je nodig hebt om de opdrachten te maken kun je vinden in de pagina's waarna we verwijzen.

Daarna ga je aan de slag met een grotere opdracht, het analyseren van het rijgedrag van een bestuurder op de ring.

Je zult soms een `DeprecationWarning` krijgen als je het boek volgt. Dat is omdat delen van de library uitgefaseerd en geüpdate worden. Zo heet `DataFrame.ix` nu `DataFrame.loc`. Kom je zo'n waarschuwing tegen, lees hem goed en volg de aanbeveling op.

Lees nu allereerst hoofdstuk 5 tot en met het kopje Series (pagina's 111 t/m 115) in [Python for Data Analysis](http://bedford-computing.co.uk/learning/wp-content/uploads/2015/10/Python-for-Data-Analysis.pdf)

### Oefenen met Series
Creëer een `Series` genaamd `income` van de volgende inkomensgegevens:

In [None]:
from pandas import Series
import pandas as pd

income_sources = ["sales", "ads", "subscriptions", "donations"]
income_figures = [39041, 8702, 13200, 292]
income= None
# YOUR CODE HERE
raise NotImplementedError()
income

In [None]:
assert type(income) is Series, "dit moet een series zijn"

Creëer een `Series` genaamd `outcome` van de volgende uitgaafgegevens en creëer een `Series` genaamd `profit` met de winst (income minus outcome). Maak een variabele `total_profit` met daarin de uitkomst van de som van `profit`.

In [None]:
outcome_sources = ["ads", "sales", "donations", "subscriptions"]
outcome_figures = [4713, 24282, 0, 3302]
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert type(outcome) is Series
assert type(profit) is Series
float(total_profit)

### Oefenen met DataFrames

Lees verder tot en met Dataframes (pagina's 115 t/m 120) in [Python for Data Analysis](http://bedford-computing.co.uk/learning/wp-content/uploads/2015/10/Python-for-Data-Analysis.pdf)

Zet de volgende tabel in een `DataFrame` genaamd `skittles` met als columns `amount` en `rating` en als index de verschillende kleuren:


| color | amount | rating |
|-------|--------|--------|
| red   | 7      | 3      |
| green | 4      | 4      |
| blue  | 6      | 2      |
| purple| 5      | 4      |
| pink  | 6      | 3.5    |

In [None]:
from pandas import DataFrame

# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert type(skittles) is DataFrame

Sla de gemiddelde rating van de skittles op in een variabele `skittles_average`

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
float(skittles_average)

Voeg een nieuwe kolom toe genaamd `score`. De score van een kleur is gelijk aan `amount * rating`

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
skittles["score"]

## Oefenen met data wranglen

Gebruik bij de volgende opdrachten pagina's 122 t/m 136 in [Python for Data Analysis](http://bedford-computing.co.uk/learning/wp-content/uploads/2015/10/Python-for-Data-Analysis.pdf) als naslag. Je hoeft het niet allemaal te lezen, maar ga opzoek naar de operaties die je nodig hebt.

Herindexeer het volgende dataframe op columns 'a', 'c' en 'e' met indices 10, 20, 50, 60 en sla deze weer op in de variabele `frame`.

In [None]:
import numpy as np

frame = DataFrame(np.arange(6*7.).reshape((6, 7)), index=[10,20,30,40,50,60], columns=list('abcdefg'))
# YOUR CODE HERE
raise NotImplementedError()
frame

In [None]:
assert type(frame) == DataFrame

Zet alle waardes die deelbaar zijn door 3 in het volgende dataframe naar 0 en sla deze weer op in de variabele `frame`.

In [None]:
frame = DataFrame(np.arange(6*7).reshape((6, 7)), index=[10,20,30,40,50,60], columns=list('abcdefg'))
# YOUR CODE HERE
raise NotImplementedError()
frame

In [None]:
assert type(frame) == DataFrame

Maak een variabele `series_c` met daarin het resultaat van `series_a - series_b`. Bij missende data in `series_b` gebruik je waarde 0. Zorg ervoor dat `series_c` dezelfde index kent als `series_a`

In [None]:
series_a = Series([500, 400, 300, 200, 100], index=["a", "b", "c ", "d", "e"])
series_b = Series([23, 46, 67, 79], index=["a", "c ", "f", "g"])
series_c = None
# YOUR CODE HERE
raise NotImplementedError()
series_c

In [None]:
assert all(type(s) is Series for s in [series_a, series_b, series_c])
pd.testing.assert_index_equal(series_a.index, series_c.index)

Zet alle woorden in de Series `words` om naar lowercase. Hiervoor kun je de functie `str.lower` gebruiken.

In [None]:
words = Series(["foo", "Bar", "baz", "QUX", "QuUuX"])
# YOUR CODE HERE
raise NotImplementedError()
words

In [None]:
assert type(words) is Series

Sorteer `frame` op aflopend (descending) op kolom `c` en sla `frame` vervolgens weer op.

In [None]:
data = [['0.691074', '-1.272521', '-0.968045', '-2.066171', '-0.670358', '1.399483', '-1.148168'],
       ['1.753780', '2.409629', '1.842674', '0.754906', '-0.115614', '0.877219', '1.599362'],
       ['-1.411760', '1.103801', '1.216514', '0.548866', '2.255482', '-0.176342', '0.965265'],
       ['-0.741689', '0.216645', '-0.278025', '0.777175', '0.869239', '-0.943004', '-0.140957'],
       ['-1.585930', '1.179600', '-0.702286', '2.367875', '0.592748', '1.386158', '0.535978'],
       ['0.584980', '0.623890', '-0.425614', '0.530479', '-1.818631', '-1.593188', '1.591233']]

frame = DataFrame(data, columns=list('abcdefg'))
# YOUR CODE HERE
raise NotImplementedError()
frame

In [None]:
assert type(frame) is DataFrame

Vul in de Series `speeds` hieronder de missende data in. Gebruik hiervoor de vorige bekende snelheid. Doe dit tot maximaal 3 datapunten na het laatst bekende punt. Verwijder vervolgens alle missende data.

Kijk hiervoor even naar pagina's 145 en 146 in [Python for Data Analysis](http://bedford-computing.co.uk/learning/wp-content/uploads/2015/10/Python-for-Data-Analysis.pdf).

In [None]:
speeds = Series(
         [49, 51, None, None, 50, 48, 47, 50,
          51, 47, 46, None, 46, 48, 48, 48,
          None, 49, None, None, None, None,
          None, 50, 50, 50, 51, 52, 51, 50,
          None, 50, None, None, None, None,
          None, 50, 49, 48, 49, None, 50, 50, 49])
# YOUR CODE HERE
raise NotImplementedError()
speeds

In [None]:
assert type(speeds) is Series

# Rijgedrag
Zoals je weet kent de ring van Amsterdam nog wel eens file. De gemeente wil deze files verminderen door onder andere het gebruik van het openbaar vervoer te stimuleren. Dat kan de gemeente op verschillende manieren doen, denk aan extra openbaar vervoer inzetten op verschillende trajecten en tijden, maar ook lokale campagnes om het gebruik aan te moedigen. De gemeente heeft een gelimiteerd budget en wil een weloverwogen door data gedreven keuze maken.

Dus is er een team van data scientists ingehuurd om het rijgedrag op de ring te analyseren en daarvanuit een aanbeveling te doen voor het bevorderen van het gebruik van het openbaar vervoer. In samenwerking met een zeker Nederlands navigatiebedrijf is er data verzameld over het rijgedrag van individuën op de ring. Als onderdeel van de analyse worden individuën gegroepeerd op basis van gereden routes en rijgedrag. Naar aanleiding van de gevonden groepen kan er wellicht een aanbeveling gedaan worden voor een nieuwe busroute of een campagne in een bepaalde wijk van Asmterdam.

Om te kunnen groeperen hebben we allereerst data nodig. Moeten we de data kunnen inlezen en verwerken. Daarna rest de taak om hier features uit te winnen waarmee we correlaties kunnen vinden. In deze opdracht ga je de gegevens van één rit inlezen, verwerken en inzichtelijk maken. Alle data van de gemaakte rit vind je in `car.tsv`.

`car.tsv` is een tab seperated values bestand. Eigenlijk dus een `.csv`, maar dan net even met een andere verdeler. Hieronder hebben we het hele databestand voor je ingeladen door middel van de `read_csv` functie van `pandas`. Meteen daaronder zie je de eerste 5 datapunten uit het bestand. Jupyter en `pandas` werken hier fijn samen, want je ziet hier een opgemaakte tabel. 

In [None]:
# Load data
frame = pd.read_csv("car.tsv", sep="\t")

# Plot the route
frame.plot.scatter("long", "lat")

# Print the first 5 datapoints
frame.head()

Niet alle data in `car.tsv` is even nuttig. Zo is `timestamp` gelijk aan `recordtime`! Ook hebben we bij deze opdracht niet alle kolommen nodig. Herindexeer daarom hieronder het `frame` naar kolommen `time`, `timestamp`, `lat`, `long`, `speed`, en `course`.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert type(frame) is DataFrame

De originele `timestamp` uit `car.tsv` is niet precies, het stukje code hieronder maakt een nieuwe kolom `timeSpent` door het verschil te nemen in de kolom `time`. 

De kolom `time` zelf bestaat uit strings, dus dit moet eerst geparsed worden naar iets waar we mee kunnen rekenen. Python heeft hiervoor de ingebouwde library `datetime`. Daarin zit een functie `strptime` (lees: string parse time). De zelf geschreven functie `time_parser` doet dit werk voor je. Vervolgens wordt `time_parser` uitgevoerd voor elk datapunt in `frame["time"]`. Daarna wordt `.diff()` uitgevoerd, dit neemt het verschil tussen elk punt en het voorgaande punt. Noodzakelijk vullen we dus 0 in op het eerste punt!  

In [None]:
from datetime import datetime

def time_parser(time_string):
    # If time_string was already parsed, skip
    if not isinstance(time_string, str):
        return time_string
    # Otherwise parse
    return datetime.strptime(time_string, "%Y-%m-%d %H:%M:%S.%f").timestamp()

frame["timeSpent"] = frame["time"].map(time_parser).diff()
frame.at[0, "timeSpent"] = 0
frame.head()

Nu we weten hoeveel tijd er is besteed en ook de snelheid op elk datapunt kan je de afgelegde afstand berekenen. Sla de afgelegde afstand (in meters) op in een variabele genaamd `distance_travelled`. Let op, de snelheid is ook al in m/s. 

In [None]:
distance_travelled = 0
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
float(distance_travelled)

Hoeveel percent van de tijd heeft is er langzamer dan 50 km/h gereden? Let op, de snelheid is nu in m/s. Sla dit op in een variabele genaamd `percent_below_50`. Dit moet een waarde tussen 0.0 en de 100.0 zijn!

In [None]:
percent_below_50 = 0.0
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
float(percent_below_50)

Hoeveel seconden stond de bestuurder stil (snelheid < 1m/s)? Sla het aantal seconden op in een variabele genaamd `time_waiting`.

In [None]:
time_waiting = 0
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
float(time_waiting)

Waar zijn de scherpe bochten? Plot alle punten in een scatter plot waar de bestuurder meer dan 3 graden van koers is veranderd tussen twee opvolgende datapunten. Sla daarnaast het aantal seconden dat de bestuurder zich in een scherpe bocht bevond in een variabele genaamd `time_corners`.

Een scatterplot maken doe je met de DataFrame methode `.plot.scatter`. Bij deze opdracht kun je de volgende aanroep gebruiken: `.plot.scatter("long", "lat")`

In [None]:
time_corners = 0.0
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
float(time_corners)