# Introductie Machine Learning with Python

**Leerdoelen**: je maakt kennis met Machine Learning, termen die rol spelen, een machine learning werkwijze, en de bouwstenen om een machine learning systeem te maken.


**Aanbevolen bronmateriaal**

__[[VanderPlas]](https://jakevdp.github.io/PythonDataScienceHandbook/)__, Python Data Science Handbook, O'Reilly, 2016.


**Gereedschap**

Alle packages zitten in de <a href="https://www.anaconda.com/download/#macos" target="_blank">Anaconda distributie</a>, hetgeen het aanbevolen development platform is, incl. Jupyter Notebooks, **Python 3**

Materiaal bijgewerkt 7 november 2019.

----------------

## 1. Voorkennis <a id="voorkennis"></a>

De aanname is dat je over de volgende vaardigheden en kennis beschikt, of, bereid bent dat in te halen of te herhalen.:

- **basis Python**
> - Python syntax, concepten variabelen, expressies, iteraties, list, dict, functies, en modulen.
> - Jupyter notebooks
> - Zie de leerstof van Smart World m.n. 'smart data'.
> - Jupyter notebook: `Python112`

- **basis algorithm en datastructuren**
> - Je weet wat een algorithm is
> - Je kan enkele eenvoudige voorbeeld van algorithms, zoals sort, search en recursie.
> - Leerstof van de module "algorithm en datastructuren" van de kernfase/2de-jaars curriculum.

- **eenvoudige/basis statistiek**
> - diverse soorten data
> - `mean`, `median` en `mode`
> - `standaarddeviatie` van een data-distributie


----------------

## 2. Introductie Data Science Stack<a id="intro_datastack"></a>

Termen: **Data Science**, **Artificial IntelIigence**, **Machine Learning**, **Deep Learning**

### Data Science
**Data Science** is volgens **[VanderPlas]** een interdisciplinair onderwerp en omvat drie, elkaar overlappende vakgebieden:
1. **statistiek**, je weet hoe je datasets moet modelleren en samenvatten.
2. **computer science**, je kan algorithm ontwerpen en data effectief opslaan, verwerken en visualiseren.
3. **domein expertise**, je beschikt over kennis van het domein waardoor je in staat bent 'goede' vragen te stellen en de antwoorden in het 'juiste' perspectief te zien.


Volgens hem is data science dan ook geen nieuw kennisdomein, maar een verzameling nieuwe vaardigheden die je kan leren als uitbreiding van je huidige expertise. Zie figuur 1.

![Figuur 1](images/Data_Science_VDP.png)

De kern is: de nieuwe vaardigheden/technieken geven jou de mogelijkheden om vragen te stellen en te beantwoorden op basis van gegevens uit jouw gekozen domein. Of dit nu resultaten van verkiezingen zijn, voorspellingen van het weer, micro-organisme herkennen op microscoop-foto's, of astronomische objecten op sterrekijkers-foto's.


De opkomst van internet verhoogt het volume van gestructureerde, semigestructureerde en ongestructureerde gegevens drastisch. Dit leidde tot de geboorte van de term '<strong>Big Data</strong>', gekenmerkt door 3V's, wat staat voor <strong>Volume</strong>, <strong>Variety</strong> en <strong>Velocity</strong>. Speciale gereedschappen en systemen zijn vereist om grote hoeveelheden gegevens te verwerken, met een grote variëteit (tekst, aantal, audio, video, enz.), gegenereerd met een hoge snelheid. Zie volgende figuur.

![3Vs_of_BigData.jpg](attachment:3Vs_of_BigData.jpg)



### Artificial Intelligence
Machine Learning is een sub-vakgebied van Artificial Intelligence (AI). Wat is dan AI?

<strong>Artificial Intelligence</strong> is de wetenschap en engineering om menselijk intelligent leven in machines te realseren. Het betekent dat machines in staat zijn te kunnen observeren, te leren, te voelen en met ervaringen kunnen omgaan.

Een typisch AI process verloopt als volgt:
<ul>
    <li><strong>oberserveren</strong> - identificaties van patronen op basis van data.</li>
    <li><strong>plannen</strong> - alle mogelijke oplossingen bedenken</li>
    <li><strong>optimaliseren</strong> - de optimale oplossing zoeken uit de mogelijke oplossingen</li>
    <li><strong>actie</strong> - de optimale oplossing uitvoeren</li>
    <li><strong>leren en veranderen</strong> - het resultaat is conform de verwachting(en); Zo niet dan de oplossing kunnen aanpassen. Het process begint weer van voren.</li>
</ul>

![AI_process_loop.jpg](attachment:AI_process_loop.jpg)

Het AI-proces dat zoeven is besproken, kan worden bereikt met behulp van intelligente agents. Een robotachtige intelligente agent kan worden gedefinieerd als een component die zijn omgeving kan waarnemen door middel van verschillende soorten sensoren (camera, infrarood, enz.), En zal acties ondernemen in de omgeving door middel van actuatoren (motoren, displays, etc). Hierbij zijn robotachtige middelen ontworpen gebasseerd op wat mensen gebruiken. We hebben verschillende sensorische organen zoals ogen, oren, neuzen, tongen en huid om onze omgeving waar te nemen en organen zoals handen, benen en mond zijn de actuatoren die ons in staat stellen om actie te ondernemen in onze omgeving op basis van de waarneming.

Een eenvoudige visuele weergaven van een intelligente robot agent is de volgende figuur.

![robotic_intelligent_agent_concept.jpg](attachment:robotic_intelligent_agent_concept.jpg)


Voor hen die zich verder in AI willen verdiepen, is het volgende boek een aanrader: <a href="http://aima.cs.berkeley.edu/" target="_blank">"Artificial Intelligence, A Modern Approach, by Stuart J. Russell and Peter Norvig</a>, 3rd edition 2016. 

AI staat in de 'kinderschoenen': zie artikel 'slimmer dan het slimste algorithm' uit NRC Weekend 10 november 2018  met o.a. __[Youtube: Experiments with altruism in children and chimps](https://www.youtube.com/watch?v=Z-eU5xZW7cU)__


#### Turing test
In 1950 stelde Alan Turing, een bekende computerwetenschapper, een test voor die bekend staat als de <strong>Turing-test</strong> in zijn beroemde paper "Computing Machinery and Intelligence". 

De test was bedoeld om een acceptabele operationele definitie van intelligentie te bieden, wat vereist dat een mens de machine niet van een ander mens zou moeten kunnen onderscheiden door de antwoorden op vragen aan beide te gebruiken.

Om de Turing-test te kunnen doorstaan, moet de computer over de volgende capaciteiten beschikken:

<ol>
<li>Natuurlijke taalverwerking, om met succes in een gekozen taal te kunnen communiceren.</li><br>
 
<li>Kennisrepresentatie, om informatie op te slaan die vóór of tijdens de ondervraging wordt gegeven en die kan helpen bij het vinden van informatie, het nemen van beslissingen en het plannen. Dit staat ook wel bekend als 'Expert System'.</li><br>
 
<li>Geautomatiseerd redeneren (spraak), om de opgeslagen kenniskaartinformatie te gebruiken om vragen te beantwoorden en om waar nodig nieuwe conclusies te trekken.</li><br>
 
<li>Machinaal leren, analyseren van gegevens om patronen te detecteren en extrapoleren die helpen bij het aanpassen aan nieuwe omstandigheden.</li><br>
 
<li>Computervisie om objecten te zien of het analyseren van afbeeldingen om kenmerken van de afbeeldingen te vinden.</li>
 
<li>Robotica-apparaten die de omgeving kunnen manipuleren en ermee omgaan. Dat betekent om de objecten te verplaatsen op basis van de omstandigheid.</li><br>
 
<li>Planning, planning en optimalisatie, wat inhoudt dat er manieren worden gevonden om besluitvormingsplannen te maken of specifieke doelen te bereiken, evenals om de prestaties van de plannen en ontwerpen te analyseren.</li><br>
</ol>

De bovengenoemde zeven vermogensgebieden van AI hebben in de loop van de jaren veel onderzoek en groei gekend.

![ArtificialIntelligenceAreas.jpg](attachment:ArtificialIntelligenceAreas.jpg)

<strong>Bron</strong>: [Swamynathan]

----------------

### Machine Learning <a id="intro_ml"></a>

**Machine learning** is een gebied van informatica, en onderdeel van vakgebied Artificial Intelligence, dat het **gebruik van statistische methoden** vereist om programma's te maken die de **resultaten** in de loop van de tijd **verbeteren**, of **patronen detecteren** in enorme hoeveelheden gegevens die mensen waarschijnlijk niet zullen vinden.

De term is voor het eerst genoemd door __[Arthur Samuel](https://en.wikipedia.org/wiki/Arthur_Samuel)__ in 1959.

![mbif4.png](attachment:mbif4.png)


Machine Learning onderzoekt de studie en de constructie van algorithmen die kunnen leren van en voorspellingen kunnen doen over gegevens.

Dergelijke algoritmen werken door een 'model' te bouwen uit voorbeeldinvoer om gegevensgestuurde voorspellingen of beslissingen te maken in plaats van strikt statische programma-instructies te volgen.

Machine learning is niet alleen van deze tijd maar wordt eigenlijk al sinds 1662 toegepast: 
![History](images/history_ml.jpg)

Machine Learning is niet iets magisch. Huidige lerende computers kunnen weliswaar *correlaties* in data ontdekken, maar niet automatisch de *causale* verbanden. 
> Uit het aantal verdrinkingen per seizoen en de ijsjesverkoop per seizoen zou een computer concluderen dat er een sterk verband is tussen het aantal verdrinkingen en het aantal verkochte ijsjes. Dat die twee geen oorzakelijk verband met elkaar hebben, maar veroorzaakt worden door de hoogte van de buitentemperatuur, weet de computer niet. **NRC Weekend 10 november 2018, artikel 'slimmer dan het slimste algorithm'**.

Is Machine Learning het enige onderwerp waarin we gegevens gebruiken om te leren en te gebruiken voor voorspelling / gevolgtrekking?

Nee, meerdere vakgebieden maken gebruik van vaak dezelfde technieken/algorithms, zoals 

- **Data mining** is een interdisciplinair subveld van de informatica. Het is het computationele proces van het ontdekken van patronen in grote gegevenssets (van datawarehouse) met methoden op het snijvlak van artificial intelligence, machine learning, statistieken en databasesystemen.

- **Data analyse** is een proces van het inspecteren, opschonen, transformeren en modelleren van gegevens met als doel nuttige informatie te vinden, conclusies te suggereren en besluitvorming te ondersteunen. Dit wordt ook wel Business Analytics genoemd en wordt in veel bedrijfstakken veel gebruikt om bedrijven / organisaties in staat te stellen de wetenschap van het onderzoeken van onbewerkte gegevens te gebruiken met het doel conclusies over die informatie te trekken en betere zakelijke beslissingen te nemen.

Een veel gebruikt onderscheid tussen *machine learning* en *datamining* is de volgende: Machine learning richt zich op voorspellingen op basis van bekende eigenschappen van de gegevens, terwijl datamining zich richt op ontdekking op basis van onbekende eigenschappen van de gegevens. In tegenstelling tot datamining, is het doel bij machine learning dat de machines zelfstandig leren en zichzelf (lees: model/algorithm) verbeteren zonder tussenkomst van mensen. Beide vakgebieden lenen algoritmen en technieken van elkaar.

**Bron** [Swamynathan]

### Deep Learning

**Deep Learning** baseert de intelligentie van huidige lerende machines op neurale netwerken die zeer losjes geïnspireerd zijn op het menselijk brein. Zo’n neuraal netwerk bestaat uit kunstmatige neuronen die verdeeld worden in lagen. De neuronen worden met elkaar verbonden en de sterkte van die verbindingen verandert tijdens het leerproces. 

Alhoewel neurale netwerken zeer goed zijn in het oplossen van specifieke taken zijn ze nog ver verwijderd van de flexibele en adaptieve manier waarop ons eigen brein willekeurige problemen kan oplossen. Dat is het verschil tussen kunstmatige intelligentie in enge zin (*narrow AI*) en mensachtige kunstmatige intelligentie, die veel algemener is (*general AI*). Bron [NRC Weekend, 9 november 2018]. 

![multiplayer neural network architecture](images/[Raschka]_multilayer_neural_network_architecture.png)

----------------

## 3. Machine Learning - categorieën <a id="categories"></a>

Op een globaal niveau kunnen de algorithms van machine learning worden onderverdeeld in drie groepen op basis van de gewenste uitvoer en het soort invoer dat nodig is om het te produceren. Zie volgende figuur.

![Machine learning categorieën](images/MLOverview.jpg)

In de college onderwerpen zullen we vaak naar dit diagram verwijzen, zodat je weet tot welke categorie de te-bespreken algorithm horen.


### Supervised learning

Het machine learning algoritme wordt voorzien van een voldoend grote hoeveelheid **trainingsdata** (voorbeelden) met een bekende uitvoer (gebeurtenis of klasse). Deze zijn gewoonlijk opgesteld in overleg met een expert van het betreffende domein (domein-expert). 

Het doel van het algoritme is om patronen in de gegevens te leren en een algemene reeks regels op te bouwen om de invoer naar de uitvoer (klas of gebeurtenis) in kaart te brengen.

Vervolgens zijn er **testdata**,waarmee de gevonden reeks regels gevalideerd (getest) worden.

In het algemeen zijn er twee soorten algorithm die vaak worden gebruikt als supervised learning algorithmen:

- **Regressie**

> De te voorspellen resultaat is een continu getal dat relevant is voor een gegeven invoergegevensset. Voorbeelden van use cases zijn voorspellingen van de detailhandel, voorspelling van het aantal personeelsleden dat nodig is voor elke dienst, aantal parkeerplaatsen dat nodig is voor een winkel, krediet-score voor een klant, etc.

- **Classificatie**

> De te voorspellen uitvoer is de werkelijke of de waarschijnlijkheid van een gebeurtenis / klasse in een aantal klassen, dat moet worden voorspeld. Deze kunnen twee of meer zijn. Het algoritme moet de patronen in de relevante invoer van elke klasse uit historische gegevens leren en in staat zijn om de onzichtbare klasse of gebeurtenis in de toekomst te voorspellen op basis van hun invoer.

> Een voorbeeld use case is een spam email filtering waarvan verwacht wordt dat de output een e-mail classificeert in een **spam** of **geen spam**.


Het bouwen van supervised learning modellen kent drie fasen:
- **Training**: het algoritme zal worden voorzien van historische invoergegevens met de toegewezen uitvoer (*trainingsdata*). Het algoritme zal de patronen binnen de invoergegevens voor elke uitvoer leren kennen en dat als een statistische vergelijking voorstellen, die ook algemeen bekend staat als een model.

- **Testen of valideren**: in deze fase wordt de prestatie van het getrainde model geëvalueerd, meestal door deze toe te passen op een gegevensset (die niet werd gebruikt als onderdeel van de training) om de klasse of gebeurtenis te voorspellen (*testdata*).

- **Voorspelling**: hier passen we het getrainde model toe op een gegevensset die geen deel uitmaakte van de training of het testen. De voorspelling wordt gebruikt om zakelijke beslissingen te ondersteunen.


### Unsupervised learning
Er zijn situaties waarin de gewenste uitvoerklasse / gebeurtenis onbekend is op basis van historische gegevens. Het doel in dergelijke gevallen zou zijn om de patronen in de invoergegevensverzameling te bestuderen om een beter begrip te krijgen en soortgelijke patronen te identificeren die kunnen worden gegroepeerd in specifieke klassen of evenementen. Aangezien dit soort algoritmen vooraf geen interventie van de materiedeskundigen vereisen, worden ze *onbewaakt leren* genoemd.

Voorbeelden zijn:

- Clustering

> Stel dat de klassen niet van tevoren bekend zijn voor een gegeven dataset. Het doel is hier om de invoergegevensset op te splitsen in logische groepen verwante items. Enkele voorbeelden zijn vergelijkbare nieuwsartikelen, waarbij vergelijkbare klanten worden gegroepeerd op basis van hun profiel, enz.

- Dimensie Reductie

> Hier is het doel om een grote invoergegevensset te vereenvoudigen door ze in een lagere dimensionale ruimte in te delen. Het uitvoeren van een analyse op een dataset met grote dimensies is bijvoorbeeld erg rekenintensief, dus als je wilt vereenvoudigen, wil je mogelijk de belangrijkste variabelen vinden die een aanzienlijk percentage (zeg 95%) aan informatie bevatten en deze alleen gebruiken voor analyse.

- Anomalie-detectie (onregelmatigheidsdetectie)

> Anomalie-detectie is de identificatie van gebeurtenissen (of observaties) die niet conform zijn met een verwacht patroon of gedrag in vergelijking met andere gebeurtenissen in een gegeven dataset. 

> Het is van toepassing in verschillende domeinen, zoals bewaking van machines of systemen, detectie van gebeurtenissen, opsporing van fraude / inbraak enz. 

> Recentelijk heeft de detectie van anomalieën grote interesse gekregen onder invloed van Internet of Things (IoT) om detectie van abnormaal gedrag in een bepaalde context mogelijk te maken.

> Een gegevenspunt wordt een anomalie genoemd als het ver verwijderd is van andere gegevenspunten in een gegeven context. Het berekenen van standaarddeviatie of clustering zijn de meest gebruikte technieken voor het detecteren van anomalie naast een hele reeks andere technieken. 

NB. Studiejaar 2018-2019: dit onderwerp valt verder buiten de scope van deze (introductie)module.


### Reinforcement Learning

Het basisdoel van reinforecement learning is om situaties in kaart te brengen voor acties die de maximale uiteindelijke beloning opleveren. 

> Het is vergeljkbaar zoals je een game speelt: je leert naarmate je nieuwe dingen ontdekt op het speelveld, waarbij acties, waarmee je iets wint, je vaker toepast dan acties waarbij je iets verloren hebt. 

Bij het in kaart brengen van de actie moet het algoritme niet alleen rekening houden met de onmiddellijke beloning, maar ook met de volgende en alle daaropvolgende beloningen. Een programma om een game te spelen of een auto te besturen, moet bijvoorbeeld voortdurend communiceren met een dynamische omgeving waarin verwacht wordt dat het een bepaald doel zal bereiken. 

Voorbeelden van reinforcement algorithmen zijn o.a. Markov beslissingsproces, Q-learning, en Monte-Carlo-methode.

NB. studiejaar 2018-2019: Reinforcement learning algorithmen vallen buiten de scope van deze (introductie)module.


----------------

## 4. Proceskaders voor het bouwen van machine learning systemen<a id="workflow"></a>

Data mining heeft in de loop van de tijd een enorme groei doorgemaakt. Er zijn veel inspanningen geleverd door veel deskundigen om methodologieën te standaardiseren en de beste werkwijzen te definiëren voor het immer groeiende, gediversifieerde en iteratieve proces van het bouwen van machine-leersystemen. 

In het laatste decennium is het gebied van machine learning erg belangrijk geworden voor verschillende industrieën, bedrijven en organisaties vanwege het vermogen om inzicht te verkrijgen uit enorme hoeveelheden gegevens die voorheen niet werden gebruikt of onderbenut werden om de trend / patronen te leren en voorspellen de mogelijkheden die helpen om zakelijke beslissingen te leiden die tot winst leiden. 

Met de opkomst van machine learning in de 80-er jaren werden verschillende proceskaders geïntroduceerd. Deze proceskaders begeleiden en dragen de machine learning activiteiten en de toepassingen ervan. 

Er zijn pogingen gedaan om datamining-proceskaders te gebruiken die de implementatie van datamining op grote of enorme hoeveelheden data zullen begeleiden.

Er zijn voornamelijk drie processen voor datamining het populairst geweest, en op grote schaal toegepast door datamining-experts / onderzoekers om machine learning systemen te bouwen. Deze modellen zijn de volgende:

- __[Knowledge Discovery Databases (KDD) process model](https://en.wikipedia.org/wiki/Data_mining#Process)__

> KDD is een integratie van meerdere technologieën voor gegevensbeheer, zoals datawarehousing, statistisch machine learning, beslissingsondersteuning, visualisatie en parallel computing.


- __[CRoss Industrial Standard Process for Data Mining (CRISP - DM)](https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining)__

> Het is algemeen bekend onder het acroniem <strong>CRISP-DM</strong>. Het werd opgericht door het Europees strategisch programma voor onderzoek op het gebied van informatietechnologie, met als doel een onbevooroordeelde methodologie te creëren die niet domeinafhankelijk is. 

> Het is een poging om best practices voor datamining te consolideren, gevolgd door experts om problemen met datamining aan te pakken. 

> Het werd bedacht in 1996 en voor het eerst gepubliceerd in 1999 en werd gerapporteerd als de leidende methodologie voor data mining in peilingen uitgevoerd in 2002, 2004 en 2007. Er was een plan tussen 2006 en 2008 om CRISP-DM bij te werken, maar dat update heeft niet plaatsgevonden en vandaag is de oorspronkelijke CRISP-DM.org-website niet langer actief.

> Dit raamwerk is een geïdealiseerde reeks van activiteiten. Het is een iteratief proces en veel van de taken gaan terug naar eerdere taken en herhalen bepaalde acties om meer duidelijkheid te brengen.


- __[Semma: Sample, Explore, Modify, Model and Assess](https://en.wikipedia.org/wiki/SEMMA)__

> SEMMA zijn de sequentiële stappen om machine learning-modellen te bouwen, die zijn opgenomen in 'SAS Enterprise Miner', een product van SAS Institute Inc., een van de grootste producenten van commerciële statistische en business intelligence-software. De opeenvolgende stappen begeleiden echter de ontwikkeling van een machine-leersysteem.



### KDD vs. CRISP-DM vs. SEMMA

Samenvatting van de drie frameworks.

![summary_of_datamining_frameworks.jpg](attachment:summary_of_datamining_frameworks.jpg)

KDD is het oudste van drie frameworks. CRISP-DM en SEMMA lijken de praktische implementatie van het KDD-proces te zijn. CRISP-DM is completer omdat de iteratieve stroom van kennis over en tussen fasen duidelijk is gedefinieerd. Het bestrijkt ook alle gebieden van het bouwen van betrouwbare systemen voor het leren van machines vanuit een zakelijk-wereldperspectief. 

In de steekproeffase van SEMMA is het belangrijk dat u een goed begrip hebt van alle aspecten van het bedrijfsleven om ervoor te zorgen dat de bemonsterde gegevens maximale informatie behouden. 

De drastische innovatie in het recente verleden heeft echter geleid tot lagere kosten voor gegevensopslag en computerkracht, waardoor we algoritmen voor machine learning efficiënt op de volledige gegevens kunnen toepassen, waardoor bijna geen steekproef meer nodig is.

Over het algemeen volgen de meeste onderzoekers en dataminingsexperts het KDD- en CRISP-DM-procesmodel omdat het completer en nauwkeuriger is. Het CRISP-DM is specifiek voor gebruik in zakelijke omgevingen, omdat het de dekking biedt van end-to-end zakelijke activiteiten en de levenscyclus van het bouwen van een machine learning systeem.

**Bron**: Herdrukt voor ACM / ppost, ACM. Apress, Manohar Swamynathan (c) 2017


----------------

### Machine learning development cycle

We gaan uit van de volgende activiteiten in het 'bouwen' van een machine learning systeem:

![Werkproces cycle](images/MLWerkproces.png)

1. **Problem definition**: definieer het vraagstuk wat je wilt oplossen.
2. **Data collection**: verzamel de data die je nodig hebt. Eerst indruk van mogelijk interessante *features*.
3. **Explore data**: verken de data en kijk wat je visueel al ziet. Welke *features* zijn van belang?
4. **Data transformation**: dit is het transformeren en opschonen van data in formats die beter geschkt zijn voor de analysis.
5. **Model construction** and **Model evaluation**: het maken van een machine learning model  op basis van de trainngsdata en het valideren ervan met de testdata.
6. **Model application**: het imbedden van de machine learning model in productieprocessen of -systemen.
7. **Monitoring and updating**: onderhouden van de machine learning model in de productie.
6. **Reporting results**: het presenteren en publiceren van de resultaten.

Deze werkwijze zie je terug in de colleges bij het uitwerken van de diverse machine learning algoritmen. Je past het ook toe in de uitwerken van de toets-casus m.n. fasen 1-5 en 6.

NB. De stappen om een project met een machine learning component te brengen, verschillen niet echt van die van een engineeringproject. Planning, ontwerp, ontwikkeling, integratie, implementatie en postimplementatie zijn nog steeds de stappen van de levenscyclus van het product. 

**Bron**: *Machine Learning in Production: Developing and Optimizing Data Science Workflows and Applications*, First Edition by Adam Kelleher, Andrew Kelleher, Published by Addison-Wesley Professional, 2018.


----------------

## 5. Machine Learning building blocks <a id="building_blocks"></a>

De machine learning algorithmen passen we toe op basis van een aantal modulen. We gaan daar dan ook mee kennismaken. 

Alle genoemde modulen (*packages*) zitten in de <a href="https://www.anaconda.com/download/#macos" target="_blank">Anaconda distributie</a>, hetgeen het aanbevolen development platform is incl. Jupyter Notebooks.

1. **Python 3**, Anaconda distributie

>Basis Python wordt bekend verondersteld voor deze module. Bestudeer [Python112](Python112.ipynb) voor de belangrijkste elementen.

> Bijna alle data science en machine learning packages / libraries zitten in één Python distributie, genaamd Anaconda. Daarbij zit ook ondersteuning voor Jupyter notebooks, een webgebaseerd Python development tool waarbij je een mix kan maken van aantekeningen en Python code. 

> NB. Je kan meerdere programmeertalen voor een Jupyter notebook gebruiken, zoals `Julia`, `Javascript`, `R` en zelfs `micropython` in combinatie met een microcontroller, aangesloten op een USB! De implementatie van een programmeertaal zit in een zogenaamde **kernel**, dat je terugziet in de web-interface ('rechtsboven'). Je kan in één Jupyter notebook slechts één kernel gebruiken ofwel één programmeertaal.

2. module **NumPy**

> **Numpy** is een module die het meest gebruikt wordt voor (wetenschappelijke) berekeningen in Python. Het heeft voorzieningen dat berekeningen erg efficient en effectief maken in tegenstelling tot nominale Python. Ook heeft het faciliteiten voor zeer effectieve (in-memory) datastructuren, zoals de numpy-array.

> Bestudeer Jupyter notebook [Introductie numpy](introductie_numPy.ipynb) en doe de oefen-opdrachten.

3. module **Pandas**

> **Pandas** is een module ook voor (excel-achtige)berekeningen en voor data manipulatie. De term `pandas` is afkomstig van *panel data* dat geassocieerd is met time-series en transversale (cross-sectional) gegevens.

> Pandas is ook bruikbaar in de data preprocessing fase, zoals het inlezen van Excel-csv data bestanden of datasets van het web.
 
> In college 2 behandelen we de basis van de pandas module. 

4. modulen **Matplotlib** en **Seaborn**

> **Matplotlib** en **Seaborn** zijn modulen om diverse soorten grafieken (visualisaties) te maken met de programmeertaal Python en de numerieke modulen numpy en pandas.

> Matplotlib was oorspronkelijk geschreven door __[John D. Hunter](https://en.wikipedia.org/wiki/John_D._Hunter)__ en heeft een active development community.

> In college 2 behandelen we de basis van deze modulen om diverse soorten grafieken te maken.

5. module **scikit-learn**

> **Scikit-learn** is een verzameling van verschillende machine learning en data analyse algorithmen, zoals *classificatie* (is deze e-mail wel of niet spam), *regression* (t.b.v. het voorspellen van waarden) en *clustering* (vergelijkbare objecten in sets grouperen).

> Scikit-learn algorithmen komen nog uitgebreid aan bod in deze module.

Naast bovengenoemde modulen is enige **basiskennis van statistiek** nodig voor het inzicht in datasets of grafieken. Bestudeer de volgende Jupyter notebooks: [soorten data](TypesOfData.ipynb), [mean, median mode](MeanMedianMode.ipynb) en [standaarddeviatie](StdDevVariance.ipynb).


----------------

## 6. Opdrachten<a id="exercises"></a>

1. Installeer een __[Anaconda distributie](https://www.anaconda.com/download)__ voor jouw platform (Windows, MacOS of Linux), als je dat al niet gedaan hebt. Python 3 versie is onze standaard.

2. Start het Jupyter notebook systeem op, ofwel via de grafisch Anaconda Navigator (Jupyter Notebook / JupyterLab), ofwel via een terminal commando.

3. Maak Jupyter notebooks aan voor de opoefenopdrachten. Deze lever je je niet op, maar kan je wel laten zien in de lessen.

4. Maak een Jupyter notebook aan voor de toets-casus. Deze notebook lever je in op de ELO uiterlijk op de genoemde deadline.

In [1]:
# Zen of Python
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
