# PROJECT GEGEVENSBANKEN - SQL

## 1. Inleiding

Cf. het document `prerequisites.pdf` in de `docs` folder. 

### 1.1 Software

In eerste instantie moeten de correcte python packages geladen worden. _Van deze configuratie afwijken is dan ook op eigen risico, gezien dat betekent dat je ook afwijkt van de configuratie van de computer waarop wij jullie oplossingen runnen._

In [1]:
# Benodigde packages

import json            # Package om .json files in te laden (bvb kolomnamen zijn zo opgeslagen)
import getpass         # Package om een paswoordveldje te genereren.
import mysql.connector # MySQL package
import numpy as np
import os
import pandas as pd    # Populaire package voor data-verwerking
import sys

# Check python versie
sys.version_info

sys.version_info(major=3, minor=6, micro=8, releaselevel='final', serial=0)

### 1.2 Interageren met een gegevensbank

In deze sectie geven we al drie methodes mee om jullie leven al wat makkelijker te maken

- `verbind met GB`
    - Dit is functie die toelaat om gemakkelijk verbinding te maken met een database. De `username`, `hostname` en `gegevensbanknaam` worden als argumenten meegegeven met de functie. Deze functie geeft een `connection` object als output. Zo'n object is wat de `connect()` methode van het `mysql.connector` package teruggeeft. Dit is conform de python DB-API (cf. https://www.python.org/dev/peps/pep-0249/), een soort standaard waaraan python DB packages voldoen. 
    
    Moest deze functie niet correct functioneren op je eigen besturingssysteem: voel je vrij om een variant te schrijven. Bij de correctie gebruiken wij onze eigen implementatie om een mysql `connection` object te maken. Deze functie is dus enkel voor jezelf van belang.
    

- `run_query`  
    - Deze functie runt een gegeven `query` op een gegeven `connection`, en geeft het resultaat terug.
    
    
- `res_to_df`
    - Deze functie giet het resultaat van een query (`query_result`) in een dataframe, met vooraf gespecifieerde kolomnamen (`column_names`). Zo'n dataframe is simpelweg een handiger formaat om mee te werken in python.

In [3]:
def verbind_met_GB(username, hostname, gegevensbanknaam):
    """
    Maak verbinding met een externe gegevensbank
    
    :param  username:          username van de gebruiker, string
    :param  hostname:          naam van de host, string.
                               Dit is in het geval van een lokale server gewoon 'localhost'
    :param  gegevensbanknaam:  naam van de gegevensbank, string.
    :return connection:        connection object, dit is wat teruggeven wordt 
                               door connect() methods van packages die voldoen aan de DB-API
    """
    
    password = getpass.getpass() # Genereer vakje voor wachtwoord in te geven
    
    connection = mysql.connector.connect(host=hostname,
                                         user=username,
                                         passwd=password,
                                         db=gegevensbanknaam)
    return connection


def run_query(connection, query):
    """
    Voer een query uit op een reeds gemaakte connectie, geeft het resultaat van de query terug
    """
    
    # Making a cursor and executing the query
    cursor = connection.cursor()
    cursor.execute(query)
    
    # Collecting the result and casting it in a pd.DataFrame
    res = cursor.fetchall()
    
    return res


def res_to_df(query_result, column_names):
    """
    Giet het resultaat van een uitgevoerde query in een 'pandas dataframe'
    met vooraf gespecifieerde kolomnamen.
    
    Let op: Het resultaat van de query moet dus exact evenveel kolommen bevatten
    als kolomnamen die je meegeeft. Als dit niet het geval is, is dit een indicatie
    dat je oplossing fout is. (Gezien wij de kolomnamen van de oplossing al cadeau doen)
    
    """
    df = pd.DataFrame(query_result, columns=column_names)
    return df

### 1.3 Kolomnamen en input parameters

We leggen op voorhand reeds de **kolomnamen van de oplossingen**, en de **naam en types van de inputparameters** vast. Hier moet je je dus aan houden en mag je dus niks aan wijzigen.

- Het aantal kolommen (en hun volgorde) van jullie oplossing en de onze moeten exact overeen komen, vandaar dat de kolomnamen hieronder gegeven zijn. Dit komt trouwens van pas bij het opstellen van je queries! 
    
    
- Dankzij de voorbeeldparameters, die al gegeven zijn in de functiedefinitie e.g., 
        query_42(connection, col_names, super_voorbeeldparam = 101)
  weten jullie exact welke vorm en type (integer, lijst, etc) de inputparameters moeten hebben. Wijzig zeker niets aan de naam van die parameters (i.e.,*super_voorbeeldparam* blijft *super_voorbeeldparam*). De default waarden geven op hun beurt dan weer informatie over het type van de inputparameters. Let wel; de default waarden die we ingevuld hebben zijn ter illustratie, zorg ervoor dat je query ook met andere waarden dan de defaults werkt!

**Samengevat: oplossingen die deze vorm niet respecteren, zullen crashen op onze machines en resulteren in een score van 0 op die query.**

In [4]:
# Dictionary van kolomnamen inladen

filename = os.path.join(os.path.dirname(os.getcwd()), 'solution', 'all_q_colnam.json')
col_names = json.load(open(filename, 'r'))    

col_names # Inspecteer dictionary

{'query_01': ['tname', 'year', 'HomeRun'],
 'query_02': ['nameFirst', 'nameLast', 'birthYear', 'birthMonth', 'birthDay'],
 'query_03': ['nameFirst', 'nameLast', 'tname'],
 'query_04': ['tname', 'rank', 'W', 'L', 'nameFirst', 'nameLast'],
 'query_05': ['tname'],
 'query_06': ['tname', 'yearID', 'rank', 'W', 'L'],
 'query_07': ['nameLast', 'nameFirst'],
 'query_08': ['birthState',
  'avg_weight',
  'avg_height',
  'avg_HomeRun',
  'avg_Saves'],
 'query_09': ['yearID', 'tname', 'HomeRun'],
 'query_10': ['yearID', 'tname', 'rank', 'Games']}

## 2. Hoe deze notebook in te vullen

Hieronder volgen 10 onvolledige methodes/functies (e.g., `query_42(connection, col_names, super_voorbeeldparam = ['joske', 'jef'])`). Aan jullie om ze aan te vullen zodat de functie:  

    1. Een corecte query opstelt
    2. De query uitvoert op de database
    3. Het resultaat teruggeeft in een DataFrame.

Voor stap 2 en 3 zijn de nodige methodes al voorhanden, i.e.: `run_query(connection, query)` en `res_to_df(res, column_names)`. Jullie werk zal dus vooral bestaan uit stap 1, queries opstellen.
  
    
    
Elke functie heeft minstens 2 inputargumenten:
    1. `connection`:   Een connection object 
    2. `column_names`: De kolomnamen van het Pandas DataFrame
    
Gevolgd door eventuele extra argumenten (e.g., `super_voorbeeldparam = ['joske','jef']`) van de inputparameters. 

**Nogmaals: verander niets aan de namen van de methodes, namen van de parameters en de kolomnamen van de resulterende DataFrames. Wijzigingen hieraan leiden onvermijdelijk tot een score van 0 op die query.**

Je kan naar believen extra cellen toevoegen om je queries te testen, resultaten te inspecteren etc. We vragen jullie om de finale, ingevulde methodes te kopiëren naar een extern script dat enkel en alleen deze oplossingen bevat. Cf. de laatste sectie van deze notebook voor instructies omtrent hoe in te dienen.

## 3. Voorbeeld

Om jullie al wat op weg te zetten volgt hier een voorbeeldje over hoe je te werk kan gaan.

### 3.1 Voorbeeld Query

**Beschrijving**

Het resultaat van deze functie is een Pandas DataFrame met teamnaam, jaar en aantal homeruns van teams die meer dan een gegeven aantal *`homeruns`* hadden in dat jaar.

In [27]:
def query_EX(connection, column_names, homeruns=20):
    # Bouw je query
    query="""
    select    t.name, t.yearID, t.HR
    from      Teams as t
    where     t.HR > {}
    order by  t.HR DESC;
    """.format(homeruns) # TIP: Zo krijg je parameters in de string (samen met `{}` in de string)
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

Eerst maken we een verbindingsobject met de databank

In [28]:
username = 'elia'      # Vervang dit als je via een andere user queries stuurt
hostname = 'localhost' # Als je een databank lokaal draait, is dit localhost.
db = 'db1819-01'      # Naam van de gegevensbank op je XAMPP Mysql server

# We verbinden met de gegevensbank
c = verbind_met_GB(username, hostname, db)

········


Vervolgens runnen we onze query, en inspecteren we het resultaat.

In [29]:
# De voorbeeldquery heeft dezelfde kolomnamen als query 1, dus we gebruiken die
kolomnamen_voorbeeldquery = col_names['query_01'] 

# Functie uitvoeren, geeft resultaat van de query in een DataFrame
df = query_EX(c, kolomnamen_voorbeeldquery, homeruns=10)

# We inspecteren de eerste paar resultaten (voor alles te zien: laat .head() weg)
df.head() 

Unnamed: 0,tname,year,HomeRun
0,Seattle Mariners,1997,264
1,Texas Rangers,2005,260
2,Baltimore Orioles,1996,257
3,Toronto Blue Jays,2010,257
4,Baltimore Orioles,2016,253


En we runnen onze query nogmaals met een andere waarde voor de parameter `jaar`

In [30]:
# Functie uitvoeren, geeft resultaat van de query in een DataFrame
df = query_EX(c, kolomnamen_voorbeeldquery, homeruns=100)

# We inspecteren de eerste paar resultaten (voor alles te zien: laat .head() weg)
df.head() 

Unnamed: 0,tname,year,HomeRun
0,Seattle Mariners,1997,264
1,Texas Rangers,2005,260
2,Baltimore Orioles,1996,257
3,Toronto Blue Jays,2010,257
4,Baltimore Orioles,2016,253


## 4. Queries

### 4.1 Query 01

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe met: de teamnaam, het jaar, en het aantal homeruns per team, en dit voor alle teams.

Sorteer op aantal homeruns van hoog naar laag.

In [9]:
def query_01(connection, column_names):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.2 Query 02

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe met: de voornaam, achternaam, geboortejaar, geboortemaand, geboortedag van spelers die hun eerste major league appearance maakten na een gegeven *`datum_x`*. 

Sorteer alfabetisch oplopend op achternaam.

In [2]:
def query_02(connection, column_names, datum_x='1980-01-16'):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.3 Query 03

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat, per club: de clubnaam en de voor- en achternaam van alle managers weergeeft, die ooit voor de club gewerkt hebben als niet-playermanager. Per club mag een welbepaalde manager slechts 1 keer in het resultaat voorkomen. 

Sorteer alfabetisch oplopend op clubnaam.

In [11]:
def query_03(connection, column_names):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.4 Query 04

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat alle teams bevat die in `league_l` gespeeld hebben in een jaar na `jaar_y` maar niet in die league gespeeld hebben vroeger dan `jaar_x` (excl. `jaar_y` and `jaar_x`).

Het resultaat bestaat uit uit teamID, naam, jaar en wins en losses in dat jaar.

Sorteer oplopend op teamID en dan oplopend op yearID.

In [3]:
def query_04(connection, column_names, league_l='mlb', jaar_x=1980, jaar_y=1990):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.5 Query 05

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat alle personen bevat die zowel een speler als een manager prijs hebben gewonnen. Van deze personen zijn we geïnteresseerd in: de ID, de nameGiven en het aantal spelersprijzen. 

Sorteer aflopend op het aantal gewonnen spelersprijzen en dan aflopend op spelerIDs.

In [13]:
def query_05(connection, column_names):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.6 Query 06

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat alle unieke personen bevat die in 3 opeenvolgende jaren een spelersprijs hebben gewonnen. Van deze personen willen we de playerID.

Sorteer oplopend op playerID.

In [14]:
def query_06(connection, column_names):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.7 Query 07

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat alle personen bevat die een spelersprijs gewonnen hebben in `jaar_y` terwijl ze speelden voor een team gemanaged, in dat jaar, door team manager `manager_x`. Van deze personen willen we de playerID, voornaam en achternaam.

Sorteer oplopend op playerID.

In [4]:
def query_07(connection, column_names, jaar_y=1980, manager_x='joske'):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.8 Query 08

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat alle personen bevat wiens gemiddelde loon hoger is dan het gemiddelde loon over alle spelers en jaren. Van deze personen willen we de ID, voornaam en achternaam.

Sorteer oplopend op playerID.

In [33]:
def query_08(connection, column_names):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.9 Query 09

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat voor alle teams: hun team ID, naam, beste jaar en het aantal wins in dat jaar bevat.

Het _beste jaar_ voor een team wordt hier gedefinieerd als het jaar met het hoogste aantal wins. In het geval van jaren met hetzelfde aantal wins is het meest recente jaar het beste jaar. 

Sorteer aflopend op aantal wins en dan aflopend op teamID.

In [17]:
def query_09(connection, column_names):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

### 4.10 Query 10

**Beschrijving**

Het resultaat van deze functie is een Pandas dataframe dat alle teams bevat waar in jaar `jaar_y` geen speler van dat team een award heeft gewonnen.

Een speler speelt voor een team wanneer deze betaald wordt door dat team. Voor elk van die teams bevat het resultaat de teamID en naam.

Sorteer oplopend op teamID.

In [5]:
def query_10(connection, column_names, jaar_y=1990):
    
    # Bouw je query
    query="""
    MAAK QUERY HIER
    """
    
    # Stap 2 & 3
    res = run_query(connection, query)         # Query uitvoeren
    df = res_to_df(res, column_names)          # Query in DataFrame brengen
    
    return df

## 5. Hoe en wat in te dienen?

Nu je alle queries ingevuld (en hopelijk getest), ben je klaar om je taak in te dienen.

1. **Maak een leeg bestand** aan, en geef het de bestandsnaam met formaat: `dd_X_groep_YY.py`.
    - `dd` verwijst naar de dag van je oefenzitting, e.g. `wo` voor woensdag
    - `X`  is een integer die verwijst naar de volgnummer van je oefenzitting op die dag, e.g. `1`
    - `YY` zijn twee integers die verwijzen naar de volgnummer van je groepje, e.g.: `03`
    -  Een goede bestandsnaam is dus bijvoorbeeld: `wo_1_groep_03.py`


2. Kopieer **ALLE INGEVULDE FUNCTIES EN NIETS ANDERS** naar dit bestand. Het bevat dus _enkel en alleen_ de functies:
    - query_01(connection, column_names)
    - query_02(connection, column_names, datum_x='1980-01-16')
    - etc, etc


3. **TIP**: voor de eerste 3 queries kan je je oplossing zelfs testen via de `verification.ipynb` notebook!
    - Eerst wordt je script automatisch gerund met verschillende parameters
    - De resultaten worden opgeslagen in `.csv` files (in de `out` folder)
    - Die `.csv` files worden vergeleken met de `.csv` files van de oplossing (te vinden in de `solution` folder).
    - Elke query krijgt een score toegekend. Cf. https://en.wikipedia.org/wiki/F1_score.  
    - Al dan niet sorteren is verantwoordelijk voor 10% van je score.
    - Een kort rapport wordt weergegeven die je pointers kan geven over wat er mis is met je query. 
        - TP: True Positives
        - TN: True Negatives
        - FP: False Positives
        

4. Als je oplossing definitief is, submit je je `dd_X_groep_YY.py` via Toledo.     


5. Nogmaals, als finale submissie verwachten we dus een python bestand (e.g., `wo_1_groep_03.py`) dat jullie ingevulde functies bevat en niks anders. De ingevulde notebook is niet acceptabel.