# PROJECT GEGEVENSBANKEN - SQL

# Imports

In [1]:
# Setup
import sys
import getpass  # Package om een paswoordveldje te genereren.
import json  # Package om .json files in te laden (bvb kolomnamen zijn zo opgeslagen)
import mysql.connector  # MySQL package
import pandas as pd  # Populaire package voor data-verwerking

from pathlib import Path
from inspect import getsource

In [2]:
# Imports van binnen onze eigen repository
sys.path.append(str(Path().absolute().parent / "src"))

from db_project import (
    verbind_met_GB,
    run_query,
    res_to_df,
    toon_uitleg,
    DOC_FPS,
    DEMO_Q_PARAMS_FP,
    ALL_Q_COLNAM_FP,
)


In [3]:
# Tekst en uitleg wordt ingelezen uit bestanden uit de `docs` folder.
toon_uitleg(DOC_FPS.get("intro"), sectie=[1, 2, 3])

# 1. Inleiding

Zie het document `prerequisites.pdf` in de `docs` folder voor installatiehulp van XAMPP etc.

## 1.1 Python packages

De import statements (cf. boven) vormen de standaardconfiguratie van python-packages die we gebruiken. _Van deze configuratie afwijken is dan ook op eigen risico, gezien dat betekent dat je ook afwijkt van de configuratie van de computer waarop wij jullie oplossingen runnen._

## 1.2 Interageren met een gegevensbank

Naast de standaard packages, importeren we ook drie zelfgemaakte functies. Deze implementeren functionaliteiten die je vaak zal nodig hebben als je vanuit python queries naar je gegevensbank wil sturen: `verbind_met_GB`, `run_query` en `res_to_df`. Hun source code (en documentatie) bekijken geeft de nodige informatie over hoe ze te gebruiken:
    
    


In [4]:
print("\n- --- - --- - --- - --- - --- - --- - - --- - --- - --- - --- - --- - --- -\n")
print(getsource(verbind_met_GB))
print("\n- --- - --- - --- - --- - --- - --- - - --- - --- - --- - --- - --- - --- -\n")
print(getsource(run_query))
print("\n- --- - --- - --- - --- - --- - --- - - --- - --- - --- - --- - --- - --- -\n")
print(getsource(res_to_df))


- --- - --- - --- - --- - --- - --- - - --- - --- - --- - --- - --- - --- -

def verbind_met_GB(username, hostname, gegevensbanknaam, password=None):
    """
    Maak verbinding met een externe gegevensbank

    Parameters
    ----------

    username:           str
                        Username van de gebruiker
    hostname            str
                        Naam van de host. In het geval van lokale server 'localhost'
    gegevensbanknaam    str
                        Naam van de gegevensbank
    password            str, None
                        Wachtwoord kan al meegegeven worden. Indien niet, wordt
                        een wachtwoordveldje gegenereerd waar de gebruiker het
                        kan ingeven.
    Returns
    -------
    connection          connection object
                        Dit is het soort object dat wordt teruggeven door
                        connect() methods van packages die voldoen aan de DB-API

    """

    if password is None:
      

In [5]:
toon_uitleg(DOC_FPS.get("intro"), sectie=4)

## 1.3 Kolomnamen en input parameters

We leggen op voorhand reeds de **kolomnamen van de oplossingen**, en de **naam en types van de inputparameters** vast. Hier moet je je dus aan houden en mag je dus niks aan wijzigen.

- Het aantal kolommen (en hun volgorde) van jullie oplossing en de onze **moeten** exact overeen komen. 
    - Vandaar dat de kolomnamen hieronder gegeven zijn. 
    - Dit komt trouwens van pas bij het opstellen van je queries! 
    - **KOLOMNAMEN NIET GERESPECTEERD OP EEN QUERY BETEKENT 0 PUNTEN OP DIE QUERY**
    
- Dankzij de voorbeeldparameters, die al gegeven zijn in de functiedefinitie e.g.: `query_42(connection, col_names, super_voorbeeldparam = ['joske', 'jef'])` weten jullie exact welke vorm en type (int, lijst, etc) de inputparameters moeten hebben. 
    - Wijzig zeker niets aan de naam van die parameters (*super_voorbeeldparam* blijft *super_voorbeeldparam*).
    - De default waarden geven informatie over het type van de inputparameters (*super_voorbeeldparam* moet blijkbaar een lijst van strings zijn). 
    - Let wel: de default waarden zijn _louter ter illustratie, zorg ervoor dat je query ook met andere waarden dan de defaults werkt!_
    - **NAAM OF TYPE VAN PARAMETER NIET GERESPECTEERD OP EEN QUERY BETEKENT 0 PUNTEN OP DIE QUERY**

**Samengevat: oplossingen die deze vorm niet respecteren, CRASHEN op onze machines en resulteren in een score van 0 op die query.**


In [6]:
# Lees de dictionairy van kolomnamen in
col_names = json.load(open(ALL_Q_COLNAM_FP, "r"))

# Inspecteer de dictionairy van kolomnamen
for k, v in col_names.items():
    msg = "Kolomnamen van {}: {} \n".format(k, v)
    print(msg)

Kolomnamen van query_01: ['W', 'L', 'yearID', 'nameGiven', 'NameLast', 'teamID'] 

Kolomnamen van query_02: ['nameFirst', 'nameLast'] 

Kolomnamen van query_03: ['name', 'teamID'] 

Kolomnamen van query_04: ['nameLast', 'nameFirst', 'teamID', 'NumYears', 'AvgW', 'AvgR'] 

Kolomnamen van query_05: ['name', 'nameFirst', 'nameLast', 'HRs'] 

Kolomnamen van query_06: ['birthYear', 'birthMonth', 'birthDay', 'nameLast', 'nameFirst'] 

Kolomnamen van query_07: ['nameFirst', 'nameLast', 'awardID', 'yearID'] 

Kolomnamen van query_08: ['nameFirst', 'nameLast', 'Age', 'NrRankR'] 



In [7]:
toon_uitleg(DOC_FPS.get("instructions"), sectie=[1, 2])

# 2. Instructies bij gebruik van de notebook

Hieronder volgen onvolledige functies (e.g., `query_42(connection, col_names, super_voorbeeldparam = ['joske', 'jef'])`). Aan jullie om ze aan te vullen zodat de functie:  

1. Een corecte query opstelt
2. De query uitvoert op de database
3. Het resultaat teruggeeft in een DataFrame.

Voor stap 2 en 3 zijn de nodige functies al voorhanden, i.e.: `run_query(connection, query)` en `res_to_df(res, column_names)`. Jullie werk zal dus vooral bestaan uit stap 1, queries opstellen. Elke functie heeft minstens 2 inputargumenten:

1. `connection`:   Een connection object 
2. `column_names`: De kolomnamen van het "DataFrame" (i.e. de tabel met de resultaten van je query)
    
Gevolgd door eventuele extra argumenten (e.g., `super_voorbeeldparam = ['joske','jef']`) die dienen om parameters in de query te injecteren. 

**Nogmaals: verander niets aan de namen van de functies, namen van de functie-parameters en de kolomnamen van de resulterende DataFrames. Wijzigingen hieraan leiden onvermijdelijk tot een score van 0 op die query.**

In deze notebook kan je naar believen extra cellen toevoegen om je queries te testen, resultaten te inspecteren etc. Daar _dient_ deze notebook immers voor: deze notebook wordt **niet ingediend** als oplossing.

We vragen jullie om de finale, ingevulde functies te kopiëren naar een extern python script dat _enkel en alleen_ deze ingevulde functies bevat. Cf. de laatste sectie van deze notebook voor instructies omtrent hoe in te dienen.

## 2.1 Voorbeeld-query opstellen

Om jullie al wat op weg te zetten volgt hier een voorbeeldje over hoe je te werk kan gaan.

**Beschrijving**

Het resultaat van deze functie is een DataFrame met teamnaam, jaar en aantal homeruns van teams die meer dan een gegeven aantal `homeruns` hadden in dat jaar.

Sorteer aflopend op aantal homeruns.

**Oplossing**



In [8]:
# Voorbeeld-query (oplossing)
def query_voorbeeld(connection, column_names, homeruns=20):
    # Bouw je query
    query = """
    select    t.name, t.yearID, t.HR
    from      Teams as t
    where     t.HR > {}
    order by  t.HR DESC;
    """.format(
        homeruns
    )
    # TIP: Met "format" krijg je parameters in de string (samen met `{}` in de string zelf)

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [9]:
toon_uitleg(DOC_FPS.get("instructions"), sectie=3)

## 2.2 Voorbeeld-query runnen

Om een query te runnen maken we gebruik van de hulpfuncties die we eerder ter beschikking stelden (e.g. `verbind_met_GB`). Concreet bestaat dit proces uit twee stappen:

1. Eerst maken we een verbindingsobject met de databank
2. Vervolgens runnen we onze query, en inspecteren we het resultaat.


In [10]:
# Verbindingsobject aanmaken

username = 'root'      # Vervang dit als je via een andere user queries stuurt
hostname = 'localhost' # Als je een databank lokaal draait, is de hostname meestal gewoon "localhost"
db = 'db-project'          # Naam van de gegevensbank op je XAMPP Mysql server

# We verbinden met de gegevensbank, deze functie heeft als output een `connection-object`.
c = verbind_met_GB(username, hostname, db, password='')

In [11]:
# Query runnen, resultaat ophalen en inspecteren.

# De query-functie verwacht als tweede parameter de kolomnamen van het resultaat.
kolomnamen_voorbeeldquery = ["name", "yearID", "HR"]

# Query-functie uitvoeren, geeft resultaat van de query in een DataFrame
df = query_voorbeeld(c, kolomnamen_voorbeeldquery, homeruns=10)   

# Inspecteer laatste resultaten (laat. tail() weg om alles te zien)
df.tail()            

Unnamed: 0,name,yearID,HR
2689,Philadelphia Phillies,1908,11
2690,Providence Grays,1881,11
2691,Providence Grays,1882,11
2692,St. Louis Brown Stockings,1882,11
2693,St. Louis Browns,1884,11


In [12]:
# EXTRA: Query runnen met andere parameterwaarde
df = query_voorbeeld(c, kolomnamen_voorbeeldquery, homeruns=30)
df.tail()                                                

Unnamed: 0,name,yearID,HR
2299,Philadelphia Phillies,1899,31
2300,Rochester Broncos,1890,31
2301,St. Louis Browns,1919,31
2302,St. Louis Browns,1897,31
2303,Washington Senators,1948,31


## 3. Queries

In [13]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=1)

## 3.1 Query 01

**Beschrijving**

Voor elke manager, voor elke keer dat deze manager meer dan `X` games heeft, geef: het aantal wins, het aantal losses, het jaar, de gegeven naam en de achternaam van de manager, en het teamID.

Sorteer eerst aflopend op wins, dan oplopend op: losses, jaar, teamID, achternaam en gegeven naam.



In [14]:
def query_01(connection, column_names, X=150):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [15]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=2)

## 3.2 Query 02

**Beschrijving**

Geef de voornaam en achternaam van alle spelers geboren in de jaren '60 van de vorige eeuw.

Sorteer achtereenvolgens alfabetisch oplopend op achternaam en voornaam.



In [16]:
def query_02(connection, column_names):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [17]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=3)

## 3.3 Query 03

**Beschrijving**

Geef de namen en IDs van teams waarvan de naam een gegeven string `X` bevat. Het resultaat mag geen duplicaten bevatten.

Sorteer achtereenvolgens oplopend op teamID en dan op naam.




In [18]:
def query_03(connection, column_names, X="Blue"):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [19]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=4)

## 3.4 Query 04

**Beschrijving**

Geef voor elke manager, voor elk team waarmee de manager gewerkt heeft gedurende minstens `X` jaar: de achternaam en de voornaam van de manager, het ID van het team, het aantal jaren dat de manager het team heeft gemanaged, het gemiddeld aantal wins en gemiddelde rank.

Sorteer achtereenvolgens oplopend op gemiddelde rank, dan aflopend op: aantal jaar, aantal wins, teamID, achternaam en voornaam van de manager.




In [20]:
def query_04(connection, column_names, X=3):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [21]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=5)

## 3.5 Query 05

**Beschrijving**

Geef voor een gegeven jaar `X`, voor elk team: de naam van dat team en de voornaam en de achternaam van de speler(s) met het hoogste totaal aantal homeruns in dat team in dat jaar, alsook dat aantal homeruns.

Sorteer achtereenvolgens alfabetisch oplopend op teamnaam, dan achternaam, dan voornaam.




In [22]:
def query_05(connection, column_names, X=1975):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [23]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=6)

## 3.6 Query 06

**Beschrijving**

Maak een lijst van spelers geboren op dezelfde datum als minstens 1 andere speler.
Geef de geboortedatum, alsook de voor en achternaam van de spelers.

Sorteer achtereenvolgens oplopend op geboortedatum, dan alfabetisch oplopend op achternaam en voornaam.

Zorg ervoor dat je resultaat geen data bevat die duidelijk geen geboortedatum van een speler kunnen zijn, e.g. data als _3000-1-1_ or _1950-80-3_.





In [24]:
def query_06(connection, column_names):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [25]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=7)

## 3.7 Query 07

**Beschrijving**

Maak een lijst van alle speler geboren in een gegeven jaar `X`. 
Per speler, geef voornaam en achternaam, alsook de eventuele awards gewonnen als speler.
Voor elke award, geef de naam van die award en het jaar waarin de award gewonnen werd.

Sorteer achtereenvolgens alfabetisch oplopend op achternaam, voornaam, naam van award en tenslotte oplopend op jaar.




In [26]:
def query_07(connection, column_names, X=1950):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [27]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=8)

## 3.8 Query 08

**Beschrijving**

Maak een lijst van managers die een gegeven rank `R` minstens éénmaal hebben bereikt.
Voor elk van die managers, geef: voornaam, achternaam, leeftijd (in jaren) waarop ze de eerste keer die rank bereikt hebben en de naam van het team waarmee dit gebeurde, alsook het totale aantal keren dat ze die rank bereikt hebben.

Sorteer achtereenvolgens oplopend op leeftijd, dan alfabetich oplopend op: achternaam en voornaam.

Zorg ervoor dat je enkel managers beschouwt die, ten tijde van hun eerste rank `R`, niet meer dan een gegeven aantal `N` jaren ouder waren dan de leeftijd van de jongste manager die ooit rank `R` wist te bereiken.


In [28]:
def query_08(connection, column_names, N=5, R=1):

    # Bouw je query
    query = """
    MAAK QUERY HIER
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [29]:
toon_uitleg(DOC_FPS.get("submissions"), sectie=1)

## 4. Hoe en wat in te dienen?

Nu je alle queries ingevuld (en getest) hebt, ben je klaar om je taak in te dienen. **De deadline wordt gecommuniceerd via Toledo.**

1. **Maak een leeg bestand** aan, en geef het de bestandsnaam met formaat: `achternaam_voornaam_studentennummer.py`.
    - `achternaam` verwijst naar je achternaam, bijvoorbeeld `Lemaître`
    - `voornaam`  verwijst naar je voornaam, bijvoorbeeld `Georges`
    - `studentennummer` is je studentennummer zoals vermeld op je studentenkaart, bijvoorbeeld `r0123456`
    -  Een goede bestandsnaam is dus bijvoorbeeld: `lemaitre_georges_r0123456.py`  
    
2. Kopieer **ALLE INGEVULDE FUNCTIES EN NIETS ANDERS** naar dit bestand. Het bevat dus _enkel en alleen_ de functies: `query_01`, `query_02`, etc.  

3. **TIP**: om te testen dat je oplossing deftig runt, kan je gebruik maken van de `verification.ipynb` notebook!
    - Eerst worden je functies ingelezen vanuit het zonet aangemaakte python bestand (e.g. `lemaitre_georges_r0123456.py`).
    - Die functies worden dan automatisch gerund op je database, met verschillende parameters.
    - De resultaten worden uitgeschreven als `.csv` files (in de `out` folder)
    - Dit helpt om zeker te zijn dat je `achternaam_voornaam_studentennummer.py` bestand correct werkt.
        - Als een query crasht, zal er dus geen resultaat worden uitgeschreven!
        - Als een query niet crasht, kan je de resultaten inspecteren.  
        
4. **TIP**: voor de eerste query kan je je oplossing zelfs _evalueren_ via de `verification.ipynb` notebook!
    - De output `.csv` file van jouw oplossing wordt vergeleken met de `.csv` van de modeloplossing (te vinden in de `solution` folder).
    - Jouw oplossing krijgt een score toegekend. Cf. https://en.wikipedia.org/wiki/F1_score. 
    - Al dan niet correct sorteren is verantwoordelijk voor 10% van je score.
    - Een kort rapport wordt weergegeven. Dit vertelt je wat er eventueel mis is met je oplossing. 
        - TP: True Positives
        - TN: True Negatives
        - FP: False Positives
    - Dit kan je helpen om je oplossing te debuggen.
    - Voor de andere queries houden we de modeloplossingen geheim tot na de deadline.
        - Hier moet je dus zelf de resultaten inspecteren om jezelf ervan te overtuigen dat deze inderdaad correct zijn.  
        
5. Als je oplossing definitief is, submit je je `achternaam_voornaam_studentennummer.py` bestand via Toledo.  

6. Nogmaals, als finale submissie verwachten we dus _enkel_ een python bestand (e.g., `achternaam_voornaam_studentennummer.py`) dat jullie ingevulde functies bevat en niks anders.
    - Wij evalueren jullie ingediende python bestanden ook via de `verification.ipynb` notebook
    - Zoals zonet uitgelegd laat de `verification.ipynb` notebook je toe om zelf te checken dat je bestand deftig runt zonder te crashen etc. **Als op het op je eigen machine al niet werkt, is de kans miniem dat het bij ons wel zo zal zijn.**
