# PROJECT GEGEVENSBANKEN - SQL

# Imports

In [5]:
# Setup
import sys
import getpass  # Package om een paswoordveldje te genereren.
import json  # Package om .json files in te laden (bvb kolomnamen zijn zo opgeslagen)
import mysql.connector  # MySQL package
import pandas as pd  # Populaire package voor data-verwerking

from pathlib import Path
from inspect import getsource

In [6]:
# Imports van binnen onze eigen repository
sys.path.append(str(Path().absolute().parent / "src"))

from db_project import (
    res_to_df,
    toon_uitleg,
    DOC_FPS,
    DEMO_Q_PARAMS_FP,
    ALL_Q_COLNAM_FP,
)


In [7]:
# Tekst en uitleg wordt ingelezen uit bestanden uit de `docs` folder.
toon_uitleg(DOC_FPS.get("intro"), sectie=[1, 2, 3])

# 1. Inleiding

Zie het document `prerequisites.pdf` in de `docs` folder voor installatiehulp van XAMPP etc.

## 1.1 Python packages

De import statements (cf. boven) vormen de standaardconfiguratie van python-packages die we gebruiken. _Van deze configuratie afwijken is dan ook op eigen risico, gezien dat betekent dat je ook afwijkt van de configuratie van de computer waarop wij jullie oplossingen runnen._
   
    
## 1.2 Kolomnamen en input parameters

We leggen op voorhand reeds de **kolomnamen van de oplossingen**, en de **naam en types van de inputparameters** vast. Hier moet je je dus aan houden en mag je dus niks aan wijzigen.

- Het aantal kolommen (en hun volgorde) van jullie oplossing en de onze **moeten** exact overeen komen. 
    - Vandaar dat de kolomnamen hieronder gegeven zijn. 
    - Dit komt trouwens van pas bij het opstellen van je queries! 
    - **KOLOMNAMEN NIET GERESPECTEERD OP EEN QUERY BETEKENT 0 PUNTEN OP DIE QUERY**
    
- Dankzij de voorbeeldparameters, die al gegeven zijn in de functiedefinitie e.g.: `query_42(connection, col_names, super_voorbeeldparam = ['joske', 'jef'])` weten jullie exact welke vorm en type (int, lijst, etc) de inputparameters moeten hebben. 
    - Wijzig zeker niets aan de naam van die parameters (*super_voorbeeldparam* blijft *super_voorbeeldparam*).
    - De default waarden geven informatie over het type van de inputparameters (*super_voorbeeldparam* moet blijkbaar een lijst van strings zijn). 
    - Let wel: de default waarden zijn _louter ter illustratie, zorg ervoor dat je query ook met andere waarden dan de defaults werkt!_
    - **NAAM OF TYPE VAN PARAMETER NIET GERESPECTEERD OP EEN QUERY BETEKENT 0 PUNTEN OP DIE QUERY**

**Samengevat: oplossingen die deze vorm niet respecteren, CRASHEN op onze machines en resulteren in een score van 0 op die query.**


In [8]:
# Lees de dictionairy van kolomnamen in
col_names = json.load(open(ALL_Q_COLNAM_FP, "r"))

# Inspecteer de dictionairy van kolomnamen
for k, v in col_names.items():
    msg = "Kolomnamen van {}: {} \n".format(k, v)
    print(msg)

Kolomnamen van query_01: ['last_name', 'first_name', 'height'] 

Kolomnamen van query_02: ['last_name', 'first_name', 'age', 'country_death'] 

Kolomnamen van query_03: ['last_name', 'first_name', 'year_of_birth', 'name_of_team', 'year', 'teamWins', 'managerLosses'] 

Kolomnamen van query_04: ['year', 'group', 'vote_count', 'vote_mean'] 

Kolomnamen van query_05: ['last_name', 'first_name', 'year_of_birth'] 

Kolomnamen van query_06: ['last_name', 'first_name', 'year', 'votes'] 

Kolomnamen van query_07: ['last_name', 'first_name', 'mean_errors'] 

Kolomnamen van query_08: ['last_name', 'first_name', 'year_count'] 

Kolomnamen van query_09: ['last_name', 'first_name', 'year_count'] 

Kolomnamen van query_10: ['last_name', 'first_name'] 



In [9]:
toon_uitleg(DOC_FPS.get("instructions"), sectie=[1, 2])

# 2. Instructies bij gebruik van de notebook

Hieronder volgen onvolledige functies (e.g., `query_42(connection, col_names, super_voorbeeldparam = ['joske', 'jef'])`). Aan jullie om ze aan te vullen zodat de functie:  

1. Een correcte query opstelt
2. De query uitvoert op de database
3. Het resultaat teruggeeft in een DataFrame.

Voor stap  3 is de nodige functie al voorhanden, i.e.: `res_to_df(res, column_names)`.
Voor stap 2 zal je nog 2 functies moeten implementeren (instructies volgen in het volgende deel). Gelukkig zal dit niet veel tijd vragen, jullie werk zal dus vooral bestaan uit stap 1, queries opstellen. Elke functie heeft minstens 2 inputargumenten:

1. `connection`:   Een connection object 
2. `column_names`: De kolomnamen van het "DataFrame" (i.e. de tabel met de resultaten van je query)
    
Gevolgd door eventuele extra argumenten (e.g., `super_voorbeeldparam = ['joske','jef']`) die dienen om parameters in de query te injecteren. 

**Nogmaals: verander niets aan de namen van de functies, namen van de functie-parameters en de kolomnamen van de resulterende DataFrames. Wijzigingen hieraan leiden onvermijdelijk tot een score van 0 op die query.**

In deze notebook kan je naar believen extra cellen toevoegen om je queries te testen, resultaten te inspecteren etc. Daar _dient_ deze notebook immers voor: deze notebook wordt **niet ingediend** als oplossing.

We vragen jullie om de finale, ingevulde functies te kopiëren naar een extern python script dat _enkel en alleen_ deze ingevulde functies bevat. Cf. de laatste sectie van deze notebook voor instructies omtrent hoe in te dienen.

## 2.1 Voorbeeld-query opstellen

Om jullie al wat op weg te zetten volgt hier een voorbeeldje over hoe je te werk kan gaan.

**Beschrijving**

Het resultaat van deze functie is een DataFrame met teamnaam, jaar en aantal homeruns van teams die meer dan een gegeven aantal `homeruns` hadden in dat jaar.

Sorteer aflopend op aantal homeruns.

**Oplossing**



In [10]:
# Voorbeeld-query (oplossing)
def query_voorbeeld(connection, column_names, homeruns=20):
    # Bouw je query
    query = """
    select    t.name, t.yearID, t.HR
    from      Teams as t
    where     t.HR > {}
    order by  t.HR DESC;
    """.format(
        homeruns
    )
    # TIP: Met "format" krijg je parameters in de string (samen met `{}` in de string zelf)

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [11]:
toon_uitleg(DOC_FPS.get("instructions"), sectie=3)

## 2.2 Voorbeeld-query runnen

Om een query te runnen moeten we verbinding maken met de gegevensbank.
Implementeer hiervoor 2 functies: verbind_met_gb() en run_query(). De lege functies staan hieronder. 
De implementatie van deze functies wordt niet nagekeken en telt niet mee voor het resultaat. Het is echter wel belangrijk dat ze werken, aangezien onze implementaties van de functies opgeroepen worden tijdens de evaluatie en het dus belangrijk is dat je je oplossingen in de notebook kunt testen (ipv in de phpmyadmin console zelf). 

1. Eerst maken we een verbindingsobject met de databank
2. Vervolgens runnen we onze query, en inspecteren we het resultaat.


TIP: mysql.connector is zeker de moeite waard om eens te bekijken.


In [12]:
def verbind_met_GB(username, hostname, gegevensbanknaam, password=None, poort=3306):
    """
    Maak verbinding met een externe gegevensbank

    Parameters
    ----------

    username:           str
                        Username van de gebruiker
    hostname            str
                        Naam van de host. In het geval van lokale server 'localhost'
    gegevensbanknaam    str
                        Naam van de gegevensbank
    password            str, None
                        Wachtwoord kan al meegegeven worden. Indien niet, wordt
                        een wachtwoordveldje gegenereerd waar de gebruiker het
                        kan ingeven.
    poort               int, defaults to 3306
                        poort waarop MySQL luistert. Typisch is dat op poort 3306, 
                        maar variaties zijn mogelijk.
    Returns
    -------
    connection          connection object
                        Dit is het soort object dat wordt teruggeven door
                        connect() methods van packages die voldoen aan de DB-API

    """
    
    #Implementeer hier de functie
    connection = mysql.connector.connect(
        user=username,
        password=password,
        database=gegevensbanknaam,
        host=hostname,
        port=poort
    )
    return connection

def run_query(connection, query):
    """
    Voer een query uit op een bestaande connection.

    Geeft het resultaat van de query terug.

    Parameters
    ----------
    connection      connection object
                    Dit is het soort object dat wordt teruggeven door
                    connect() methods van packages die voldoen aan de DB-API
    query           str
                    SQL-query geschreven als een gewone string

    Returns
    -------

    """
    
     #Implementeer hier de functie
    cursor = connection.cursor()
    cursor.execute(query)
    result = cursor.fetchall()
    
    return result



In [13]:
# Verbindingsobject aanmaken

username = 'root'      # Vervang dit als je via een andere user queries stuurt
hostname = 'localhost' # Als je een databank lokaal draait, is de hostname meestal gewoon "localhost"
db = 'lahman2016'          # Naam van de gegevensbank op je XAMPP Mysql server

# We verbinden met de gegevensbank, deze functie heeft als output een `connection-object`.
c = verbind_met_GB(username, hostname, db, password='')

In [14]:
# Voorbeeldquery runnen, resultaat ophalen en inspecteren.

# De query-functie verwacht als tweede parameter de kolomnamen van het resultaat.
kolomnamen_voorbeeldquery = ["name", "yearID", "HR"]

# Query-functie uitvoeren, geeft resultaat van de query in een DataFrame
df = query_voorbeeld(c, kolomnamen_voorbeeldquery, homeruns=10)   

# Inspecteer laatste resultaten (laat. tail() weg om alles te zien)
df.tail()

Unnamed: 0,name,yearID,HR
2689,Cleveland Naps,1907,11
2690,St. Louis Browns,1884,11
2691,Detroit Tigers,1907,11
2692,Chicago White Sox,1905,11
2693,Philadelphia Phillies,1908,11


In [12]:
# EXTRA: Query runnen met andere parameterwaarde
df = query_voorbeeld(c, kolomnamen_voorbeeldquery, homeruns=30)
df.tail()                                                

Unnamed: 0,name,yearID,HR
2299,Boston Beaneaters,1890,31
2300,Chicago Pirates,1890,31
2301,New York Giants,1897,31
2302,Rochester Broncos,1890,31
2303,Detroit Wolverines,1884,31


## 3. Queries

In [13]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=1)

## 3.1 Query 01

**Beschrijving**

Geef voor alle spelers die voor jaar "X" zijn benoemd als all-star en groter zijn dan "Y": de achternaam, voornaam en grootte. Stel dat een speler meerdere keren tot all-star is benoemd, dan verwachten we deze informatie maar 1 keer. 

Sorteer alfabetisch op achternaam, voornaam en aflopend op grootte. 



In [None]:
def query_01(connection, column_names, X=1980, Y=50):

    # Bouw je query
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=2)

In [None]:
def query_02(connection, column_names, X="'USA'", Y=40):

    # Bouw je query
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=3)

In [None]:
def query_03(connection, column_names, X=1940, Y=1980, Z=1):

    # Bouw je query
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=4)

In [None]:
def query_04(connection, column_names, X=1940, Y=30):

    # Bouw je query
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=5)

In [None]:
def query_05(connection, column_names, X=1960):

    # Bouw je query
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df

In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=6)

In [None]:
def query_06(connection, column_names, X="'TX'"):
    
    # Bouw je query
    query = """
    maak hier je query"""
    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df


In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=7)

In [None]:
def query_07(connection, column_names,  X=2, Y=500):

    # Bouw je query
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df


In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=8)

In [None]:
def query_08(connection, column_names):

    # Bouw je 1ste query die de tabel opbouwt
    query = """
    maak hier je query"""

    
    try:
        run_query(connection, query)  # Query uitvoeren
    except Exception as e:
        print(e)
        
        
    #bouw je 2de query die alle resultaten uit die tabel opvraagt
    query = """
    Maak hier je query
    """

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df    
      
   


In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=9)

In [None]:
def query_09(connection, column_names, X=4):

     # Bouw je query die de gevraagde waardes verwijdert
    query = """
    maak hier je query"""

    # Stap 2 & 3
    try:
        run_query(connection, query)  # Query uitvoeren
    except Exception as e:
        print(e)
   

    # Bouw je query die alle resultaten uit de geupdate tabel opvraagt
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df


In [None]:
toon_uitleg(DOC_FPS.get("query_description"), sectie=10)

In [None]:
def query_10(connection, column_names,  X=1990, Y=91):

    # Bouw je query
    query = """
    maak hier je query"""

    # Stap 2 & 3
    res = run_query(connection, query)  # Query uitvoeren
    df = res_to_df(res, column_names)  # Query in DataFrame brengen

    return df


### Indienen

In [None]:
toon_uitleg(DOC_FPS.get("submissions"), sectie=1)