# Verification

# Imports

In [1]:
# Imports van binnen onze eigen repository
import sys
from pathlib import Path
sys.path.append(str(Path().absolute().parent / "src"))

from db_project import (
    run_external_script,
    evaluate_script,
    toon_uitleg,
    DOC_FPS,
    DEMO_Q_PARAMS_FP,
    ALL_Q_PARAMS_FP, # NB: Deze file zit uiteraard niet in de repo tot we deze releasen.
    DUMMY_SOLUTION_FP,
    MODEL_SOLUTION_FP, # NB: Deze file zit uiteraard niet in de repo tot we deze releasen.
)


In [2]:
# Tekst en uitleg wordt ingelezen uit bestanden uit de `docs` folder.
toon_uitleg(DOC_FPS.get("verification"), sectie=[1,2])

# 1. Inleiding

In deze notebook kan je je oplossing runnen (en, indien modeloplossingen voorhanden, ook evalueren).

- Eerst wordt je python script automatisch gerund met verschillende parameters
- De resultaten worden opgeslagen in `.csv` files (in de `out` folder)
- Die `.csv` files worden vergeleken met de `.csv` files van de oplossing (te vinden in de `solution` folder).
- Elke query krijgt een score toegekend. Cf. <https://en.wikipedia.org/wiki/F1_score>.
- Een kort rapport wordt weergegeven die je pointers kan geven over wat er mis is met je query. 

  - TP: True Positives
  - TN: True Negatives
  - FP: False Positives

Na release van de modeloplossingen kan je natuurlijk alles controleren.

# 2. Uitvoeren

Dit proces bestaat uit 3 stappen.

1. Eerst dien je terug verbinding te maken met de gegevensbank.
2. Dan dien je de filename van je ingevulde script in te vullen. Je "ingevulde script" is het bestand dat **ALLE INGEVULDE FUNCTIES EN NIETS ANDERS** bevat. Hieronder importeren we het script `dummy_solution.py` van in de `scripts` folder.
3. Run het script. Dit doen we met behulp van de `run_external_script` functie die we eerder importeerden. (De parameters en de kolomnamen worden automatisch ingelezen uit de `.json` files in de `solution` folder.)



In [3]:
import mysql
def verbind_met_GB(username, hostname, gegevensbanknaam, password=None, poort=3306):
    """
    Maak verbinding met een externe gegevensbank

    Parameters
    ----------

    username:           str
                        Username van de gebruiker
    hostname            str
                        Naam van de host. In het geval van lokale server 'localhost'
    gegevensbanknaam    str
                        Naam van de gegevensbank
    password            str, None
                        Wachtwoord kan al meegegeven worden. Indien niet, wordt
                        een wachtwoordveldje gegenereerd waar de gebruiker het
                        kan ingeven.
    poort               int, defaults to 3306
                        poort waarop MySQL luistert. Typisch is dat op poort 3306, 
                        maar variaties zijn mogelijk.
    Returns
    -------
    connection          connection object
                        Dit is het soort object dat wordt teruggeven door
                        connect() methods van packages die voldoen aan de DB-API

    """

   #implementeer hier de functie

In [4]:
# STAP 01: Verbindingsobject aanmaken

username = 'root'      # Vervang dit als je via een andere user queries stuurt
hostname = 'localhost' # Als je een databank lokaal draait, is dit localhost.
db = 'lahman2016'          # Naam van de gegevensbank op je XAMPP Mysql server

# We verbinden met de gegevensbank
c = verbind_met_GB(username, hostname, db, password='')

In [5]:
# STAP 02: Specifieer filenames van script en parameters

parameters_filename = str(DEMO_Q_PARAMS_FP) 
# parameters_filename = str(ALL_Q_PARAMS_FP) # Na release van modeloplossing: uncomment deze lijn om onze parameters te gebruiken.

ingevulde_oplossing_filename = str(DUMMY_SOLUTION_FP)  # VERVANG DIT DOOR JOUW FILENAME ALS JE JE OPLOSSING ZELF WIL VERIFIËREN!


In [6]:
# Enkele checks alvorens over te gaan tot effectief runnen van het script

if Path(ingevulde_oplossing_filename).exists() and Path(parameters_filename).exists():
    msg = """
    We gaan dit script runnen:
        {}
    Met deze parameters:
        {}
    """.format(ingevulde_oplossing_filename, parameters_filename)
    
    print(msg)
else:
    msg = """
    Oplossingsfile gevonden: {}
    Parametersfile gevonden: {}
    
    Los dit probleem op indien je je script wil runnen.
    """.format(Path(ingevulde_oplossing_filename).exists(), Path(parameters_filename).exists())
    print(msg)
    
    assert False # STOP HIER.


    We gaan dit script runnen:
        C:\Users\Maxim\OneDrive\Documenten\Studie\KULAK\BA Informatica 2022-2023 sem2\Gegevensbanken\Project\2022-2023_gegevensbanken_project\scripts\dummy_solution.py
    Met deze parameters:
        C:\Users\Maxim\OneDrive\Documenten\Studie\KULAK\BA Informatica 2022-2023 sem2\Gegevensbanken\Project\2022-2023_gegevensbanken_project\solution\demo_q_params.json
    


In [7]:
# STAP 03: Run je oplossingen
run_external_script(ingevulde_oplossing_filename, c, params_fname=parameters_filename)

In [8]:
toon_uitleg(DOC_FPS.get("verification"), sectie=3)

# 3. Evaluatie

Het externe script is nu uitgevoerd met de door ons vastgelegde parameters. Op die manier zijn er `.csv` files gemaakt in de `out` directory.

Die `.csv` files worden in de volgende stap vergeleken met door ons aangemaakte `.csv` files van de modeloplossingen. Op die manier wordt de score berekend. Bijgevolg kan er enkel een evaluatie plaatsvinden van die queries waar de modeloplossingen van voorhanden zijn.

**Opgelet**: Voor een accurate evaluatie mogen er geen resultaten van een vorige run nog aanwezig zijn: anders kan het zijn dat er oude resultaten meegenomen worden in de evaluatie en dat is niet correct! 



In [9]:
print(evaluate_script(ingevulde_oplossing_filename, params_fname=parameters_filename, demo=True))

SOL DIR:  C:\Users\Maxim\OneDrive\Documenten\Studie\KULAK\BA Informatica 2022-2023 sem2\Gegevensbanken\Project\2022-2023_gegevensbanken_project\solution
RES DIR:  C:\Users\Maxim\OneDrive\Documenten\Studie\KULAK\BA Informatica 2022-2023 sem2\Gegevensbanken\Project\2022-2023_gegevensbanken_project\out\dummy_solution\results
Evaluating query 1
None


  df_2 = df.max(level=["query", "parameter"])
  df_3 = df_2.mean(level=["query"])
  df_red = df_3.append(


In [10]:
toon_uitleg(DOC_FPS.get("verification"), sectie=4)

# 4. Reports

Om te kijken wat je score was, cf. de `out` folder:

- in `out/reports` vind je gegeneerde reports. 

  - Het `execution_report` is een log van het uitvoeren van je script.
  - Het `evaluation_report` is een kleine samenvatting van je behaalde scores.

- in `out/results` vind je de `.csv` files die je queries geproduceerd hebben.
