## Connecteren op een Postgres database

In [3]:
import psycopg2
import json
import pandas as pd
import sqlalchemy

# Verbinding maken
# Database connection parameters
conn = psycopg2.connect(
    dbname="countries",  # of jouw database naam
    user="admin",  # standaard postgres gebruiker
    password="myPasswww00rD",  # wachtwoord dat je hebt ingesteld in de compose file
    host="mypostgres",  # de containernaam in het netwerk is de host
    port="5432"  # standaard PostgreSQL-poort
)

### Aanmaken van een cursor  

*Wat is een cursor eigenlijk??*  

Een cursor is een object dat door een databaseverbinding wordt gebruikt om SQL-query's uit te voeren en de resultaten te beheren. Het biedt een interface tussen jouw Python-code en de database, zodat je:

- SQL-statement kan uitvoeren (bijv. SELECT, INSERT, UPDATE, enz.).
- Resultaten kan ophalen van een query.
- Parameters kan binden aan een query voor veiliger en dynamisch gebruik (prepared statements°).

#### **Wanneer moet je een cursor sluiten?**
*Sluiten van de cursor*
Een cursor moet worden gesloten **zodra je klaar bent met het uitvoeren van query's**. Het sluiten van de cursor:
- Beëindigt de communicatie tussen de cursor en de database.
- Laat de resources vrij die aan de cursor zijn toegewezen.
  
*Wanneer sluit je dan de cursor?*  
Direct na het uitvoeren van alle vereiste statements binnen dezelfde cursor.  
Gebruik bij voorkeur with-contextbeheer, zodat de cursor automatisch wordt gesloten.

#### **Wanneer moet je de connection sluiten?**
Het beheer van databaseconnecties in een applicatie die gebruikersinteracties verwerkt, vereist een balans tussen prestaties en resourcebeheer. Hier is hoe je het kunt aanpakken:  

1. *Gebruik een connection pool*
   
In plaats van telkens een nieuwe verbinding te openen en te sluiten, kun je een *connection pool* gebruiken. Dit is een set herbruikbare verbindingen die efficiënt kunnen worden gedeeld door meerdere gebruikerssessies.  

**Hoe werkt een connection pool?**  
*Wanneer een gebruiker een actie uitvoert die toegang tot de database vereist, wordt een verbinding uit de pool genomen.  
Zodra de actie is voltooid, wordt de verbinding teruggegeven aan de pool, zonder dat deze daadwerkelijk wordt gesloten.*  

**Voordelen van een pool:**  
Snellere reacties omdat verbindingen niet telkens opnieuw worden geopend.  
Minder belasting op de database omdat het aantal actieve verbindingen wordt beperkt.  

Voorbeeld met psycopg2.pool (PostgreSQL):

```python
    from psycopg2 import pool
    
    # Pool maken
    connection_pool = pool.SimpleConnectionPool(
        minconn=1,
        maxconn=10,
        user="your_user",
        password="your_password",
        host="your_host",
        port="your_port",
        database="your_db"
    )
    
    # Verbinding gebruiken
    conn = connection_pool.getconn()  # Haal een verbinding uit de pool
    with conn.cursor() as cur:
        cur.execute("SELECT * FROM events;")
        results = cur.fetchall()
    connection_pool.putconn(conn)  # Geef de verbinding terug aan de pool
```

2. *Wanneer verbinding openen en sluiten?*  

**Scenario 1**: Directe acties van de gebruiker - acties zoals het bekijken van een kalender of het invoeren van een record *zonder langdurige interactie*.

- Open een verbinding per actie.
- Sluit de verbinding **direct na afloop van de actie**. Dit minimaliseert de tijd dat een verbinding actief is.

```python
    def get_user_events(user_id):
        conn = connection_pool.getconn()  # Verbinding openen
        try:
            with conn.cursor() as cur:
                cur.execute("SELECT * FROM events WHERE user_id = %s", (user_id,))
                events = cur.fetchall()
            return events
        finally:
            connection_pool.putconn(conn)  # Verbinding sluiten
```

**Scenario 2**: Langdurige gebruikerssessies

Als de gebruiker meerdere acties kan uitvoeren binnen één sessie:

Gebruik een verbinding die actief blijft zolang de gebruiker ingelogd is.  

Sluit de verbinding wanneer de gebruiker uitlogt of een bepaalde inactiviteitstijd wordt overschreden.  


Voorbeeld met tijdslimiet:

```python
    from datetime import datetime, timedelta
    
    user_connections = {}
    
    def open_connection_for_user(user_id):
        conn = connection_pool.getconn()
        user_connections[user_id] = {"connection": conn, "last_used": datetime.now()}
        return conn
    
    def close_inactive_connections():
        now = datetime.now()
        for user_id, info in list(user_connections.items()):
            if now - info["last_used"] > timedelta(minutes=15):  # 15 minuten inactiviteit
                connection_pool.putconn(info["connection"])
                del user_connections[user_id]
```

#### Hoe weet je of de gebruiker iets gaat doen?  

Je weet het nooit zeker. Daarom:  

- Houd de verbinding open als er een hoge kans is op verdere interactie (bijvoorbeeld binnen een korte tijd). 
- Sluit verbindingen bij inactiviteit of beëindiging van de sessie om resources te sparen.

#### Belangrijke overwegingen  
- Aantal actieve verbindingen: Controleer of de database een limiet heeft op het aantal verbindingen (bijvoorbeeld PostgreSQL heeft vaak een limiet van 100).
- Prestaties: Gebruik een connection pool om verbindingslatentie te minimaliseren.
- Beveiliging: Zorg dat verbindingen van uitgelogde gebruikers altijd worden gesloten.
- Transacties: Gebruik transacties met expliciete commits of rollbacks om consistentie te waarborgen.

**° Het gebruik van prepared statements**  

Het binden van parameters aan een query (ook bekend als prepared statements) is een techniek waarbij je variabelen veilig in een SQL-query kunt gebruiken zonder de risico's van SQL-injectie. In plaats van de waarden rechtstreeks in de query-string op te nemen, gebruik je een placeholder en geef je de waarden apart door.

Hoe werkt het?
Bij prepared statements wordt de query eerst gecompileerd door de database zonder dat er directe waarden zijn toegevoegd. Daarna worden de daadwerkelijke waarden in de query gebonden. Dit proces zorgt ervoor dat de database weet hoe deze waarden moeten worden verwerkt, wat veiliger en efficiënter is.  

*Waarom is dit belangrijk?*  
- SQL-injectie voorkomen: als je rechtstreeks gebruikersinvoer in een query verwerkt, kunnen kwaadwillenden schadelijke SQL-commando's injecteren. Prepared statements zorgen ervoor dat gebruikersinvoer altijd als data wordt behandeld, en niet als uitvoerbare code.
- Veiliger code: het binden van parameters zorgt ervoor dat de query robuuster is en voorkomt onbedoelde fouten door speciale karakters zoals aanhalingstekens (') of backslashes (\).
- Herbruikbare query's: de database kan een prepared statement opnieuw gebruiken, wat de prestaties verhoogt bij het uitvoeren van meerdere soortgelijke query's.

*Placeholder-syntax per db library*:
- psycopg2 (PostgreSQL): Gebruik %s als placeholder - cur.execute("INSERT INTO countries (code, name) VALUES (%s, %s)", ('USA', 'United States'))

- sqlite3 (SQLite): Gebruik ? als placeholder - cur.execute("SELECT * FROM countries WHERE code = ?", ('USA',))

- SQLAlchemy: Gebruik :param als placeholder

query = "INSERT INTO countries (code, name) VALUES (:code, :name)"  
connection.execute(query, {'code': 'USA', 'name': 'United States'})

In [None]:
# Voorbeeld van SQL injection met concatenatie van gebruikersinvoer
user_input = "USA'; DROP TABLE countries;--"  
query = f"SELECT * FROM countries WHERE code = '{user_input}';"

print(query)

# cur.execute(query)  # Gevaarlijk! Dit kan SQL-injectie uitvoeren.  

## Aanmaken van een Cursor

In [35]:
# Cursor aanmaken
cur = conn.cursor()

# Een eenvoudige query uitvoeren
cur.execute("SELECT version();")

# Het resultaat ophalen
version = cur.fetchone()
print("Database versie:", version)

Database versie: ('PostgreSQL 15.3 (Debian 15.3-1.pgdg110+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 10.2.1-6) 10.2.1 20210110, 64-bit',)


In [5]:
import pandas as pd
from sqlalchemy import create_engine
database_url = "postgresql+psycopg2://admin:myPasswww00rD@mypostgres:5432/countries"

# Maak een engine
engine = create_engine(database_url)

In [37]:
# Testen van de connectie
with engine.connect() as connection:
    print("Verbonden")

Verbonden


### Statements schrijven om de databank aan te maken
Tables:
- countries
- languages
- economies
- currencies
- cities

In [38]:
db_creation = {
    'create_countries': """
        CREATE TABLE IF NOT EXISTS countries (
        code CHAR(3) NOT NULL PRIMARY KEY,
        name VARCHAR(64) NOT NULL,
        continent VARCHAR(64) NOT NULL,
        region VARCHAR(64),
        surface_area REAL NOT NULL,
        indep_year SMALLINT,
        local_name VARCHAR(64),
        gov_form VARCHAR(64),
        capital VARCHAR(64),
        cap_long DOUBLE PRECISION,
        cap_lat DOUBLE PRECISION)""",
    'create_languages': """
        CREATE TABLE IF NOT EXISTS languages (
        lang_id SERIAL PRIMARY KEY,
        code CHAR(3) NOT NULL,
        name VARCHAR(64),
        percent DOUBLE PRECISION,
        official BOOLEAN);""",
    'create_economies': """
        CREATE TABLE IF NOT EXISTS economies (
        econ_id SERIAL PRIMARY KEY,
        code CHAR(3) NOT NULL,
        year INT NOT NULL,
        income_group VARCHAR(20) NOT NULL,
        gdp_percapita NUMERIC(10, 3),
        gross_savings NUMERIC(10, 3),
        inflation_rate NUMERIC(10, 3),
        total_investment NUMERIC(10, 3),
        unemployment_rate NUMERIC(10, 3),
        exports NUMERIC(10, 3),
        imports NUMERIC(10, 3));""",
    'create_currencies': """
        CREATE TABLE IF NOT EXISTS currencies (
        curr_id SERIAL PRIMARY KEY,
        code CHAR(3),
        basic_unit VARCHAR(64),
        curr_code CHAR(3),
        frac_unit VARCHAR(64),
        frac_perbasic SMALLINT);""",
    'create_cities': """
        CREATE TABLE IF NOT EXISTS cities (
        name VARCHAR(64),
        country_code CHAR(3),
        city_proper_pop INTEGER,
        metroarea_pop DOUBLE PRECISION,
        urbanarea_pop INTEGER);"""
}

# Maak alle tabellen in 1 keer aan
with conn.cursor() as cur:
    for create_statement in db_creation.values():
        cur.execute(create_statement)

# Bevestig de transactie
conn.commit()

In [1]:
# We hebben een inconsistentie tussen de tabel countries met veldnaam 'name' en countries.csv met veldnaam 'country_name'.  We hebben 2 opties om dit aan te passen:
# aanpassen van een veldnaam in de tabel OF (voorkeur) aanpassen van de veldnaam in de .csv file.

query = """
ALTER TABLE countries
RENAME column nama TO country_name;
"""

# cur.execute...

# Inlezen van de data naar de databank

We doen dit opeenvolgend via een **pandas dataframe**, en via een 'klassiek' **SQL INSERT statement**, en via  en via Create statements.

### Via Pandas

### Gebruik van pandas .to_sql  

**Waarden van if_exists**:  
- 'fail' (standaard): Geeft een fout als de tabel al bestaat. Er wordt niets uitgevoerd.
- 'replace': Verwijdert de bestaande tabel (indien aanwezig) en maakt een nieuwe tabel. Hierdoor gaan alle bestaande gegevens verloren.
- 'append': Voegt de gegevens toe aan een bestaande tabel. Als de tabel niet bestaat, wordt deze automatisch aangemaakt.

### Inlezen van countries data

In [9]:
# inlezen van de landen data
# enkel inlezen indien er nog geen countries zijn!
query = """SELECT * FROM countries"""
df = pd.read_sql_query(query, database_url)

if df.shape[0] == 0:
    countries_data = pd.read_csv('countries/countries.csv')
    countries_data.head()
    countries_data.to_sql('countries', engine, if_exists='append', index=False, method='multi')

### Inlezen van languages data

In [22]:
# inlezen van de languages
languages_data = pd.read_csv('languages.csv')
languages_data.head()

Unnamed: 0,lang_id,code,name,percent,official
0,1,AFG,Dari,50.0,True
1,2,AFG,Pashto,35.0,True
2,3,AFG,Turkic,11.0,False
3,4,AFG,Other,4.0,False
4,5,ALB,Albanian,98.8,True


In [23]:
languages_data.shape

(955, 5)

In [43]:
# Inlezen van dit dataframe naar de databank
query = """SELECT * FROM languages"""

df = pd.read_sql_query(query, database_url)

if df.shape[0] == 0:
    languages_data.to_sql('languages', engine, if_exists='append', index=False, method='multi')

### Inlezen van de cities

In [26]:
cities_data = pd.read_csv('cities.csv')
cities_data.head()

Unnamed: 0,name,country_code,city_proper_pop,metroarea_pop,urbanarea_pop
0,Abidjan,CIV,4765000,,4765000
1,Abu Dhabi,ARE,1145000,,1145000
2,Abuja,NGA,1235880,6000000.0,1235880
3,Accra,GHA,2070463,4010054.0,2070463
4,Addis Ababa,ETH,3103673,4567857.0,3103673


In [28]:
query = """SELECT * FROM cities"""
df = pd.read_sql_query(query, database_url)

if df.shape[0] == 0:
    # Inlezen van dit dataframe naar de databank
    cities_data.to_sql('cities', engine, if_exists='append', index=False, method='multi')

### Inlezen van economies

In [34]:
economies_data = pd.read_csv('countries/economies.csv')
economies_data.head()

Unnamed: 0,econ_id,code,year,income_group,gdp_percapita,gross_savings,inflation_rate,total_investment,unemployment_rate,exports,imports
0,1,AFG,2010,Low income,539.667,37.133,2.179,30.402,,46.394,24.381
1,2,AFG,2015,Low income,615.091,21.466,-1.549,18.602,,-49.11,-7.294
2,3,AGO,2010,Upper middle income,3599.27,23.534,14.48,14.433,,-3.266,-21.076
3,4,AGO,2015,Upper middle income,3876.2,-0.425,10.287,9.552,,6.721,-21.778
4,5,ALB,2010,Upper middle income,4098.13,20.011,3.605,31.305,14.0,10.645,-8.013


In [35]:
query = """SELECT * FROM economies;"""

df = pd.read_sql_query(query, database_url)

if df.shape[0] == 0:
    economies_data = pd.read_csv('countries/economies.csv')
    # Inlezen van dit dataframe naar de databank
    economies_data.to_sql('economies', engine, if_exists='append', index=False, method='multi')

### Inlezen van currencies

In [40]:
currencies_data = pd.read_csv('currencies.csv')
currencies_data.head()

Unnamed: 0,curr_id,code,basic_unit,curr_code,frac_unit,frac_perbasic
0,1,AFG,Afghan afghani,AFN,Pul,100.0
1,2,ALB,Albanian lek,ALL,Qindarke,100.0
2,3,DZA,Algerian dinar,DZD,Santeem,100.0
3,4,AND,Euro,EUR,Cent,100.0
4,5,AGO,Angolan kwanza,AOA,Centimo,100.0


In [42]:
query = """SELECT * FROM currencies;"""

df = pd.read_sql_query(query, database_url)

if df.shape[0] == 0:
    currencies_data.to_sql('currencies', engine, if_exists='append', index=False, method='multi')