<center><div style="width: 900px;  padding-top:5px; padding-bottom:10px;border: 3px solid #1625CB; text-align: left;background: #1625CB;">
 <center>SQLAlchemy : Interaction avec les bases de données simplifiée </center>
</div></center>


Les capacités de gestion du moteur et des connexions de SQLAlchemy sont cruciales pour les pipelines ETL qui interagissent avec les bases de données. 
Principaux avantages :

-  Agnosticisme des bases de données : Écrire du code compatible avec plusieurs backends de bases de données (PostgreSQL, MySQL, Oracle, etc.)
-  Regroupement de connexions : Réutiliser efficacement les connexions aux bases de données pour améliorer les performances
-  Gestion des transactions : Assurer la cohérence des données grâce à une gestion appropriée des transactions
-  Sécurité : Prévenir les injections SQL grâce à des requêtes paramétrées
-  Gestion des ressources : Gérer correctement l’ouverture et la fermeture des connexions, même en cas d’erreur


Dans les pipelines ETL, une gestion des connexions efficace est essentielle pour :

-  Extraction des données : Récupérer efficacement les données des bases de données sources
-  Chargement des données transformées : Écrire les données traitées dans les bases de données cibles
-  Maintien des performances : Éviter la surcharge de connexion lors d’opérations à volume élevé
-  Assurer la fiabilité : Gérer correctement les erreurs de base de données et le nettoyage des ressources

Cet exemple illustre plusieurs bonnes pratiques d’interaction avec les bases de données dans les pipelines ETL :

-  Utiliser des gestionnaires de contexte (withstatements) pour garantir la fermeture correcte des connexions
-  Implémentation de gestionnaires de connexions personnalisés pour une gestion spécialisée des erreurs
-  Configurer le regroupement de connexions pour optimiser les performances
-  Utiliser des requêtes paramétrées pour Prévention des injections SQL
-  Intégration à Pandas pour un flux de données fluide entre les bases de données et le traitement en mémoire

In [None]:
import sqlalchemy as sa
from sqlalchemy import create_engine, text
import pandas as pd
import os
from contextlib import contextmanager

# Création d'engines pour différents types de bases de données
# SQLite (fichier)
sqlite_engine = create_engine('sqlite:///example.db')


# SQLite (en mémoire)
sqlite_memory_engine = create_engine('sqlite:///:memory:')

# PostgreSQL
postgres_engine = create_engine('postgresql://username:password@localhost:5432/dbname')

# MySQL
mysql_engine = create_engine('mysql+pymysql://username:password@localhost:3306/dbname')

# Microsoft SQL Server
mssql_engine = create_engine('mssql+pyodbc://username:password@server_name/dbname?driver=ODBC+Driver+17+for+SQL+Server')

# Oracle
oracle_engine = create_engine('oracle+cx_oracle://username:password@hostname:port/service_name')

print("Moteur SQLite créé :", sqlite_engine)

# Gestion de connexion de base
conn = sqlite_engine.connect()
print("Connexion établie")
conn.close()
print("Connexion fermée")

# Utilisation d'un context manager pour fermer automatiquement la connexion
with sqlite_engine.connect() as conn:
    print("Connexion ouverte via un context manager")
    # Connexion automatiquement fermée en quittant le bloc

# Création d'un gestionnaire de connexion personnalisé
@contextmanager
def get_connection(engine):
    """Gestionnaire de contexte personnalisé avec gestion d'erreur"""
    connection = None
    try:
        connection = engine.connect()
        yield connection
    except Exception as e:
        print(f"Erreur base de données : {e}")
        raise
    finally:
        if connection is not None:
            connection.close()

# Utilisation du gestionnaire personnalisé
try:
    with get_connection(sqlite_engine) as conn:
        print("Utilisation du gestionnaire personnalisé")
except Exception as e:
    print(f"Exception capturée : {e}")

# Pool de connexions
pooled_engine = create_engine(
    'sqlite:///example.db',
    pool_size=5,               # Nombre max de connexions dans le pool
    max_overflow=10,           # Connexions supplémentaires autorisées en surcharge
    pool_timeout=30,           # Temps max d'attente avant échec de connexion
    pool_recycle=1800          # Durée avant recyclage d'une connexion (en secondes)
)

print("\nMoteur avec pool créé (pool_size=5, max_overflow=10)")

# Exécution directe de SQL
with pooled_engine.connect() as conn:
    # Création de table
    conn.execute(text("""
    CREATE TABLE IF NOT EXISTS customers (
        id INTEGER PRIMARY KEY,
        name TEXT NOT NULL,
        email TEXT UNIQUE,
        signup_date DATE,
        last_purchase_date DATE,
        total_purchases INTEGER DEFAULT 0
    )
    """))
    
    # Insertion de données
    conn.execute(text("""
    INSERT OR REPLACE INTO customers (id, name, email, signup_date, last_purchase_date, total_purchases)
    VALUES 
        (1, 'Alice Smith', 'alice@example.com', '2023-01-15', '2023-05-20', 12),
        (2, 'Bob Johnson', 'bob@example.com', '2023-02-10', '2023-04-30', 5),
        (3, 'Charlie Brown', 'charlie@example.com', '2023-03-05', '2023-06-01', 8)
    """))
    
    # Validation de la transaction
    conn.commit()
    print("Table customers créée et données insérées")

# Utilisation explicite d’une transaction
with pooled_engine.begin() as conn:
    # begin() démarre une transaction automatiquement
    conn.execute(text("""
    UPDATE customers SET total_purchases = total_purchases + 1 
    WHERE id = 1
    """))
    print("Client mis à jour dans une transaction (auto-commit)")

# Requêtes paramétrées (protégées contre l'injection SQL)
with pooled_engine.connect() as conn:
    # Paramètres nommés
    result = conn.execute(
        text("SELECT * FROM customers WHERE total_purchases > :min_purchases"),
        {"min_purchases": 5}
    )
    print("\nClients avec plus de 5 achats :")
    for row in result:
        print(f"  {row.name} : {row.total_purchases} achats")
    
    # Paramètres positionnels
    result = conn.execute(
        text("SELECT * FROM customers WHERE signup_date > ?"),
        ["2023-02-01"]
    )
    print("\nClients inscrits après le 1er février 2023 :")
    for row in result:
        print(f"  {row.name} : {row.signup_date}")

# Intégration avec Pandas
with pooled_engine.connect() as conn:
    # Lecture depuis la base vers un DataFrame
    df = pd.read_sql_query(
        text("SELECT * FROM customers ORDER BY total_purchases DESC"),
        conn
    )
    print("\nDonnées clients sous forme de DataFrame :")
    print(df)

    # Modification du DataFrame
    df['status'] = df['total_purchases'].apply(
        lambda x: 'VIP' if x > 10 else 'Régulier'
    )

    # Écriture du DataFrame dans une nouvelle table
    df.to_sql('customer_segments', conn, if_exists='replace', index=False)
    print("\nTable customer_segments créée à partir du DataFrame")

    # Vérification de la nouvelle table
    result = conn.execute(text("SELECT * FROM customer_segments"))
    print("\nContenu de la table customer_segments :")
    for row in result:
        print(f"  {row.name} : {row.status}")

# Libération de l’engine
pooled_engine.dispose()
print("\nEngine libéré, toutes les connexions sont fermées")

# Suppression du fichier de base de données exemple
if os.path.exists('example.db'):
    print("Nettoyage du fichier example.db")
    # Décommenter pour supprimer réellement le fichier
    # os.remove('example.db')
