# S2J1-2 : SQL (PostgreSQL ou MySQL).

### **Objectif :**

- Comprendre les concepts fondamentaux des bases de données relationnelles.
- Apprendre à écrire des requêtes SQL pour interagir avec les données.
- Manipuler, explorer et extraire des informations utiles à partir de tables.

---

### **1. Introduction aux bases de données relationnelles.**

Un Data Engineer travaille souvent avec des bases de données relationnelles comme PostgreSQL, MySQL ou SQLite. Voici les concepts clés :

- **Concepts fondamentaux** :
    - **Table** : Une structure tabulaire composée de colonnes et de lignes.
    - **Clé primaire** : Une colonne (ou combinaison de colonnes) qui identifie de manière unique une ligne.
    - **Clé étrangère** : Une colonne qui établit une relation avec une autre table.
    - **Relations** : Les bases relationnelles organisent les données dans des tables liées entre elles (relations).
- **Schéma relationnel** :
    
    Comprendre comment plusieurs tables s'articulent dans une base grâce aux clés primaires et étrangères.
    
- **Installation et outils pratiques** :
    - Installer une base locale comme SQLite ou PostgreSQL.
    - Utiliser des outils comme **DBeaver**, **pgAdmin**, ou des notebooks avec SQLAlchemy pour exécuter des requêtes.

---

### **2. Langage SQL : Concepts de base.**

### **a. Création et exploration d’une table.**

- **Créer une table** :

In [None]:
import sqlite3

# Connexion à la base de données (un fichier local sera créé)
conn = sqlite3.connect("ventes.db")

# Création d'un curseur pour exécuter les commandes SQL
cursor = conn.cursor()

# Création de la table "ventes"
cursor.execute("""
CREATE TABLE IF NOT EXISTS ventes (
    id INTEGER PRIMARY KEY,
    produit TEXT,
    quantité INTEGER,
    prix DECIMAL(10, 2),
    date_vente DATE
)
""")

# Valider les changements
conn.commit()

# Fermer la connexion
conn.close()

print("Table 'ventes' créée avec succès.")


- **Insérer des données** :

In [None]:
conn = sqlite3.connect("ventes.db")
cursor = conn.cursor()

# Insertion de données dans la table
cursor.execute("""
INSERT INTO ventes (produit, quantité, prix, date_vente) 
VALUES ('Télévision', 3, 299.99, '2025-01-10'),
('Smartphone', 5, 499.99, '2025-01-11'),
('Ordinateur', 2, 899.99, '2025-01-12'),
('Casque Audio', 10, 49.99, '2025-01-13'),
('Tablette', 4, 199.99, '2025-01-13'),
('Imprimante', 1, 149.99, '2025-01-14'),
('Souris', 8, 19.99, '2025-01-14'),
('Clavier', 6, 29.99, '2025-01-15'),
('Moniteur', 3, 159.99, '2025-01-15'),
('Disque Dur Externe', 2, 89.99, '2025-01-16')
""")

conn.commit()
conn.close()

print("Données insérées avec succès.")

- Explorer les données :

In [None]:
import pandas as pd

# Connexion à la base de données
conn = sqlite3.connect("ventes.db")

# Exécuter la requête et charger les résultats dans un DataFrame Pandas pour un affichage tabulaire
query = "SELECT * FROM ventes;"
results = pd.read_sql_query(query, conn)

# Afficher les résultats
print(results)

# Fermer la connexion
conn.close()

### **b. Lecture et sélection des données.**

- **Sélections simples** :

In [None]:
# Connexion à la base de données
conn = sqlite3.connect("ventes.db")

# Exécuter la requête et charger les résultats dans un DataFrame Pandas pour un affichage tabulaire
query = "SELECT produit, prix FROM ventes;"
results = pd.read_sql_query(query, conn)

# Afficher les résultats
print(results)

# Fermer la connexion
conn.close()

- Filtres avec WHERE :

In [None]:
# Connexion à la base de données
conn = sqlite3.connect("ventes.db")

# Exécuter la requête et charger les résultats dans un DataFrame Pandas pour un affichage tabulaire
query = "SELECT * FROM ventes WHERE quantité > 2;"
results = pd.read_sql_query(query, conn)

# Afficher les résultats
print(results)

# Fermer la connexion
conn.close()

- Opérateurs logiques :

In [None]:
# Connexion à la base de données
conn = sqlite3.connect("ventes.db")

# Exécuter la requête et charger les résultats dans un DataFrame Pandas pour un affichage tabulaire
query = "SELECT * FROM ventes WHERE quantité > 6 AND prix < 500;"
results = pd.read_sql_query(query, conn)

# Afficher les résultats
print(results)

# Fermer la connexion
conn.close()

- Tri des résultats :

In [None]:
# Connexion à la base de données
conn = sqlite3.connect("ventes.db")

# Exécuter la requête et charger les résultats dans un DataFrame Pandas pour un affichage tabulaire
query = "SELECT * FROM ventes ORDER BY prix DESC;"
results = pd.read_sql_query(query, conn)

# Afficher les résultats
print(results)

# Fermer la connexion
conn.close()

### **c. Agrégations et calculs.**

- **Fonctions d’agrégation** :

In [None]:
# Connexion à la base de données
conn = sqlite3.connect("ventes.db")

# Exécuter la requête et charger les résultats dans un DataFrame Pandas pour un affichage tabulaire
query = "SELECT COUNT(*) AS nombre_de_ventes, SUM(prix * quantité) AS revenu_total FROM ventes;"
results = pd.read_sql_query(query, conn)

# Afficher les résultats
print(results)

# Fermer la connexion
conn.close()

- Regroupement des données :

In [None]:
# Connexion à la base de données
conn = sqlite3.connect("ventes.db")

# Exécuter la requête et charger les résultats dans un DataFrame Pandas pour un affichage tabulaire
query = "SELECT produit, SUM(quantité) AS total_quantité FROM ventes GROUP BY produit;"
results = pd.read_sql_query(query, conn)

# Afficher les résultats
print(results)

# Fermer la connexion
conn.close()

### **3. Relations entre tables.**

### **a. Créer plusieurs tables reliées.**

In [None]:
import sqlite3
import pandas as pd

# Connexion à la base de données (un fichier local sera créé)
conn = sqlite3.connect("clients.db")

# Création d'un curseur pour exécuter les commandes SQL
cursor = conn.cursor()

# Création de la table "clients"
cursor.execute("""
CREATE TABLE IF NOT EXISTS clients (
    client_id INT PRIMARY KEY,
    nom VARCHAR(100),
    email VARCHAR(100)
);
""")

# Création de la table "commandes"
cursor.execute("""
CREATE TABLE IF NOT EXISTS commandes (
    commande_id INT PRIMARY KEY,
    client_id INT,
    produit VARCHAR(100),
    quantité INT,
    FOREIGN KEY (client_id) REFERENCES clients(client_id)
);
""")

# Insérer des données dans les tables pour tester
cursor.execute("INSERT INTO clients (client_id, nom, email) VALUES (1, 'Alice', 'alice@example.com');")
cursor.execute("INSERT INTO clients (client_id, nom, email) VALUES (2, 'Bob', 'bob@example.com');")
cursor.execute("INSERT INTO commandes (commande_id, client_id, produit, quantité) VALUES (1, 1, 'Produit A', 2);")
cursor.execute("INSERT INTO commandes (commande_id, client_id, produit, quantité) VALUES (2, 2, 'Produit B', 3);")

# Valider les changements
conn.commit()

# Jointure interne (INNER JOIN) :
query = """
SELECT c.nom, cmd.produit, cmd.quantité 
FROM clients c 
INNER JOIN commandes cmd ON c.client_id = cmd.client_id;
"""
results = pd.read_sql_query(query, conn)

# Créer un index sur la table commandes (corrigé)
cursor.execute("CREATE INDEX IF NOT EXISTS idx_produit ON commandes(produit);")

# Créer une vue sur les commandes (corrigé)
cursor.execute("""
CREATE VIEW IF NOT EXISTS ventes_annuelles AS
SELECT produit, SUM(quantité) AS total_vendu
FROM commandes
GROUP BY produit;
""")

# Valider les changements
conn.commit()

# Afficher les résultats de la jointure
print(results)

# Fermer la connexion
conn.close()
