# Notebook 2 - SQL avec vraies bases de donn√©es
## Analyse e-commerce avec PostgreSQL en ligne




### üéØ Objectifs p√©dagogiques
- Connecter Python √† une vraie base de donn√©es PostgreSQL
- √âcrire des requ√™tes SQL complexes sur des donn√©es r√©elles
- Impl√©menter des analyses RFM avec SQL
- Int√©grer SQL et pandas pour des analyses avanc√©es
- G√©rer les connexions et la s√©curit√©

### üõçÔ∏è Contexte du projet
Vous analysez les donn√©es d'un vrai dataset e-commerce (Brazilian E-Commerce Public Dataset) h√©berg√© sur une base PostgreSQL.

Objectif : cr√©er une segmentation client√®le pour optimiser les campagnes marketing.


## Partie 1 : Connexion √† la base de donn√©es r√©elle

### üîß Installation et configuration


# Installation des d√©pendances


```
pip install psycopg2-binary sqlalchemy pandas python-dotenv
```




In [1]:
pip install sqlalchemy psycopg2-binary python-dotenv pandas

Note: you may need to restart the kernel to use updated packages.


In [21]:
import psycopg2 # Permet de se connecter √† une base de donn√©es PostgreSQL directement en Python
import pandas as pd # Biblioth√®que pour manipuler des donn√©es sous forme de tableaux (DataFrame)
import numpy as np  # Fournit des outils pour les calculs num√©riques (matrices, statistiques, etc.)
from sqlalchemy import create_engine # Cr√©e un "moteur" pour se connecter aux bases de donn√©es (PostgreSQL, MySQL, etc.)
import matplotlib.pyplot as plt  # faire des graphiques et des visualisations
import seaborn as sns # Biblioth√®que bas√©e sur matplotlib pour faire de beaux graphiques statistiques
from datetime import datetime, timedelta # Permet de g√©rer et manipuler des dates et dur√©es ajouter des jours...
import os   # Sert √† interagir avec le syst√®me d'exploitation exp : lire des variables d'environnement
from dotenv import load_dotenv # Permet de charger les variables stock√©es dans un fichier .env : MDP, cl√©s API...

### üåê Base de donn√©es PostgreSQL gratuite (ElephantSQL)

**Option 1 : ElephantSQL (20MB gratuit)**
1. Cr√©ez un compte sur [elephantsql.com](https://www.elephantsql.com/)
2. Cr√©ez une instance "Tiny Turtle" (gratuite)
3. R√©cup√©rez vos credentials

**Option 2 : Supabase (500MB gratuit)**
1. Cr√©ez un compte sur [supabase.com](https://supabase.com/)
2. Cr√©ez un nouveau projet
3. R√©cup√©rez l'URL de connexion PostgreSQL

In [22]:
# Charger les variables d'environnement depuis le fichier .env pour eviter de mettre les mdp dans le code 
load_dotenv()

# Cr√©er un dictionnaire contenant les informations de connexion √† la base de donn√©es
DATABASE_CONFIG = {
    'user': os.getenv('DB_USER'), # Nom d'utilisateur pour la base 
    'password': os.getenv('DB_PASSWORD'),
    'host': os.getenv('DB_HOST'),# Adresse du serveur
    'port': os.getenv('DB_PORT'),# Port utilis√© pour PostgreSQL
    'database': os.getenv('DB_NAME'), 
}

# Cr√©ation de l'engine SQLAlchemy
# Cr√©er le moteur SQLAlchemy avec les informations du dictionnaire DATABASE_CONFIG
engine = create_engine(
    f"postgresql://{DATABASE_CONFIG['user']}:{DATABASE_CONFIG['password']}@"
     #postgresql : indique le type de base de donn√©es (dialecte), on utilise PostgreSQL.
    f"{DATABASE_CONFIG['host']}:{DATABASE_CONFIG['port']}/{DATABASE_CONFIG['database']}"
)

In [23]:

# Test de connexion
def test_connection(): # D√©finir une fonction pour tester la connexion √† la base de donn√©es
    """
    Testez votre connexion √† la base

    √âtapes :
    1. Utilisez pd.read_sql() pour ex√©cuter "SELECT version()"
    2. Affichez la version PostgreSQL
    3. G√©rez les erreurs de connexion
    """
    try:
        # Ex√©cute une requ√™te SQL pour r√©cup√©rer la version de PostgreSQL
        # pd.read_sql() retourne un DataFrame (tableau Pandas)
        version = pd.read_sql("SELECT version();", engine)
        print("Connexion r√©ussie :")
        print(version)
    except Exception as e:
        print(f"Erreur de connexion : {e}")
        return False
    return True


# Ex√©cuter le test
test_connection()


Connexion r√©ussie :
                                             version
0  PostgreSQL 17.4 on aarch64-unknown-linux-gnu, ...


True


## Partie 2 : Import du dataset e-commerce

### üìä Dataset Brazilian E-Commerce
Nous utilisons le c√©l√®bre dataset Olist (100k commandes r√©elles).

**Tables √† cr√©er :**
1. **customers** : customer_id, customer_city, customer_state
2. **orders** : order_id, customer_id, order_status, order_date, order_delivered_date
3. **order_items** : order_id, product_id, seller_id, price, freight_value
4. **products** : product_id, product_category, product_weight_g
5. **sellers** : seller_id, seller_city, seller_state

In [24]:
# 1¬∞Chargement des fichiers Olist
customers = pd.read_csv("data/olist_customers_dataset.csv")
orders = pd.read_csv("data/olist_orders_dataset.csv")
order_items = pd.read_csv("data/olist_order_items_dataset.csv")
products = pd.read_csv("data/olist_products_dataset.csv")
sellers = pd.read_csv("data/olist_sellers_dataset.csv")

In [None]:
#2¬∞CREATION TAB
def create_tables(engine):
    from sqlalchemy import text

    create_customers = text("""
    CREATE TABLE IF NOT EXISTS customers (
        customer_id VARCHAR PRIMARY KEY,
        customer_city VARCHAR(100),
        customer_state CHAR(2)
    );
    """)

    create_sellers = text("""
    CREATE TABLE IF NOT EXISTS sellers (
        seller_id VARCHAR PRIMARY KEY,
        seller_city VARCHAR(100),
        seller_state CHAR(2)
    );
    """)

    create_products = text("""
    CREATE TABLE IF NOT EXISTS products (
        product_id VARCHAR PRIMARY KEY,
        product_category VARCHAR,
        product_weight_g NUMERIC
    );
    """)

    create_orders = text("""
    CREATE TABLE IF NOT EXISTS orders (
        order_id VARCHAR PRIMARY KEY,
        customer_id VARCHAR,
        order_status VARCHAR(50),
        order_date TIMESTAMP,
        order_delivered_date TIMESTAMP,
        FOREIGN KEY (customer_id) REFERENCES customers(customer_id)
    );
    """)

    create_order_items = text("""
    CREATE TABLE IF NOT EXISTS order_items (
        order_id VARCHAR,
        product_id VARCHAR,
        seller_id VARCHAR,
        price NUMERIC,
        freight_value NUMERIC,
        FOREIGN KEY (order_id) REFERENCES orders(order_id),
        FOREIGN KEY (product_id) REFERENCES products(product_id),
        FOREIGN KEY (seller_id) REFERENCES sellers(seller_id)
    );
    """)

    with engine.connect() as conn:
        conn.execute(create_customers)
        conn.execute(create_sellers)
        conn.execute(create_products)
        conn.execute(create_orders)
        conn.execute(create_order_items)
        conn.commit()

In [26]:
#3¬∞
create_tables(engine)

# Insertion des donn√©es dans Supabase :


In [None]:
#Insertion des donn√©es dans Supabase dans un seule bloc 
try:
    # 1. Insertion des donn√©es dans la table 'customers'
    customers_filtered = customers[["customer_id", "customer_city", "customer_state"]]
    customers_filtered.to_sql("customers", engine, if_exists="append", index=False)
    print("Donn√©es ins√©r√©es dans 'customers'")

    # 2. Insertion des donn√©es dans la table 'sellers'
    sellers_filtered = sellers[["seller_id", "seller_city", "seller_state"]]
    sellers_filtered.to_sql("sellers", engine, if_exists="append", index=False)
    print("Donn√©es ins√©r√©es dans 'sellers'")

    # 3. Insertion des donn√©es dans la table 'products'
    products_filtered = products[["product_id", "product_weight_g"]]
    products_filtered.to_sql("products", engine, if_exists="append", index=False)
    print("Donn√©es ins√©r√©es dans 'products'")

    # 4. Insertion des donn√©es dans la table 'orders'
    orders_renamed = orders.rename(columns={
        "order_purchase_timestamp": "order_date",
        "order_delivered_customer_date": "order_delivered_date"
    })
    orders_filtered = orders_renamed[[
        "order_id", "customer_id", "order_status", "order_date", "order_delivered_date"
    ]]
    orders_filtered.to_sql("orders", engine, if_exists="append", index=False)
    print("Donn√©es ins√©r√©es dans 'orders'")

    # 5. Insertion des donn√©es dans la table 'order_items' (sans doublons sur la cl√© primaire composite)
    order_items_filtered = order_items[[
        "order_id", "product_id", "seller_id", "price", "freight_value"
    ]].drop_duplicates(subset=["order_id", "product_id", "seller_id"])
    order_items_filtered.to_sql("order_items", engine, if_exists="append", index=False)
    print("Donn√©es ins√©r√©es dans 'order_items' sans doublons.")

except Exception as e:
    print("Une erreur s‚Äôest produite lors de l‚Äôinsertion des donn√©es :", e)


Donn√©es ins√©r√©es dans 'customers'
Donn√©es ins√©r√©es dans 'sellers'
Donn√©es ins√©r√©es dans 'products'
Donn√©es ins√©r√©es dans 'orders'
Donn√©es ins√©r√©es dans 'order_items' sans doublons.


In [None]:
#9¬∞
print(sellers.shape)
print(products.shape)
print(orders.shape)
print(order_items.shape)

(3095, 4)
(32951, 9)
(99441, 8)
(112650, 7)


## Partie 3 : Requ√™tes SQL avanc√©es


### üîç Analyses SQL √† impl√©menter

#### 1. Analyse RFM (R√©cence, Fr√©quence, Montant)
```sql
-- Votre d√©fi : Calculer les m√©triques RFM pour chaque client
WITH customer_metrics AS (
    SELECT
        c.customer_id,
        c.customer_state,
        -- R√©cence : jours depuis dernier achat
        -- Fr√©quence : nombre de commandes
        -- Montant : total d√©pens√©
        
        -- Compl√©tez cette requ√™te CTE
        
    FROM customers c
    JOIN orders o ON c.customer_id = o.customer_id
    JOIN order_items oi ON o.order_id = oi.order_id
    WHERE o.order_status = 'delivered'
    GROUP BY c.customer_id, c.customer_state
)

-- Cr√©ez les segments RFM (Champions, Loyaux, √Ä risque, etc.)
SELECT
    customer_id,
    customer_state,
    recency_score,
    frequency_score,
    monetary_score,
    CASE
        WHEN recency_score >= 4 AND frequency_score >= 4 THEN 'Champions'
        WHEN recency_score >= 3 AND frequency_score >= 3 THEN 'Loyal Customers'
        -- Ajoutez les autres segments
        ELSE 'Others'
    END as customer_segment
FROM customer_metrics;
```

In [None]:
#Requ√™te SQL de base : lire une table
from sqlalchemy import text

query_customers = """
SELECT * FROM customers
LIMIT 10
"""

with engine.begin() as connection:
    df_customers = pd.read_sql(query_customers, con=connection)


In [None]:
#### 2. Analyse g√©ographique des ventes

def geographic_sales_analysis():
    """
    Analysez les performances par √©tat/r√©gion

    Requ√™tes √† √©crire :
    1. Top 10 des √©tats par CA
    2. Croissance MoM par r√©gion
    3. Taux de conversion par ville
    4. Distance moyenne vendeur-acheteur
    """

    query_top_states = """
    -- Votre requ√™te SQL ici
    -- Utilisez des JOINs et GROUP BY
    -- Calculez le CA, nombre de commandes, panier moyen
    """

    return pd.read_sql(query_top_states, engine)

#### 3. Analyse temporelle et saisonnalit√©
```sql
-- D√©tectez les patterns saisonniers
SELECT
    EXTRACT(YEAR FROM order_date) as year,
    EXTRACT(MONTH FROM order_date) as month,
    EXTRACT(DOW FROM order_date) as day_of_week,
    COUNT(*) as order_count,
    SUM(price + freight_value) as total_revenue,
    AVG(price + freight_value) as avg_order_value
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
WHERE order_status = 'delivered'
GROUP BY ROLLUP(
    EXTRACT(YEAR FROM order_date),
    EXTRACT(MONTH FROM order_date),
    EXTRACT(DOW FROM order_date)
)
ORDER BY year, month, day_of_week;
```

---

## Partie 4 : Analyse pr√©dictive avec SQL

### üîÆ Mod√®les simples en SQL

In [None]:
#### 1. Pr√©diction de churn

def churn_prediction_sql():
    """
    Identifiez les clients √† risque de churn

    Indicateurs :
    - Pas d'achat depuis X jours
    - Baisse de fr√©quence d'achat
    - Diminution du panier moyen
    - Changement de comportement g√©ographique
    """

    churn_query = """
    WITH customer_activity AS (
        -- Calculez les m√©triques d'activit√© r√©cente
        -- Comparez avec l'historique du client
        -- Scorez le risque de churn
    )

    SELECT
        customer_id,
        days_since_last_order,
        order_frequency_trend,
        monetary_trend,
        churn_risk_score,
        CASE
            WHEN churn_risk_score > 0.7 THEN 'High Risk'
            WHEN churn_risk_score > 0.4 THEN 'Medium Risk'
            ELSE 'Low Risk'
        END as churn_segment
    FROM customer_activity;
    """

    return pd.read_sql(churn_query, engine)


#### 2. Recommandations produits
```sql
-- Market Basket Analysis simplifi√©
WITH product_pairs AS (
    SELECT
        oi1.product_id as product_a,
        oi2.product_id as product_b,
        COUNT(*) as co_purchase_count
    FROM order_items oi1
    JOIN order_items oi2 ON oi1.order_id = oi2.order_id
    WHERE oi1.product_id != oi2.product_id
    GROUP BY oi1.product_id, oi2.product_id
    HAVING COUNT(*) >= 10  -- Seuil minimum
)

SELECT
    product_a,
    product_b,
    co_purchase_count,
    co_purchase_count::float / total_a.count as confidence
FROM product_pairs pp
JOIN (
    SELECT product_id, COUNT(*) as count
    FROM order_items
    GROUP BY product_id
) total_a ON pp.product_a = total_a.product_id
ORDER BY confidence DESC;
```

---

## Partie 5 : Int√©gration avec les APIs m√©t√©o

### üå§Ô∏è Croisement donn√©es m√©t√©o/ventes
```python
def weather_sales_correlation():
    """
    Correlez vos donn√©es m√©t√©o du Notebook 1 avec les ventes
    
    Hypoth√®ses √† tester :
    1. Les ventes de certaines cat√©gories augmentent-elles avec la pluie ?
    2. Y a-t-il un impact de la temp√©rature sur les achats ?
    3. Les livraisons sont-elles impact√©es par la m√©t√©o ?
    """
    
    # R√©cup√©rez les donn√©es m√©t√©o historiques pour les villes br√©siliennes
    weather_query = """
    SELECT DISTINCT customer_city, customer_state
    FROM customers
    WHERE customer_state IN ('SP', 'RJ', 'MG', 'RS', 'SC')
    ORDER BY customer_city;
    """
    
    cities = pd.read_sql(weather_query, engine)
    
    # Int√©grez avec l'API m√©t√©o
    # Analysez les corr√©lations
    
    pass
```

### üìä Dashboard g√©o-temporel
```python
def create_geotemporal_dashboard():
    """
    Cr√©ez un dashboard interactif combinant :
    - Carte des ventes par r√©gion
    - √âvolution temporelle avec m√©t√©o
    - Segments clients g√©olocalis√©s
    - Pr√©dictions par zone g√©ographique
    """
    pass
```

---
## üèÜ Livrables finaux

### üìà Rapport d'analyse complet
1. **Segmentation RFM (Recency, Frenquency, Monetary) ** : 5-7 segments avec caract√©ristiques
2. **Analyse g√©ographique**  : Performances par r√©gion + recommandations
3. **Pr√©dictions churn** : Liste des clients √† risque + actions
4. **Recommandations produits** : Top 10 des associations
5. **Impact m√©t√©o** : Corr√©lations significatives identifi√©es

### üöÄ Pipeline automatis√©
```python
def automated_analysis_pipeline():
    """
    Pipeline qui :
    1. Se connecte √† la DB
    2. Ex√©cute toutes les analyses
    3. Met √† jour les segments clients
    4. G√©n√®re le rapport automatiquement
    5. Envoie des alertes si n√©cessaire
    """
    pass
```

---

## üéì Auto-√©valuation

- [ ] **Connexion DB** : PostgreSQL fonctionnelle
- [ ] **Requ√™tes complexes** : JOINs, CTEs, fonctions analytiques
- [ ] **Gestion des erreurs** : Connexions robustes
- [ ] **Performance** : Requ√™tes optimis√©es avec index
- [ ] **Int√©gration** : SQL + Python + APIs
- [ ] **Insights actionables** : Recommandations business claires

### üîó Pr√©paration au Notebook 3
Le prochain notebook portera sur NoSQL (MongoDB) avec des donn√©es de r√©seaux sociaux et d'IoT, en temps r√©el.

### üí° Bases de donn√©es alternatives
- **PlanetScale** : MySQL serverless gratuit
- **MongoDB Atlas** : 512MB gratuit
- **FaunaDB** : Base multi-mod√®le gratuite
- **Hasura Cloud** : GraphQL + PostgreSQL