In [65]:
import sqlite3
import pandas as pd

In [66]:
# Chemin vers la base de données SQLite
db_path = 'data/olist.db'

# Créer une connexion à la base de données SQLite
conn = sqlite3.connect(db_path)

In [67]:
# Définir la requête SQL
query = """
SELECT *
FROM orders
WHERE order_status = 'delivered'
  AND order_approved_at >= DATE('now', '-3 months')
  AND JULIANDAY(order_delivered_customer_date) - JULIANDAY(order_estimated_delivery_date) >= 3;
"""

# Exécuter la requête et charger les résultats dans un DataFrame
df = pd.read_sql_query(query, conn)



In [68]:
# Afficher les résultats
df.head()  # Affiche les 5 premières lignes du DataFrame

Unnamed: 0,index,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date


In [69]:
# Définir la requête SQL
# En excluant les commandes annulées, quelles sont les commandes
#  récentes de moins de 3 mois que les clients ont reçues avec au moins 3
#  jours de retard 
query1 = """
SELECT o.order_id, o.order_status, o.order_approved_at, o.order_delivered_customer_date, o.order_estimated_delivery_date
FROM orders o
WHERE o.order_status = 'delivered'
  AND o.order_approved_at >= DATE('now', '-3 months')
  AND JULIANDAY(o.order_delivered_customer_date) - JULIANDAY(o.order_estimated_delivery_date) >= 3;
"""

# Exécuter la requête et charger les résultats dans un DataFrame
df = pd.read_sql_query(query1, conn)

In [70]:
# Afficher les résultats
df.head()  # Affiche les 5 premières lignes du DataFrame

Unnamed: 0,order_id,order_status,order_approved_at,order_delivered_customer_date,order_estimated_delivery_date


In [71]:
# Définir la requête SQL
# Qui sont les vendeurs ayant généré un chiffre d'affaires de plus de 100
#  000Real sur des commandeslivrées via Olist ?
 
query2 = """
SELECT oi.seller_id, SUM(oi.price) AS total_revenue
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
WHERE o.order_status = 'delivered'
GROUP BY oi.seller_id
HAVING total_revenue > 100000;
"""

# Exécuter la requête et charger les résultats dans un DataFrame
df = pd.read_sql_query(query2, conn)

In [72]:
# Afficher les résultats
# Augmenter le nombre de lignes affichées
pd.set_option('display.max_rows', None)
df.head(10)  # Affiche les 5 premières lignes du DataFrame

Unnamed: 0,seller_id,total_revenue
0,1025f0e2d44d7041d6cf58b6550e0bfa,138208.56
1,1f50f920176fa81dab994f9023523100,106655.71
2,46dc3b2cc0980fb8ec44634e21d2718e,122811.38
3,4869f7a5dfa277a7dca6462dcf3b52b2,226987.93
4,4a3ca9315b744ce9f8e9374361493884,196882.12
5,53243585a1d6dc2643021fd1853d8905,217940.44
6,5dceca129747e92ff8ef7a997dc4f8ca,111126.73
7,620c87c171fb2a6dd6e8bb4dec959fc6,112461.5
8,6560211a19b47992c3666cc44a7e94c0,120702.83
9,7a67c85e85bb2ce8582c35f2203ad736,139658.69


In [73]:
# Définir la requête SQL
 # Qui sont les nouveaux vendeurs (moins de 3 mois d'ancienneté) qui
 # sont déjà très engagés avec la plateforme (ayant déjà vendu plus de 30
 # produits) ?
query3 = """
SELECT oi.seller_id, COUNT(oi.order_item_id) AS product_count
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
WHERE o.order_status = 'delivered'
  AND o.order_approved_at >= DATE('now', '-3 months')
GROUP BY oi.seller_id
HAVING product_count > 30;
"""

# Exécuter la requête et charger les résultats dans un DataFrame
df = pd.read_sql_query(query3, conn)

In [74]:
# Afficher les résultats
df.head()  # Affiche les 5 premières lignes du DataFrame

Unnamed: 0,seller_id,product_count


In [75]:
# Définir la requête SQL
 # Question : Quels sont les 5 codes postaux, enregistrant plus de 30
 # reviews, avec le pire review score moyen sur les 12 derniers mois 
query4 = """
SELECT c.customer_zip_code_prefix, AVG(r.review_score) AS avg_review_score, COUNT(r.review_id) AS review_count
FROM order_reviews r
JOIN orders o ON r.order_id = o.order_id
JOIN customers c ON o.customer_id = c.customer_id
WHERE r.review_creation_date >= DATE('now', '-12 months')
GROUP BY c.customer_zip_code_prefix
HAVING review_count > 30
ORDER BY avg_review_score ASC
LIMIT 5;
"""

# Exécuter la requête et charger les résultats dans un DataFrame
df = pd.read_sql_query(query4, conn)

In [76]:
# Afficher les résultats
df.head()  # Affiche les 5 premières lignes du DataFrame

Unnamed: 0,customer_zip_code_prefix,avg_review_score,review_count


In [77]:
# Fermer la connexion à la base de données
conn.close()