# Exploration des données

Pour joindre toutes les tables sans créer de doublons, il est important d'identifier les clés primaires et étrangères qui relient les tables entre elles. Voici les liens entre les tables de votre schéma :

orders et customers :
orders.customer_id est lié à customers.customer_id.

orders et order_items :
orders.order_id est lié à order_items.order_id.

orders et order_reviews :
orders.order_id est lié à order_reviews.order_id.

order_items et products :
order_items.product_id est lié à products.product_id.

order_items et sellers :
order_items.seller_id est lié à sellers.seller_id.

products et translation :
products.product_category_name est lié à translation.product_category_name.

customers et geoloc :
customers.customer_zip_code_prefix est lié à geoloc.geolocation_zip_code_prefix.

sellers et geoloc :
sellers.seller_zip_code_prefix est lié à geoloc.geolocation_zip_code_prefix.

Pour joindre toutes les tables, vous pouvez utiliser les clés mentionnées ci-dessus. Voici un exemple de requête SQL qui joint toutes les tables :

```sql

SELECT
  *
FROM
  orders o
  JOIN customers c ON o.customer_id = c.customer_id
  JOIN order_items oi ON o.order_id = oi.order_id
  JOIN order_reviews orv ON o.order_id = orv.order_id
  JOIN products p ON oi.product_id = p.product_id
  JOIN sellers s ON oi.seller_id = s.seller_id
  JOIN translation t ON p.product_category_name = t.product_category_name
  JOIN geoloc g1 ON c.customer_zip_code_prefix = g1.geolocation_zip_code_prefix
  JOIN geoloc g2 ON s.seller_zip_code_prefix = g2.geolocation_zip_code_prefix;

```

In [None]:
import sqlite3
import pandas as pd

# Chemin vers votre fichier .db
db_path = '../data/olist.db'

# Requête SQL
query = """
SELECT
  *
FROM
  orders o
  JOIN customers c ON o.customer_id = c.customer_id
  JOIN order_items oi ON o.order_id = oi.order_id
  JOIN order_reviews orv ON o.order_id = orv.order_id
  JOIN products p ON oi.product_id = p.product_id
  JOIN sellers s ON oi.seller_id = s.seller_id
  JOIN translation t ON p.product_category_name = t.product_category_name
  JOIN geoloc g1 ON c.customer_zip_code_prefix = g1.geolocation_zip_code_prefix
  JOIN geoloc g2 ON s.seller_zip_code_prefix = g2.geolocation_zip_code_prefix;
"""

# Connexion à la base de données
conn = sqlite3.connect(db_path)

# Exécution de la requête et chargement des résultats dans un DataFrame
df = pd.read_sql_query(query, conn)

# Fermeture de la connexion
conn.close()

# Affichage du DataFrame
print(df)
