# Exploration des données

Pour étudier toutes les tables, il est crucial d'identifier les clés primaires et étrangères qui relient les tables entre elles. Voici les liens entre les différentes tables :

| Table 1     | Table 2       | Relation                                      |
|-------------|---------------|----------------------------------------------|
| **orders**  | **customers** | `orders.customer_id` ↔ `customers.customer_id` |
| **orders**  | **order_items**| `orders.order_id` ↔ `order_items.order_id`   |
| **orders**  | **order_reviews**| `orders.order_id` ↔ `order_reviews.order_id` |
| **order_items**| **products**  | `order_items.product_id` ↔ `products.product_id` |
| **order_items**| **sellers**   | `order_items.seller_id` ↔ `sellers.seller_id`   |
| **products**| **translation**| `products.product_category_name` ↔ `translation.product_category_name` |
| **customers**| **geoloc**     | `customers.customer_zip_code_prefix` ↔ `geoloc.geolocation_zip_code_prefix` |
| **sellers** | **geoloc**     | `sellers.seller_zip_code_prefix` ↔ `geoloc.geolocation_zip_code_prefix` |

In [1]:
import sqlite3
import pandas as pd
import plotly.express as px

# Chemin vers votre fichier .db
DB_PATH = '../data/olist.db'

In [2]:

# Connexion à la base de données
conn = sqlite3.connect(DB_PATH)

# Chargement des tables dans des DataFrames
orders = pd.read_sql_query("SELECT * FROM orders", conn)
customers = pd.read_sql_query("SELECT * FROM customers", conn)
order_items = pd.read_sql_query("SELECT * FROM order_items", conn)
order_reviews = pd.read_sql_query("SELECT * FROM order_reviews", conn)
products = pd.read_sql_query("SELECT * FROM products", conn)
sellers = pd.read_sql_query("SELECT * FROM sellers", conn)
translation = pd.read_sql_query("SELECT * FROM translation", conn)
geoloc = pd.read_sql_query("SELECT * FROM geoloc", conn)

# Fermeture de la connexion
conn.close()

# Création des DataFrames pertinents en utilisant les relations

# Relation entre orders et customers
orders_customers = pd.merge(orders, customers, left_on='customer_id', right_on='customer_id', suffixes=('_orders', '_customers'))

# Relation entre orders et order_items
orders_order_items = pd.merge(orders, order_items, left_on='order_id', right_on='order_id', suffixes=('_orders', '_order_items'))

# Relation entre orders et order_reviews
orders_order_reviews = pd.merge(orders, order_reviews, left_on='order_id', right_on='order_id', suffixes=('_orders', '_order_reviews'))

# Relation entre order_items et products
order_items_products = pd.merge(order_items, products, left_on='product_id', right_on='product_id', suffixes=('_order_items', '_products'))

# Relation entre order_items et sellers
order_items_sellers = pd.merge(order_items, sellers, left_on='seller_id', right_on='seller_id', suffixes=('_order_items', '_sellers'))

# Relation entre products et translation
products_translation = pd.merge(products, translation, left_on='product_category_name', right_on='product_category_name', suffixes=('_products', '_translation'))

# Relation entre customers et geoloc
customers_geoloc = pd.merge(customers, geoloc, left_on='customer_zip_code_prefix', right_on='geolocation_zip_code_prefix', suffixes=('_customers', '_geoloc'))

# Relation entre sellers et geoloc
sellers_geoloc = pd.merge(sellers, geoloc, left_on='seller_zip_code_prefix', right_on='geolocation_zip_code_prefix', suffixes=('_sellers', '_geoloc'))

In [3]:
# Affichage des DataFrames pertinents
print("orders_customers:")
print(orders_customers.shape)

print("\norders_order_items:")
print(orders_order_items.shape)

print("\norders_order_reviews:")
print(orders_order_reviews.shape)

print("\norder_items_products:")
print(order_items_products.shape)

print("\norder_items_sellers:")
print(order_items_sellers.shape)

print("\nproducts_translation:")
print(products_translation.shape)

print("\ncustomers_geoloc:")
print(customers_geoloc.shape)

print("\nsellers_geoloc:")
print(sellers_geoloc.shape)


orders_customers:
(99441, 14)

orders_order_items:
(112650, 16)

orders_order_reviews:
(99224, 16)

order_items_products:
(112650, 17)

order_items_sellers:
(112650, 12)

products_translation:
(32328, 12)

customers_geoloc:
(15083455, 12)

sellers_geoloc:
(435087, 11)


In [7]:
# Échantillonnage de 10 000 points
sample_customers_geoloc = customers_geoloc.sample(n=100_000)

fig = px.density_mapbox(
    sample_customers_geoloc,
    lat='geolocation_lat',
    lon='geolocation_lng',
    radius=2,  # Réduction de la taille des points

)

# Affichage du graphique
fig.show()


# Introduction au projet
Présentez le contexte de votre étude et l'objectif de votre analyse. Expliquez brièvement ce que vous allez explorer dans le jeu de données.

In [5]:
# Dataframe Client transaction

# Dataframe client table de produit

# Dataframe transaction commentaire

# Client données geographique


# Chargement des données
Importez les données nécessaires depuis votre source (par exemple, un fichier CSV, une base de données SQL, etc.) et affichez un aperçu des données.


# Analyse descriptive :


- Statistiques descriptives : Calculez des mesures telles que la moyenne, la médiane, le maximum, le minimum, etc., pour mieux comprendre les caractéristiques de vos données.

- Visualisations initiales : Créez des graphiques (histogrammes, boîtes à moustaches, etc.) pour visualiser la distribution des variables clés.

# Prétraitement des données :


- Gestion des valeurs manquantes : Identifiez et traitez les valeurs manquantes de manière appropriée (suppression, imputation, etc.).

- Normalisation ou standardisation : Si nécessaire, normalisez ou standardisez les données pour faciliter le clustering.

# Exploration des corrélations
Utilisez des matrices de corrélation et des heatmaps pour examiner les relations entre les différentes variables de votre jeu de données.


# Identification des segments potentiels
Commencez à penser aux groupes que vous pourriez identifier dans vos données, en faisant des hypothèses initiales sur les segments de clients.

# Conclusion de l'exploration
Résumez les principales observations de votre analyse exploratoire, mentionnez les éventuelles limites et les prochaines étapes.

## Faire de la bdd un seul dataframe 