# ETL - Cloud Computing : Analyses et Livrables

## Etapes

### 1. Analyse et Modélisation des données brutes


---

## 1. Analyse et Modélisation des données

### 1.1 Analyse des données brutes

Cette étape vise à explorer et analyser les fichiers CSV bruts fournis, identifier les relations, créer le schéma de la structure de la base de données, afin de préparer la modélisation des données.

#### Import des données

In [127]:
import pandas as pd

# Charger les fichiers CSV dans des DataFrames
df_customers = pd.read_csv("../data/datasets/raw_customers.csv")
df_items = pd.read_csv("../data/datasets/raw_items.csv")
df_orders = pd.read_csv("../data/datasets/raw_orders.csv", parse_dates=['ordered_at']) # Forcer la conversion au format date
df_products = pd.read_csv("../data/datasets/raw_products.csv")
df_stores = pd.read_csv("../data/datasets/raw_stores.csv", parse_dates=['opened_at']) # Forcer la conversion au format date
df_supplies = pd.read_csv("../data/datasets/raw_supplies.csv")

#### Table `customers`

In [128]:
df_customers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 930 entries, 0 to 929
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      930 non-null    object
 1   name    930 non-null    object
dtypes: object(2)
memory usage: 14.7+ KB


In [129]:
df_customers.head()

Unnamed: 0,id,name
0,ae3a050d-287f-4257-a778-cdb4206aa012,Anthony Wells
1,33a51363-1989-4967-93a1-b8e225b91e84,Scott Thompson
2,2f8f7de0-4c62-4b87-8494-6a50d68052ad,Michael Walker
3,46f7be1b-f2bc-4a91-a7c3-88c141564e31,Alicia Clark
4,c616a2a2-5efc-4e22-9db1-50dfa4d331d1,Dawn Williams


In [130]:
# Vérification des doublons pour 'id'
df_customers['id'].duplicated().sum()

np.int64(0)

#### Table `items`

In [131]:
df_items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90183 entries, 0 to 90182
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        90183 non-null  object
 1   order_id  90183 non-null  object
 2   sku       90183 non-null  object
dtypes: object(3)
memory usage: 2.1+ MB


In [132]:
df_items.head()

Unnamed: 0,id,order_id,sku
0,6136835c-cfa4-4308-bd65-440f7b4cc232,363ab5f2-78b4-4227-9333-9701ef388434,BEV-001
1,1a5fc7f0-1573-454a-ae79-576673c280ed,363ab5f2-78b4-4227-9333-9701ef388434,JAF-002
2,d32d93ca-250b-47b2-b640-cb482eb59f8f,d6cdb882-aa8c-4b5a-a478-4321eff284e6,BEV-001
3,8dabb27c-fcc2-4513-8adf-886cdc5693aa,ca934a93-aca1-4aeb-9786-efb0da1ee26a,BEV-004
4,6849a62f-43ee-464c-8f1f-9d597f636e3b,ecd64383-c4df-41aa-b270-f3b110057558,BEV-002


In [133]:
# Vérification des doublons pour 'id'
df_items['id'].duplicated().sum()

np.int64(0)

#### Table `orders`

In [134]:
df_orders.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63148 entries, 0 to 63147
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   id          63148 non-null  object        
 1   customer    63148 non-null  object        
 2   ordered_at  63148 non-null  datetime64[ns]
 3   store_id    63148 non-null  object        
dtypes: datetime64[ns](1), object(3)
memory usage: 1.9+ MB


In [135]:
df_orders.head()

Unnamed: 0,id,customer,ordered_at,store_id
0,363ab5f2-78b4-4227-9333-9701ef388434,ae3a050d-287f-4257-a778-cdb4206aa012,2016-09-01 14:49:00,a9128331-08d7-41a2-b615-21283eee21cf
1,d6cdb882-aa8c-4b5a-a478-4321eff284e6,33a51363-1989-4967-93a1-b8e225b91e84,2016-09-01 08:21:00,a9128331-08d7-41a2-b615-21283eee21cf
2,ca934a93-aca1-4aeb-9786-efb0da1ee26a,2f8f7de0-4c62-4b87-8494-6a50d68052ad,2016-09-01 08:59:00,a9128331-08d7-41a2-b615-21283eee21cf
3,ecd64383-c4df-41aa-b270-f3b110057558,46f7be1b-f2bc-4a91-a7c3-88c141564e31,2016-09-01 16:42:00,a9128331-08d7-41a2-b615-21283eee21cf
4,adae1fcd-20b7-4f40-af1c-dc121d648d4f,c616a2a2-5efc-4e22-9db1-50dfa4d331d1,2016-09-01 09:07:00,a9128331-08d7-41a2-b615-21283eee21cf


In [136]:
# Vérification des doublons pour 'id'
df_orders['id'].duplicated().sum()

np.int64(0)

#### Table `products`

In [137]:
df_products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   sku          10 non-null     object
 1   name         10 non-null     object
 2   type         10 non-null     object
 3   price        10 non-null     int64 
 4   description  10 non-null     object
dtypes: int64(1), object(4)
memory usage: 532.0+ bytes


In [138]:
df_products.head()

Unnamed: 0,sku,name,type,price,description
0,JAF-001,nutellaphone who dis?,jaffle,1100,nutella and banana jaffle
1,JAF-002,doctor stew,jaffle,1100,house-made beef stew jaffle
2,JAF-003,the krautback,jaffle,1200,lamb and pork bratwurst with house-pickled cab...
3,JAF-004,flame impala,jaffle,1400,pulled pork and pineapple al pastor marinated ...
4,JAF-005,mel-bun,jaffle,1200,"melon and minced beef bao, in a jaffle, savory..."


In [139]:
# Vérification des doublons pour 'sku'
df_products['sku'].duplicated().sum()

np.int64(0)

#### Table `stores`

In [140]:
df_stores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   id         6 non-null      object        
 1   name       6 non-null      object        
 2   opened_at  6 non-null      datetime64[ns]
 3   tax_rate   6 non-null      float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 324.0+ bytes


In [141]:
df_stores.head()

Unnamed: 0,id,name,opened_at,tax_rate
0,a9128331-08d7-41a2-b615-21283eee21cf,Philadelphia,2016-09-01,0.06
1,a2a24e87-dec8-4f5d-9c9e-0e9849529489,Brooklyn,2017-03-12,0.04
2,e1a600e7-e70a-43a8-96fd-a6dd263b50df,Chicago,2018-04-29,0.0625
3,0d16236e-9a7f-4cd6-a9ec-24b16f716316,San Francisco,2018-05-09,0.075
4,ca0b89cc-6d98-4b87-88e3-5a0d95c6567f,New Orleans,2019-03-10,0.04


In [142]:
# Vérification des doublons pour 'id'
df_stores['id'].duplicated().sum()

np.int64(0)

#### Table `supplies`

In [143]:
df_supplies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65 entries, 0 to 64
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          65 non-null     object
 1   name        65 non-null     object
 2   cost        65 non-null     int64 
 3   perishable  65 non-null     bool  
 4   sku         65 non-null     object
dtypes: bool(1), int64(1), object(3)
memory usage: 2.2+ KB


In [144]:
df_supplies.head()

Unnamed: 0,id,name,cost,perishable,sku
0,SUP-001,compostable cutlery - knife,7,False,JAF-001
1,SUP-002,cutlery - fork,7,False,JAF-001
2,SUP-003,serving boat,11,False,JAF-001
3,SUP-004,napkin,4,False,JAF-001
4,SUP-009,bread,33,True,JAF-001


In [145]:
# Vérification des doublons pour 'id'
df_supplies['id'].duplicated().sum()

np.int64(36)

In [146]:
df_supplies.duplicated().sum()

np.int64(0)

In [147]:
# Vérification des lignes en doublon pour 'id'
df_supplies[df_supplies['id'].duplicated(keep=False)]

Unnamed: 0,id,name,cost,perishable,sku
0,SUP-001,compostable cutlery - knife,7,False,JAF-001
1,SUP-002,cutlery - fork,7,False,JAF-001
2,SUP-003,serving boat,11,False,JAF-001
3,SUP-004,napkin,4,False,JAF-001
4,SUP-009,bread,33,True,JAF-001
7,SUP-001,compostable cutlery - knife,7,False,JAF-002
8,SUP-002,cutlery - fork,7,False,JAF-002
9,SUP-003,serving boat,11,False,JAF-002
10,SUP-004,napkin,4,False,JAF-002
11,SUP-009,bread,33,True,JAF-002


- Les doublons observés dans `id` sont dus à une relation multiple entre les approvisionnements (`supplies`) et les produits (`sku`). Cela ne semble pas être une anomalie mais un choix de conception des données.
- Pour garantir l'unicité, il faudra certainement combiner les colonnes `id` et `sku` comme clé unique.

#### Résumé des Observations

Le jeu de données contient plusieurs tables interconnectées.

Voici les observations sur leur structure et les relations potentielles, basées sur la description des données et l'analyse réalisée :

---

##### **raw_customers.csv**
- **Description** : Contient des informations sur les clients.
- **Colonnes** :
  - `id` (PK) : Identifiant unique du client.
  - `name` : Nom du client.
- **Observations** :
  - La colonne `id` est une clé primaire unique, sans valeur manquante.
- **Utilité** : Cette table servira de dimension dans le schéma, représentant les clients.

---

##### **raw_items.csv**
- **Description** : Contient les détails des articles commandés.
- **Colonnes** :
  - `id` (PK) : Identifiant unique de l'article commandé.
  - `order_id` (FK) : Référence à une commande (lié à `raw_orders.id`).
  - `sku` : Code de gestion des stocks pour l'article (lié à `raw_products.sku`).
- **Observations** :
  - La colonne `id` est une clé primaire unique.
  - La colonne `order_id` agit comme une clé étrangère vers `raw_orders`.
  - La colonne `sku` est liée à `raw_products`.
- **Utilité** : Cette table pourrait être utilisée comme table de faits, reliant les commandes et les produits.

---

##### **raw_orders.csv**
- **Description** : Contient les informations sur les commandes passées.
- **Colonnes** :
  - `id` (PK) : Identifiant unique de la commande.
  - `customer_id` (FK) : Référence à un client (lié à `raw_customers.id`).
  - `ordered_at` : Date et heure de la commande.
  - `store_id` (FK) : Référence au magasin où la commande a été passée (lié à `raw_stores.id`).
- **Observations** :
  - La colonne `id` est une clé primaire unique.
  - Les colonnes `customer_id` et `store_id` agissent comme des clés étrangères vers `raw_customers` et `raw_stores`, respectivement.
- **Utilité** : Cette table servira de table de faits ou de lien avec d'autres dimensions.

---

##### **raw_products.csv**
- **Description** : Détails des produits disponibles.
- **Colonnes** :
  - `sku` (PK) : Code de gestion des stocks pour le produit.
  - `name` : Nom du produit.
  - `type` : Type ou catégorie du produit.
  - `price` : Prix du produit.
  - `description` : Description du produit.
- **Observations** :
  - La colonne `sku` est une clé primaire unique.
  - Les informations de prix et de type peuvent être utilisées pour des analyses détaillées.
- **Utilité** : Table de dimension décrivant les produits.

---

##### **raw_stores.csv**
- **Description** : Informations sur les magasins.
- **Colonnes** :
  - `id` (PK) : Identifiant unique du magasin.
  - `name` : Nom du magasin / Localisation, nom de la ville
  - `opened_at` : Date d'ouverture du magasin. (supprimer les heures)
  - `tax_rate` : Taux de taxe applicable au magasin.
- **Observations** :
  - La colonne `id` est une clé primaire unique.
  - La colonne `tax_rate` pourrait être utilisée pour calculer les taxes sur les commandes.
- **Utilité** : Table de dimension décrivant les magasins.

---

##### **raw_supplies.csv**
- **Description** : Contient des informations sur les approvisionnements.
- **Colonnes** :
  - `id` : Identifiant de l'approvisionnement (non unique).
  - `name` : Nom de l'approvisionnement.
  - `cost` : Coût de l'approvisionnement.
  - `perishable` : Indique si l'approvisionnement est périssable.
  - `sku` (FK) : Code de gestion des stocks pour l'approvisionnement (lié à `raw_products.sku`).
- **Observations** :
  - La colonne `id` contient des doublons. Chaque `id` est associé à plusieurs valeurs distinctes de `sku`. Cela suggère que la véritable unicité réside dans la combinaison des colonnes `id` et `sku`.
  - La colonne `sku` agit comme une clé étrangère vers `raw_products`.
- **Utilité** : Cette table est utile pour analyser les coûts et les approvisionnements liés aux produits. La clé primaire pourrait être redéfinie comme une combinaison de `id` et `sku`.

---

#### Relations Identifiées
- **Clés primaires (PK)** :
  - Chaque table possède une colonne unique utilisée comme clé primaire (`id` ou `sku`), sauf pour `raw_supplies`, où la combinaison `id` + `sku` est nécessaire pour garantir l'unicité.

- **Clés étrangères (FK)** :
  - `raw_orders.customer_id` → `raw_customers.id`
  - `raw_orders.store_id` → `raw_stores.id`
  - `raw_items.order_id` → `raw_orders.id`
  - `raw_items.sku` → `raw_products.sku`
  - `raw_supplies.sku` → `raw_products.sku`

- **Relations principales** :
  - Les commandes (`raw_orders`) relient les clients (`raw_customers`), les magasins (`raw_stores`), et les articles commandés (`raw_items`).
  - Les produits (`raw_products`) sont liés aux articles (`raw_items`) et aux approvisionnements (`raw_supplies`).

### 1.2 Schéma de la Base de Données Relationnelle Brute

- Le schéma de la base de données brute reflète l’organisation des données opérationnelles de l'entreprise et identifie les relations entre les tables.

- Pour visualiser ce schéma, nous utilisons **dbdiagram.io**, un outil adapté pour représenter les tables, leurs clés primaires (PK) et clés étrangères (FK).

- L’observation des PK et FK permettra d’établir les relations entre les tables et de définir leurs cardinalités.

- L’objectif est de préparer un diagramme relationnel clair servant de base à la dénormalisation en vue de la création d’un Data Warehouse optimisé.

![Schéma de la BDD Brute](../data/images/Schema%20ETL%20Cloud%20Computing%20BDD%20brute.png)