# Extraction et Préparation de Données pour le Reporting

## Objectif du TP :
- Extraire des données depuis un fichier CSV et une API publique(openweather).
- Nettoyer, transformer et analyser les données en vue de créer un reporting.
- Acquérir des compétences pratiques en manipulation de données avec Python.

## Partie 1 : Extraction de données

In [1]:
import pandas as pd
from definitions import *

/home/goamegah/Documents/workspace/develop/esgi/4a/s2/reporting/dataset


In [8]:
data = pd.read_csv(f'{DATASET_PATH}/ventes.csv')

In [9]:
print(data.shape)
data.head()

(110, 7)


Unnamed: 0,Produit,Catégorie,Prix (€),Quantité vendue,Satisfaction client,Région,Revenu total (€)
0,Produit_7,Alimentaire,130,33,5,Nord,4290.0
1,Produit_20,Électronique,134,21,1,Sud,2814.0
2,Produit_15,Alimentaire,57,32,7,Nord,1824.0
3,Produit_11,Alimentaire,72,23,5,Nord,1656.0
4,Produit_8,Vêtements,127,33,6,Sud,4191.0


In [10]:
# rename all columns as technical names
data.columns = ['produit', 'category', 'prix', 'quantite_vendue', 'satisfaction_client', 'region', 'revenu_total']
# check whether there are missing values for each column
print(data.isnull().sum())

produit                0
category               0
prix                   0
quantite_vendue        0
satisfaction_client    0
region                 1
revenu_total           3
dtype: int64


In [11]:
# handle missing values
data = data.dropna(subset=['region', 'revenu_total'])
print(data.shape)
print(data.isnull().sum())

(106, 7)
produit                0
category               0
prix                   0
quantite_vendue        0
satisfaction_client    0
region                 0
revenu_total           0
dtype: int64


In [12]:
data['Chiffre_d_affaires'] = data['quantite_vendue'] * data['prix']
print(data.shape)
data.head()

(106, 8)


Unnamed: 0,produit,category,prix,quantite_vendue,satisfaction_client,region,revenu_total,Chiffre_d_affaires
0,Produit_7,Alimentaire,130,33,5,Nord,4290.0,4290
1,Produit_20,Électronique,134,21,1,Sud,2814.0,2814
2,Produit_15,Alimentaire,57,32,7,Nord,1824.0,1824
3,Produit_11,Alimentaire,72,23,5,Nord,1656.0,1656
4,Produit_8,Vêtements,127,33,6,Sud,4191.0,4191


In [13]:
# Regroupe les données par Produit pour calculer le chiffre d'affaires total par produit.
data_grouped = data.groupby('produit').agg({'Chiffre_d_affaires': 'sum'}).reset_index()
# Trie les produits par chiffre d'affaires total décroissant.
data_grouped = data_grouped.sort_values(by='Chiffre_d_affaires', ascending=False)
data_grouped

Unnamed: 0,produit,Chiffre_d_affaires
18,Produit_8,32032
11,Produit_2,24658
13,Produit_3,16392
6,Produit_15,14584
15,Produit_5,14554
17,Produit_7,14425
9,Produit_18,13526
14,Produit_4,12358
19,Produit_9,11638
7,Produit_16,10783


In [15]:
# Affiche le produit avec le chiffre d'affaires le plus élevé.
print("Produit avec le chiffre d'affaires le plus élevé :")
print(data_grouped.iloc[0])
# Affiche le produit avec le chiffre d'affaires le plus bas.
print("Produit avec le chiffre d'affaires le plus bas :")
print(data_grouped.iloc[-1])
# Affiche le chiffre d'affaires total par produit.
print("Chiffre d'affaires total par produit :")
data_grouped

Produit avec le chiffre d'affaires le plus élevé :
produit               Produit_8
Chiffre_d_affaires        32032
Name: 18, dtype: object
Produit avec le chiffre d'affaires le plus bas :
produit               Produit_13
Chiffre_d_affaires          1991
Name: 4, dtype: object
Chiffre d'affaires total par produit :


Unnamed: 0,produit,Chiffre_d_affaires
18,Produit_8,32032
11,Produit_2,24658
13,Produit_3,16392
6,Produit_15,14584
15,Produit_5,14554
17,Produit_7,14425
9,Produit_18,13526
14,Produit_4,12358
19,Produit_9,11638
7,Produit_16,10783
