Dans ce notebook, on va voir :
- Notion de dataframe
- Manipulation de dataframe
- Exercice
- Manipulation d'une colonne de type datetime

<b>Notion de dataframe</b>

Importer la bibliotheque pandas

In [7]:
import pandas as pd

Charger des données tabulaires d'un CSV dans un dataframe

In [8]:
df_main=pd.read_csv('main.csv')

Afficher les 5 premières lignes de dataframe

In [9]:
df_main.head()

Unnamed: 0,id_produit,id_temps,puht,quantite_vendue,date,categorie,nom
0,1,1,1000,15,2023-01-01,smartphone,iPhone
1,1,2,1100,14,2023-02-01,smartphone,iPhone
2,1,3,1200,16,2023-03-01,smartphone,iPhone
3,1,4,1250,15,2023-04-01,smartphone,iPhone
4,1,5,1300,16,2023-05-01,smartphone,iPhone


Afficher le shape de dataframe

In [10]:
df_main.shape

(64, 7)

Afficher les types des données des colonnes

In [11]:
df_main.dtypes

id_produit          int64
id_temps            int64
puht                int64
quantite_vendue     int64
date               object
categorie          object
nom                object
dtype: object

Afficher les noms des colonnes

In [16]:
df_main.columns

Index(['id_produit', 'id_temps', 'puht', 'quantite_vendue', 'date',
       'categorie', 'nom'],
      dtype='object')

<b>Manipulation d'un dataframe</b>

Opérateur iloc

In [12]:
# Get croisement de premiere ligne et premiere colonne
df_main.iloc[0,0]

np.int64(1)

In [13]:
# Get premiere colonne 
df_main.iloc[:,0]

0     1
1     1
2     1
3     1
4     1
     ..
59    7
60    8
61    8
62    8
63    8
Name: id_produit, Length: 64, dtype: int64

In [14]:
# Get premiere ligne 
df_main.iloc[0,:]

id_produit                  1
id_temps                    1
puht                     1000
quantite_vendue            15
date               2023-01-01
categorie          smartphone
nom                    iPhone
Name: 0, dtype: object

In [15]:
# Get dernière colonne
df_main.iloc[:,-1]

0     iPhone
1     iPhone
2     iPhone
3     iPhone
4     iPhone
       ...  
59        HP
60      Dell
61      Dell
62      Dell
63      Dell
Name: nom, Length: 64, dtype: object

Opérateur loc

In [17]:
# Get la colonne puht
# En terme de SQL : select puht from MAIN
df_main.loc[:,'puht']

0     1000
1     1100
2     1200
3     1250
4     1300
      ... 
59    1150
60     950
61    1000
62    1050
63    1100
Name: puht, Length: 64, dtype: int64

In [19]:
# SELECT puht , quantite from MAIN
df_main.loc[:,['puht','quantite_vendue']]

Unnamed: 0,puht,quantite_vendue
0,1000,15
1,1100,14
2,1200,16
3,1250,15
4,1300,16
...,...,...
59,1150,10
60,950,10
61,1000,11
62,1050,12


La fonction de filtrage Query

In [24]:
# Select * from AIN where nom in ['HP','Dell']
df_main.query("nom in ['HP','Dell']")

Unnamed: 0,id_produit,id_temps,puht,quantite_vendue,date,categorie,nom
56,7,9,1000,9,2023-09-01,PC portable,HP
57,7,10,1050,10,2023-10-01,PC portable,HP
58,7,11,1100,11,2023-11-01,PC portable,HP
59,7,12,1150,10,2023-12-01,PC portable,HP
60,8,9,950,10,2023-09-01,PC portable,Dell
61,8,10,1000,11,2023-10-01,PC portable,Dell
62,8,11,1050,12,2023-11-01,PC portable,Dell
63,8,12,1100,11,2023-12-01,PC portable,Dell


Combinaison entre loc et query

In [23]:
# SELECT puht , quantite from MAIN where nom in ['HP','Dell']
df_main.query("nom in ['HP','Dell']").loc[:,['puht','quantite_vendue']]

Unnamed: 0,puht,quantite_vendue
56,1000,9
57,1050,10
58,1100,11
59,1150,10
60,950,10
61,1000,11
62,1050,12
63,1100,11


Aggrégats ou statistiques univariée

In [36]:
# Quantité vendue moyenne
df_main['quantite_vendue'].mean()

np.float64(12.96875)

In [35]:
# Quantité vendue totale
df_main['quantite_vendue'].sum()

np.int64(830)

In [34]:
# la quantité vendue maximale
df_main['quantite_vendue'].max()

np.int64(25)

In [28]:
# la quantité vendue minimale
df_main['quantite_vendue'].min()

np.int64(3)

In [30]:
# Get index de la vente ayant la quantité vendue max
# SQL : 
# SELECT id FROM MAIN ORDER BY puht DESC LIMIT 1;

idxmax_quantite = df_main['quantite_vendue'].idxmax()
idxmax_quantite

34

In [33]:
# verifier qu'il s'agit de la vente ayant la quantité vendue max
df_main.loc[idxmax_quantite,'quantite_vendue'] 

np.int64(25)

In [37]:
# Voir les statistiques univariées ensemble
df_main['quantite_vendue'].describe() 

count    64.000000
mean     12.968750
std       5.508921
min       3.000000
25%       9.750000
50%      11.000000
75%      17.000000
max      25.000000
Name: quantite_vendue, dtype: float64

Supprimer des colonnes

In [38]:
# + Supprimer les deux colonnes inutiles 'id_produit','id_temps'
# + drop a axis=0 par defaut , ce que signifie que drop supprimer par defaut les lignes
# => On indique axis=1 pour que drop supprimer pluôt des colonnes
# + errors=ignore signifie que même si les colonnes n'exsitent pas drop ne lance pas une exception
# + inplace=True signifie que df_main est mise à jour après suppression
df_main.drop(['id_produit','id_temps'], axis=1, errors='ignore', inplace=True)

In [39]:
df_main.head()

Unnamed: 0,puht,quantite_vendue,date,categorie,nom
0,1000,15,2023-01-01,smartphone,iPhone
1,1100,14,2023-02-01,smartphone,iPhone
2,1200,16,2023-03-01,smartphone,iPhone
3,1250,15,2023-04-01,smartphone,iPhone
4,1300,16,2023-05-01,smartphone,iPhone


Ajouter une nouvelle colonne calculée à partir ds colonnes existantes

In [40]:
# Calculer et ajouter la colonne montant qui designe puht * quantite pour chaque produit vendu
df_main['montant'] = df_main['quantite_vendue'] * df_main['puht']
df_main.head()

Unnamed: 0,puht,quantite_vendue,date,categorie,nom,montant
0,1000,15,2023-01-01,smartphone,iPhone,15000
1,1100,14,2023-02-01,smartphone,iPhone,15400
2,1200,16,2023-03-01,smartphone,iPhone,19200
3,1250,15,2023-04-01,smartphone,iPhone,18750
4,1300,16,2023-05-01,smartphone,iPhone,20800


Regroupement et Aggrégation

In [42]:
# SQL :
# SELECT categorie, SUM(quantite_vendue) AS total_quantite_vendue
# FROM MAIN
# GROUP BY categorie;

# Reegrouper les lignes (ventes) selon les catégories
#  => 3 groupes
#  => Groupe des produits de la catégorie PC portable 
#  => Groupe des produits de la catégorie electromenager
#  => Groupe des produits de la catégorie smartphone
# Aggrégation : Calculer un aggrégat (somme de la quantité vendue) par groupe
total_quantite_vendue = df_main.groupby('categorie')['quantite_vendue'].sum()
total_quantite_vendue

categorie
PC portable       120
electromenager    116
smartphone        594
Name: quantite_vendue, dtype: int64

Reinitialiser l'index

In [53]:
# Dans le dataframe total_quantite_vendue, il est utile de rendre l'index une colonne normale (au lieu d'index)
# C'est utile pour exploiter ce dataframe
total_quantite_vendue=total_quantite_vendue.reset_index()
total_quantite_vendue

Unnamed: 0,categorie,quantite_vendue
0,PC portable,120
1,electromenager,116
2,smartphone,594


In [54]:
# On le fait en une seule fois :
total_quantite_vendue = df_main.groupby('categorie')['quantite_vendue'].sum().reset_index()
total_quantite_vendue

Unnamed: 0,categorie,quantite_vendue
0,PC portable,120
1,electromenager,116
2,smartphone,594


Liste des catégories

In [67]:
categories_disponibles = df_main['categorie'].unique()
categories_disponibles

array(['smartphone', 'electromenager', 'PC portable'], dtype=object)

<b>Exercice</b>

Catégorie la plus vendue en termes de quantité

In [44]:
categorie_plus_vendue = df_main.groupby('categorie')['quantite_vendue'].sum().idxmax()
categorie_plus_vendue

'smartphone'

Catégorie la plus rentable en termes de revenus

In [43]:
categorie_plus_rentable = df_main.groupby('categorie')['montant'].sum().idxmax()
categorie_plus_rentable

'smartphone'

Produit le plus rentable en termes de revenus

In [45]:
produit_plus_rentable = df_main.groupby('nom')['montant'].sum().idxmax()
produit_plus_rentable

'iPhone'

Calculer la quantité vendue totale par catégorie

In [49]:
stats_categorie_quantite = df_main.groupby('categorie')['quantite_vendue'].sum().index()
stats_categorie_quantite

categorie
PC portable       120
electromenager    116
smartphone        594
Name: quantite_vendue, dtype: int64

Calculer le montant/revenue total par catégorie

In [55]:
stats_categorie_revenu = df_main.groupby('categorie')['montant'].sum().reset_index()
stats_categorie_revenu

Unnamed: 0,categorie,montant
0,PC portable,123500
1,electromenager,114220
2,smartphone,593800


In [56]:
stats_produit_quantite = df_main.groupby('nom')['quantite_vendue'].sum().reset_index()
stats_produit_quantite

Unnamed: 0,nom,quantite_vendue
0,Asus,36
1,Decodeur,38
2,Dell,44
3,HP,40
4,Oppo,258
5,Samsung,138
6,TV,78
7,iPhone,198


In [57]:
stats_produit_revenu = df_main.groupby('nom')['montant'].sum().reset_index()
stats_produit_revenu

Unnamed: 0,nom,montant
0,Asus,35200
1,Decodeur,7020
2,Dell,45200
3,HP,43100
4,Oppo,177150
5,Samsung,123750
6,TV,107200
7,iPhone,292900


<b>Manipulation d'une colonne de type datetime</b>

Convertir la colonne 'date' en datetime

In [58]:
df_main['date'] = pd.to_datetime(df_main['date'])

Extraire le mois au format YYYY-MM

In [59]:
df_main['mois'] = df_main['date'].dt.strftime('%Y-%m')
df_main.head()

Unnamed: 0,puht,quantite_vendue,date,categorie,nom,montant,mois
0,1000,15,2023-01-01,smartphone,iPhone,15000,2023-01
1,1100,14,2023-02-01,smartphone,iPhone,15400,2023-02
2,1200,16,2023-03-01,smartphone,iPhone,19200,2023-03
3,1250,15,2023-04-01,smartphone,iPhone,18750,2023-04
4,1300,16,2023-05-01,smartphone,iPhone,20800,2023-05
...,...,...,...,...,...,...,...
59,1150,10,2023-12-01,PC portable,HP,11500,2023-12
60,950,10,2023-09-01,PC portable,Dell,9500,2023-09
61,1000,11,2023-10-01,PC portable,Dell,11000,2023-10
62,1050,12,2023-11-01,PC portable,Dell,12600,2023-11


<b>Exercice 2</b>

Quantité mensuelle vendue (Quantité vendue par mois)

In [65]:
quantite_mensuelle = df_main.groupby('mois')['quantite_vendue'].sum().reset_index()
quantite_mensuelle

Unnamed: 0,mois,quantite_vendue
0,2023-01,60
1,2023-02,59
2,2023-03,61
3,2023-04,60
4,2023-05,59
5,2023-06,64
6,2023-07,62
7,2023-08,63
8,2023-09,78
9,2023-10,84


Revenu mensuel (Montant par mois)

In [64]:
revenu_mensuel = df_main.groupby('mois')['montant'].sum().reset_index()
revenu_mensuel

Unnamed: 0,mois,montant
0,2023-01,41750
1,2023-02,44510
2,2023-03,49780
3,2023-04,51650
4,2023-05,53970
5,2023-06,62150
6,2023-07,63260
7,2023-08,67600
8,2023-09,83350
9,2023-10,94750


Liste des produits (Valeurs uniques)

In [66]:
produits_disponibles = df_main['nom'].unique()
produits_disponibles

array(['iPhone', 'Samsung', 'Oppo', 'TV', 'Decodeur', 'Asus', 'HP',
       'Dell'], dtype=object)