<a href="https://colab.research.google.com/github/modouseck/Python-Machine-Learning/blob/master/cheik_ponit_pandasipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Étape 1 : Importer les bibliothèques nécessaires
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Étape 2 : Charger les données
df = pd.read_csv("/content/STEG_BILLING_HISTORY.csv")

# Afficher les 10 premières lignes
client_0_bills = df.head(10)
print(client_0_bills)

# Étape 3 : Type de données de client_0_bills
print(f"Type de la variable client_0_bills : {type(client_0_bills)}")

# Étape 4 : Informations générales sur le dataset
print("\nInfos générales :")
df.info()

# Nombre de lignes et colonnes
print(f"\nNombre de lignes : {df.shape[0]}")
print(f"Nombre de colonnes : {df.shape[1]}")

# Étape 5 : Identifier les caractéristiques catégorielles
cat_cols = df.select_dtypes(include="object").columns
print(f"\nCaractéristiques catégorielles ({len(cat_cols)}): {list(cat_cols)}")

# Étape 6 : Espace mémoire
print(f"\nConsommation mémoire : {df.memory_usage(deep=True).sum() / (1024 ** 2):.2f} Mo")

# Étape 7 : Valeurs manquantes
print("\nValeurs manquantes :")
print(df.isnull().sum())

# Étape 8 : Stratégie de traitement des valeurs manquantes
# Explication :
# - Pour les variables numériques : on remplace par la médiane (robuste aux valeurs extrêmes)
# - Pour les variables catégorielles : on remplace par la modalité la plus fréquente (mode)

for col in df.columns:
    if df[col].isnull().sum() > 0:
        if df[col].dtype == "object":
            df[col].fillna(df[col].mode()[0], inplace=True)
        else:
            df[col].fillna(df[col].median(), inplace=True)

print("\nVérification après traitement des valeurs manquantes :")
print(df.isnull().sum())

# Étape 9 : Analyse descriptive des caractéristiques numériques
print("\nAnalyse descriptive :")
print(df.describe())

# Étape 10 : Sélection des factures du client 'train_Client_0'
# Méthode 1 : Filtrage booléen
client_data_1 = df[df["client_id"] == "train_Client_0"]

# Méthode 2 : Query
client_data_2 = df.query("client_id == 'train_Client_0'")

print("\nFactures du client 'train_Client_0' (Méthode 1):")
print(client_data_1.head())

# Étape 11 : Encodage de 'counter_type'
le = LabelEncoder()
df['counter_type_encoded'] = le.fit_transform(df['counter_type'])

print("\nExemple d'encodage de counter_type :")
print(df[['counter_type', 'counter_type_encoded']].drop_duplicates())

# Étape 12 : Suppression de la colonne 'counter_statue'
df.drop(columns=['counter_statue'], inplace=True)

print("\nColonnes finales après suppression de 'counter_statue' :")
print(df.columns)


        client_id invoice_date  tarif_type  counter_number  counter_statue  \
0  train_Client_0   2014-03-24          11       1335667.0               0   
1  train_Client_0   2013-03-29          11       1335667.0               0   
2  train_Client_0   2015-03-23          11       1335667.0               0   
3  train_Client_0   2015-07-13          11       1335667.0               0   
4  train_Client_0   2016-11-17          11       1335667.0               0   
5  train_Client_0   2017-07-17          11       1335667.0               0   
6  train_Client_0   2018-12-07          11       1335667.0               0   
7  train_Client_0   2019-03-19          11       1335667.0               0   
8  train_Client_0   2011-07-22          11       1335667.0               0   
9  train_Client_0   2011-11-22          11       1335667.0               0   

   counter_code  reading_remarque  counter_coefficient  consommation_level_1  \
0         203.0               8.0                  1.0       

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mode()[0], inplace=True)



Vérification après traitement des valeurs manquantes :
client_id               0
invoice_date            0
tarif_type              0
counter_number          0
counter_statue          0
counter_code            0
reading_remarque        0
counter_coefficient     0
consommation_level_1    0
consommation_level_2    0
consommation_level_3    0
consommation_level_4    0
old_index               0
new_index               0
months_number           0
counter_type            0
dtype: int64

Analyse descriptive :
         tarif_type  counter_number  counter_statue  counter_code  \
count  1.132481e+06    1.132481e+06    1.132481e+06  1.132481e+06   
mean   2.011865e+01    1.225226e+11    4.221086e-02  1.724026e+02   
std    1.347401e+01    1.658145e+12    3.754309e-01  1.336327e+02   
min    8.000000e+00    0.000000e+00    0.000000e+00  5.000000e+00   
25%    1.100000e+01    1.225020e+05    0.000000e+00  5.000000e+00   
50%    1.100000e+01    4.920690e+05    0.000000e+00  2.030000e+02   
75%    4.