<a href="https://colab.research.google.com/github/ClaFlorez/Machine_Learning_Simplifie/blob/main/03_Import_et_creation_de_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# Testez ce code dans Google Colab
import sys
print(f"🐍 Version Python : {sys.version}")

# Vérifier les bibliothèques ML
try:
    import pandas as pd
    import numpy as np
    import sklearn
    import matplotlib.pyplot as plt

    print("✅ Toutes les bibliothèques ML sont installées !")
    print(f"   • pandas : {pd.__version__}")
    print(f"   • numpy : {np.__version__}")
    print(f"   • scikit-learn : {sklearn.__version__}")

    # Test simple
    data = np.array([1, 2, 3, 4, 5])
    print(f"   • Test numpy : moyenne = {np.mean(data)}")

except ImportError as e:
    print(f"❌ Erreur : {e}")

# Vérifier si GPU disponible
try:
    import tensorflow as tf
    print(f"✅ TensorFlow : {tf.__version__}")
    print(f"   • GPU disponible : {tf.config.list_physical_devices('GPU')}")
except ImportError:
    print("❌ TensorFlow non disponible")


🐍 Version Python : 3.12.11 (main, Jun  4 2025, 08:56:18) [GCC 11.4.0]
✅ Toutes les bibliothèques ML sont installées !
   • pandas : 2.2.2
   • numpy : 2.0.2
   • scikit-learn : 1.6.1
   • Test numpy : moyenne = 3.0
✅ TensorFlow : 2.19.0
   • GPU disponible : []


In [1]:
# Import et création de DataFrames
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

print("PANDAS - CRÉATION DE DATAFRAMES")
print("=" * 40)

# 1. CRÉATION À PARTIR D'UN DICTIONNAIRE
data = {
    'nom': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve'],
    'age': [25, 30, 35, 28, 32],
    'ville': ['Paris', 'Lyon', 'Marseille', 'Toulouse', 'Nice'],
    'salaire': [45000, 52000, 48000, 51000, 47000],
    'experience': [2, 5, 8, 3, 6]
}

df = pd.DataFrame(data)
print("DataFrame créé à partir d'un dictionnaire :")
print(df)

# 2. CRÉATION À PARTIR DE LISTES
colonnes = ['A', 'B', 'C']
donnees = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
df_listes = pd.DataFrame(donnees, columns=colonnes)
print(f"\nDataFrame à partir de listes :")
print(df_listes)

# 3. INFORMATIONS GÉNÉRALES
print(f"\nEXPLORATION DU DATAFRAME :")
print(f"   Dimensions : {df.shape}")
print(f"   Colonnes : {list(df.columns)}")
print(f"   Types : \n{df.dtypes}")
print(f"   Mémoire utilisée : {df.memory_usage(deep=True).sum()} bytes")

# 4. APERÇU RAPIDE
print(f"\nAPERÇU DES DONNÉES :")
print("Premières lignes :")
print(df.head(3))
print("\nDernières lignes :")
print(df.tail(2))

# 5. STATISTIQUES DESCRIPTIVES
print(f"\nSTATISTIQUES DESCRIPTIVES :")
print(df.describe())

# 6. INFORMATIONS DÉTAILLÉES
print(f"\nINFORMATIONS DÉTAILLÉES :")
print(df.info())

PANDAS - CRÉATION DE DATAFRAMES
DataFrame créé à partir d'un dictionnaire :
       nom  age      ville  salaire  experience
0    Alice   25      Paris    45000           2
1      Bob   30       Lyon    52000           5
2  Charlie   35  Marseille    48000           8
3    Diana   28   Toulouse    51000           3
4      Eve   32       Nice    47000           6

DataFrame à partir de listes :
   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9

EXPLORATION DU DATAFRAME :
   Dimensions : (5, 5)
   Colonnes : ['nom', 'age', 'ville', 'salaire', 'experience']
   Types : 
nom           object
age            int64
ville         object
salaire        int64
experience     int64
dtype: object
   Mémoire utilisée : 795 bytes

APERÇU DES DONNÉES :
Premières lignes :
       nom  age      ville  salaire  experience
0    Alice   25      Paris    45000           2
1      Bob   30       Lyon    52000           5
2  Charlie   35  Marseille    48000           8

Dernières lignes :
     nom  age     ville  salai

In [3]:
# Sélection et filtrage avec Pandas
import pandas as pd
import numpy as np

# Données d'exemple
np.random.seed(42)
df = pd.DataFrame({
    'nom': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve', 'Frank', 'Grace'],
    'age': [25, 30, 35, 28, 32, 45, 29],
    'ville': ['Paris', 'Lyon', 'Marseille', 'Toulouse', 'Nice', 'Paris', 'Lyon'],
    'salaire': [45000, 52000, 48000, 51000, 47000, 65000, 49000],
    'departement': ['IT', 'HR', 'IT', 'Marketing', 'IT', 'HR', 'Marketing']
})

print("SELECTION ET FILTRAGE")
print("=" * 30)

# 1. SÉLECTION DE COLONNES
print("Sélection de colonnes :")
print("Une colonne (Series) :")
print(df['nom'])
print(f"Type : {type(df['nom'])}")

print("\nPlusieurs colonnes (DataFrame) :")
print(df[['nom', 'age', 'salaire']])

# 2. SÉLECTION DE LIGNES PAR INDEX
print(f"\nSélection par index :")
print("Ligne 0 :")
print(df.iloc[0])  # Par position numérique

print("\nLignes 1 à 3 :")
print(df.iloc[1:4])

print("\nLignes spécifiques :")
print(df.iloc[[0, 2, 4]])

# 3. SÉLECTION PAR ÉTIQUETTE
print(f"\nSélection par étiquette (loc) :")
print("Ligne avec index 2 :")
print(df.loc[2])

print("\nLignes et colonnes spécifiques :")
print(df.loc[0:2, ['nom', 'salaire']])

# 4. FILTRAGE CONDITIONNEL
print(f"\nFILTRAGE CONDITIONNEL :")

# Condition simple
print("Personnes de plus de 30 ans :")
filtre_age = df['age'] > 30
print(df[filtre_age])

# Conditions multiples
print("\nPersonnes IT avec salaire > 46000 :")
filtre_complexe = (df['departement'] == 'IT') & (df['salaire'] > 46000)
print(df[filtre_complexe])

# Filtrage avec isin()
print("\nPersonnes de Paris ou Lyon :")
filtre_villes = df['ville'].isin(['Paris', 'Lyon'])
print(df[filtre_villes])

# 5. MÉTHODES DE FILTRAGE AVANCÉES
print(f"\nMÉTHODES AVANCÉES :")

# query() - syntaxe SQL-like
print("Avec query() :")
result = df.query('age > 30 and departement == \"IT\"')
print(result)

# where() - remplacer les valeurs ne respectant pas la condition
print("\nAvec where() (remplace par NaN si condition non respectée) :")
print(df.where(df['age'] > 30)['nom'].dropna())

# 6. ÉCHANTILLONNAGE
print(f"\nECHANTILLONNAGE :")
print("Échantillon aléatoire de 3 lignes :")
print(df.sample(3, random_state=42))

print("\nPremières 30% des données :")
n_rows = int(len(df) * 0.3)
print(df.head(n_rows))

SELECTION ET FILTRAGE
Sélection de colonnes :
Une colonne (Series) :
0      Alice
1        Bob
2    Charlie
3      Diana
4        Eve
5      Frank
6      Grace
Name: nom, dtype: object
Type : <class 'pandas.core.series.Series'>

Plusieurs colonnes (DataFrame) :
       nom  age  salaire
0    Alice   25    45000
1      Bob   30    52000
2  Charlie   35    48000
3    Diana   28    51000
4      Eve   32    47000
5    Frank   45    65000
6    Grace   29    49000

Sélection par index :
Ligne 0 :
nom            Alice
age               25
ville          Paris
salaire        45000
departement       IT
Name: 0, dtype: object

Lignes 1 à 3 :
       nom  age      ville  salaire departement
1      Bob   30       Lyon    52000          HR
2  Charlie   35  Marseille    48000          IT
3    Diana   28   Toulouse    51000   Marketing

Lignes spécifiques :
       nom  age      ville  salaire departement
0    Alice   25      Paris    45000          IT
2  Charlie   35  Marseille    48000          IT
4  

In [13]:
# Gestion des valeurs manquantes (NaN)
import pandas as pd
import numpy as np

# Créer des données avec valeurs manquantes
data_avec_nan = {
    'nom': ['Alice', 'Bob', None, 'Diana', 'Eve'],
    'age': [25, np.nan, 35, 28, 32],
    'salaire': [45000, 52000, np.nan, 51000, np.nan],
    'ville': ['Paris', 'Lyon', 'Marseille', None, 'Nice']
}

df_nan = pd.DataFrame(data_avec_nan)
print("GESTION DES VALEURS MANQUANTES")
print("=" * 35)

print("DataFrame avec valeurs manquantes :")
print(df_nan)

# 1. DÉTECTER LES VALEURS MANQUANTES
print(f"\nDETECTION DES NaN :")
print("Valeurs manquantes par colonne :")
print(df_nan.isnull().sum())

print("\nPourcentage de valeurs manquantes :")
pourcentage_nan = (df_nan.isnull().sum() / len(df_nan)) * 100
print(pourcentage_nan)

print("\nLignes avec au moins une valeur manquante :")
print(df_nan[df_nan.isnull().any(axis=1)])

# 2. SUPPRIMER LES VALEURS MANQUANTES
print(f"\nSUPPRESSION DES NaN :")

# Supprimer toutes les lignes avec au moins un NaN
df_drop_rows = df_nan.dropna()
print(f"Après suppression des lignes avec NaN : {df_drop_rows.shape}")
print(df_drop_rows)

# Supprimer les colonnes avec au moins un NaN
df_drop_cols = df_nan.dropna(axis=1)
print(f"\nAprès suppression des colonnes avec NaN : {df_drop_cols.shape}")
print(df_drop_cols)

# Supprimer seulement si toutes les valeurs sont NaN
df_drop_all = df_nan.dropna(how='all')
print(f"\nSuppression seulement si toute la ligne est NaN : {df_drop_all.shape}")

# 3. REMPLACER LES VALEURS MANQUANTES
print(f"\nREMPLACEMENT DES NaN :")

# Remplacer par une valeur fixe
df_fill_fixed = df_nan.fillna('MANQUANT')
print("Remplacement par 'MANQUANT' :")
print(df_fill_fixed)

# Remplacer par la moyenne (colonnes numériques)
df_fill_mean = df_nan.copy()
df_fill_mean['age'] = df_fill_mean['age'].fillna(df_fill_mean['age'].mean())
df_fill_mean['salaire'] = df_fill_mean['salaire'].fillna(df_fill_mean['salaire'].mean())
print(f"\nRemplacement par la moyenne :")
print(df_fill_mean)

# Remplacer par la valeur précédente (forward fill)
df_ffill = df_nan.ffill()
print(f"\nForward fill (valeur précédente) :")
print(df_ffill)

# Remplacer par la valeur suivante (backward fill)
df_bfill = df_nan.bfill()
print(f"\nBackward fill (valeur suivante) :")
print(df_bfill)

# 4. STRATÉGIES SPÉCIFIQUES PAR COLONNE
print(f"\nSTRATÉGIES PERSONNALISÉES :")

df_custom = df_nan.copy()
# Âge : remplacer par la médiane
df_custom['age'] = df_custom['age'].fillna(df_custom['age'].median())
# Salaire : remplacer par la moyenne
df_custom['salaire'] = df_custom['salaire'].fillna(df_custom['salaire'].mean())
# Nom et ville : remplacer par 'Inconnu'
df_custom['nom'] = df_custom['nom'].fillna('Inconnu')
df_custom['ville'] = df_custom['ville'].fillna('Inconnu')

print("Stratégies personnalisées :")
print(df_custom)

# 5. INTERPOLATION (pour données temporelles)
dates = pd.date_range('2024-01-01', periods=7, freq='D')
valeurs = [10, np.nan, np.nan, 40, np.nan, 60, 70]
df_temps = pd.DataFrame({'date': dates, 'valeur': valeurs})

print(f"\nINTERPOLATION :")
print("Données temporelles avec NaN :")
print(df_temps)

df_temps['valeur_interpolee'] = df_temps['valeur'].interpolate()
print("\nAprès interpolation linéaire :")
print(df_temps)

GESTION DES VALEURS MANQUANTES
DataFrame avec valeurs manquantes :
     nom   age  salaire      ville
0  Alice  25.0  45000.0      Paris
1    Bob   NaN  52000.0       Lyon
2   None  35.0      NaN  Marseille
3  Diana  28.0  51000.0       None
4    Eve  32.0      NaN       Nice

DETECTION DES NaN :
Valeurs manquantes par colonne :
nom        1
age        1
salaire    2
ville      1
dtype: int64

Pourcentage de valeurs manquantes :
nom        20.0
age        20.0
salaire    40.0
ville      20.0
dtype: float64

Lignes avec au moins une valeur manquante :
     nom   age  salaire      ville
1    Bob   NaN  52000.0       Lyon
2   None  35.0      NaN  Marseille
3  Diana  28.0  51000.0       None
4    Eve  32.0      NaN       Nice

SUPPRESSION DES NaN :
Après suppression des lignes avec NaN : (1, 4)
     nom   age  salaire  ville
0  Alice  25.0  45000.0  Paris

Après suppression des colonnes avec NaN : (5, 0)
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4]

Suppression seulement si toute la 

In [14]:
# Groupement et agrégation avec Pandas
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

print("GROUPEMENT ET AGREÉGATION")
print("=" * 30)

print("Aperçu des données :")
print(df.head())

# 1. GROUPEMENT SIMPLE
print(f"\nGROUPEMENTS SIMPLES :")

# Grouper par département
print("Salaire moyen par département :")
salaire_par_dept = df.groupby('departement')['salaire'].mean()
print(salaire_par_dept)

print("\nNombre d'employés par ville :")
employes_par_ville = df.groupby('ville').size()
print(employes_par_ville)

# 2. AGRÉGATIONS MULTIPLES
print(f"\nAGREGATIONS MULTIPLES :")

# Plusieurs statistiques à la fois
stats_par_dept = df.groupby('departement')['salaire'].agg([
    'count', 'mean', 'median', 'std', 'min', 'max'
])
print("Statistiques complètes par département :")
print(stats_par_dept.round(2))

# Différentes fonctions pour différentes colonnes
agg_personnalise = df.groupby('departement').agg({
    'salaire': ['mean', 'max'],
    'age': ['mean', 'min'],
})
print(f"\nAgrégations personnalisées :")
print(agg_personnalise.round(2))

# 3. GROUPEMENT MULTIPLE
print(f"\nGROUPEMENTS MULTIPLES :")

# Grouper par département ET ville
groupe_multiple = df.groupby(['departement', 'ville'])['salaire'].mean()
print("Salaire moyen par département et ville :")
print(groupe_multiple.round(2))

# Avec unstack pour un format plus lisible
print("\nFormat tableau (unstack) :")
print(groupe_multiple.unstack().round(2))

# 4. FILTRAGE DE GROUPES
print(f"\nFILTRAGE DE GROUPES :")

# Garder seulement les départements avec plus de 20 employés
groupes_grands = df.groupby('departement').filter(lambda x: len(x) > 20)
print(f"Départements avec plus de 20 employés : {groupes_grands['departement'].unique()}")

# Garder les groupes avec salaire moyen > 50000
def salaire_eleve(groupe):
    return groupe['salaire'].mean() > 50000

groupes_riches = df.groupby('departement').filter(salaire_eleve)
print(f"Départements avec salaire moyen > 50k : {groupes_riches['departement'].unique()}")

# 5. TRANSFORMATION DE GROUPES
print(f"\nTRANSFORMATIONS :")

# Normaliser les salaires par département (z-score)
df['salaire_normalise'] = df.groupby('departement')['salaire'].transform(
    lambda x: (x - x.mean()) / x.std()
)

print("Salaires normalisés par département (premiers 10) :")
print(df[['departement', 'salaire', 'salaire_normalise']].head(10))

# Rang dans le département
df['rang_salaire'] = df.groupby('departement')['salaire'].rank(method='dense', ascending=False)

print(f"\nRang par salaire dans chaque département :")
print(df[['departement', 'salaire', 'rang_salaire']].head(10))

# 6. PIVOT TABLES
print(f"\nPIVOT TABLES :")

# Table pivot simple
# The 'performance' column is not in the dataframe, so I'll remove this section
# pivot_simple = df.pivot_table(
#     values='salaire',
#     index='departement',
#     columns='performance',
#     aggfunc='mean'
# )
# print("Salaire moyen par département et performance :")
# print(pivot_simple.round(2))

# Table pivot avec plusieurs valeurs
pivot_multiple = df.pivot_table(
    values=['salaire', 'age'],
    index='departement',
    columns='ville',
    aggfunc={'salaire': 'mean', 'age': 'median'}
)
print(f"\nTable pivot avec salaire moyen et âge médian :")
print(pivot_multiple.round(2))

# 7. ANALYSE RAPIDE PAR GROUPE
print(f"\nANALYSE RAPIDE :")

def analyser_groupe(groupe):
    return pd.Series({
        'effectif': len(groupe),
        'salaire_moyen': groupe['salaire'].mean(),
        'age_moyen': groupe['age'].mean(),
        # The 'experience' and 'performance' columns are not in the dataframe, so I'll remove them.
        # 'experience_moyenne': groupe['experience'].mean(),
        # 'performance_A_pct': (groupe['performance'] == 'A').mean() * 100
    })

analyse_complete = df.groupby('departement').apply(analyser_groupe, include_groups=False)
print("Analyse complète par département :")
print(analyse_complete.round(2))

GROUPEMENT ET AGREÉGATION
Aperçu des données :
       nom  age      ville  salaire departement  salaire_normalise  \
0    Alice   25      Paris    45000          IT          -1.091089   
1      Bob   30       Lyon    52000          HR          -0.707107   
2  Charlie   35  Marseille    48000          IT           0.872872   
3    Diana   28   Toulouse    51000   Marketing           0.707107   
4      Eve   32       Nice    47000          IT           0.218218   

   rang_salaire  
0           3.0  
1           2.0  
2           1.0  
3           1.0  
4           2.0  

GROUPEMENTS SIMPLES :
Salaire moyen par département :
departement
HR           58500.000000
IT           46666.666667
Marketing    50000.000000
Name: salaire, dtype: float64

Nombre d'employés par ville :
ville
Lyon         2
Marseille    1
Nice         1
Paris        2
Toulouse     1
dtype: int64

AGREGATIONS MULTIPLES :
Statistiques complètes par département :
             count      mean   median      std    min    m