<a href="https://colab.research.google.com/github/dalillali/cinema-mobile/blob/main/(2)_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Recap

## Numpy

NumPy (Numerical Python) est une bibliothèque fondamentale pour le calcul numérique en Python, souvent utilisée en machine learning (ML) et deep learning (DL). Elle offre des structures de données puissantes (notamment des tableaux multidimensionnels, ou "arrays") et un ensemble de fonctions mathématiques efficaces pour effectuer des calculs sur de grands ensembles de données.

- Temps: Optimisé pour des opérations vectorielles
- Mémoire: écrit en C et utilise une gestion mémoire efficace. (stockage contigu, même type, évite les copies inutiles, ...)

- fournit des fonctions pour les statistiques, l'algèbre linéaire, ...

Pour plus de détails: [EMSIMa/ML-DL/Numpy](https://github.com/EMSIMa/ML-DL/blob/main/00a_Numpy.ipynb)

In [None]:
import numpy as np
np.random.seed(42)
np.set_printoptions(precision=4, suppress=True)

In [None]:
my_arr = np.arange(1_000_000)
my_list = list(range(1_000_000))

In [None]:
%timeit my_arr2 = my_arr * 2
%timeit my_list2 = [x * 2 for x in my_list]

Un ndarray est un conteneur multidimensionnel générique pour des données homogènes, c’est-à-dire que tous les éléments doivent être du même type.

In [None]:
l = ["hi", 987, True]

In [None]:
ar = np.array(l)

In [None]:
ar

In [None]:
for i in l:
  print(type(i))

In [None]:
for i, _ in enumerate(ar):
  print(type(ar[i]))

In [None]:
data = np.random.randn(5, 5)
data

In [None]:
data * 10 - 1

In [None]:
data.shape

In [None]:
data.dtype

In [None]:
data[0, 2] = True # ou data[0][2]

In [None]:
data

Indexation et tranchage élémentaires

In [None]:
arr = np.arange(15)
arr[5:8]

In [None]:
arr[5:8] = 42
arr

### Indexation booléenne
Prenons un exemple dans lequel nous avons quelques données dans un tableau, ainsi qu’un tableau de noms avec des doublons.

In [None]:
villes = np.array(['Marrakech', 'Fes', 'Ifran', 'Marrakech', 'Casa', 'Rabat', 'Rabat', 'Tanger'])
data = np.abs(np.random.randn(8, 5))*1000
data

In [None]:
villes == 'Marrakech'

In [None]:
data[villes == 'Marrakech']

In [None]:
data[villes == 'Marrakech', 4]

In [None]:
data[data < 0] = 0
data

### Stats

In [None]:
arr = np.random.randn(3, 6)
arr

In [None]:
arr.mean()

In [None]:
arr.sum()

In [None]:
column_sum = arr.sum(axis=0)
print(column_sum)

row_sum = arr.sum(axis=1)
print(row_sum)

## Pandas

Pandas est une bibliothèque Python essentielle pour la manipulation et l’analyse de données.
Elle est construite au-dessus de NumPy et propose des structures de données de haut niveau qui facilitent la manipulation, l’analyse et la visualisation de données.

\* Pour plus de détails: [EMSIMa/ML-DL/Pandas](https://github.com/EMSIMa/ML-DL/blob/main/00b_Pandas.ipynb)


#### Pourquoi utiliser Pandas en machine learning ?
- Manipulation de données : Pandas permet de manipuler des données avec des opérations simples et intuitives, comme le filtrage, le tri, l'agrégation, et bien plus.
- Nettoyage des données : Elle offre des outils puissants pour gérer les valeurs manquantes, corriger les types de données, et réaliser des transformations.
- Interopérabilité : Compatible avec NumPy, les DataFrames peuvent être facilement utilisés dans des pipelines de machine learning avec d'autres bibliothèques comme Scikit-Learn.

In [None]:
import pandas as pd

data = {
    'Ville': ['Marrakech', 'Fes', 'Ifrane', 'Casa', 'Rabat'],
    'Population': [930000, 1150000, 130000, 3500000, 1200000],
    'Température': [999.0, 20.5, 18.3, 25.5, 22.1]
}

df = pd.DataFrame(data)
df

In [None]:
df.describe().astype(int)

In [None]:
df.to_csv('fichier.csv', index=False)

In [None]:
df_2 = pd.read_csv('fichier.csv')
df_2.head(1)

In [None]:
df['Population'].head(3)

In [None]:
df[df['Température'] > 40]

In [None]:
df.at[0, 'Population'] = np.nan

In [None]:
df.isnull()

In [None]:
df['Population'] = df['Population'].fillna(df['Population'].mean()).astype(int)

In [None]:
df

In [None]:
df.at[1, 'Population'] = 1200001

In [None]:
df.iat[2, 2] = 19.42

In [None]:
df.iloc[0:3, 1:3]

In [None]:
df['Population'] = df['Population'].replace(1200000, 1)

In [None]:
df.loc[df['Population'] > 1000000, 'Population'] = 1_000_001

In [None]:
df.loc[df['Ville'] == 'Marrakech', 'Ville'] = 'Marrakesh'

In [None]:
df.loc[df['Ville'] == 'Fes', ['Population', 'Ville']] = [1400000, 'Fès']

In [None]:
df['rand'] = np.random.randint(0, 100, size=len(df))

In [None]:
df

# Préparation des Données : Data Cleaning et Feature Engineering

La qualité des données est la pierre angulaire de tout projet de Machine Learning ou Deep Learning. Avant de plonger dans la modélisation, il est essentiel de s'assurer que vos données sont propres, cohérentes et enrichies de caractéristiques pertinentes. Dans cette section, nous allons explorer  les techniques de data cleaning (nettoyage des données) et de feature engineering (ingénierie des caractéristiques).

Le data cleaning et le feature engineering sont des étapes cruciales qui permettent :

- Une meilleure interprétabilité,
- Réduire la complexité du modèle,
- Améliorer la performance du modèle,
- Accélérer le temps d'entraînement.



### Données Tabulaires

Les données tabulaires sont omniprésentes : bases de données, fichiers CSV, feuilles de calcul. Elles sont structurées en lignes et colonnes, chaque ligne représentant une observation et chaque colonne une variable.

In [None]:
# Création d'un DataFrame synthétique

data = {
    'age': np.random.randint(18, 80, size=100),
    'revenu': np.random.normal(50000, 15000, size=100),
    'genre': np.random.choice(['Homme', 'Femme'], size=100),
    'statut_marital': np.random.choice(['Célibataire', 'Marié', 'Divorcé'], size=100),
    'nombre_enfants': np.random.randint(0, 5, size=100)
}

df = pd.DataFrame(data)

# Introduisons des valeurs manquantes et des doublons
df.loc[np.random.choice(df.index, size=10, replace=False), 'revenu'] = np.nan
df.loc[np.random.choice(df.index, size=5, replace=False), 'genre'] = None

# Utiliser pd.concat pour ajouter des doublons
df = pd.concat([df, df.iloc[0:3]], ignore_index=True)  # Ajout de doublons

# Affichage des premières lignes du DataFrame
df.sample(15)

In [None]:
df.isnull().sum()

#### Traitement des Valeurs Manquantes

1. Suppression des Lignes avec des Valeurs Manquantes:

In [None]:
df_cleaned = df.dropna()
print(f"Nombre de lignes après suppression des valeurs manquantes : {len(df_cleaned)}")

In [None]:
# Imputation de la colonne 'revenu' avec la moyenne
df['revenu'] = df['revenu'].fillna(df['revenu'].mean())

# Imputation de la colonne 'genre' avec la valeur la plus fréquente
df['genre'] = df['genre'].fillna(df['genre'].mode()[0])

2. Gestion des Doublons:

In [None]:
# Nombre de doublons
print(f"Nombre de doublons avant suppression : {df.duplicated().sum()}")

# Suppression des doublons
df.drop_duplicates(inplace=True)

print(f"Nombre de doublons après suppression : {df.duplicated().sum()}")

3. Détection et Traitement des Valeurs Aberrantes

In [None]:
# Ajouter des valeurs aberrantes dans 'revenu'
df.loc[0, 'revenu'] = 300000  # Très grande valeur aberrante
df.loc[1, 'revenu'] = -50000   # Valeur négative aberrante

In [None]:
# Ajouter une colonne de dates avec des formats différents
df['date_inscription'] = np.random.choice(['2021/01/05', '05-02-2021', 'March 3, 2021'], size=len(df))

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histogramme du revenu
sns.histplot(df['revenu'], kde=True)
plt.title('Distribution du Revenu')
plt.show()

In [None]:
# Ajout d'une colonne de dates avec des formats différents
df.sample(3)

In [None]:
mean = df['revenu'].mean()
std_dev = df['revenu'].std()

In [None]:
# Calcul de la moyenne et de l'écart-type
mean = df['revenu'].mean()
std_dev = df['revenu'].std()

# Détecter les valeurs aberrantes (à plus de 3 écarts-types de la moyenne)
seuil_bas = mean - 3 * std_dev
seuil_haut = mean + 3 * std_dev

# Valeurs aberrantes détectées avec l'écart-type
valeurs_aberrantes = df[(df['revenu'] < seuil_bas) | (df['revenu'] > seuil_haut)]
valeurs_aberrantes

In [None]:
df = df[(df['revenu'] >= seuil_bas) & (df['revenu'] <= seuil_haut)]

In [None]:
from datetime import datetime
formats = ["%Y/%m/%d", "%d-%m-%Y", "%B %d, %Y", "%Y.%m.%d", "%m-%d-%Y"]

# Fonction pour essayer plusieurs formats de dates
def parse_date(date_str):
    for fmt in formats:
        try:
            return datetime.strptime(date_str, fmt)
        except ValueError:
            continue
    # Si aucun format ne fonctionne, retourne NaT
    return pd.NaT

# Appliquer la fonction de conversion à la colonne 'date_inscription'
df['date_inscription'] = df['date_inscription'].apply(parse_date)

# Convertir toutes les dates en un format unifié (par exemple, "YYYY-MM-DD")
df['date_inscription'] = df['date_inscription'].dt.strftime('%Y-%m-%d')

In [None]:
df.sample(3)

#### Feature Engineering pour les Données Tabulaires

1. One-Hot Encoding

In [None]:
# Encodage des variables catégoriques
df_encoded = pd.get_dummies(df, columns=['genre', 'statut_marital'])

# Affichage des premières lignes
df_encoded.head()

2. Normalisation et Standardisation

In [None]:
sns.histplot(df['revenu'], kde=True)
plt.title('Distribution du Revenu')
plt.show()

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Sélection des variables numériques
numeric_features = ['age', 'revenu', 'nombre_enfants']

# Initialisation du scaler
scaler = MinMaxScaler()

# Application de la normalisation
df_encoded[numeric_features] = scaler.fit_transform(df_encoded[numeric_features])

In [None]:
sns.histplot(df_encoded['revenu'], kde=True)
plt.title('Distribution du Revenu après MinMaxScaler')
plt.show()

3. Création de Nouvelles Caractéristiques

In [None]:
# Éviter la division par zéro
df_encoded['nombre_enfants'] = df_encoded['nombre_enfants'].replace(0, 1)

# Création de la nouvelle caractéristique
df_encoded['revenu_par_enfant'] = df_encoded['revenu'] / df_encoded['nombre_enfants']

# Dataset

In [None]:
!kaggle datasets download -d camnugent/california-housing-prices -q
!unzip california-housing-prices.zip

In [None]:
df = pd.read_csv('housing.csv')
df = df.dropna()

df

In [None]:
df = df.sample(frac=1, random_state=2)
train_df = df[:17000]
train_df = train_df.reset_index(drop=True)
test_df = df[17000:]
test_df = test_df.reset_index(drop=True)

train_df

En observant la corrélation entre les caractéristiques total_rooms, total_bedrooms et households, nous pouvons identifier des relations fortes. La corrélation entre deux variables indique dans quelle mesure elles varient ensemble. Si la corrélation est élevée (proche de 1 ou -1), cela signifie que ces variables contiennent une information redondante.

In [None]:
train_df[['total_rooms', 'total_bedrooms', 'households']].corr()

Ces corrélations proches de 1 indiquent que ces variables sont très similaires en termes d’information. Garder toutes ces caractéristiques pourrait augmenter la complexité du modèle sans fournir d'informations supplémentaires significatives.

#### Solution 1: Création d'une Caractéristique Synthétique

Pour réduire la redondance, nous pouvons combiner ces variables en une caractéristique synthétique plus représentative. Par exemple, nous pourrions créer une caractéristique représentant la densité de chambres par ménage :

In [None]:
# Création d'une nouvelle caractéristique 'rooms_per_household'
train_df['rooms_per_household'] = train_df['total_rooms'] / train_df['households']
train_df['bedrooms_per_household'] = train_df['total_bedrooms'] / train_df['households']

#### Solution 2: PCA

Pour une réduction automatique de la dimensionnalité, on peut utiliser une méthode de réduction de dimensionnalité comme l'analyse en composantes principales (PCA), qui transforme les caractéristiques corrélées en un ensemble de nouvelles caractéristiques non corrélées appelées composantes principales.

In [None]:
from sklearn.decomposition import PCA

# Appliquer PCA pour réduire la dimensionnalité
pca = PCA(n_components=1)
train_df['pca_total_rooms_bedrooms_households'] = pca.fit_transform(train_df[['total_rooms', 'total_bedrooms', 'households']])

La nouvelle caractéristique pca_total_rooms_bedrooms_households représente une combinaison optimisée de total_rooms, total_bedrooms et households, capturant la majorité de leur variance sans redondance.