# Livrable 1 - Pre-traitement des données et analyse exploratoire

## Contexte
Une agence immobilière voudrait optimiser sa proposition de biens aux futurs acheteurs tout en minimisant le nombre de visites en utilisant l’intelligence artificielle

### Donnéees
Les données sont issues du recensement de 1990 en Californie.

### Objectif
L’objectif de ce livrable est de préparer les données pour l’analyse exploratoire et de réaliser une analyse exploratoire des données.
Il s'agit donc de prétraiter des informations avant son exploitation dans un algorithme.

### Contraintes
- Les données sont fournies dans un fichier CSV.
- Utilisation de l'algorithme K-means pour la classification des données.

### Livrable
Le livrable est un notebook Jupyter contenant le code et les commentaires nécessaires à la compréhension du code.

## Charger les données
Puisque les données proviennent d'un fichier CSV, nous utiliserons la fonction read_csv de Pandas pour charger les données dans un DataFrame.

In [17]:
import os
import tarfile
from six.moves import urllib
import pathlib

#DOWNLOAD_ROOT = "https://github.com/ph10r/eiSpeInfoDS/raw/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
#HOUSING_URL = DOWNLOAD_ROOT + "housing.tgz"

HOUSING_URL = str(pathlib.Path().resolve()) + "\housing.tgz"

# 1. Dézipper le fichier housing.tgz dans le dossier datasets/housing
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    # open file
    file = tarfile.open(housing_url)

    # extracting file
    file.extractall(housing_path)

    file.close()

In [18]:
fetch_housing_data()

In [19]:
import pandas as pd
import numpy as np

# 2. Charger le fichier housing.csv dans un DataFrame
def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path, sep=',')

In [20]:
housing = load_housing_data()
housing

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


## Pré-traitement des données
Voici quelques étapes à suivre pour pré-traiter les données pour une utilisation avec K-means :

1. Nettoyer les données : Assurez-vous que vos données sont propres et ne contiennent pas de valeurs manquantes, de doublons ou d'autres anomalies. Si nécessaire, supprimez ou remplacez les données manquantes.

2. Normaliser les données : Normalisez les données en les mettant à l'échelle de sorte que chaque variable ait une plage de valeurs comparable. La normalisation peut être effectuée en utilisant la méthode de la moyenne et de l'écart type, la méthode de la plage ou la méthode de la normalisation de l'amplitude.

3. Réduire la dimensionnalité : Si vous travaillez avec des données à haute dimensionnalité, utilisez des techniques de réduction de dimensionnalité telles que l'analyse en composantes principales (PCA) pour réduire la dimensionnalité de vos données et faciliter leur analyse.

4. Identifier les valeurs aberrantes : Les valeurs aberrantes peuvent fausser les résultats de K-means, il est donc important de les identifier et de les traiter correctement. Les valeurs aberrantes peuvent être supprimées ou remplacées par des valeurs plus appropriées.

5. Sélectionner les caractéristiques : Si vous travaillez avec des données qui contiennent de nombreuses caractéristiques, il peut être judicieux de sélectionner les caractéristiques les plus pertinentes pour votre analyse.

En résumé, le pré-traitement des données pour K-means comprend le nettoyage des données, la normalisation des données, la réduction de la dimensionnalité, l'identification et le traitement des valeurs aberrantes et la sélection des caractéristiques. En effectuant ces étapes, vous pouvez améliorer la qualité de vos données et obtenir des résultats plus significatifs à l'aide de K-means.

In [21]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

# 2. Normaliser les données
def normalize_data(housing_cat):
    ordinal_encoder = OrdinalEncoder()
    housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)
    return housing_cat_encoded

In [25]:
normalized_housing = normalize_data(housing[["ocean_proximity"]])
housing["ocean_proximity"] = normalized_housing
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  float64
dtypes: float64(10)
memory usage: 1.6 MB


## K-means
Le K-means est un algorithme de clustering qui est utilisé pour trouver des groupes de données similaires dans un ensemble de données non étiquetées. Avant de pouvoir appliquer K-means, il est important de pré-traiter les données pour s'assurer que l'algorithme fonctionne correctement et produit des résultats significatifs.

L'algorithme K-means comprend les étapes suivantes :
1. Choisir le nombre de clusters, k, que vous souhaitez créer.
2. Sélectionnez k points aléatoires à partir de votre ensemble de données, qui serviront de centres initiaux de vos clusters.
3. Pour chaque point de données, calculez la distance entre ce point et chaque centre de cluster.
4. Associez chaque point de données au centre de cluster le plus proche (en termes de distance).
5. Pour chaque cluster, calculez la moyenne de tous les points de données qui y sont associés, ce qui donnera un nouveau centre de cluster.
6. Répétez les étapes 3 à 5 jusqu'à ce que les centres de cluster ne bougent plus ou jusqu'à ce qu'un certain nombre d'itérations soit atteint.

Transcrit en Python, l'algorithme K-means ressemble à ceci :

In [23]:
import numpy as np
import random

def kmeans(data, k, max_iterations=100):
    n = data.shape[0]
    dimensions = data.shape[1]

    # Initialisation des centres de cluster
    centers = np.zeros((k, dimensions))
    for i in range(k):
        center_index = random.randint(0, n-1)
        centers[i] = data[center_index]

    # Boucle d'itération principale
    for iteration in range(max_iterations):
        # Initialisation des clusters
        clusters = [[] for _ in range(k)]

        # Attribution des points de données aux clusters les plus proches
        for point in data:
            distances = [np.linalg.norm(point - center) for center in centers]
            cluster_index = np.argmin(distances)
            clusters[cluster_index].append(point)

        # Calcul des nouveaux centres de cluster
        new_centers = np.zeros((k, dimensions))
        for i, cluster in enumerate(clusters):
            new_center = np.mean(cluster, axis=0)
            new_centers[i] = new_center

        # Vérifier si les centres de cluster ont bougé
        if np.allclose(centers, new_centers):
            break

        centers = new_centers

    return centers, clusters