# Preprocessing of the dataset

## 1: Importing the libraries

In [38]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
import numpy as np

## 2: Importing the dataset

In [39]:
df = pd.read_csv(r'C:\Users\etien\OneDrive - Universite de Lorraine\TELECOM\Cours\3A\FDEC\projet-fdec\data\original_data.csv')

#print(df.head())


## 3: Deleting the columns that are not required

In [40]:
df = df.drop(columns=['ADR_SECTEUR', 'CODE', 'CODE_PARENT_DESC', 'IDENTIFIANTPLU', 'IDENTIFIANTPLU', 'STADEDEDEVELOPPEMENT'])

#print(df.head())

### Schema of the dataset
| VARIABLE                              | TYPE       | EXEMPLE                                   | TRANSFORMATION        |
|---------------------------------------|------------|-------------------------------------------|-----------------------|
| ANNEEDEPLANTATION                     | numérique  | 2014                                      | /                     |
| ANNEEREALISATIONDIAGNOSTIC           | numérique  | 2014                                      | /                     |
| ANNEETRAVAUXPRECONISESDIAG           | numérique  | 2019                                      | /                     |
| CODE_PARENT                           | nominale   | ESP385                                    | Label Encoding        |
| DIAMETREARBREAUNMETRE                 | ordinale   | 10 à 20 cm                               | Ordinal Encoding      |
| ESPECE                                | nominale   | cordata                                   | Label Encoding        |
| FREQUENTATIONCIBLE                    | ordinale   | passages fréquents ou arrêts             | Ordinal Encoding      |
| GENRE_BOTA                            | nominale   | Alnus                                     | Label Encoding        |
| INTITULEPROTECTIONPLU                 | nominale   | L 1231.7                                  | One-Hot Encoding      |
| NOTEDIAGNOSTIC                        | ordinale   | Arbre d'avenir incertain                  | Ordinal Encoding      |
| PRIORITEDERENOUVELLEMENT              | ordinale   | de 11 à 20 ans                           | Ordinal Encoding      |
| RAISONDEPLANTATION                    | nominale   | Nouveau                                   | Label Encoding        |
| REMARQUES                             | textuelle  | var. Wieri                                | /                     |
| SOUS_CATEGORIE_DESC                   | nominale   | Arbre d'enceintes fermées                 | One-Hot Encoding      |
| STADEDEVELOPPEMENTDIAG                | ordinale   | Arbre adulte                              | Ordinal Encoding      |
| TRAITEMENTCHENILLES                   | ordinale   | Moyenne                                   | Ordinal Encoding      |
| TRAVAUXPRECONISESDIAG                 | nominale   | Taille formation et mise au gabarit      | Label Encoding        |
| TROTTOIR                              | binaire    | non                                       | One-Hot Encoding      |
| TYPEIMPLANTATIONPLU                   | nominale   | Alignement                                | Label Encoding        |
| VARIETE                               | nominale   | Pendula                                   | One-Hot Encoding      |
| VIGUEUR                               | ordinale   | vigueur intermédiaire                     | Ordinal Encoding      |


## 4: Checking for missing values

In [None]:
df.replace('?', np.nan, inplace=True)
missing_values = df.isna().sum()
print(missing_values)

## 5: Dealing with missing values

In [42]:
# Fonction pour corriger les valeurs manquantes
def impute_missing_values(df):
    for column in df.columns:
        # Vérifie si la colonne est censée être numérique
        if column in ['ANNEEDEPLANTATION', 'ANNEEREALISATIONDIAGNOSTIC', 'ANNEETRAVAUXPRECONISESDIAG']:
            # Convertit la colonne en numérique, remplaçant les valeurs non numériques par NaN
            df[column] = pd.to_numeric(df[column], errors='coerce')
            mean_value = round(df[column].mean())
            df[column] = df[column].fillna(mean_value)
        else:
            missing_percentage = df[column].isnull().mean() * 100
            if missing_percentage > 3:
                df[column] = df[column].fillna('valeur manquante')
            else:
                mode_value = df[column].mode()[0]
                df[column] = df[column].fillna(mode_value)


# Appel de la fonction
impute_missing_values(df)

In [43]:
# Exporter le DataFrame en CSV
df.to_csv(r'C:\Users\etien\OneDrive - Universite de Lorraine\TELECOM\Cours\3A\FDEC\projet-fdec\data\preprocessed_data.csv', index=False)
