# Exercice 1: Acquisition de Données

A- Problèmes observés et solutions proposées :

**Données manquantes** :  Une solution pourrait être de remplir les valeurs manquantes avec la moyenne.

**Données erronées ou aberrantes** : Des valeurs aberrantes qui semblent incorrectes ou peu probables, telles que des prix de vente extrêmement bas ou élevés.
Les corriger si nécessaire, en utilisant des techniques comme la suppression ou l'imputation basée sur des règles métier.

**Incohérences dans les formats de données** : Assurez-vous que les données sont toutes dans le bon format (par exemple, les dates doivent être au format date/heure, les valeurs numériques doivent être des nombres, etc.). Convertir les données au bon format si nécessaire.

**Valeurs dupliquées** : Supprimer les lignes qui sont des doublons exacts des autres pour éviter les biais dans l'analyse.

**Noms de colonnes ambigus** : Renommer les colonnes avec des noms plus descriptifs pour faciliter la compréhension et l'analyse des données.

In [1]:
# B-Chargement des fichiers txt dans un notebook:

import pandas as pd

# Charger les fichiers 2019 et 2020
data_2019 = pd.read_csv("valeursfoncieres2019.txt", sep="|")
data_2020 = pd.read_csv("valeursfoncieres2020.txt", sep="|")


  data_2019 = pd.read_csv("valeursfoncieres2019.txt", sep="|")
  data_2020 = pd.read_csv("valeursfoncieres2020.txt", sep="|")


In [2]:

# Intégration des données
combined_data_df = pd.concat([data_2019, data_2020], ignore_index=True)


In [3]:
combined_data_df.head()

Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Surface Carrez du 5eme lot,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain
0,,,,,,,,1,04/01/2019,Vente,...,,1,2.0,Appartement,,20.0,1.0,,,
1,,,,,,,,1,04/01/2019,Vente,...,,2,2.0,Appartement,,62.0,3.0,,,
2,,,,,,,,1,04/01/2019,Vente,...,,1,3.0,Dépendance,,0.0,0.0,,,
3,,,,,,,,1,08/01/2019,Vente,...,,0,1.0,Maison,,90.0,4.0,S,,940.0
4,,,,,,,,1,07/01/2019,Vente,...,,0,1.0,Maison,,101.0,5.0,S,,490.0


In [4]:
#C-Conversion en tableau NumPy et intégration des ensembles de données :
import numpy as np

# Convertir en tableaux NumPy
data_2019_array = data_2019.to_numpy()
data_2020_array = data_2020.to_numpy()

#Intégrer les ensembles de données en un seul
combined_data_np = combined_data_df.to_numpy()

# Exercice 2: Nettoyage des Données - Valeurs Manquantes

In [5]:
#1-Fonction qui met à jour les valeurs manquantes

"""
  Fonction pour traiter les valeurs manquantes d'une variable dans un ensemble de données.

  Args:
    data: Un tableau NumPy représentant l'ensemble de données.
    feature: La colonne (indice) de la variable à traiter.
    method: La méthode d'imputation à utiliser ("mean" pour la moyenne, "mode" pour le mode).

  Returns:
    Un tableau NumPy avec les valeurs manquantes imputées.
"""

def fill_missing_values(data, feature, method='mean'):
    if method == 'mean':
        fill_value = data[feature].mean()
    elif method == 'mode':
        fill_value = data[feature].mode()[0]
    else:
        raise ValueError("Méthode non valide. Utilisez 'mean' ou 'mode'.")

    data[feature].fillna(fill_value, inplace=True)

    return data

2- Les caractéristiques pour lesquelles il est pertinent d'utiliser cette technique sont celles qui sont numériques et où il y a relativement peu de valeurs manquantes.

**#Imputation par la moyenne ou le mode:**

prix_terrain: Le prix du terrain peut être imputé par la moyenne, car il s'agit d'une valeur numérique continue.

surface_terrain: La surface du terrain peut être imputée par la moyenne, car il s'agit d'une valeur numérique continue.

nombre_pieces: Le nombre de pièces peut être imputé par le mode, car il s'agit d'une variable catégorielle.




**Suppression:**

 Pour les caractéristiques où les valeurs manquantes sont nombreuses ou où elles sont cruciales pour l'analyse , il peut être plus approprié de supprimer complètement la caractéristique ou de les laisser telles quelles après une analyse plus approfondie.

type_local: Le type de local peut être supprimé si les catégories sont trop nombreuses ou si la variable n'est pas pertinente pour l'analyse.

état_terrain: L'état du terrain peut être supprimé si les catégories sont trop nombreuses ou si la variable n'est pas pertinente pour l'analyse.

In [6]:
#3- Appliquer fill_missing_values à chaque colonne numérique et rendre propre le jeu de données

numeric_columns = combined_data_df.select_dtypes(include=['float64', 'int64']).columns
for column in numeric_columns:
    fill_missing_values(combined_data_df, column, method='mean')

# Appliquer fill_missing_values à chaque colonne catégorielle
categorical_columns = combined_data_df.select_dtypes(include=['object']).columns

for column in categorical_columns:
    fill_missing_values(combined_data_df, column, method='mode')

# Supprimer les colonnes avec des valeurs NaN
combined_data_df.dropna(axis=1, how='all', inplace=True)

print(combined_data_df)

    

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data[feature].fillna(fill_value, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data[feature].fillna(fill_value, inplace=True)


         No disposition Date mutation Nature mutation Valeur fonciere  \
0                     1    04/01/2019           Vente        37220,00   
1                     1    04/01/2019           Vente       185100,00   
2                     1    04/01/2019           Vente       185100,00   
3                     1    08/01/2019           Vente       209000,00   
4                     1    07/01/2019           Vente       134900,00   
...                 ...           ...             ...             ...   
7147848               1    16/12/2020           Vente      1937500,00   
7147849               1    16/12/2020           Vente      1937500,00   
7147850               1    16/12/2020           Vente      1937500,00   
7147851               1    16/12/2020           Vente      1937500,00   
7147852               1    08/10/2020    Adjudication       255000,00   

         No voie B/T/Q Type de voie Code voie             Voie  Code postal  \
0           26.0     B          RUE      273

# Exercice 3: Analyse Statistique - Variance - Covariance

In [7]:
#1-Matrice de covariance et de correlation
import matplotlib.pyplot as plt

# Sélectionner les colonnes pertinentes
selected_columns = ['Valeur fonciere', 'Nombre pieces principales', 'Surface terrain', 'Surface reelle bati']
selected_data = combined_data_df[selected_columns]

# Convertir les données en tableau NumPy
data_array = selected_data.to_numpy()

# Calculer la matrice de covariance
cov_matrix = np.cov(data_array, rowvar=False)
print("Matrice de covariance :\n", cov_matrix)

# Calculer la matrice de corrélation
corr_matrix = np.corrcoef(data_array, rowvar=False)
print("Matrice de corrélation :\n", corr_matrix)


In [None]:
# 2-Tracer chaque paire de caractéristiques
for i in range(len(selected_columns)):
    for j in range(i+1, len(selected_columns)):
        plt.figure(figsize=(8, 6))
        plt.scatter(data_array[:, i], data_array[:, j])
        plt.xlabel(selected_columns[i])
        plt.ylabel(selected_columns[j])
        plt.title(f"{selected_columns[i]} vs {selected_columns[j]}")
        plt.grid(True)
        plt.show()