---

# **Notebook 16 : Vérification des Valeurs Manquantes dans les Données**

---

### **1. Importation des Bibliothèques**

Nous commençons par importer les bibliothèques nécessaires pour la manipulation des données.

In [13]:
import os
import pandas as pd

### **2. Chargement des Données**

Nous allons charger les données depuis le dossier `14_categorized_data` où sont stockés les fichiers nettoyés.

In [14]:
# Définir le répertoire d'entrée
input_directory = 'note-books/phase_1_data/14_categorized_data'

# Initialiser un DataFrame pour stocker toutes les données combinées
full_data = pd.DataFrame()

# Parcourir chaque fichier dans le dossier et les charger dans full_data
for file_name in os.listdir(input_directory):
    file_path = os.path.join(input_directory, file_name)
    
    if file_name.endswith('.csv'):  # Vérifier si le fichier est bien un CSV
        try:
            df = pd.read_csv(file_path, encoding='ISO-8859-1')
        except UnicodeDecodeError:
            print(f"Problème d'encodage pour {file_name}, tentative avec 'utf-8'.")
            df = pd.read_csv(file_path, encoding='utf-8', errors='replace')
        
        # Ajouter les données au DataFrame complet
        full_data = pd.concat([full_data, df], ignore_index=True)
    else:
        print(f"{file_name} ignoré car ce n'est pas un fichier CSV.")

# Vérifier si full_data contient des données
if full_data.empty:
    print("Erreur : Aucun fichier de données n'a été chargé.")
else:
    print("Chargement des données terminé.")


.DS_Store ignoré car ce n'est pas un fichier CSV.
Chargement des données terminé.


### **3. Aperçu Statistique des Données**

Pour obtenir un aperçu statistique des données et vérifier les valeurs manquantes, nous utiliserons `df.describe()` et `df.isnull().sum()`.

In [15]:
# Calcul des statistiques descriptives générales avec toutes les colonnes
stats = full_data.describe(include='all').to_string()

# Calcul des valeurs manquantes par colonne
missing_values = full_data.isnull().sum()
missing_percentage = (missing_values / len(full_data)) * 100
missing_info = pd.DataFrame({
    'Valeurs manquantes': missing_values,
    'Pourcentage manquant (%)': missing_percentage
}).to_string()


### **4. Export des Résultats en Fichiers Texte**

Nous enregistrons les résultats dans le dossier 16_data_summary.

In [16]:
# Définir le répertoire de sortie et créer le dossier
output_directory = 'note-books/phase_1_data/16_data_summary'
os.makedirs(output_directory, exist_ok=True)

# Exporter les statistiques descriptives en fichier texte
stats_path = os.path.join(output_directory, 'statistiques_descriptives.txt')
with open(stats_path, 'w') as f:
    f.write("Statistiques Descriptives\n\n")
    f.write(stats)
print(f"Statistiques descriptives exportées vers {stats_path}")

# Exporter les informations de valeurs manquantes en fichier texte
missing_info_path = os.path.join(output_directory, 'valeurs_manquantes.txt')
with open(missing_info_path, 'w') as f:
    f.write("Informations de Valeurs Manquantes\n\n")
    f.write(missing_info)
print(f"Informations de valeurs manquantes exportées vers {missing_info_path}")


Statistiques descriptives exportées vers note-books/phase_1_data/16_data_summary/statistiques_descriptives.txt
Informations de valeurs manquantes exportées vers note-books/phase_1_data/16_data_summary/valeurs_manquantes.txt


---

### **Explications**

- **Statistiques Descriptives** : La commande `describe()` donne un aperçu des valeurs principales pour chaque colonne numérique (ou toutes les colonnes avec `include='all'`), comme la moyenne, l'écart-type, etc.
- **Valeurs Manquantes** : La commande `isnull().sum()` permet de visualiser le nombre de valeurs manquantes par colonne, facilitant l’identification des colonnes nécessitant un traitement.

---