# Prétraitement des Données de Santé du Sommeil

Ce notebook effectue le prétraitement des données pour notre projet d'analyse de la santé du sommeil.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration des graphiques
plt.style.use('seaborn')
sns.set_palette('husl')

Matplotlib is building the font cache; this may take a moment.


OSError: 'seaborn' is not a valid package style, path of style file, URL of style file, or library style name (library styles are listed in `style.available`)

## 1. Chargement des Données

In [None]:
# Charger les données
df = pd.read_csv('../data/Sleep_health_and_lifestyle_dataset.csv')
print('Dimensions du dataset:', df.shape)
df.head()

## 2. Exploration des Données

In [None]:
# Informations sur les colonnes
print('\nInformations sur les colonnes:')
df.info()

In [None]:
# Statistiques descriptives
print('\nStatistiques descriptives:')
df.describe()

## 3. Nettoyage des Données

In [None]:
# Vérifier les valeurs manquantes
print('Valeurs manquantes par colonne:')
df.isnull().sum()

In [None]:
# Vérifier les doublons
print('\nNombre de doublons:', df.duplicated().sum())

## 4. Préparation des Features

In [None]:
# Convertir les variables catégorielles
df['Gender_num'] = (df['Gender'] == 'Male').astype(int)
df['Blood_Pressure_num'] = (df['Blood Pressure'] == 'High').astype(int)

## 5. Analyse des Corrélations

In [None]:
# Sélectionner les colonnes numériques pour la corrélation
numeric_cols = ['Age', 'Sleep Duration', 'Quality of Sleep', 'Physical Activity Level',
               'Stress Level', 'Heart Rate', 'Daily Steps', 'Gender_num', 'Blood_Pressure_num']

# Calculer et afficher la matrice de corrélation
correlation = df[numeric_cols].corr()
plt.figure(figsize=(12, 10))
sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0)
plt.title('Matrice de Corrélation des Features')
plt.show()

## 6. Sauvegarde des Données Prétraitées

In [None]:
# Sauvegarder les données prétraitées
df.to_csv('../data/sleep_data_processed.csv', index=False)
print('Données prétraitées sauvegardées avec succès!')