# Analyse Exploratoire des Données (EDA) - Problematic Internet Use

Ce notebook contient une analyse complète des données du projet Kaggle sur l'utilisation problématique d'Internet.
Nous allons explorer les données, analyser les tendances et préparer les données pour la modélisation.

## Étapes de l'EDA :
1. **Aperçu des données**
2. **Analyse des valeurs manquantes**
3. **Analyse des variables catégoriques et numériques**
4. **Analyse des corrélations**
5. **Préparation des données pour la modélisation**


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Chargement des données
train_df = pd.read_csv("train.csv")
test_df = pd.read_csv("test.csv")

# Aperçu des données
train_df.head()


In [None]:

# Analyse des valeurs manquantes
missing_values = train_df.isnull().sum()
missing_percentage = (missing_values / len(train_df)) * 100

# Création d'un DataFrame pour visualiser les valeurs manquantes
missing_df = pd.DataFrame({'Nombre de valeurs manquantes': missing_values, 'Pourcentage': missing_percentage})
missing_df = missing_df.sort_values(by='Pourcentage', ascending=False)

# Affichage des valeurs manquantes
missing_df.head(20)


In [None]:

# Distribution de l'âge
plt.figure(figsize=(8, 5))
sns.histplot(train_df["Basic_Demos-Age"], bins=20, kde=True)
plt.title("Distribution de l'Âge des Participants")
plt.xlabel("Âge")
plt.ylabel("Nombre de Participants")
plt.show()

# Répartition du sexe
plt.figure(figsize=(6, 4))
sns.countplot(x="Basic_Demos-Sex", data=train_df, palette="pastel")
plt.title("Répartition du Sexe")
plt.xlabel("Sexe (0 = Homme, 1 = Femme)")
plt.ylabel("Nombre de Participants")
plt.xticks(ticks=[0, 1], labels=["Homme", "Femme"])
plt.show()

# Répartition des saisons d'inscription
plt.figure(figsize=(8, 5))
sns.countplot(x="Basic_Demos-Enroll_Season", data=train_df, palette="pastel", order=["Spring", "Summer", "Fall", "Winter"])
plt.title("Répartition des Participants par Saison d'Inscription")
plt.xlabel("Saison")
plt.ylabel("Nombre de Participants")
plt.show()


In [None]:

# Analyse des scores psychologiques
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

sns.histplot(train_df["PCIAT-PCIAT_Total"].dropna(), bins=20, kde=True, ax=axes[0])
axes[0].set_title("Distribution des Scores PCIAT (Problematic Internet Use)")

sns.histplot(train_df["SDS-SDS_Total_Raw"].dropna(), bins=20, kde=True, ax=axes[1])
axes[1].set_title("Distribution des Scores SDS (Dépression)")

sns.histplot(train_df["CGAS-CGAS_Score"].dropna(), bins=20, kde=True, ax=axes[2])
axes[2].set_title("Distribution des Scores CGAS (Évaluation Globale de l'Enfant)")

plt.show()

# Analyse des mesures physiques
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

sns.histplot(train_df["Physical-BMI"].dropna(), bins=20, kde=True, ax=axes[0])
axes[0].set_title("Distribution du BMI")

sns.histplot(train_df["Physical-Height"].dropna(), bins=20, kde=True, ax=axes[1])
axes[1].set_title("Distribution de la Taille")

sns.histplot(train_df["Physical-Weight"].dropna(), bins=20, kde=True, ax=axes[2])
axes[2].set_title("Distribution du Poids")

plt.show()


In [None]:

# Analyse des corrélations

# Sélectionner uniquement les variables numériques pour la corrélation
numeric_features = train_df.select_dtypes(include=['float64', 'int64'])

# Calcul de la matrice de corrélation
correlation_matrix = numeric_features.corr()

# Extraction des corrélations avec la variable cible 'sii'
correlation_target = correlation_matrix["sii"].sort_values(ascending=False)

# Affichage des 10 variables les plus corrélées avec 'sii'
top_correlated_features = correlation_target.head(10)
print("Top 10 des variables les plus corrélées avec sii:")
print(top_correlated_features)

# Visualisation de la matrice de corrélation
plt.figure(figsize=(12, 6))
sns.heatmap(correlation_matrix, cmap="coolwarm", annot=False, linewidths=0.5)
plt.title("Matrice de Corrélation des Variables Numériques")
plt.show()
