
# 📊 Analyse Exploratoire des Données - TikTok Impact
Ce notebook effectue une **exploration complète** des données synthétiques des étudiants au Bénin pour le projet TikTok Impact.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")
%matplotlib inline


In [None]:

df = pd.read_csv('../data/raw/tiktok_students.csv')
df.head()


In [None]:

df.info()
df.describe()
df.isnull().sum()


In [None]:

plt.figure(figsize=(8,5))
sns.histplot(df['age'], bins=15, kde=True)
plt.title("Distribution de l'âge")
plt.show()

plt.figure(figsize=(6,4))
sns.countplot(data=df, x='sex')
plt.title("Répartition des sexes")
plt.show()

plt.figure(figsize=(8,5))
sns.histplot(df['hours_tiktok_per_day'], bins=10, kde=True)
plt.title("Heures passées sur TikTok par jour")
plt.show()


In [None]:

numeric_df = df.select_dtypes(include=np.number)
corr = numeric_df.corr()

plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title("Matrice de corrélation")
plt.show()


In [None]:

plt.figure(figsize=(8,5))
sns.scatterplot(data=df, x='hours_tiktok_per_day', y='sleep_hours')
plt.title("Relation entre temps TikTok et sommeil")
plt.show()

plt.figure(figsize=(8,5))
sns.scatterplot(data=df, x='hours_tiktok_per_day', y='study_hours')
plt.title("Relation entre temps TikTok et heures d'étude")
plt.show()
