<h3 style=" color: lightblue;">1-L'IMPORTATION DES BIBLIOTHÈQUES : </h3>

In [26]:
import pandas as pd          # Manipulation des données (DataFrame)
import numpy as np           # Calculs numériques
import math                  # Fonctions mathématiques de base
import matplotlib.pyplot as plt  # Visualisation
from scipy import stats      # Tests statistiques
import seaborn as sn 
from scipy.stats import t


<h3 style=" color: lightblue;">2-L'IMPORTATION DES DONNEES :</h3>

In [None]:
import pandas as pd
# Charger le dataset complet
dataset_path = 'C:\\Users\\wafae\\Desktop\\sleep_health_stat_project\\data\\Sleep_health_and_lifestyle_dataset.csv'

data = pd.read_csv(dataset_path)

# Extraire uniquement la colonne Sleep Duration
sleep_duration = data["Sleep Duration"]
# Sauvegarder la colonne Sleep Duration dans un fichier texte
sleep_duration.to_csv("../data/sleep_duration.txt", index=False, header=True)
# Vérifier les premières lignes
sleep_duration.head()

0    6.1
1    6.2
2    6.2
3    5.9
4    5.9
Name: Sleep Duration, dtype: float64

<h3 style="color: lightblue;">3 - CALCUL DES VALEURS MINIMALES ET MAXIMALES DE L'ÉCHANTILLON :</h3>


In [17]:
# Valeur minimale et maximale de Sleep Duration
# calcule la plus petite valeur
min_value = round(sleep_duration.min(), 2)
# calcule la plus grande valeur
max_value = round(sleep_duration.max(), 2)
# round(..., 2) → arrondit a 2 decimales pour plus de lisibilite
print(f"Valeur minimale : {min_value} heures")
print(f"Valeur maximale : {max_value} heures")

Valeur minimale : 5.8 heures
Valeur maximale : 8.5 heures


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
La <b>valeur minimale</b> et la <b>valeur maximale</b> de Sleep Duration indiquent les bornes extrêmes de l'échantillon.<br>
- La valeur minimale (5.8 heures) correspond à la personne dormant le moins.<br>
- La valeur maximale (8.5 heures) correspond à la personne dormant le plus.<br>
Ces valeurs sont réalistes pour un échantillon adulte.
</div>


<h3 style=" color: lightblue;">4-CALCULE LA MOYENNE DE L'ECHANTILLON :</h3>


In [31]:
# calcul de moyenne de sleep duration
mean_sleep = round(sleep_duration.mean(), 2)
print(f"Moyenne de l'échantillon : {mean_sleep} heures")
#round : round(valeur, 2) → arrondit valeur à 2 chiffres après la virgule.

Moyenne de l'échantillon : 7.13 heures


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
La <b>moyenne</b> de l'échantillon (7.13 heures) indique la durée de sommeil moyenne pour toutes les personnes de l'échantillon.<br>
C'est une mesure de tendance centrale qui résume bien la variable Sleep Duration.
</div>


<h3 style=" color: lightblue;">5-CALCULE LA TAILLE DE L'ECHANTILLON :</h3>

In [19]:
n = len(sleep_duration)
print(f"Taille de l'échantillon : {n}")

Taille de l'échantillon : 374


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
La <b>taille de l'échantillon</b> (374) correspond au nombre total de personnes observées.<br>
Même si nous avons le dataset complet, on l'appelle échantillon car il représente une partie d'une population plus large.
</div>


<h3 style=" color: lightblue;">6-CALCULE LA VARIANCE DE L'ECHANTILLON :</h3>

In [None]:
variance = sleep_duration.var(ddof=1)
print(f"Variance : {round(variance,2)}")
# 0.73 racine de variance
# Si l’écart-type était très grand, par exemple 3 heures → beaucoup de personnes dorment beaucoup moins ou beaucoup plus → dispersion énorme.
# Ici, 0,79 heures → les durées sont proches de la moyenne → pas très dispersées.

Variance : 0.63


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
La <b>variance</b> (0.63) mesure la dispersion des durées de sommeil autour de la moyenne.<br>
Elle indique à quel point les valeurs s'éloignent de la moyenne (en heures²).<br>
Plus la variance est faible, plus les durées sont proches de la moyenne.
</div>


<h3 style=" color: lightblue;">7-CALCULE L'ÉCART-TYPE DE L'ECHANTILLON :</h3>

In [21]:
std_dev = sleep_duration.std(ddof=1)
print(f"Écart-type : {round(std_dev,2)}")

Écart-type : 0.8


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
L'<b>écart-type</b> (0.8) est la racine carrée de la variance.<br>
Il exprime la dispersion des durées de sommeil dans la même unité (heures).<br>
La plupart des durées se situent donc entre 7.13 ± 0.8 heures (≈6.3 à 7.9 heures).
</div>


<h3 style=" color: lightblue;">8-INTERVALLE DE CONFIANCE AU NIVEAU 95% :</h3>

“On ne connaît pas exactement la vraie moyenne de toute la population, mais on peut estimer un intervalle dans lequel elle se trouve avec un certain niveau de confiance.”

In [27]:


# Niveau de confiance
alpha = 0.05  # 95% de confiance

# Formule IC : moyenne ± t*(écart-type / sqrt(n))
ic_inf_95 = mean_sleep - t.ppf(1 - alpha/2, n-1) * std_dev / math.sqrt(n)
ic_sup_95 = mean_sleep + t.ppf(1 - alpha/2, n-1) * std_dev / math.sqrt(n)

print(f"Intervalle de confiance à 95% : [{round(ic_inf_95,2)} , {round(ic_sup_95,2)}] heures")

Intervalle de confiance à 95% : [7.05 , 7.21] heures


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color:black;">
<b>Explication :</b><br>
Pour calculer l'intervalle de confiance de la moyenne de <b>Sleep Duration</b>, 
nous avons utilisé la <b>loi de Student (t-distribution)</b> car nous ne connaissons pas la variance de la population et nous travaillons avec un échantillon. 
Cette distribution nous permet de tenir compte de l'incertitude liée à la taille de l'échantillon.<br><br>
Le résultat obtenu pour un niveau de confiance de 95% ([7.05, 7.21] heures) signifie que nous sommes confiants à 95% que la vraie moyenne de sommeil de l'ensemble de la population se situe dans cet intervalle.
</div>


<h3 style=" color: lightblue;">9-INTERVALLE DE CONFIANCE AU NIVEAU 98% :</h3>

In [28]:
# Niveau de confiance
alpha = 0.02  # 98% de confiance

# Formule IC : moyenne ± t*(écart-type / sqrt(n))
ic_inf_98 = mean_sleep - stats.t.ppf(1 - alpha/2, n-1) * std_dev / math.sqrt(n)
ic_sup_98 = mean_sleep + stats.t.ppf(1 - alpha/2, n-1) * std_dev / math.sqrt(n)

print(f"Intervalle de confiance à 98% : [{round(ic_inf_98,2)} , {round(ic_sup_98,2)}] heures")


Intervalle de confiance à 98% : [7.03 , 7.23] heures


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color:black;">
<b>Explication :</b><br>
L'intervalle de confiance à 98% est plus large que celui à 95% car il faut être plus sûr que la moyenne réelle de la population se trouve à l'intérieur de l'intervalle. 
Pour un échantillon de 374 individus, cet intervalle nous indique que nous avons 98% de confiance que la vraie moyenne de sommeil de la population se situe dans cet intervalle.
</div>
