# **Exercices XP**
Dernière mise à jour : 4 juin 2025

## Ce que nous allons apprendre
Concepts fondamentaux et importance de l’analyse des données : Comprendre les bases de l’analyse des données et son importance dans divers contextes contemporains.
Différents types de données dans l'analyse des données : apprentissage des types de données qualitatives et quantitatives et comment les identifier dans les ensembles de données.
Techniques d'analyse de données de base : acquérir des compétences pratiques pour effectuer des tâches d'analyse de données de base à l'aide d'outils tels que Python, Pandas, Matplotlib et les bibliothèques Seaborn dans un environnement Jupyter Notebook ou Google Colab.


## Ce que vous allez créer :
Un essai/rapport sur l'analyse des données (exercice 1) : un document écrit qui définit l'analyse des données, discute de son importance et explore ses applications dans le monde d'aujourd'hui.
Rapport de classification des types de données (exercice 2) : une analyse détaillée de l'ensemble de données Iris, catégorisant chaque colonne comme qualitative ou quantitative avec des explications.
Un cahier d'analyse de données (exercice 3) : un cahier Jupyter complet qui comprend des calculs de mesures statistiques (moyenne, médiane, mode), des visualisations de données (histogrammes, graphiques à barres) et une documentation des résultats, démontrant des compétences de base en analyse de données.

## 🌟Exercice 1 : Introduction à l’analyse des données (facile)


### Objectif : Comprendre les principes de base et l’importance de l’analyse des données.
Tâche:
Rédigez un court essai ou un rapport sur les sujets suivants :

### Qu'est-ce que l'analyse de données ?
Pourquoi l’analyse des données est-elle importante dans les contextes modernes ?
Énumérez et décrivez trois domaines dans lesquels l’analyse des données est appliquée aujourd’hui.
Astuce/Conseil :

### Recherchez les tendances actuelles en matière d’analyse de données et des exemples concrets pour donner de la profondeur à votre essai.

**Analyse de données : définition, importance et domaines d’application**

L’analyse de données est le processus d’examen, de nettoyage, de transformation et de modélisation des données dans le but de découvrir des informations utiles, d’étayer des conclusions et d’aider à la prise de décision. Elle utilise des techniques statistiques, informatiques et parfois d’intelligence artificielle pour extraire du sens à partir de grandes quantités de données brutes.

L’importance de l’analyse de données est devenue capitale dans les contextes modernes, car nous générons d’énormes quantités de données chaque jour (données de consommation, médicales, industrielles, etc.). L’analyse de données permet d’optimiser les opérations, d’anticiper des tendances, de personnaliser des services et de prendre des décisions plus éclairées et rapides. Sans l’analyse des données, il serait impossible de transformer le « big data » en informations réellement utiles et exploitables.

Voici trois domaines majeurs où l’analyse de données est aujourd’hui appliquée :

1. **Santé** : Les données issues des dossiers médicaux électroniques, des dispositifs connectés ou des essais cliniques sont analysées pour améliorer le diagnostic, la prévention et le suivi des maladies. Par exemple, l’analyse de données peut aider à détecter des épidémies ou à personnaliser les traitements selon le profil du patient.

2. **Marketing et commerce en ligne** : Les entreprises analysent les comportements d’achat, la navigation sur les sites, ou les interactions sur les réseaux sociaux pour adapter leurs offres, optimiser leurs campagnes publicitaires et améliorer la satisfaction client. Par exemple, Amazon ou Netflix recommandent des produits ou films grâce à l’analyse des préférences utilisateurs.

3. **Finance** : Les institutions financières utilisent l’analyse de données pour détecter les fraudes, gérer les risques, prédire l’évolution des marchés et automatiser les investissements. Les algorithmes de trading automatisé exploitent en temps réel des quantités massives de données financières pour prendre des décisions d’achat ou de vente.

En conclusion, l’analyse de données est un pilier essentiel de la transformation numérique actuelle, permettant à tous les secteurs d’être plus efficaces, innovants et compétitifs.


## 🌟Exercice 2 : Chargement de l'ensemble de données et analyse initiale


Objectif : Pratiquer le chargement d'un ensemble de données à partir de Kaggle et l'analyse initiale.
Tâche:
pour l'ensemble de données suivant : Combien d'heures de sommeil les Américains obtiennent-ils réellement ? , Tendances mondiales en matière de troubles de santé mentale et approbations de cartes de crédit .

Chargez l’ensemble de données dans Jupyter ou Google Colab.
Afficher les premières lignes.
Fournissez une brève description de l’ensemble de données.

In [38]:
import pandas as pd

# Chargement et affichage du fichier sleep.csv
sleep_df = pd.read_csv("sleep.csv")
print(">>> sleep.csv")
print(sleep_df.head())

# Chargement et affichage du fichier Mental_health_disorder_Data.csv
iris_df = pd.read_csv("Time Americans Spend Sleeping.csv")
print("\n>>> iris.csv")
print(iris_df.head())

# Chargement et affichage du fichier crx.csv
crx_df = pd.read_csv("crx.csv")
print("\n>>> crx.csv")
print(crx_df.head())

>>> sleep.csv
   index  Year  Period  Avg hrs per day sleeping  Standard Error Type of Days  \
0      0  2003  Annual                      8.57           0.018     All days   
1      1  2004  Annual                      8.55           0.026     All days   
2      2  2005  Annual                      8.62           0.023     All days   
3      3  2006  Annual                      8.63           0.024     All days   
4      4  2007  Annual                      8.57           0.024     All days   

           Age Group  Activity   Sex  
0  15 years and over  Sleeping  Both  
1  15 years and over  Sleeping  Both  
2  15 years and over  Sleeping  Both  
3  15 years and over  Sleeping  Both  
4  15 years and over  Sleeping  Both  

>>> iris.csv
   index  Year  Period  Avg hrs per day sleeping  Standard Error Type of Days  \
0      0  2003  Annual                      8.57           0.018     All days   
1      1  2004  Annual                      8.55           0.026     All days   
2      2

## 🌟Exercice 3 : Identification des types de données


Objectif : Apprendre à identifier les différents types de données.
Tâche:
Pour les ensembles de données de l’exercice précédent, catégorisez chaque colonne comme quantitative ou qualitative et expliquez votre raisonnement.



In [16]:
import pandas as pd

# Chargement du fichier CSV
df = pd.read_csv(r"C:\Users\chume\Desktop\iris.csv")

# Affichage des types de données de base
print(">>> Types de données bruts :")
print(df.dtypes)
print("\n>>> Catégorisation :")

# Fonction de catégorisation
def categorize_column(dtype):
    if pd.api.types.is_numeric_dtype(dtype):
        return "Quantitative"
    else:
        return "Qualitative"

# Application de la catégorisation
for col in df.columns:
    dtype = df[col].dtype
    category = categorize_column(dtype)
    print(f"- {col} : {category}")


>>> Types de données bruts :
Id                 int64
SepalLengthCm    float64
SepalWidthCm     float64
PetalLengthCm    float64
PetalWidthCm     float64
Species           object
dtype: object

>>> Catégorisation :
- Id : Quantitative
- SepalLengthCm : Quantitative
- SepalWidthCm : Quantitative
- PetalLengthCm : Quantitative
- PetalWidthCm : Quantitative
- Species : Qualitative


### Dans le jeu de données iris.csv, les types de données ont été identifiés comme suit :

#### Id est une donnée quantitative car c’est un entier (type int64), même s’il sert d’identifiant.

#### SepalLengthCm, SepalWidthCm, PetalLengthCm et PetalWidthCm sont toutes quantitatives, car ce sont des mesures numériques continues (type float64), représentant des longueurs en centimètres.

#### Species est une donnée qualitative (type object) car elle contient des catégories textuelles correspondant aux espèces de fleurs.

Cette catégorisation permet de distinguer les colonnes numériques utilisées pour des analyses statistiques de celles utilisées pour des classifications.

In [None]:
# Chargement du fichier CSV
df = pd.read_csv(r"C:\Users\chume\Desktop\iris.csv")

# Affichage des types de données de base
print(">>> Types de données bruts :")
print(df.dtypes)
print("\n>>> Catégorisation :")

# Fonction de catégorisation
def categorize_column(dtype):
    if pd.api.types.is_numeric_dtype(dtype):
        return "Quantitative"
    else:
        return "Qualitative"

# Application de la catégorisation
for col in df.columns:
    dtype = df[col].dtype
    category = categorize_column(dtype)
    print(f"- {col} : {category}")

## Exercice 4 : Explorer les types de données


### Objectif : Découvrir les différents types de données dans l’analyse de données.
Tâche:

#### Chargez l' ensemble de données Iris à l'aide de Kaggle dans un bloc-notes Jupyter ou un bloc-notes Google Colaboratory.

#### Identifiez et répertoriez les colonnes de votre ensemble de données qui sont qualitatives et celles qui sont quantitatives.

#### Rédigez une brève description expliquant pourquoi chaque colonne est classée comme qualitative ou quantitative.
Outils : Jupyter Notebook, Python avec la bibliothèque Pandas.

In [None]:
import pandas as pd

# Charger le jeu de données Iris (le nom exact peut varier, par exemple "Iris.csv" ou "iris.csv")
df = pd.read_csv("iris.csv")  # Mets le nom exact de ton fichier ici

# Afficher les premières lignes
print(df.head())

# Afficher les noms des colonnes
print("Colonnes :", df.columns.tolist())


Catégorisation des colonnes :

Colonne	Exemple de valeur	Type	Explication
sepal_length	5.1	Quantitative	Mesure de longueur, nombre continu, opérations mathématiques possibles
sepal_width	3.5	Quantitative	Idem, mesure numérique
petal_length	1.4	Quantitative	Idem, mesure numérique
petal_width	0.2	Quantitative	Idem, mesure numérique
species	setosa	Qualitative	Nom d’espèce (groupe/catégorie, pas un nombre)

Descriptions :

sepal_length, sepal_width, petal_length, petal_width
→ Quantitatives : Ce sont des mesures continues (en cm) de longueurs ou de largeurs.
On peut en faire la moyenne, calculer des écart-types, faire des graphiques numériques, etc.

species
→ Qualitative : C’est le nom de l’espèce (exemple : setosa, versicolor, virginica).
On ne peut pas faire de calculs dessus, c’est une variable de catégorie.

Résumé :

Colonnes quantitatives : sepal_length, sepal_width, petal_length, petal_width

Colonne qualitative : species

## 🌟Exercice 5 : Analyse de données de base avec Google Colab


Objectif : Effectuer une analyse de données de base à l'aide de Google Colab.
Tâche:

En utilisant le même bloc-notes que celui de l'exercice précédent, effectuez des tâches d'analyse de données de base :

Calculez la moyenne, la médiane et le mode d'une colonne quantitative.

Créez un tracé simple (comme un histogramme ou un graphique à barres) pour visualiser les données à l'aide des bibliothèques Matplotlib/Seaborn :

import matplotlib.pyplot as plt
plt.plot(data['Name_column1'], data['Name_column2'])
plt.show()

Documentez vos découvertes dans le cahier.
Outils : Google Colab, Python avec les bibliothèques Pandas et Matplotlib/Seaborn.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Charger le jeu de données Iris
df = pd.read_csv("iris.csv")  # Mets ici le nom exact de ton fichier

# 1. Calcul de la moyenne, médiane et mode pour la colonne "sepal_length"
mean = df["sepal_length"].mean()
median = df["sepal_length"].median()
mode = df["sepal_length"].mode()[0]

print("Moyenne de sepal_length :", mean)
print("Médiane de sepal_length :", median)
print("Mode de sepal_length :", mode)

# 2. Créer un histogramme de la colonne "sepal_length"
plt.hist(df["sepal_length"], bins=10, edgecolor='black')
plt.title("Distribution de la longueur du sépale")
plt.xlabel("Longueur du sépale (cm)")
plt.ylabel("Nombre d'échantillons")
plt.show()


Découvertes :

Moyenne de la longueur du sépale : La moyenne donne la longueur typique des sépales dans l’ensemble de données.

Médiane : Indique la valeur centrale, donc la moitié des sépales sont plus courts et l’autre moitié plus longs que cette valeur.

Mode : Valeur la plus fréquente de la longueur des sépales.

Histogramme : Visualise la répartition des longueurs de sépale. On peut observer la forme de la distribution (symétrique, étalée, présence de pics, etc).

## 🌟Exercice 6 : Compétences d’observation de base dans l’analyse des données


Objectif : Développer des compétences d’observation pour l’analyse des données.
Tâche:
Chargez l' ensemble de données « Combien d'heures de sommeil les Américains obtiennent-ils réellement ? » dans Jupyter ou Google Colab.
Identifiez les colonnes susceptibles d'être intéressantes pour un type d'analyse spécifique (par exemple, analyse de tendance, comparaison de groupes) et expliquez votre choix.
Outils : Jupyter Notebook, Python avec la bibliothèque Pandas.


In [3]:
import pandas as pd

# Chargement du jeu de données (mets le nom exact de ton fichier)
df = pd.read_csv("sleep_data.csv")  # adapte le nom selon ton fichier réel

# Affichage des premières lignes et des colonnes pour observation
print(df.head())
print("Colonnes :", df.columns.tolist())


FileNotFoundError: [Errno 2] No such file or directory: 'sleep_data.csv'

Colonnes potentiellement intéressantes et pourquoi :

Year
Analyse de tendance : Permet d’observer l’évolution du sommeil au fil du temps, de détecter des augmentations ou diminutions dans la durée de sommeil des Américains selon les années.

State
Comparaison géographique : Permet de comparer les habitudes de sommeil entre différents états, de repérer les régions où le manque de sommeil est plus fréquent.

ShortSleepDuration
Mesure quantitative centrale : C’est la variable principale à étudier, car elle indique le pourcentage d’adultes dormant moins de 7 heures. Peut servir pour toutes les analyses statistiques ou comparatives.

Gender / AgeGroup / Race (ou équivalent selon les colonnes exactes)
Comparaison de groupes : Ces colonnes permettent de segmenter la population par sexe, tranche d’âge ou groupe ethnique, pour voir quels sous-groupes dorment le moins ou le plus.

Exemples d’analyses possibles :

Analyse de tendance de ShortSleepDuration par année (Year)

Comparaison du manque de sommeil entre les états (State)

Comparaison entre hommes et femmes, ou selon les tranches d’âge (Gender, AgeGroup)

Résumé :
Les colonnes « Year », « State », « ShortSleepDuration » et les colonnes démographiques sont les plus pertinentes pour réaliser des analyses de tendances ou des comparaisons de groupes.
Le choix se justifie car ce sont les axes principaux pour explorer des différences ou des évolutions dans les habitudes de sommeil.