# Exercices XP Ninja
Dernière mise à jour : 16 septembre 2024

## Ce que vous apprendrez :
Réalisation d'une EDA sur un ensemble de données complexe.
Développer une approche d’analyse basée sur les données.


## Ce que vous allez créer :
Charger un ensemble de données.
Inspecter et gérer les données manquantes.
Nettoyez et transformez les données selon les besoins.
Explorez et analysez l'ensemble de données.
Résumer les principales conclusions.
Créez des visualisations pour illustrer vos idées.

## Exercice 1 : Analyse exploratoire des données (difficile)
Objectif : Mettre en œuvre un processus décisionnel basé sur les données.

L'analyse exploratoire des données (EDA) est un processus d'analyse de données dans lequel diverses techniques sont utilisées pour comprendre, résumer et visualiser la structure et les caractéristiques sous-jacentes d'un ensemble de données.

Tâche:

Suivez les étapes de l'EDA sur ce post média

Voici un guide direct et synthétique pour mener une **analyse exploratoire des données (EDA)** sur n’importe quel ensemble de données dans un notebook Jupyter ou Google Colab.
Je donne les étapes générales + les principaux blocs de code, que tu peux adapter à ton fichier.

---

### **1. Importer les bibliothèques et charger les données**

```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('nom_de_ton_fichier.csv')  # adapte le nom du fichier
```

---

### **2. Comprendre la structure de base**

```python
print("Dimensions :", df.shape)
print("\nAperçu :")
print(df.head())

print("\nColonnes et types :")
print(df.dtypes)

print("\nValeurs manquantes :")
print(df.isnull().sum())
```

---

### **3. Statistiques descriptives**

```python
print("\nStatistiques descriptives :")
print(df.describe())
```

Pour les colonnes qualitatives :

```python
print("\nComptage des valeurs pour les colonnes qualitatives :")
for col in df.select_dtypes(include='object').columns:
    print(df[col].value_counts())
```

---

### **4. Visualisation simple des distributions**

Histogramme d’une variable quantitative :

```python
plt.hist(df['NomDeLaColonneQuantitative'], bins=20, edgecolor='black')
plt.title('Distribution')
plt.xlabel('Valeur')
plt.ylabel('Fréquence')
plt.show()
```

Diagramme en barres pour une variable qualitative :

```python
df['NomDeLaColonneQualitative'].value_counts().plot(kind='bar')
plt.title('Répartition')
plt.xlabel('Catégorie')
plt.ylabel('Nombre')
plt.show()
```

---

### **5. Analyse de la corrélation (pour variables quantitatives)**

```python
plt.figure(figsize=(10, 7))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Matrice de corrélation')
plt.show()
```

---

### **6. Relations entre variables**

Exemple : nuage de points entre deux variables quantitatives

```python
plt.scatter(df['colonne1'], df['colonne2'])
plt.xlabel('colonne1')
plt.ylabel('colonne2')
plt.title('Relation entre colonne1 et colonne2')
plt.show()
```

---

### **7. Conclusion rapide (à écrire en markdown dans ton notebook)**

* Quelles tendances ou anomalies observes-tu ?
* Y a-t-il des valeurs manquantes à traiter ?
* Quelles variables sont potentiellement importantes pour une analyse ultérieure ou un modèle ?
* Quelles relations existent entre les variables principales ?

---

**Récapitulatif EDA classique :**

1. **Chargement et aperçu des données**
2. **Statistiques et valeurs manquantes**
3. **Analyse univariée (distributions)**
4. **Analyse bivariée (relations, corrélations)**
5. **Résumé des observations**

---

Adapte chaque bloc selon les colonnes de ton jeu de données.
Si tu veux une EDA sur un jeu précis, envoie un extrait ou le nom des colonnes.


## Exercice 2 : Une autre analyse exploratoire des données sur l'ensemble de données du Titanic
Arrière-plan

L'ensemble de données Titanic est un ensemble de données fréquemment utilisé en analyse de données et en apprentissage automatique. Il contient des informations sur les passagers du RMS Titanic, notamment leur survie, leur âge, la classe de leur billet, le tarif, etc. Cet exercice explore cet ensemble de données afin de dégager des informations et des tendances.

Présentation de l'ensemble de données

L'ensemble de données Titanic comprend généralement les colonnes suivantes :

PassengerId:Un identifiant unique pour chaque passager.
Survived: Indique si un passager a survécu (1) ou n'a pas survécu (0).
Pclass: Classe du billet (1ère, 2ème ou 3ème classe).
Name: Nom du passager.
Sex: Sexe du passager.
Age:Âge du passager.
SibSp: Nombre de frères et sœurs/conjoints à bord.
Parch: Nombre de parents/enfants à bord.
Ticket: Numéro de billet.
Fare: Tarif passager.
Cabin: Numéro de cabine.
Embarked:Port d'embarquement (C = Cherbourg, Q = Queenstown, S = Southampton).


Étapes de l'exercice
Chargement des données
Chargez l'ensemble de données Titanic dans un DataFrame à l'aide d'une bibliothèque d'analyse de données comme pandas en Python.

Inspection des données

Utilisez des méthodes telles que .head(), .info(), et .describe()pour obtenir un aperçu de l’ensemble de données.
Identifiez les valeurs manquantes dans l’ensemble de données.
Nettoyage des données (si nécessaire)

Gérez les valeurs manquantes en supprimant les lignes/colonnes affectées ou en leur imputant des valeurs appropriées.
Convertissez les variables catégorielles (comme Sexet Embarked) sous forme numérique si nécessaire.
Analyse exploratoire

Analyse univariée : Examinez les variables individuelles. Tracez des histogrammes ou des graphiques à barres pour visualiser la répartition des âges, des tarifs, etc.
Analyse bivariée : Étudier les relations entre les paires de variables. Rechercher une relation entre la survie et la catégorie de ticket, ou entre l'âge et la survie.
Analyse multivariée : étudier des relations plus complexes impliquant trois variables ou plus.
Génération d'idées

Résumez les principales conclusions. Par exemple, les passagers de classe supérieure avaient-ils plus de chances de survivre ? L'âge ou le sexe ont-ils eu un impact notable sur les taux de survie ?
Identifiez les tendances ou les modèles surprenants.
Visualisation

Utilisez des graphiques et des diagrammes pour visualiser vos résultats. Il peut s'agir de diagrammes à barres pour les données catégorielles, d'histogrammes pour les données numériques, de nuages ​​de points pour les relations et de cartes thermiques pour les corrélations.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Chargement des données
df = pd.read_csv('titanic.csv')

# Inspection des données
print("Aperçu des données :")
print(df.head())

print("\nInfos générales :")
print(df.info())

print("\nStatistiques descriptives :")
print(df.describe())

# Identifier les valeurs manquantes
print("\nValeurs manquantes par colonne :")
print(df.isnull().sum())

# Nettoyage des données
# Exemple simple : remplacer l'âge manquant par la moyenne
df['Age'].fillna(df['Age'].mean(), inplace=True)
# Pour 'Embarked', remplacer les valeurs manquantes par le mode
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

# Conversion des variables catégorielles en numériques
df['Sex'] = df['Sex'].map({'female': 0, 'male': 1})
df['Embarked'] = df['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})

# Analyse univariée : distribution de l'âge
plt.hist(df['Age'], bins=20, edgecolor='black')
plt.title('Distribution de l\'âge')
plt.xlabel('Âge')
plt.ylabel('Nombre de passagers')
plt.show()

# Analyse univariée : taux de survie
sns.countplot(x='Survived', data=df)
plt.title('Répartition de la survie')
plt.xlabel('Survécu')
plt.ylabel('Nombre')
plt.show()

# Analyse bivariée : survie selon la classe
sns.barplot(x='Pclass', y='Survived', data=df)
plt.title('Taux de survie selon la classe')
plt.xlabel('Classe')
plt.ylabel('Taux de survie')
plt.show()

# Analyse bivariée : survie selon le sexe
sns.barplot(x='Sex', y='Survived', data=df)
plt.title('Taux de survie selon le sexe')
plt.xlabel('Sexe (0=femme, 1=homme)')
plt.ylabel('Taux de survie')
plt.show()

# Analyse bivariée : survie selon l'âge (nuage de points)
plt.scatter(df['Age'], df['Survived'])
plt.title('Survie selon l\'âge')
plt.xlabel('Âge')
plt.ylabel('Survécu (0/1)')
plt.show()

# Analyse multivariée : heatmap des corrélations
plt.figure(figsize=(10,8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Corrélation entre les variables')
plt.show()

# Résumé des idées et tendances :
print("\nConclusions principales :")
print("- Les femmes et les passagers de première classe avaient des taux de survie bien plus élevés.")
print("- Les enfants et les jeunes avaient également de meilleures chances de survie.")
print("- Le port d’embarquement ou le tarif du billet peuvent avoir une influence secondaire.")
print("- Les hommes et les passagers de troisième classe avaient le taux de survie le plus bas.")



## Exercice 3 : Analyse exploratoire des données (EDA) sur l'ensemble de données Iris
Arrière-plan

L'ensemble de données Iris est l'un des plus célèbres utilisés pour l'analyse de données et l'apprentissage automatique. Il contient des mesures de fleurs d'iris de trois espèces différentes. Il inclut des caractéristiques telles que la longueur et la largeur des sépales, ainsi que la longueur et la largeur des pétales. Cet exercice se concentre sur l'exploration de cet ensemble de données pour identifier des tendances et des informations.

Présentation de l'ensemble de données

L'ensemble de données Iris comprend généralement les colonnes suivantes :

SepalLengthCm: Longueur du sépale en centimètres.
SepalWidthCm:Largeur du sépale en centimètres.
PetalLengthCm: Longueur du pétale en centimètres.
PetalWidthCm:Largeur du pétale en centimètres.
Species:Espèce de la fleur d'iris (Setosa, Versicolor, Virginica).
Étapes de l'exercice

Chargement des données
Chargez l'ensemble de données Iris dans un DataFrame à l'aide d'une bibliothèque d'analyse de données comme pandas en Python.

Inspection des données

Utilisez des méthodes telles que .head(), .info(), et .describe()pour obtenir un aperçu de l’ensemble de données.
Identifier les espèces uniques présentes dans l’ensemble de données et leur répartition.
Visualisation des données

Visualisez la distribution de chaque caractéristique (longueur du sépale, largeur du sépale, longueur du pétale, largeur du pétale) à l'aide d'histogrammes.
Créez des nuages ​​de points pour explorer les relations entre chaque paire de fonctionnalités.
Analyse exploratoire

Analyse univariée : Évaluer la distribution de chaque caractéristique pour différentes espèces d’iris.
Analyse bivariée : étudier les relations entre les paires de caractéristiques pour chaque espèce.
Analyse multivariée : explorez les relations complexes impliquant toutes les caractéristiques et toutes les espèces.
Génération d'idées

Identifiez les caractéristiques clés qui différencient chaque espèce d’iris en fonction des mesures des fleurs.
Mettez en évidence tous les modèles ou anomalies intéressants découverts lors de l’analyse.
Visualisation avancée

Utilisez des boîtes à moustaches pour comparer la distribution des caractéristiques entre différentes espèces.
Créez des graphiques de paires ou des cartes thermiques pour visualiser la corrélation entre toutes les fonctionnalités.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Chargement des données
df = pd.read_csv('iris.csv')

# 2. Inspection des données
print("Aperçu des données :")
print(df.head())

print("\nInfos générales :")
print(df.info())

print("\nStatistiques descriptives :")
print(df.describe())

# Identifier les espèces et leur répartition
print("\nEspèces uniques :")
print(df['Species'].unique())
print("\nRépartition des espèces :")
print(df['Species'].value_counts())

# 3. Visualisation des distributions (histogrammes)
features = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']
for col in features:
    plt.hist(df[col], bins=20, edgecolor='black')
    plt.title(f'Distribution de {col}')
    plt.xlabel(col)
    plt.ylabel('Nombre')
    plt.show()

# 4. Nuages de points entre chaque paire de caractéristiques
sns.pairplot(df, hue='Species')
plt.show()

# 5. Boîtes à moustaches (comparaison des distributions par espèce)
for col in features:
    plt.figure(figsize=(6,4))
    sns.boxplot(x='Species', y=col, data=df)
    plt.title(f'Boxplot de {col} par espèce')
    plt.show()

# 6. Carte thermique des corrélations
plt.figure(figsize=(8,6))
sns.heatmap(df[features].corr(), annot=True, cmap='coolwarm')
plt.title('Corrélations entre caractéristiques')
plt.show()

# 7. Analyse univariée (distribution par espèce)
for col in features:
    plt.figure(figsize=(7,4))
    for specie in df['Species'].unique():
        subset = df[df['Species'] == specie]
        plt.hist(subset[col], bins=10, alpha=0.5, label=specie)
    plt.title(f'Distribution de {col} par espèce')
    plt.xlabel(col)
    plt.ylabel('Nombre')
    plt.legend()
    plt.show()

# 8. Génération d'idées / Conclusions
print("\nPrincipales conclusions :")
print("- Les espèces sont très bien séparées selon la longueur et la largeur des pétales, surtout Setosa.")
print("- Les variables 'PetalLengthCm' et 'PetalWidthCm' sont particulièrement discriminantes pour différencier les espèces.")
print("- Les boîtes à moustaches montrent peu de chevauchement entre Setosa et les autres espèces.")
print("- Les corrélations sont fortes entre certaines mesures (ex : longueur et largeur du pétale).")
print("- Aucune anomalie majeure visible ; la distribution des mesures est cohérente avec ce qui est attendu pour ce jeu de données.")

