# Jour 1 - Exercice 1 : Introduction à Python et Pandas

## Objectifs
- Se familiariser avec l'environnement Jupyter Notebook
- Comprendre les bases de Python nécessaires pour l'analyse de données
- Découvrir les structures de données fondamentales de Pandas
- Apprendre à charger et explorer un jeu de données simple

## Introduction

Bienvenue dans ce premier exercice ! Avant de plonger dans le machine learning, il est essentiel de maîtriser les outils de base pour manipuler les données. Dans ce notebook, nous allons découvrir Python et la bibliothèque Pandas, qui sont les fondements de tout projet de data science.

## 1. Introduction à Jupyter Notebook

Jupyter Notebook est un environnement interactif qui permet de combiner du code, du texte explicatif, des visualisations et des équations dans un seul document.

### Types de cellules
- **Cellules de code** : Pour écrire et exécuter du code Python
- **Cellules Markdown** : Pour écrire du texte formaté (comme celle-ci)

### Comment utiliser Jupyter
- Pour exécuter une cellule : cliquez sur la cellule puis appuyez sur `Shift+Enter`
- Pour ajouter une cellule : cliquez sur le bouton `+` dans la barre d'outils
- Pour changer le type de cellule : utilisez le menu déroulant dans la barre d'outils

Essayons d'exécuter une cellule de code simple :

In [None]:
# Ceci est un commentaire en Python (il commence par #)
print("Bonjour, bienvenue au cours de Machine Learning !")

# Faisons un calcul simple
resultat = 7 * 6
print(f"Le résultat de 7 × 6 est {resultat}")

## 2. Bases de Python pour l'analyse de données

### Variables et types de données

Python utilise différents types de données pour stocker différentes sortes d'informations :

In [None]:
# Nombres
entier = 42                # Type int (entier)
decimal = 3.14             # Type float (nombre à virgule)

# Texte
texte = "Hello, World!"    # Type str (chaîne de caractères)

# Booléens
vrai = True                # Type bool (booléen)
faux = False

# Affichons le type de chaque variable
print(f"Type de entier: {type(entier)}")
print(f"Type de decimal: {type(decimal)}")
print(f"Type de texte: {type(texte)}")
print(f"Type de vrai: {type(vrai)}")

### Structures de données en Python

Python offre plusieurs structures de données pour organiser l'information :

In [None]:
# Liste (collection ordonnée et modifiable)
ma_liste = [1, 2, 3, 4, 5]
print(f"Ma liste: {ma_liste}")
print(f"Premier élément: {ma_liste[0]}")
print(f"Dernier élément: {ma_liste[-1]}")

# Ajouter un élément à la liste
ma_liste.append(6)
print(f"Liste après ajout: {ma_liste}")

# Dictionnaire (collection de paires clé-valeur)
mon_dict = {"nom": "Dupont", "prénom": "Jean", "âge": 30}
print(f"\nMon dictionnaire: {mon_dict}")
print(f"Prénom: {mon_dict['prénom']}")

# Ajouter une nouvelle paire clé-valeur
mon_dict["ville"] = "Paris"
print(f"Dictionnaire après ajout: {mon_dict}")

### Structures de contrôle

Les structures de contrôle permettent de diriger le flux d'exécution du code :

In [None]:
# Condition if-else
age = 20
if age >= 18:
    print("Majeur")
else:
    print("Mineur")

# Boucle for
print("\nComptons de 1 à 5:")
for i in range(1, 6):
    print(i)

# Boucle for avec une liste
print("\nParcourons une liste:")
fruits = ["pomme", "banane", "orange"]
for fruit in fruits:
    print(f"J'aime les {fruit}s")

## 3. Introduction à Pandas

Pandas est une bibliothèque Python spécialisée dans la manipulation et l'analyse de données. Elle fournit des structures de données puissantes et flexibles pour travailler efficacement avec des données structurées.

### Importation de la bibliothèque

In [None]:
# Importer pandas avec l'alias pd (convention standard)
import pandas as pd
import numpy as np  # NumPy est souvent utilisé avec Pandas

print(f"Version de Pandas: {pd.__version__}")
print(f"Version de NumPy: {np.__version__}")

### Les structures de données de Pandas

Pandas propose deux structures de données principales :
- **Series** : tableau unidimensionnel étiqueté
- **DataFrame** : tableau bidimensionnel étiqueté (comme un tableau Excel)

#### Series

In [None]:
# Créer une Series à partir d'une liste
notes = pd.Series([15, 12, 18, 14, 16])
print("Series de notes:")
print(notes)

# Créer une Series avec des index personnalisés
notes_matières = pd.Series([15, 12, 18, 14, 16], 
                          index=["Maths", "Français", "Physique", "Histoire", "Anglais"])
print("\nSeries de notes par matière:")
print(notes_matières)

# Accéder à une valeur par son index
print(f"\nNote en Physique: {notes_matières['Physique']}")

#### DataFrame

Un DataFrame est comme un tableau Excel avec des lignes et des colonnes étiquetées.

In [None]:
# Créer un DataFrame à partir d'un dictionnaire
données = {
    "Nom": ["Dupont", "Martin", "Durand", "Petit"],
    "Prénom": ["Jean", "Sophie", "Pierre", "Marie"],
    "Âge": [25, 30, 22, 28],
    "Ville": ["Paris", "Lyon", "Marseille", "Toulouse"]
}

df_personnes = pd.DataFrame(données)
print("DataFrame de personnes:")
print(df_personnes)

### Exploration d'un DataFrame

In [None]:
# Afficher les premières lignes
print("Les 2 premières lignes:")
print(df_personnes.head(2))

# Afficher les informations sur le DataFrame
print("\nInformations sur le DataFrame:")
df_personnes.info()

# Statistiques descriptives
print("\nStatistiques descriptives:")
print(df_personnes.describe())

# Accéder à une colonne
print("\nColonne des âges:")
print(df_personnes["Âge"])

# Accéder à plusieurs colonnes
print("\nColonnes Nom et Prénom:")
print(df_personnes[["Nom", "Prénom"]])

## 4. Chargement de données depuis un fichier

Pandas permet de charger facilement des données à partir de différents formats de fichiers (CSV, Excel, JSON, etc.). Commençons par charger un jeu de données CSV.

In [None]:
# Charger le jeu de données de satisfaction des passagers
chemin_fichier = '../../data/passenger_satisfaction/train.csv'
satisfaction_df = pd.read_csv(chemin_fichier)

# Afficher les 5 premières lignes
print("Les 5 premières lignes du jeu de données:")
satisfaction_df.head()

### Exploration du jeu de données

In [None]:
# Dimensions du DataFrame
print(f"Dimensions du DataFrame: {satisfaction_df.shape} (lignes, colonnes)")

# Noms des colonnes
print("\nNoms des colonnes:")
print(satisfaction_df.columns.tolist())

# Informations sur le DataFrame
print("\nInformations sur le DataFrame:")
satisfaction_df.info()

In [None]:
# Statistiques descriptives
satisfaction_df.describe()

### Vérification des valeurs manquantes

In [None]:
# Vérifier s'il y a des valeurs manquantes
valeurs_manquantes = satisfaction_df.isnull().sum()
print("Nombre de valeurs manquantes par colonne:")
print(valeurs_manquantes[valeurs_manquantes > 0])  # Afficher uniquement les colonnes avec des valeurs manquantes

## 5. Exercices pratiques

Maintenant, c'est à vous de jouer ! Voici quelques exercices pour vous familiariser avec Pandas.

### Exercice 1 : Création d'une Series

Créez une Series contenant les températures (en °C) des 7 derniers jours : [22, 24, 19, 21, 25, 23, 20] avec les jours de la semaine comme index.

In [None]:
# Votre code ici
# Indice : utilisez pd.Series() avec les arguments data et index


### Solution Exercice 1

In [None]:
# Solution
températures = pd.Series([22, 24, 19, 21, 25, 23, 20], 
                         index=["Lundi", "Mardi", "Mercredi", "Jeudi", "Vendredi", "Samedi", "Dimanche"])
print(températures)

### Exercice 2 : Création d'un DataFrame

Créez un DataFrame représentant les résultats d'une compétition sportive avec les colonnes suivantes :
- "Athlète" : ["Alice", "Bob", "Charlie", "David", "Eva"]
- "Sport" : ["Natation", "Course", "Natation", "Cyclisme", "Course"]
- "Médaille" : ["Or", "Argent", "Bronze", "Or", "Bronze"]
- "Temps" : [58.5, 9.8, 62.1, 45.2, 10.5]

In [None]:
# Votre code ici
# Indice : créez d'abord un dictionnaire avec les données, puis utilisez pd.DataFrame()


### Solution Exercice 2

In [None]:
# Solution
données_compétition = {
    "Athlète": ["Alice", "Bob", "Charlie", "David", "Eva"],
    "Sport": ["Natation", "Course", "Natation", "Cyclisme", "Course"],
    "Médaille": ["Or", "Argent", "Bronze", "Or", "Bronze"],
    "Temps": [58.5, 9.8, 62.1, 45.2, 10.5]
}

df_compétition = pd.DataFrame(données_compétition)
print(df_compétition)

### Exercice 3 : Exploration du jeu de données de satisfaction

En utilisant le DataFrame `satisfaction_df` :
1. Affichez les 3 dernières lignes du DataFrame
2. Calculez l'âge moyen des passagers
3. Comptez le nombre de passagers par classe ("Class")

In [None]:
# 1. Afficher les 3 dernières lignes
# Indice : utilisez la méthode .tail()


In [None]:
# 2. Calculer l'âge moyen
# Indice : utilisez la méthode .mean() sur la colonne appropriée


In [None]:
# 3. Compter le nombre de passagers par classe
# Indice : utilisez la méthode .value_counts() sur la colonne appropriée


### Solution Exercice 3

In [None]:
# 1. Afficher les 3 dernières lignes
print("Les 3 dernières lignes:")
print(satisfaction_df.tail(3))

In [None]:
# 2. Calculer l'âge moyen
age_moyen = satisfaction_df["Age"].mean()
print(f"L'âge moyen des passagers est de {age_moyen:.2f} ans")

In [None]:
# 3. Compter le nombre de passagers par classe
nb_passagers_par_classe = satisfaction_df["Class"].value_counts()
print("Nombre de passagers par classe:")
print(nb_passagers_par_classe)

## 6. Mini-projet : Analyse exploratoire simple

Pour mettre en pratique ce que vous avez appris, réalisez une petite analyse exploratoire du jeu de données de satisfaction des passagers.

1. Créez un sous-ensemble du DataFrame contenant uniquement les colonnes : "Gender", "Age", "Customer Type", "Type of Travel", "Class" et "Satisfaction"
2. Calculez l'âge moyen par genre
3. Comptez le nombre de passagers satisfaits et non satisfaits
4. Calculez le pourcentage de satisfaction par classe de voyage

In [None]:
# 1. Créer un sous-ensemble du DataFrame
colonnes_selectionnées = ["Gender", "Age", "Customer Type", "Type of Travel", "Class", "Satisfaction"]
df_subset = satisfaction_df[colonnes_selectionnées]
print("Sous-ensemble du DataFrame:")
print(df_subset.head())

In [None]:
# 2. Calculer l'âge moyen par genre
age_moyen_par_genre = df_subset.groupby("Gender")["Age"].mean()
print("Âge moyen par genre:")
print(age_moyen_par_genre)

In [None]:
# 3. Compter le nombre de passagers satisfaits et non satisfaits
satisfaction_counts = df_subset["Satisfaction"].value_counts()
print("Nombre de passagers par niveau de satisfaction:")
print(satisfaction_counts)

In [None]:
# 4. Calculer le pourcentage de satisfaction par classe de voyage
# D'abord, créons une colonne binaire pour la satisfaction
df_subset["Est_Satisfait"] = (df_subset["Satisfaction"] == "satisfied").astype(int)

# Calculer le pourcentage de satisfaction par classe
satisfaction_par_classe = df_subset.groupby("Class")["Est_Satisfait"].mean() * 100
print("Pourcentage de satisfaction par classe:")
print(satisfaction_par_classe)

## Conclusion

Félicitations ! Vous avez terminé le premier exercice sur l'introduction à Python et Pandas. Vous avez appris :
- Les bases de Python (variables, structures de données, structures de contrôle)
- Les structures de données fondamentales de Pandas (Series et DataFrame)
- Comment charger et explorer un jeu de données
- Comment effectuer des opérations de base sur un DataFrame

Dans le prochain exercice, nous approfondirons la manipulation de données avec Pandas en explorant davantage le jeu de données de satisfaction des passagers.

## Ressources supplémentaires

- [Documentation officielle de Pandas](https://pandas.pydata.org/docs/)
- [Tutoriel Pandas 10 minutes](https://pandas.pydata.org/docs/user_guide/10min.html)
- [W3Schools Python Tutorial](https://www.w3schools.com/python/)
- [DataCamp - Introduction à Python](https://www.datacamp.com/courses/intro-to-python-for-data-science)