# Session 14 - NumPy & pandas : Analyse du Dataset Titanic

## üéØ Objectifs
- Ma√Ætriser les bases de NumPy et pandas
- Charger et explorer le dataset Titanic
- Effectuer des analyses descriptives
- R√©pondre √† des questions m√©tier avec les donn√©es

## Partie 1 : NumPy - Les bases

In [None]:
# Import de NumPy
import numpy as np

print(f"Version NumPy : {np.__version__}")

### Exercice 1.1 : Cr√©ation et manipulation d'arrays

In [None]:
# Cr√©er un array avec les nombres de 1 √† 10
arr = np.arange(1, 11)
print("Array :", arr)

# Op√©rations vectoris√©es
print("\nArray * 2 :", arr * 2)
print("Array au carr√© :", arr ** 2)
print("Racine carr√©e :", np.sqrt(arr))

In [None]:
# Statistiques sur l'array
print(f"Somme : {arr.sum()}")
print(f"Moyenne : {arr.mean()}")
print(f"√âcart-type : {arr.std():.2f}")
print(f"Minimum : {arr.min()}")
print(f"Maximum : {arr.max()}")

### Exercice 1.2 : Arrays 2D et matrices

In [None]:
# Cr√©er une matrice 3x3
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

print("Matrice :")
print(matrix)
print(f"\nShape : {matrix.shape}")
print(f"Nombre de dimensions : {matrix.ndim}")
print(f"Nombre total d'√©l√©ments : {matrix.size}")

In [None]:
# Indexation et slicing
print("√âl√©ment [0, 1] :", matrix[0, 1])  # 2
print("\nLigne 1 :", matrix[1, :])  # [4, 5, 6]
print("\nColonne 2 :", matrix[:, 2])  # [3, 6, 9]
print("\nSous-matrice [0:2, 1:3] :")
print(matrix[0:2, 1:3])  # [[2, 3], [5, 6]]

In [None]:
# Statistiques par axe
print("Somme de chaque colonne :", matrix.sum(axis=0))  # [12, 15, 18]
print("Somme de chaque ligne :", matrix.sum(axis=1))    # [6, 15, 24]
print("Moyenne de chaque colonne :", matrix.mean(axis=0))

### Exercice 1.3 : Filtrage bool√©en

In [None]:
# Cr√©er un array de nombres al√©atoires
np.random.seed(42)  # Pour reproductibilit√©
random_arr = np.random.randint(1, 100, size=20)
print("Array al√©atoire :", random_arr)

# Filtrage
print("\nValeurs > 50 :", random_arr[random_arr > 50])
print("Valeurs entre 30 et 70 :", random_arr[(random_arr >= 30) & (random_arr <= 70)])
print("Valeurs paires :", random_arr[random_arr % 2 == 0])

## Partie 2 : pandas - Introduction

In [None]:
# Import de pandas
import pandas as pd

print(f"Version pandas : {pd.__version__}")

### Exercice 2.1 : Series

In [None]:
# Cr√©er une Series - Populations des grandes villes fran√ßaises (en milliers)
villes = pd.Series({
    'Paris': 2165,
    'Marseille': 869,
    'Lyon': 513,
    'Toulouse': 471,
    'Nice': 342,
    'Nantes': 303,
    'Montpellier': 281
})

print("Populations des villes (en milliers) :")
print(villes)

In [None]:
# Op√©rations sur Series
print(f"Population de Lyon : {villes['Lyon']} milliers")
print(f"\nPopulation totale : {villes.sum()} milliers")
print(f"Population moyenne : {villes.mean():.1f} milliers")
print(f"\nVille la plus peupl√©e : {villes.idxmax()} ({villes.max()} milliers)")
print(f"Ville la moins peupl√©e : {villes.idxmin()} ({villes.min()} milliers)")

In [None]:
# Filtrage et tri
print("Villes avec plus de 500 000 habitants :")
print(villes[villes > 500])

print("\nVilles tri√©es par population (d√©croissant) :")
print(villes.sort_values(ascending=False))

### Exercice 2.2 : DataFrame simple

In [None]:
# Cr√©er un DataFrame - Donn√©es d'employ√©s
employes = pd.DataFrame({
    'nom': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve', 'Frank'],
    'age': [25, 30, 35, 28, 42, 38],
    'departement': ['IT', 'RH', 'IT', 'Finance', 'RH', 'IT'],
    'salaire': [35000, 42000, 48000, 40000, 55000, 52000],
    'anciennete': [2, 5, 8, 3, 12, 10]
})

print("DataFrame des employ√©s :")
print(employes)

In [None]:
# Exploration du DataFrame
print("Informations g√©n√©rales :")
print(f"Shape : {employes.shape}")  # (6, 5)
print(f"Colonnes : {list(employes.columns)}")
print(f"\nTypes de donn√©es :")
print(employes.dtypes)

In [None]:
# Statistiques descriptives
print("Statistiques descriptives :")
print(employes.describe())

In [None]:
# S√©lection de colonnes
print("Noms et salaires :")
print(employes[['nom', 'salaire']])

print("\nSalaire moyen par d√©partement :")
print(employes.groupby('departement')['salaire'].mean())

In [None]:
# Filtrage
print("Employ√©s du d√©partement IT :")
print(employes[employes['departement'] == 'IT'][['nom', 'salaire']])

print("\nEmploy√©s de plus de 30 ans avec salaire > 45000 :")
print(employes[(employes['age'] > 30) & (employes['salaire'] > 45000)])

## Partie 3 : Analyse du Dataset Titanic

### 3.1 : Chargement et exploration initiale

In [None]:
# Charger le dataset Titanic
titanic = pd.read_csv('../data/titanic.csv')

print("Dataset Titanic charg√© avec succ√®s !")
print(f"Dimensions : {titanic.shape[0]} lignes x {titanic.shape[1]} colonnes")

In [None]:
# Premi√®res lignes
print("Les 5 premi√®res lignes du dataset :")
titanic.head()

In [None]:
# Informations sur le dataset
print("Informations sur le dataset :")
titanic.info()

In [None]:
# Statistiques descriptives
print("Statistiques descriptives :")
titanic.describe()

In [None]:
# V√©rifier les valeurs manquantes
print("Valeurs manquantes par colonne :")
missing = titanic.isnull().sum()
missing_pct = (missing / len(titanic) * 100).round(2)

missing_df = pd.DataFrame({
    'Nombre': missing,
    'Pourcentage': missing_pct
})
print(missing_df[missing_df['Nombre'] > 0].sort_values('Nombre', ascending=False))

### 3.2 : Questions d'analyse - Taux de survie

In [None]:
# Question 1 : Quel est le taux de survie global ?
survival_rate = titanic['Survived'].mean()
print(f"Taux de survie global : {survival_rate:.2%}")
print(f"Nombre de survivants : {titanic['Survived'].sum()} / {len(titanic)}")

In [None]:
# Question 2 : Taux de survie par classe
print("Taux de survie par classe :")
survival_by_class = titanic.groupby('Pclass')['Survived'].agg(['mean', 'sum', 'count'])
survival_by_class.columns = ['Taux de survie', 'Survivants', 'Total passagers']
survival_by_class['Taux de survie'] = survival_by_class['Taux de survie'].apply(lambda x: f"{x:.2%}")
print(survival_by_class)

print("\nüí° Insight : Les passagers de 1√®re classe ont un taux de survie nettement sup√©rieur")

In [None]:
# Question 3 : Taux de survie par sexe
print("Taux de survie par sexe :")
survival_by_sex = titanic.groupby('Sex')['Survived'].agg(['mean', 'sum', 'count'])
survival_by_sex.columns = ['Taux de survie', 'Survivants', 'Total passagers']
survival_by_sex['Taux de survie'] = survival_by_sex['Taux de survie'].apply(lambda x: f"{x:.2%}")
print(survival_by_sex)

print("\nüí° Insight : Les femmes ont un taux de survie beaucoup plus √©lev√© (principe 'femmes et enfants d'abord')")

In [None]:
# Question 4 : Taux de survie par classe ET par sexe
print("Taux de survie par classe et par sexe :")
survival_class_sex = titanic.groupby(['Pclass', 'Sex'])['Survived'].mean().unstack()
survival_class_sex = survival_class_sex.applymap(lambda x: f"{x:.2%}")
print(survival_class_sex)

print("\nüí° Insight : Les femmes de 1√®re et 2√®me classe ont un taux de survie tr√®s √©lev√©")

### 3.3 : Questions d'analyse - √Çge et d√©mographie

In [None]:
# Question 5 : √Çge moyen des passagers
avg_age = titanic['Age'].mean()
median_age = titanic['Age'].median()
std_age = titanic['Age'].std()

print(f"√Çge moyen : {avg_age:.1f} ans")
print(f"√Çge m√©dian : {median_age:.1f} ans")
print(f"√âcart-type : {std_age:.1f} ans")
print(f"Plus jeune : {titanic['Age'].min():.1f} ans")
print(f"Plus √¢g√© : {titanic['Age'].max():.1f} ans")

In [None]:
# Question 6 : √Çge moyen par classe
print("√Çge moyen par classe :")
age_by_class = titanic.groupby('Pclass')['Age'].agg(['mean', 'median', 'std'])
age_by_class.columns = ['Moyenne', 'M√©diane', '√âcart-type']
print(age_by_class.round(1))

In [None]:
# Question 7 : √Çge moyen des survivants vs non-survivants
print("√Çge moyen selon la survie :")
age_by_survival = titanic.groupby('Survived')['Age'].mean()
print(f"Non-survivants (0) : {age_by_survival[0]:.1f} ans")
print(f"Survivants (1) : {age_by_survival[1]:.1f} ans")

if age_by_survival[1] < age_by_survival[0]:
    print("\nüí° Insight : Les survivants sont en moyenne plus jeunes")
else:
    print("\nüí° Insight : Les survivants sont en moyenne plus √¢g√©s")

### 3.4 : Questions d'analyse - Prix et √©conomie

In [None]:
# Question 8 : Prix moyen des billets
print("Statistiques sur les prix des billets :")
print(f"Prix moyen : ¬£{titanic['Fare'].mean():.2f}")
print(f"Prix m√©dian : ¬£{titanic['Fare'].median():.2f}")
print(f"Prix minimum : ¬£{titanic['Fare'].min():.2f}")
print(f"Prix maximum : ¬£{titanic['Fare'].max():.2f}")

In [None]:
# Question 9 : Prix moyen par classe
print("Prix moyen des billets par classe :")
fare_by_class = titanic.groupby('Pclass')['Fare'].agg(['mean', 'median', 'min', 'max'])
fare_by_class.columns = ['Moyenne', 'M√©diane', 'Minimum', 'Maximum']
print(fare_by_class.round(2))

print("\nüí° Insight : Les billets de 1√®re classe sont significativement plus chers")

In [None]:
# Question 10 : Corr√©lation entre prix et survie
avg_fare_survived = titanic.groupby('Survived')['Fare'].mean()
print("Prix moyen du billet selon la survie :")
print(f"Non-survivants : ¬£{avg_fare_survived[0]:.2f}")
print(f"Survivants : ¬£{avg_fare_survived[1]:.2f}")

if avg_fare_survived[1] > avg_fare_survived[0]:
    print("\nüí° Insight : Les survivants ont pay√© en moyenne plus cher (meilleurs emplacements?)")

### 3.5 : Questions d'analyse - Ports d'embarquement

In [None]:
# Question 11 : Distribution des passagers par port
print("Nombre de passagers par port d'embarquement :")
embarked_counts = titanic['Embarked'].value_counts()
print(embarked_counts)
print("\nL√©gende : S = Southampton, C = Cherbourg, Q = Queenstown")

In [None]:
# Question 12 : Taux de survie par port d'embarquement
print("Taux de survie par port d'embarquement :")
survival_by_port = titanic.groupby('Embarked')['Survived'].agg(['mean', 'sum', 'count'])
survival_by_port.columns = ['Taux de survie', 'Survivants', 'Total']
survival_by_port['Taux de survie'] = survival_by_port['Taux de survie'].apply(lambda x: f"{x:.2%}")
survival_by_port.index = ['Cherbourg (C)', 'Queenstown (Q)', 'Southampton (S)']
print(survival_by_port)

### 3.6 : Questions d'analyse - Famille

In [None]:
# Question 13 : Analyse de la taille de la famille
# SibSp = nombre de fr√®res/s≈ìurs/conjoints
# Parch = nombre de parents/enfants
# Taille famille = SibSp + Parch + 1 (soi-m√™me)

titanic['FamilySize'] = titanic['SibSp'] + titanic['Parch'] + 1

print("Distribution de la taille des familles :")
print(titanic['FamilySize'].value_counts().sort_index())

print(f"\nTaille moyenne de famille : {titanic['FamilySize'].mean():.2f}")
print(f"Passagers seuls (FamilySize=1) : {(titanic['FamilySize']==1).sum()} ({(titanic['FamilySize']==1).mean():.2%})")

In [None]:
# Question 14 : Taux de survie selon la taille de la famille
print("Taux de survie selon la taille de la famille :")
survival_by_family = titanic.groupby('FamilySize')['Survived'].agg(['mean', 'count'])
survival_by_family.columns = ['Taux de survie', 'Nombre']
survival_by_family['Taux de survie'] = survival_by_family['Taux de survie'].apply(lambda x: f"{x:.2%}")
print(survival_by_family)

print("\nüí° Insight : Les familles de taille moyenne (2-4 personnes) semblent avoir un meilleur taux de survie")

## Partie 4 : Analyses avanc√©es avec groupby

In [None]:
# Analyse multi-crit√®res : Classe, Sexe et Survie
print("Nombre de passagers par classe et sexe :")
pivot_table = pd.crosstab(titanic['Pclass'], titanic['Sex'], margins=True)
print(pivot_table)

In [None]:
# Taux de survie avec pivot table
print("Taux de survie : Classe vs Sexe")
survival_pivot = pd.crosstab(titanic['Pclass'], titanic['Sex'], 
                             values=titanic['Survived'], aggfunc='mean')
survival_pivot = survival_pivot.applymap(lambda x: f"{x:.2%}")
print(survival_pivot)

In [None]:
# Statistiques compl√®tes par groupe
print("Statistiques d√©taill√©es par classe :")
stats_by_class = titanic.groupby('Pclass').agg({
    'Survived': ['mean', 'sum'],
    'Age': ['mean', 'median'],
    'Fare': ['mean', 'median'],
    'PassengerId': 'count'  # Nombre total
})
stats_by_class.columns = ['Taux survie', 'Nb survivants', '√Çge moy', '√Çge m√©dian', 
                          'Prix moy', 'Prix m√©dian', 'Total']
print(stats_by_class.round(2))

## üìä R√©sum√© des insights cl√©s

### Facteurs de survie identifi√©s :

1. **Sexe** : Les femmes ont un taux de survie beaucoup plus √©lev√© (~74% vs ~19% pour les hommes)
2. **Classe** : La 1√®re classe a le meilleur taux de survie (~63%), puis 2√®me (~47%), puis 3√®me (~24%)
3. **√Çge** : Les survivants sont l√©g√®rement plus jeunes en moyenne
4. **Prix du billet** : Corr√©l√© avec la classe, les billets plus chers ont un meilleur taux de survie
5. **Taille de la famille** : Les familles de taille moyenne ont un meilleur taux de survie

### Prochaines √©tapes (Session 15) :
- Nettoyer les donn√©es (valeurs manquantes)
- Cr√©er de nouvelles variables (feature engineering)
- Pr√©parer les donn√©es pour la mod√©lisation

## üéì Exercices suppl√©mentaires

### Exercice A : Filtrage avanc√©
1. Trouvez tous les passagers de moins de 18 ans en 3√®me classe
2. Calculez leur taux de survie
3. Comparez avec les adultes de 3√®me classe

In [None]:
# Votre code ici


### Exercice B : Analyses personnalis√©es
1. Cr√©ez une colonne 'AgeGroup' avec les cat√©gories : Enfant (<18), Adulte (18-60), Senior (>60)
2. Calculez le taux de survie par groupe d'√¢ge
3. Analysez la distribution des prix pour chaque groupe

In [None]:
# Votre code ici


### Exercice C : Questions m√©tier
R√©pondez aux questions suivantes avec du code pandas :
1. Quelle est la proportion de femmes dans chaque classe ?
2. Quel est le prix moyen pay√© par les survivants vs non-survivants dans chaque classe ?
3. Y a-t-il une diff√©rence de taux de survie entre les passagers avec et sans famille ?

In [None]:
# Votre code ici
