# PANDAS

In [437]:
import pandas as pd
from IPython.display import display, Markdown

## 1 - Création d’un DataFrame à partir du fichier CSV

- Chargez le fichier `titanic.csv` dans un DataFrame nommé `titanic_df`.
- Affichez les 5 premières lignes pour inspecter les données.

In [438]:
# Charger le fichier des passagers du titanic
fichier_titanic = './data/titanic.csv'
titanic_df = pd.read_csv(fichier_titanic)

# Afficher un aperçu des passagers
display(Markdown("### Aperçu des passagers"))
display(titanic_df.head())

### Aperçu des passagers

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 2 - Exploration des données

- Trouvez le nombre total de passagers dans le Titanic.
- Déterminez le pourcentage de passagers qui ont survécu.

In [439]:
# Afficher le nombre total de passagers
nombre_total_passagers = titanic_df.shape[0]
display(Markdown(f"**Nombre total de passagers :** {nombre_total_passagers}"))

# Afficher le pourcentage de survivants
pourcentage_survécus = titanic_df['Survived'].mean() * 100
display(Markdown(f"**Pourcentage de passagers ayant survécu :** {pourcentage_survécus:.2f}%"))

**Nombre total de passagers :** 891

**Pourcentage de passagers ayant survécu :** 38.38%

## 3 - Analyse des âges

- Calculez l'âge moyen des passagers.
- Trouvez l'âge le plus fréquent des passagers.

In [440]:
# Afficher l'âge moyen
age_moyen = titanic_df['Age'].mean()
display(Markdown(f"**Âge moyen des passagers :** {age_moyen:.2f} ans"))

# Afficher l'âge le plus fréquent
age_mode = titanic_df['Age'].mode()[0]
display(Markdown(f"**Âge le plus fréquent des passagers :** {age_mode} ans"))

**Âge moyen des passagers :** 29.70 ans

**Âge le plus fréquent des passagers :** 24.0 ans

## 4 - Filtrage des données

- Créez un nouveau DataFrame "survived_df" contenant uniquement les passagers qui ont survécu.
- Créez un nouveau DataFrame "non_survived_df" contenant uniquement les passagers qui n'ont pas survécu.

In [441]:
# Séparer les passagers selon leur survie
survived_df = titanic_df[titanic_df['Survived'] == 1]
non_survived_df = titanic_df[titanic_df['Survived'] == 0]

# Afficher le nombre de passagers dans chaque groupe
display(Markdown(f"**Nombre de passagers ayant survécu :** {survived_df.shape[0]}"))
display(Markdown(f"**Nombre de passagers n'ayant pas survécu :** {non_survived_df.shape[0]}"))

**Nombre de passagers ayant survécu :** 342

**Nombre de passagers n'ayant pas survécu :** 549

## 5 - Statistiques des tarifs

- Trouvez le tarif minimum, maximum, moyen et médian payé par les passagers.

In [442]:
# Calculer les statistiques des tarifs
tarif_min = titanic_df['Fare'].min()
tarif_max = titanic_df['Fare'].max()
tarif_moyen = titanic_df['Fare'].mean()
tarif_median = titanic_df['Fare'].median()

# Afficher les statistiques des tarifs payés
display(Markdown(f"**Tarif minimum payé :** £ {tarif_min:.2f}"))
display(Markdown(f"**Tarif maximum payé :** £ {tarif_max:.2f}"))
display(Markdown(f"**Tarif moyen payé :** £ {tarif_moyen:.2f}"))
display(Markdown(f"**Tarif médian payé :** £ {tarif_median:.2f}"))

**Tarif minimum payé :** £ 0.00

**Tarif maximum payé :** £ 512.33

**Tarif moyen payé :** £ 32.20

**Tarif médian payé :** £ 14.45

## 6 - Traitement des valeurs manquantes

- Chargez le fichier `sales_data.csv` dans un DataFrame nommé `sales_df`.
- Affichez les 5 premières lignes pour inspecter les données.
- Affichez le nombre de valeurs manquantes dans chaque colonne du DataFrame.

In [443]:
# Charger le fichier des ventes
fichier_sales = './data/sales_data.csv'
sales_df = pd.read_csv(fichier_sales)

# Afficher un aperçu des ventes
display(Markdown("### Aperçu des ventes"))
display(sales_df.head())

# Afficher le nombre de valeurs manquantes par colonne
display(Markdown("### Nombre de valeurs manquantes par colonne"))
display(sales_df.isnull().sum())

### Aperçu des ventes

Unnamed: 0,Date,Day,Month,Year,Customer_Age,Age_Group,Customer_Gender,Country,State,Product_Category,Sub_Category,Product,Order_Quantity,Unit_Cost,Unit_Price,Profit,Cost,Revenue
0,2013-11-26,26,November,2013,19,Youth (<25),M,Canada,British Columbia,Accessories,Bike Racks,Hitch Rack - 4-Bike,8,45,120,590,360,950
1,2015-11-26,26,November,2015,19,Youth (<25),M,Canada,British Columbia,Accessories,Bike Racks,Hitch Rack - 4-Bike,8,45,120,590,360,950
2,2014-03-23,23,March,2014,49,Adults (35-64),M,Australia,New South Wales,Accessories,Bike Racks,Hitch Rack - 4-Bike,23,45,120,1366,1035,2401
3,2016-03-23,23,March,2016,49,Adults (35-64),M,Australia,New South Wales,Accessories,Bike Racks,Hitch Rack - 4-Bike,20,45,120,1188,900,2088
4,2014-05-15,15,May,2014,47,Adults (35-64),F,Australia,New South Wales,Accessories,Bike Racks,Hitch Rack - 4-Bike,4,45,120,238,180,418


### Nombre de valeurs manquantes par colonne

Date                0
Day                 0
Month               0
Year                0
Customer_Age        0
Age_Group           0
Customer_Gender     0
Country             0
State               0
Product_Category    0
Sub_Category        0
Product             0
Order_Quantity      0
Unit_Cost           0
Unit_Price          0
Profit              0
Cost                0
Revenue             0
dtype: int64

## 7 - Suppression des doublons

- Chargez le fichier `GlobalLandTemperaturesByMajorCity.csv` dans un DataFrame nommé `duplicate_df`.
- Supprimez les lignes en double du DataFrame.
- Afficher la taille des Dataframes avant et après

In [444]:
# Charger le fichier des températures par ville
fichier_temperature = './data/GlobalLandTemperaturesByMajorCity.csv'
duplicate_df = pd.read_csv(fichier_temperature)

# Afficher la taille avant suppression
display(Markdown(f"**Taille avant suppression des doublons :** {duplicate_df.shape}"))

# Supprimer les lignes dupliquées
duplicate_df = duplicate_df.drop_duplicates()

# Afficher la taille après suppression
display(Markdown(f"**Taille après suppression des doublons :** {duplicate_df.shape}"))

**Taille avant suppression des doublons :** (239177, 7)

**Taille après suppression des doublons :** (239177, 7)

## 8 - Remplacement des valeurs incorrectes

- Chargez le fichier `GlobalLandTemperaturesByMajorCity.csv` dans un DataFrame nommé `temperature_df`.
- Remplacez les valeurs négatives dans la colonne "AverageTemperature" par la valeur absolue de ces valeurs.
- Afficher le minimum avant et après

In [445]:
# Réutilisation du fichier des températures par ville
temperature_df = pd.read_csv(fichier_temperature)

# Afficher la température minimale avant modification
min_avant = temperature_df['AverageTemperature'].min()
display(Markdown(f"**Température minimale avant modification :** {min_avant} °C"))

# Remplacer les valeurs négatives par leur valeur absolue
temperature_df['AverageTemperature'] = temperature_df['AverageTemperature'].abs()

# Afficher la température minimale après modification
min_apres = temperature_df['AverageTemperature'].min()
display(Markdown(f"**Température minimale après modification :** {min_apres} °C"))

**Température minimale avant modification :** -26.772 °C

**Température minimale après modification :** 0.0 °C

## 9 - Extraction de données

- Chargez le fichier `email_jetable.csv` dans un DataFrame nommé `emails_df`.
- Donnez un nom aux colonnes: [index, emails]
- Créez une nouvelle colonne "extension" contenant uniquement l’extension du domaines des adresses e-mail (com, fr etc…).
- Affichez les valeurs unique de la colonne “extension”

In [446]:
# Charger le fichier des emails jetables avec les colonnes index et emails
fichier_emails = './data/email_jetable.csv'
emails_df = pd.read_csv(fichier_emails, names=['index', 'emails'])

# Extraire l’extension de chaque email
emails_df['extension'] = emails_df['emails'].str.extract(r'\.([a-zA-Z]+)$')

# Afficher les extensions uniques
extensions_uniques = emails_df['extension'].dropna().unique()
display(Markdown("### Extensions uniques présentes dans le fichier :"))
display(Markdown(", ".join(sorted(extensions_uniques))))

# Afficher un aperçu des emails et de leurs extensions
display(Markdown("### Aperçu des emails et de leurs extensions"))
display(emails_df.head())

### Extensions uniques présentes dans le fichier :

at, biz, br, by, cc, com, cx, de, dj, eu, fr, gravel, id, in, info, it, la, lv, me, net, nf, nu, org, ru, tc, tk, to, uk, us, ws

### Aperçu des emails et de leurs extensions

Unnamed: 0,index,emails,extension
0,1,0815.ru0clickemail.com,com
1,2,0-mail.com,com
2,3,0wnd.net,net
3,4,0wnd.org,org
4,5,10minutemail.com,com



## 10 - Transformation de données

- Chargez le fichier `student_grades.csv` dans un DataFrame nommé `grades_df`.
- Donnez un nom aux colonnes: ['ID','salle','note']
- Ajoutez une colonne “note_dec” qui contient les notes de 0 à 17 (F- à A+)
- Convertissez les notes pour qu’elles soient entre 0 et 20 en appliquant une fonction
- Ajoutez une colonne "result" qui contiendra "Réussite" pour les étudiants ayant une note supérieure ou égale à 10, sinon "Échec".

In [447]:
# Charger le fichier des notes des étudiants en donnant un nom aux colonnes ID, salle et note
fichier_grades = './data/student_grades.csv'
grades_df = pd.read_csv(fichier_grades, names=['ID', 'salle', 'note'])

# Définir la correspondance des notes
conversion_notes = {
    'F-': 0, 'F': 1, 'F+': 2,
    'E-': 3, 'E': 4, 'E+': 5,
    'D-': 6, 'D': 7, 'D+': 8,
    'C-': 9, 'C': 10, 'C+': 11,
    'B-': 12, 'B': 13, 'B+': 14,
    'A-': 15, 'A': 16, 'A+': 17
}

# Créer la colonne note_dec avec les nombres correspondant
grades_df['note_dec'] = grades_df['note'].map(conversion_notes)

# Normaliser sur 20
grades_df['note_sur_20'] = grades_df['note_dec'] * 20 / 17
grades_df['note_sur_20'] = grades_df['note_sur_20'].apply(lambda x: round(x * 2) / 2)

# Créer la colonne résultat avec Réussite ou Échec
grades_df['result'] = grades_df['note_sur_20'].apply(lambda x: "Réussite" if x >= 10 else "Échec")

# Afficher les notes des étudiants
display(Markdown("### Notes des étudiants sur 20 et résultats"))
display(grades_df)

### Notes des étudiants sur 20 et résultats

Unnamed: 0,ID,salle,note,note_dec,note_sur_20,result
0,401767594,4,C,10,12.0,Réussite
1,401767594,3,B-,12,14.0,Réussite
2,678665086,4,A+,17,20.0,Réussite
3,678665086,3,A+,17,20.0,Réussite
4,553725811,2,C,10,12.0,Réussite
5,678665086,1,B,13,15.5,Réussite
6,886308195,1,A,16,19.0,Réussite
7,103066521,2,C,10,12.0,Réussite
8,103066521,3,C-,9,10.5,Réussite
9,821568627,4,D,7,8.0,Échec
