# Initiation Pandas

## Exercice 1 - Chargement des données

In [1]:
import pandas as pd

# Charger le fichier "titanic.csv" dans un DataFrame
titanic_df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

#### Afficher les 5 premières lignes du DataFrame


In [77]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Exploration des données

In [3]:
# Nombre total de passagers dans le Titanic
total_passengers = len(titanic_df)

# Pourcentage de passagers qui ont survécu
percentage_survived = (titanic_df["Survived"].sum() / total_passengers) * 100

print("Nombre total de passagers:", total_passengers)
print("Pourcentage de passagers qui ont survécu:", percentage_survived, "%")


Nombre total de passagers: 891
Pourcentage de passagers qui ont survécu: 38.38383838383838 %


## Exercice 3 - Analyse des âges 

In [4]:
# Âge moyen des passagers
average_age = titanic_df["Age"].mean()

# Âge le plus fréquent des passagers
most_frequent_age = titanic_df["Age"].mode()[0]

print("Âge moyen des passagers:", average_age)
print("Âge le plus fréquent des passagers:", most_frequent_age)


Âge moyen des passagers: 29.69911764705882
Âge le plus fréquent des passagers: 24.0


#### Ecercice 4 - Filtrage des données


In [5]:
# Créer un nouveau DataFrame contenant uniquement les passagers qui ont survécu
survived_df = titanic_df[titanic_df["Survived"] == 1]

# Créer un nouveau DataFrame contenant uniquement les passagers qui n'ont pas survécu
non_survived_df = titanic_df[titanic_df["Survived"] == 0]


In [6]:
survived_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [7]:
non_survived_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


## Exercice 5 - Statistiques des tarifs

In [8]:
# Tarif minimum, maximum, moyen et médian payé par les passagers
min_fare = titanic_df["Fare"].min()
max_fare = titanic_df["Fare"].max()
mean_fare = titanic_df["Fare"].mean()
median_fare = titanic_df["Fare"].median()

print("Tarif minimum payé par les passagers:", min_fare)
print("Tarif maximum payé par les passagers:", max_fare)
print("Tarif moyen payé par les passagers:", mean_fare)
print("Tarif médian payé par les passagers:", median_fare)


Tarif minimum payé par les passagers: 0.0
Tarif maximum payé par les passagers: 512.3292
Tarif moyen payé par les passagers: 32.2042079685746
Tarif médian payé par les passagers: 14.4542


## Exercice 6 - traitement des valeurs manquantes 

In [15]:
# Charger le fichier "sales_data.csv" dans un DataFrame
sales_df = pd.read_csv("data/sales_data.csv")

# Afficher le nombre de valeurs manquantes dans chaque colonne du DataFrame
missing_values = sales_df.isnull().sum()

print(missing_values)


Date                0
Day                 0
Month               0
Year                0
Customer_Age        0
Age_Group           0
Customer_Gender     0
Country             0
State               0
Product_Category    0
Sub_Category        0
Product             0
Order_Quantity      0
Unit_Cost           0
Unit_Price          0
Profit              0
Cost                0
Revenue             0
dtype: int64


## Exercice 7 - Supression des doublons

In [33]:
# Charger le fichier "GlobalLandTemperaturesByMajorCity.csv" dans un DataFrame
data = pd.read_csv("data/GlobalLandTemperaturesByMajorCity.csv")
print( " size before ", len(data))
# Supprimer les lignes en double du DataFrame
data.drop_duplicates(inplace=True)
print( "size after ", len(data))



 size before  239177
size after  239177


## Exercices 8 - Remplacement des valeurs incorrectes

In [34]:
# Remplacer les valeurs négatives dans la colonne "temperature" par leur valeur absolue
data.AverageTemperature = data.AverageTemperature.abs()
data.AverageTemperature.min()

0.0

## Exercice 9 - Extraction des données

In [66]:
import pandas as pd

# Charger le fichier "email_jetable.csv" dans un DataFrame
emails_df = pd.read_csv("data/email_jetable.csv")
emails_df.columns=[ 'index', 'emails' ]
# Extraire les domaines des adresses e-mail
emails_df["extension"] = emails_df["emails"].apply(lambda x: x.split(".")[1])
emails_df.extension.unique()


array(['com', 'net', 'org', 'us', 'de', 'ht', 'info', 'lawlita', 'fr',
       'blogos', 'in', 'it', 'w3internet', 'tk', 'co', 'biz', 'eu', 'by',
       'mezimages', 'lv', 'cc', 'zik', 'nu', 'web', 'wwwnew', 'ws', 'xl',
       'ze', 'at', 'me', 'comsafe-mail', 'naar', 'la', 'ru', '1s'],
      dtype=object)

## Exercice 10 - Transformations des données

In [76]:
# Charger le fichier "student_grades.csv" dans un DataFrame et donner des noms aux colonnes
columns = ['ID', 'salle', 'note']
grades_df = pd.read_csv("data/student_grades.csv", names=columns, header=0)

# Ajouter une colonne "note_dec" contenant les notes de 0 à 17 (E- à A+)
grade_mapping = {
    'E-': 0, 'E': 1, 'E+': 2,
    'D-': 3, 'D': 4, 'D+': 5,
    'C-': 6, 'C': 7, 'C+': 8,
    'B-': 9, 'B': 10, 'B+': 11,
    'A-': 12, 'A': 13, 'A+': 14
}

grades_df['note_dec'] = grades_df['note'].map(grade_mapping)

# Convertir les notes pour qu'elles soient entre 0 et 20 en appliquant une fonction
def convert_to_20scale(grade):
    return grade * 20 / 14

grades_df['note_20scale'] = grades_df['note_dec'].apply(convert_to_20scale)

# Ajouter une colonne "result" qui contiendra "Réussite" pour les étudiants ayant une note supérieure ou égale à 10, sinon "Échec".
grades_df['result'] = grades_df['note_20scale'].apply(lambda x: "Réussite" if x >= 10 else "Échec")

# Afficher le DataFrame final
print(grades_df)


           ID  salle note  note_dec  note_20scale    result
0   401767594      3   B-         9     12.857143  Réussite
1   678665086      4   A+        14     20.000000  Réussite
2   678665086      3   A+        14     20.000000  Réussite
3   553725811      2    C         7     10.000000  Réussite
4   678665086      1    B        10     14.285714  Réussite
5   886308195      1    A        13     18.571429  Réussite
6   103066521      2    C         7     10.000000  Réussite
7   103066521      3   C-         6      8.571429     Échec
8   821568627      4    D         4      5.714286     Échec
9   821568627      2   A+        14     20.000000  Réussite
10  821568627      1    B        10     14.285714  Réussite
11  206208438      2    A        13     18.571429  Réussite
12  206208438      1   C+         8     11.428571  Réussite
13  341324754      2   D-         3      4.285714     Échec
14  341324754      1   A-        12     17.142857  Réussite
15  103066521      4    A        13     