# *** Introduction à la bibliothèque Pandas ***

Dans cette section, nous apprenons :
* Comment charger un DataFrame pandas
* Sauvegarder un DataFrame dans un fichier CSV (Commma Separated File).
* Créer ou transformer d'autres types de données en un DataFrame.
* Examiner les données d'un DataFrame
* Indexation et sélection de segments/tranches de notre cadre de données
* Découpage en tranches en utilisant iloc
* Opérations numériques sur des séries
* Cadres de données Pandas
* Statistiques descriptives sur les séries
* Statistiques descriptives sur les DataFrames
* Filtrage à l'aide d'opérations booléennes
* Trouver les cellules vides avec isnull()
* Combinaison de filtrage booléen

In [None]:
# Importer la bibliothèque Pandas
from pandas import Series as S
import pandas as pd

pd.set_option('display.max_rows', 1500)
pd.set_option('display.max_columns', 1500)

### Connaître la série Pandas.

In [None]:
# Créer une liste simple en python [1,4,3,7,2,6,3]
liste = [1, 4, 3, 7, 2, 6, 3]

In [None]:
# Construire une série pandas appelée 'a' à partir de la liste crée précédemment
a = S(data=liste)

In [None]:
# Afficher le type de 'a'
print(type(a))

### Opérations simples sur les séries, telles que le tri, le maximum, le nombre, la somme, etc. 

In [None]:
# Afficher le max de 'a'

print(S.max(a))

In [None]:
# Afficher le min de 'a'

print(S.min(a))

In [None]:
# Trier a en utilisant tous les paramètres par défaut

print(S.sort_values(a))

In [None]:
# Trier en plaçant le plus grand nombre en premier (Ordre décroissant)

print(S.sort_values(a, ascending = False))

In [None]:
# Afficher a

print(a)

In [None]:
# Appliquer le changement sur "a" en utilisant le "inplace"

S.sort_values(a, ascending = False, inplace = True)

In [None]:
# Compter le nombre d'appartenances de chaque numéro dans 'a'

S.value_counts(a)

## Création de dataframes à partir de sources non csv. 
#### Les DataFrames peuvent être chargés à partir de feuilles excel, de listes python, de dictionnaires et plus encore !

In [None]:
# Créer une liste 'list_a' contenant ['a', 'b', 'c']

list_a = ['a', 'b', 'c']

In [None]:
# Contruire une nouvelle dataframe 'df_a' à partir de la liste 'list_a'

df_a = S(list_a)

In [None]:
# Construire une dataframe 'dict_df' à partir d'un dictionnaire {'http_status': [200,200,404,404,301],'response_time': [0.04, 0.02, 0.07, 0.08, 1.0]}
from pandas import DataFrame as DF
dico = {'http_status' : [200,200,404,404,301], 'response_time' : [0.04, 0.02, 0.07, 0.08, 1.0]}
dict_df = DF(dico)

## Chargement de données depuis une source github

In [None]:
# Charger le fichier CSV en utilisant pandas et en exploitant ce lien github "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/titanic.csv"
# Nommer le dataframe 'df'
import pandas
df = pandas.read_csv("https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/titanic.csv")
df

In [None]:
# Sauvegarder le dataframe au format CSV
import os
df.to_csv(os.getcwd() + '\\Dataframes\\Titanic.csv')

# Sauvegarder le dataframe au format Excel

df.to_excel(os.getcwd() + '\\Dataframes\\Titanic.xlsx')

# Examiner le DataFrame 'df'

In [None]:
# Afficher les 10 premières lignes du dataframe 'df'

print(df[0:10])

**Description des colonnes**

* pclass : classe de voyage
* nom : nom complet du passager
* sexe : genre
* age : âge numérique
* sibsp : # nombre de frères et sœurs/conjoints à bord
* parch : nombre de parents/enfants à bord
* ticket : numéro du billet
* fare : coût du billet
* cabin : emplacement de la chambre
* emarked : port où le passager a embarqué (C - Cherbourg, S - Southampton, Q = Queenstown)
* survécu : métrique de survie (0 - mort, 1 - survivant)

In [None]:
# Explorer le dataframe 'df' à l'aide d'un résumer statistiques

df.describe()

In [None]:
# Afficher les informations fondamentales du dataframe 'df' 

df.info()

In [None]:
# Afficher le type de chaque colonne dans le dataframe 'df'.

df.dtypes

In [None]:
# Afficher les noms des colonnes du dataframe 'df'

df.columns

In [None]:
# Afficher la colonne 'name' du dataframe 'df'

print(df['name'])

# Indexation et sélection des segments du 'df'

In [None]:
# Afficher les 5 premières lignes du 'df'

print(df[0 : 5])

In [None]:
# Utiliser la fonction .loc pour Afficher les 'name' de la deuxième ligne

print(df.loc[1, 'name'])

In [None]:
# Utiliser la fonction .loc pour Afficher les 'name' de toutes les lignes

print(df.loc[:, 'name'])

In [None]:
# Utiliser la fonction .loc pour mettre les 'name' de toutes les lignes dans une variable appelée 'names'

names = df.loc[:, 'name']

In [None]:
# Afficher les 5 premiéres lignes du 'names'

print(names[0 : 5])

In [None]:
# Utiliser la fonction .loc pour Afficher la première ligne avec toutes les colonnes

print(df.loc[0])

In [None]:
# Utiliser la fonction .iloc pour Afficher la première ligne avec la deuxiéme colonne

print(df.iloc[0, 1])

In [None]:
# Utiliser la fonction .iloc pour Afficher toutes les colonnes pour la première ligne

print(df.iloc[0])

### Note : Un objet pandas 1-Dim est une série. Un objet pandas 2-Dim est un dataframe.

In [None]:
# Utiliser la fonction .loc pour Afficher toutes les lignes des colonnes "name" et "sex"

print(df.loc[:, 'name':'sex'])

In [None]:
# Afficher toutes les lignes des colonnes "name" et "sex" sans la fonction .loc

dico = {'name' : df[:]['name'], 'sex' : df[:]['sex']}

print(DF(dico))

In [None]:
# Utiliser la fonction .loc pour Afficher toutes les colonnes pour les lignes 2,3 et 4

print(df.loc[2:5, :])

# Opérations numériques sur les dataframes

In [None]:
# Contruire une dataframe 'simple_df' contenant deux colonnes 'a' et 'b' et 5 lignes 
#'a': [1,2,3,4,5],'b': [5, 15, 10, 20, 15]

dico = {'a': [1,2,3,4,5],'b': [5, 15, 10, 20, 15]}

simple_df = DF(dico)

In [None]:
# mettre la colonne 'a' du dataframe dans une variable appelée a

a = simple_df.loc[:, 'a']

In [None]:
# mettre la colonne 'b' du dataframe dans une variable appelée b

b = simple_df.loc[:, 'b']

In [None]:
# Calculer 'c' la somme de a et b

simple_df['c'] = simple_df['a'] + simple_df['b']

# Descriptives Statistiques sur les dataframes

In [None]:
# Afficher le max de 'a'

print(S.max(a))

In [None]:
# Afficher le min de 'a'

print(S.min(a))

In [None]:
# Afficher la moyenne de 'a'

print(S.mean(a))

In [None]:
# Afficher la median de 'a'

print(S.median(a))

In [None]:
# Calculer la somme de 'b'

print(S.sum(b))

In [None]:
# Afficher 'b'

print(b)

In [None]:
# Compter le nombre d'appartenances de chaque numéro dans 'b'

print(S.value_counts(b))

In [None]:
# Explorer le dataframe 'b' à l'aide d'un résumer statistiques

b.describe()

In [None]:
# Afficher les informations fondamentales de la colonne 'sex' du datframe 'df'
df['sex'].info()
print("\n")
# count - nombre de lignes ou de valeurs dans cette colonne
print(df['sex'].count())
print("\n")
# unique - nombre de catégories uniques dans la colonne
print(df['sex'].unique())
print("\n")
# top - catégorie la plus peuplée
print(df['sex'].mode())
print("\n")
# freq - compte de la catégorie la plus populaire
print(df['sex'].value_counts()[0])

In [None]:
# Afficher les valeurs existantes de la colonne 'pclass' du dataframe df

df['pclass']

In [None]:
# Afficher les moyennes des deux colonnes 'fare' et 'age' du dataframe 'df'

print(f"Moyenne de 'fare': {S.mean(df['fare'])} \nMoyenne de 'age': {S.mean(df['age'])}")

### Visualizing Axis
```
+------------+---------+--------+
|            |  A      |  B     |
+------------+---------+---------
|      0     | 10      | 15     |----axis=1----->
+------------+---------+--------+
             |         |
             | axis=0  |
             ↓         ↓
```



In [None]:
# Afficher les moyennes des deux colonnes 'fare' et 'age' du dataframe 'df' en spécifiant axe = 0

print(f"Moyenne de 'fare': {S.mean(df['fare'], axis = 0)} \nMoyenne de 'age': {S.mean(df['age'], axis = 0)}")

In [None]:
# Afficher les moyennes des deux colonnes 'fare' et 'age' du dataframe 'df' en spécifiant axe = 1

try:
    print(f"Moyenne de 'fare': {S.mean(df['fare'], axis = 1)} \nMoyenne de 'age': {S.mean(df['age'], axis = 1)}")
except ValueError:
    print("axe invalide")

In [None]:
# Afficher les moyennes des colonnes du 'df' on appliquant 'numeric_only=True'

print(DF.mean(df, numeric_only = True))

# Filtrage à l'aide d'opérations booléennes

In [None]:
# Afficher l'indice des lignes du dataframe où 'pclass' est égal à 1.

df['pclass'] == 1

In [None]:
# Afficher l'indice des lignes du dataframe où 'age' supérieur à 70

df['age'] > 70

In [None]:
# Afficher tout le dataframe df où 'age' supérieur à 70

df[df['age'] > 70]

In [None]:
# Afficher la ligne du 'df' où 'name' égale à 'Barkworth, Mr. Algernon Henry Wilson'

df[df['name'] == "Barkworth, Mr. Algernon Henry Wilson"]

# Trouver les cellules vides 

In [None]:
# Afficher le dataframe boléen du 'df' où les valeurs manquantes sont true et existantes sont false

df.isna()

In [None]:
# Montrer les valeurs manquantes de la colonne 'cabin'

df[df['cabin'].isna()]

In [None]:
# Afficher le dataframe df sans les valeurs manquantes de la colonne 'cabin'

df[df['cabin'].notna()]