In [1]:
# https://pandas.pydata.org/docs/user_guide/10min.html#selection

import pandas
import numpy

In [2]:
# Une dataframe est une structure de données
# Elle est composée de cellules (lignes + colonnes)
# On peut créer une dataframe a partir d'une liste
phones = [
    "1-874-163-4813", 
    "(152) 728-6139",
    "1-172-472-4611", 
    "(545) 855-6787",
    "(545) 895-6887",
    "1-874-163-4813"
]

names = [
    "AISSATA",
    "GUEYE Oumy",
    "SERE Kader",
    "YANON Olivier",
    "DOSSO Rodrigue",
    "KUASSI Isreal",
]

sexes = [
    "Female",
    "Female",
    "Male",
    "Male",
    "Male",
    "Male",
]

salary = [
    "$300",
    "$455",
    "$656",
    "$200",
    "$700",
    "$861",
]

# Ici on créer la dataframe a partir de la liste phones
# La liste est passer en paramètre via un argument de position data
pandas.DataFrame(data=phones)

Unnamed: 0,0
0,1-874-163-4813
1,(152) 728-6139
2,1-172-472-4611
3,(545) 855-6787
4,(545) 895-6887
5,1-874-163-4813


In [3]:
# Dans l'exécution précédente vous remarquez un colonne 0
# Il est possible avec pandas de définir le nom d'une colonne
# Il suffit de passer en paramètre l'argument de position columns
pandas.DataFrame(data=phones, columns=['phones'])


Unnamed: 0,phones
0,1-874-163-4813
1,(152) 728-6139
2,1-172-472-4611
3,(545) 855-6787
4,(545) 895-6887
5,1-874-163-4813


In [4]:
# On peut y mettre plusieurs données
# Approche par la syntax du dictionnaire
# Utiliser l'approche du dictionnaire donnerais ceci:
pandas.DataFrame(data={'phones': phones})


Unnamed: 0,phones
0,1-874-163-4813
1,(152) 728-6139
2,1-172-472-4611
3,(545) 855-6787
4,(545) 895-6887
5,1-874-163-4813


In [5]:
# On peut y mettre plusieurs données
# Ici pour la création il faut que toutes les listes aient la même longueur
# Condition len(phones) => len(names) => len(salary)...
# Approche par la syntax du dictionnaire
# Utiliser l'approche du dictionnaire donnerais ceci:
pandas.DataFrame(data={'phones': phones, 'names': names})


Unnamed: 0,phones,names
0,1-874-163-4813,AISSATA
1,(152) 728-6139,GUEYE Oumy
2,1-172-472-4611,SERE Kader
3,(545) 855-6787,YANON Olivier
4,(545) 895-6887,DOSSO Rodrigue
5,1-874-163-4813,KUASSI Isreal


In [6]:
# On peut y mettre plusieurs données
# Ainsi formons notre dataframe au complet
pandas.DataFrame(data={
    'phones': phones, 
    'names': names,
    'sexes': sexes,
    'salary': salary,
})

Unnamed: 0,phones,names,sexes,salary
0,1-874-163-4813,AISSATA,Female,$300
1,(152) 728-6139,GUEYE Oumy,Female,$455
2,1-172-472-4611,SERE Kader,Male,$656
3,(545) 855-6787,YANON Olivier,Male,$200
4,(545) 895-6887,DOSSO Rodrigue,Male,$700
5,1-874-163-4813,KUASSI Isreal,Male,$861


In [7]:
# Affecttons la dataframe a une variable
dataframe = pandas.DataFrame(data={
    'phones': phones,
    'names': names,
    'sexes': sexes,
    'salary': salary,
})

In [8]:
# Afficher les informations de la dataframe
# Afficher les 3 premieres lignes
dataframe.head(n=3)

Unnamed: 0,phones,names,sexes,salary
0,1-874-163-4813,AISSATA,Female,$300
1,(152) 728-6139,GUEYE Oumy,Female,$455
2,1-172-472-4611,SERE Kader,Male,$656


In [9]:
# Afficher les informations de la dataframe
# Afficher les 3 dernières lignes
dataframe.tail(n=3)


Unnamed: 0,phones,names,sexes,salary
3,(545) 855-6787,YANON Olivier,Male,$200
4,(545) 895-6887,DOSSO Rodrigue,Male,$700
5,1-874-163-4813,KUASSI Isreal,Male,$861


In [10]:
# Afficher les informations de la dataframe
# Afficher une colonne
# Première approche
dataframe['names']


0           AISSATA
1        GUEYE Oumy
2        SERE Kader
3     YANON Olivier
4    DOSSO Rodrigue
5     KUASSI Isreal
Name: names, dtype: object

In [11]:
# Afficher les informations de la dataframe
# Afficher une colonne
# Deuxième approche
dataframe.names


0           AISSATA
1        GUEYE Oumy
2        SERE Kader
3     YANON Olivier
4    DOSSO Rodrigue
5     KUASSI Isreal
Name: names, dtype: object

In [12]:
# Afficher les informations de la dataframe
# Afficher deux colonnes comme étant une sous dataframe
# Première approche
dataframe[['names', 'phones']]

Unnamed: 0,names,phones
0,AISSATA,1-874-163-4813
1,GUEYE Oumy,(152) 728-6139
2,SERE Kader,1-172-472-4611
3,YANON Olivier,(545) 855-6787
4,DOSSO Rodrigue,(545) 895-6887
5,KUASSI Isreal,1-874-163-4813


In [13]:
# Afficher les informations de la dataframe
# Afficher les dimensions de la dataframe
# On utilise l'attribut shape
dataframe.shape


(6, 4)

In [14]:
# Afficher les informations de la dataframe
# Afficher le nom des colonnes de la dataframe
# Il faut utiliser l'attribut columns
dataframe.columns


Index(['phones', 'names', 'sexes', 'salary'], dtype='object')

In [15]:
# Afficher les informations de la dataframe
# Afficher le nom des colonnes de la dataframe
# Il faut utiliser l'attribut columns
# Le type Index par défaut peut être caster en list
list(dataframe.columns)


['phones', 'names', 'sexes', 'salary']

In [16]:
# Afficher les informations de la dataframe
# Afficher la description de la dataframe
dataframe.describe()


Unnamed: 0,phones,names,sexes,salary
count,6,6,6,6
unique,5,6,2,6
top,1-874-163-4813,AISSATA,Male,$300
freq,2,1,4,1


In [17]:
# Afficher les informations de la dataframe
# Afficher le type des colonnes
# Il faut utiliser l'attribut dtypes
dataframe.dtypes


phones    object
names     object
sexes     object
salary    object
dtype: object

In [18]:
# Modification des types des données des colonnes
# Il faut utiliser la fonction astypes
# Vous aviez la possibilité d'utiliser les types numpy
dataframe['phones'] = dataframe['phones'].astype(str)
dataframe['names'] = dataframe['names'].astype(str)
dataframe['sexes'] = dataframe['sexes'].astype(str)
dataframe['salary'] = dataframe['salary'].astype(str)


In [19]:
# Modification des types des données des colonnes
# Vérification du casting des types objects en string
type(dataframe['phones'][0]), type(dataframe['salary'][0])


(str, str)

In [20]:
# Modification du nom d'une colonne
# Il faut utiliser la fonction rename
# Appliquer le changement ancien_nom -> nouveau_nom
dataframe.rename(columns={'names': 'Names'})


Unnamed: 0,phones,Names,sexes,salary
0,1-874-163-4813,AISSATA,Female,$300
1,(152) 728-6139,GUEYE Oumy,Female,$455
2,1-172-472-4611,SERE Kader,Male,$656
3,(545) 855-6787,YANON Olivier,Male,$200
4,(545) 895-6887,DOSSO Rodrigue,Male,$700
5,1-874-163-4813,KUASSI Isreal,Male,$861


In [21]:
# Modification du nom d'une colonne
# Il faut utiliser la fonction rename
# Appliquer le changement ancien_nom -> nouveau_nom
dataframe = dataframe.rename(columns={
    'names': 'Name', 
    'phones': 'Phone',
    'sexes': 'Sexe',
    'salary': 'Salary'
})


In [22]:
dataframe


Unnamed: 0,Phone,Name,Sexe,Salary
0,1-874-163-4813,AISSATA,Female,$300
1,(152) 728-6139,GUEYE Oumy,Female,$455
2,1-172-472-4611,SERE Kader,Male,$656
3,(545) 855-6787,YANON Olivier,Male,$200
4,(545) 895-6887,DOSSO Rodrigue,Male,$700
5,1-874-163-4813,KUASSI Isreal,Male,$861


In [23]:
# Ajouter de nouvelles colonnes
# Ajoutons les colonnes date et country
dataframe['Date'] = '2023-01-03'
dataframe['Country'] = 'Senegal'

In [24]:
# Ajouter de nouvelles colonnes
# Verifier l'ajout des nouvelles colonnes
# Utiliser la fonction head() pour visualiser les lignes
# On remarque que les nouvelles colonnes sont présentes
dataframe.head(n=3)

Unnamed: 0,Phone,Name,Sexe,Salary,Date,Country
0,1-874-163-4813,AISSATA,Female,$300,2023-01-03,Senegal
1,(152) 728-6139,GUEYE Oumy,Female,$455,2023-01-03,Senegal
2,1-172-472-4611,SERE Kader,Male,$656,2023-01-03,Senegal


In [25]:
# Afficher le type d'une colonne de données
# Utiliser la fonction type sur la colonne
# Le type est une Série (pandas.core.series.Series)
# Ainsi on peut conclure qu'une dataframe est une concaténation de séries
type(dataframe['Name'])


pandas.core.series.Series

In [26]:
# Création d'une série
# Pour faire la création d'une série il faut utiliser la classe Series
lastname = ['DOE', 'DOE', 'DOE', 'DOE', 'DOE', 'DOE']
firstname = ['John', 'John', 'John', 'John', 'John', 'John']

dataframe['FirstName'] = pandas.Series(data=firstname)
dataframe['LastName'] = pandas.Series(data=lastname)


In [27]:
# Modifier les colonnes FirstName et LastName
# En partant de la colonne Name appliquer un split

def get_last_name(column_data):
    splitter = column_data.split(' ')
    if len(splitter) <= 1:
        return column_data.upper()
    return splitter[0].upper()


def get_first_name(column_data):
    splitter = column_data.split(' ')
    if len(splitter) <= 1:
        return column_data.title()
    return splitter[1].title()


dataframe['LastName'] = dataframe['Name'].apply(get_last_name)
dataframe['FirstName'] = dataframe['Name'].apply(get_first_name)


In [28]:
# Afficher la colonne LastName
dataframe['LastName']


0    AISSATA
1      GUEYE
2       SERE
3      YANON
4      DOSSO
5     KUASSI
Name: LastName, dtype: object

In [29]:
# Afficher la colonne FirstName
dataframe['FirstName']


0     Aissata
1        Oumy
2       Kader
3     Olivier
4    Rodrigue
5      Isreal
Name: FirstName, dtype: object

In [30]:
# Faire des opérations directe sur une colonne
# Manipulons la colonne FirstName
# On peut accéder à une colonne par la notaion ( . )
# Ainsi on peut appliquer les fonctions native au type des valeurs contenues dans une colonne
dataframe.FirstName.str.upper()

0     AISSATA
1        OUMY
2       KADER
3     OLIVIER
4    RODRIGUE
5      ISREAL
Name: FirstName, dtype: object

In [31]:
# A chaque manipulation direct sur une Série elle retourne une Série
# Ainsi pour faire des multiples manipulations il faut convertir avant d'appliquer la methode
# Exemple: dataframe.FirstName.str.lower().str.upper()
type(dataframe.FirstName.str.lower())


pandas.core.series.Series

In [32]:
# Manipulation de la méthode loc
# Afficher les indexes de la dataframe
dataframe.index

RangeIndex(start=0, stop=6, step=1)

In [33]:
# On peut changer l'index de la dataframe
# Utilisation de la fonction set_index
# Vous pouvez utiliser une liste d'indexes
dataframe.set_index('FirstName')

Unnamed: 0_level_0,Phone,Name,Sexe,Salary,Date,Country,LastName
FirstName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Aissata,1-874-163-4813,AISSATA,Female,$300,2023-01-03,Senegal,AISSATA
Oumy,(152) 728-6139,GUEYE Oumy,Female,$455,2023-01-03,Senegal,GUEYE
Kader,1-172-472-4611,SERE Kader,Male,$656,2023-01-03,Senegal,SERE
Olivier,(545) 855-6787,YANON Olivier,Male,$200,2023-01-03,Senegal,YANON
Rodrigue,(545) 895-6887,DOSSO Rodrigue,Male,$700,2023-01-03,Senegal,DOSSO
Isreal,1-874-163-4813,KUASSI Isreal,Male,$861,2023-01-03,Senegal,KUASSI


In [34]:
# On peut changer l'index de la dataframe
# Utilisation de la fonction set_index
# Vous pouvez utiliser une liste d'indexes
dataframe.set_index(['FirstName', 'LastName'])


Unnamed: 0_level_0,Unnamed: 1_level_0,Phone,Name,Sexe,Salary,Date,Country
FirstName,LastName,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Aissata,AISSATA,1-874-163-4813,AISSATA,Female,$300,2023-01-03,Senegal
Oumy,GUEYE,(152) 728-6139,GUEYE Oumy,Female,$455,2023-01-03,Senegal
Kader,SERE,1-172-472-4611,SERE Kader,Male,$656,2023-01-03,Senegal
Olivier,YANON,(545) 855-6787,YANON Olivier,Male,$200,2023-01-03,Senegal
Rodrigue,DOSSO,(545) 895-6887,DOSSO Rodrigue,Male,$700,2023-01-03,Senegal
Isreal,KUASSI,1-874-163-4813,KUASSI Isreal,Male,$861,2023-01-03,Senegal


In [35]:
# On peut changer l'index de la dataframe
# Après avoir changer les indexes vous pouvez utiliser la fonction loc
dataframe = dataframe.set_index(['FirstName'])


In [36]:
# Ainsi avec la data loc vous pouvez afficher la ligne
# Car la data loc peut utiliser l'approche des index de list
dataframe.loc['Aissata']


Phone       1-874-163-4813
Name               AISSATA
Sexe                Female
Salary                $300
Date            2023-01-03
Country            Senegal
LastName           AISSATA
Name: Aissata, dtype: object

In [37]:
# Ainsi avec la data loc vous pouvez afficher la ligne
# Car la data loc peut utiliser l'approche des index de list
dataframe.loc['Rodrigue']


Phone       (545) 895-6887
Name        DOSSO Rodrigue
Sexe                  Male
Salary                $700
Date            2023-01-03
Country            Senegal
LastName             DOSSO
Name: Rodrigue, dtype: object

In [38]:
# Ordonner la dataframe en fonction d'une colonne
dataframe.sort_values(by='Name', ascending=True)


Unnamed: 0_level_0,Phone,Name,Sexe,Salary,Date,Country,LastName
FirstName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Aissata,1-874-163-4813,AISSATA,Female,$300,2023-01-03,Senegal,AISSATA
Rodrigue,(545) 895-6887,DOSSO Rodrigue,Male,$700,2023-01-03,Senegal,DOSSO
Oumy,(152) 728-6139,GUEYE Oumy,Female,$455,2023-01-03,Senegal,GUEYE
Isreal,1-874-163-4813,KUASSI Isreal,Male,$861,2023-01-03,Senegal,KUASSI
Kader,1-172-472-4611,SERE Kader,Male,$656,2023-01-03,Senegal,SERE
Olivier,(545) 855-6787,YANON Olivier,Male,$200,2023-01-03,Senegal,YANON


In [39]:
# Lecture a partir d'un fichier csv

import pathlib

file = pathlib.Path().parent / 'Day9/databases/data.csv'

dataframe = pandas.read_csv(file)

In [40]:
dataframe.head()

Unnamed: 0,email,phone,address,region,country,currency,numberrange,list
0,bibendum.ullamcorper@hotmail.net,(266) 451-9848,Ap #719-368 Est. Rd.,Rogaland,India,$41.44,3,Legal Department
1,id.magna@hotmail.couk,1-453-354-4147,110-1776 Hymenaeos. Rd.,Gauteng,New Zealand,$9.36,10,Finances
2,eu.eros@google.org,(435) 359-3336,"475-6928 Amet, Road",Styria,Turkey,$33.42,2,Media Relations
3,habitant@icloud.net,(236) 113-4482,145-3762 Duis Avenue,Santa Catarina,Brazil,$19.79,4,Media Relations
4,nunc.mauris@hotmail.com,1-690-265-8232,"P.O. Box 374, 4872 Non Rd.",Loreto,Indonesia,$4.61,3,Public Relations
