* Pandas va permettre de créer des datas frames, un objet Python permettant de représenter les données sous forme de tableaux où chaque colonne ext explicitement nommée. Ils sont semblables aux arrays NumPy, mais peuvent contenir des colonnes ayant différents types de données (mais un seul type par colonne !)

* On peut importer des tableaux de données de différents formats (csv, xlsx, json ...)

In [2]:
import pandas as pd

# Exemple pour un fichier csv

data_csv = pd.read_csv("clients.csv")
data_csv.head() # head permet de lire les 5 premières lignes uniquement

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


 * La fonction head() permet d'afficher les 5 premières lignes (5 par défaut, possible de préciser le nombre de lignes entre parenthèses)
 * La fonction tail() permet d'afficher les dernières lignes

In [6]:
# ... pour un fichier json

data_json = pd.read_json("clients.json")
data_json.head()

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [15]:
# ... pour un fichier xlsx (nécessite le module openpyxl)

data_xlsx = pd.read_excel("clients.xlsx")
display(data_xlsx.head())
display(data_xlsx.tail())

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


Unnamed: 0,identifiant,email,nom,genre
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F
227,227,FrancisMasse@jourrapide.com,Francis Masse,M


### Caractéristiques globales du data frame

Les caractéristiques globales des data frames sont :

* ses dimensions, affichables via l'attribut shape :

In [3]:
import pandas as pd

data = pd.read_csv("clients.csv")
dim = data.shape    # le résultat de l'attribut shape est un tuple

print(dim[0]) # premier élément = nombre de lignes
print(dim[1]) # deuxième élement = nombre de colonnes

228
4


* Le type des variables qu'il contient, affichable via l'attribut dtypes

In [20]:
print(data.dtypes)

identifiant     int64
email          object
nom            object
genre          object
dtype: object


* Pandas et NumPy sont étroitement liés, on peut ainsi facilement transformer un dataframe en array, avec l'attribut values :

In [21]:
clients_array = data.values
display(clients_array)

array([[0, 'LaurentDagenais@rhyta.com', 'Laurent Dagenais', 'M'],
       [1, 'GuyMarois@fleckens.hu', 'Guy Marois', 'M'],
       [2, 'BeaufortLesage@einrot.com', 'Beaufort Lesage', 'M'],
       [3, 'RussellDurand@armyspy.com', 'Russell Durand', 'M'],
       [4, 'AlexisRiel@rhyta.com', 'Alexis Riel', 'M'],
       [5, 'LeonLapresse@cuvox.de', 'Leon Lapresse', 'M'],
       [6, 'OrvilleRouthier@gustr.com', 'Orville Routhier', 'M'],
       [7, 'AgramantPepin@dayrep.com', 'Agramant Pepin', 'M'],
       [8, 'AiglentinaLambert@fleckens.hu', 'Aiglentina Lambert', 'F'],
       [9, 'TheodoreClavet@teleworm.us', 'Theodore Clavet', 'M'],
       [10, 'ByronLefebvre@jourrapide.com', 'Byron Lefebvre', 'M'],
       [11, 'FlorusDevoe@einrot.com', 'Florus Devoe', 'M'],
       [12, 'NormandArsenault@armyspy.com', 'Normand Arsenault', 'M'],
       [13, 'AcelineHughes@jourrapide.com', 'Aceline Hughes', 'F'],
       [14, 'GastonBrisette@superrito.com', 'Gaston Brisette', 'M'],
       [15, 'AgateGrandbois@gus

 ### Naviguer dans les dataframe

In [5]:
# Pour accéder à une colonne d'un dataframe on utilise la commande : nom_dataframe[nom_colonne]

email = data["email"]
print(email)

# Pour accéder à plusieurs variables, on stocke préalablement leurs noms dans une liste : 
variables = ["nom", "email"]
print(data[variables])



0            LaurentDagenais@rhyta.com
1                GuyMarois@fleckens.hu
2            BeaufortLesage@einrot.com
3            RussellDurand@armyspy.com
4                 AlexisRiel@rhyta.com
                    ...               
223    ClaudeDandonneau@jourrapide.com
224      ApollineMichaud@superrito.com
225         PascalineBeaudry@rhyta.com
226       FleurCaouette@jourrapide.com
227        FrancisMasse@jourrapide.com
Name: email, Length: 228, dtype: object
                   nom                            email
0     Laurent Dagenais        LaurentDagenais@rhyta.com
1           Guy Marois            GuyMarois@fleckens.hu
2      Beaufort Lesage        BeaufortLesage@einrot.com
3       Russell Durand        RussellDurand@armyspy.com
4          Alexis Riel             AlexisRiel@rhyta.com
..                 ...                              ...
223  Claude Dandonneau  ClaudeDandonneau@jourrapide.com
224   Apolline Michaud    ApollineMichaud@superrito.com
225  Pascaline Beaudry     

In [None]:
# on peut faire la même chose en une seule étape : 
data[["nom", "email"]]

# cette écriture permettra d'éviter une erreur courante lors de l'apprentissage de Pandas

Chaque colonne d'un dataframe est appelé "Series", qui sont intimiment liées aux dataframes. Une Serie ne peut contenir des données que d'un seul type. 

Une différence évidente, mais que je me permets tout de même de noter : un data frame a 2 dimensions avec plusieurs colonnes, alors que la Series n’a qu’une seule dimension.

 ### Manipuler les colonnes

* Modifier une colonne existante

Comme vu précédemment, pour accéder à une colonne d'un dataframe on utilise la syntaxe nom_dataframe[nom_colonne]

De la même manière que pour attribuer une valeur à une variable, on peut modifier les valeurs d'une colonne d'un dataframe :



In [None]:
clients["nom"] = 1

# Ainsi, toutes les lignes de la colonne "clients" auront pour valeur "1"

In [None]:
# Ex pour modifier une colonne par elle-même multipliée par 100 :

clients["identifiants"]= clients["identifiants]*100

In [None]:
# Ex pour remplir une colonne avec des valeurs aléatoires entre 1 et 1000 :

clients["identifiants"] = np.random.randint(1, 1000, clients.shape[0])

* Attention cependant lorsqu'on modifie une colonne, il n'y a pas moyen de revenir en arrière après avoir écrasé les valeurs.
Néanmoins, pour revenir aux valeurs du fichier original, il suffira de refaire : 
pd.read_csv("fichierOriginal.csv")
