Les structures des données avec le module Numpy étant bien organisées pour le calculs numériques, elles imposent certaines contraintes notamment les données doivent être de même type et préférablement numériques (int ou float). Ce qui rend impossible l'étiquetage des données.
Toutefois, la bibliothèque **Pandas**, avec ses objets (**séries** et **dataframe**) non seulement pallie à ce problème d'étiquetage des données mais optimise la préparation, le nettoyage et l'analyse des données en gardant les fonctions de calcul de haute performance de la bibliothèque Numpy.

In [1]:
import pandas as pd
import numpy as np

# Série : 
un tableau uni-dimensionnel formé des lignes, lesquelles sont indéxées (par défaut par des entiers à partir de 0). 
Les indices n'ont pas de contraintes quant à leurs types.

In [7]:
serie1 = pd.Series([1, 3, 5, 9, 13])
serie1

0     1
1     3
2     5
3     9
4    13
dtype: int64

In [10]:
serie2 = pd.Series(data = [1, 3, 5, 9], index = ['a', True, 2.5, 0])
serie2


a       1
True    3
2.5     5
0       9
dtype: int64

In [11]:
serie3 = pd.Series(data = [2, 4, 6, 10], index = ['b', False, 3.5, 15])
serie3

b         2
False     4
3.5       6
15       10
dtype: int64

**Remarques** : 
1. **S** est en majuscule
2. lorsque l'on ne met qu'une seule liste en argument (serie1), les indices sont les entiers à partir de 0
3. le cas de deux listes en arguments (serie3) où la première sera la liste des données et la suivant celle des indices

## Accès aux éléments d'une série : 
Identique au fonctionnement des dictionnaires où l'indice (index) joue le rôle de la clé

In [14]:
print("serie1[0] = ", serie1[0])
print("serie2[True] = ", serie2[True])
print("serie3[3.5] = ", serie3[3.5])

serie1[0] =  1
serie2[True] =  3
serie3[3.5] =  6


### Attribut : index
On peut consulter la liste des indices d'une série avec l'attribut de la série:  ***index***

In [15]:
serie2.index

Index(['a', True, 2.5, 0], dtype='object')

## Créer une série à partir d'un dictionnaire : 
les clés du dictionnaire deviendront les indices de la série

In [16]:
dict_heure = {"matin": 6, "midi": 12, "soir": 8}
serie4 = pd.Series(dict_heure)
serie4

matin     6
midi     12
soir      8
dtype: int64

### N'utiliser qu'une partie du dictionnaire :
Dans l'argument **index**, mettre dans une liste toutes les clés pour lesquelles l'on souhaite conserver la valeur.

In [17]:
serie5 = pd.Series(dict_heure, index = ["midi", "soir"])
serie5

midi    12
soir     8
dtype: int64

## Modifier un élément d'un indice

In [18]:
serie5["midi"] = 13
serie5

midi    13
soir     8
dtype: int64

## Ajouter des élément dans une série : 
identique à l'ajout d'un élément dans un dictionnaire

In [19]:
serie5["nuit"] = 12
serie5

midi    13
soir     8
nuit    12
dtype: int64

## Filtrer sur les valeurs d'une série

In [21]:
serie6 = pd.Series([15, 34, 7, 11, 9, 19], ['a', 'b', 'c', 'd', 'e', 'f'])
serie6[serie6 >= 10]

a    15
b    34
d    11
f    19
dtype: int64

### Possibilité de combiner plusieurs critères (conditions) dans le filtre

In [23]:
serie6[(serie6 >= 10) & (serie6 <= 15)]

a    15
d    11
dtype: int64

# DataFrame :
Structure des données tabulaire bi-dimensionnelle, orienté colonnes, avec des étiquettes (indices) sur les lignes et les colonnes 

## Créer une dataframe partant d'une série : 
Sachant que pour les séries, les indices des lignes sont déjà définis, il ne reste plus qu'à donner un nom (une étiquette) à la colonne (dans une liste à un seul élément)

In [26]:
dataframe1 = pd.DataFrame(serie5, columns = ["Heures"])
dataframe1

Unnamed: 0,Heures
midi,13
soir,8
nuit,12


## Créer une dataframe partant de plusieurs dictionnaires: 
Les clés uniques des dictionnaires formeront les étiques des colonnes de la dataframe,, d'où une organisation des dictionnaires avec les mêmes noms des clés permettra une cohérence de la dataframe où chaque ligne (dictionnaire) sera vu comme un enregistrement d'une table (comme dans les bases des données)

In [27]:
d1 = {"Nom": "a", "Ville": "Nantes", "Score" : 10}
d2 = {"Nom": "b", "Ville": "Angers", "Score" : 12}
d3 = {"Nom": "c", "Ville": "Rennes", "Score" : 14}
d4 = {"Nom": "d", "Ville": "Paris", "Score" : 16}
d5 = {"Nom": "e", "Ville": "Lyon", "Score" : 18}
dataframe2 = pd.DataFrame([d1, d2, d3, d4, d5])
dataframe2

Unnamed: 0,Nom,Ville,Score
0,a,Nantes,10
1,b,Angers,12
2,c,Rennes,14
3,d,Paris,16
4,e,Lyon,18


### Dictionnaire définie en compréhension (avec une boucle **for**) : 

In [5]:
liste_dic = [{"valeur_i" : i, "double_i": 2*i, "carre_i": i*i} for i in range(10)]
dataframe3 = pd.DataFrame(liste_dic)
dataframe3

Unnamed: 0,valeur_i,double_i,carre_i
0,0,0,0
1,1,2,1
2,2,4,4
3,3,6,9
4,4,8,16
5,5,10,25
6,6,12,36
7,7,14,49
8,8,16,64
9,9,18,81


### Partant d'une matrice Numpy :

In [17]:
mat = np.random.randint(0, 11, (4,3))
print(mat)
dataframe4 = pd.DataFrame(mat, columns = ["col_1", "col_2", "col_3"], index = ["ligne_1", "ligne_2", "ligne_3", "ligne_4"])
dataframe4

[[0 8 2]
 [5 8 1]
 [6 2 9]
 [4 5 8]]


Unnamed: 0,col_1,col_2,col_3
ligne_1,0,8,2
ligne_2,5,8,1
ligne_3,6,2,9
ligne_4,4,5,8


## Modifier une Dataframe : 

### Ajout d'une colonne

In [26]:
mat = np.random.randint(0, 21, (5, 2))
notes = pd.DataFrame(mat, columns = ["Maths", "Physique"], index = ["Christophe", "Clara", "Benjamin", "Amine", "Jason"])
print(notes)
notes["Moyenne"] = (notes["Maths"] + notes["Physique"])/2
notes

            Maths  Physique
Christophe      9        20
Clara           3         2
Benjamin        0         2
Amine           4        12
Jason          15         2


Unnamed: 0,Maths,Physique,Moyenne
Christophe,9,20,14.5
Clara,3,2,2.5
Benjamin,0,2,1.0
Amine,4,12,8.0
Jason,15,2,8.5


## Accéder à des données

### Afficher une colonne : 
Il est préférable de mettre l'étiquette (nom) de la colonne entre crochet, comme une liste à un seul élément, pour avoir un affiche plus agréable que celui qui est rendu lorsque l'on ne met pas l'étiquette dans une liste avec la syntaxe notes\["Maths"] (cette syntaxe est correcte tout de même).

In [31]:
notes[["Physique"]]

Unnamed: 0,Physique
Christophe,20
Clara,2
Benjamin,2
Amine,12
Jason,2


### Afficher plusieurs colonnes :
Mettre plusieurs étiquettes dans la liste.

In [39]:
notes[["Maths", "Moyenne"]]


Unnamed: 0,Maths,Moyenne
Christophe,9,14.5
Clara,3,2.5
Benjamin,0,1.0
Amine,4,8.0
Jason,15,8.5


### Accès à une ligne : 
Avec : **loc\[index]**, où *index* est  l'étiquette de la ligne souhaitée
N.B : ici "Christophe" a un "C" majuscule, il faut que l'étique soitexactement le même que celui dans la dataframe.

In [41]:
notes.loc["Christophe"]

Maths        9.0
Physique    20.0
Moyenne     14.5
Name: Christophe, dtype: float64

### Accès à un élément spécifique (ligne + colonne) : 
Avec **loc\[index, column]**, où *index* est l'étiquette de la ligne et *column* celui de la colonne

In [42]:
notes.loc["Clara", "Moyenne"]

2.5

### Cas des valeurs manquantes : 
En supposant ques les dictionnaires ont les mêmes noms des clés (pour des raisons de cohérence), alors si les dictionnaires n'ont pas le même nombre d'éléments, les valeurs manquantes seront remplies par NaN (Not a Number) 

In [28]:
d1 = {"Nom": "a", "Ville": "Nantes", "Score" : 10}
d2 = {"Nom": "b", "Score" : 12}
d3 = {"Nom": "c", "Ville": "Rennes", "Score" : 14}
d4 = {"Ville": "Paris", "Score" : 16}
d5 = {"Nom": "e", "Ville": "Lyon"}
dataframe2 = pd.DataFrame([d1, d2, d3, d4, d5])
dataframe2

Unnamed: 0,Nom,Ville,Score
0,a,Nantes,10.0
1,b,,12.0
2,c,Rennes,14.0
3,,Paris,16.0
4,e,Lyon,


## Supression dans une Dataframe : 
Pour faire l'analogie avec la table d'une base des données, on peut supprimer des lignes (enregistrements) ou des colonnes (champs) dans une Dataframe.
Pour ce faire le premier argument est l'étiquette à supprimer (ligne ou colonne), le second argument est **axis** qui doit être mis à **0** pour supprimer une ligne (enregistrement), et à **1** pour supprimer une colonne (champ). Le dernier argument : **inplace** qui doit prendre la valeur *True* ou *False*, selon que l'on veut supprimer directement dans la dataframe ou juste supprimer lors de l'affichage, toutefois **la dataframe originale reste intacte** (il est par défaut à False).

#### Supprimer une colonne :

In [43]:
notes.drop("Physique", axis = 1, inplace = False)

Unnamed: 0,Maths,Moyenne
Christophe,9,14.5
Clara,3,2.5
Benjamin,0,1.0
Amine,4,8.0
Jason,15,8.5


In [44]:
notes

Unnamed: 0,Maths,Physique,Moyenne
Christophe,9,20,14.5
Clara,3,2,2.5
Benjamin,0,2,1.0
Amine,4,12,8.0
Jason,15,2,8.5


In [49]:

notes.drop("Physique", axis = 1, inplace = True)
notes

Unnamed: 0,Maths,Moyenne
Christophe,9,14.5
Clara,3,2.5
Benjamin,0,1.0
Amine,4,8.0
Jason,15,8.5


#### Supprimer une ligne : 

In [50]:
notes.drop("Clara", axis = 0, inplace = True)


In [51]:
notes

Unnamed: 0,Maths,Moyenne
Christophe,9,14.5
Benjamin,0,1.0
Amine,4,8.0
Jason,15,8.5


## Sélection des données dans une dataframe :

In [85]:
# tableau aléatoire des valeurs (notes) entre 0 et 20 (car 21 exclut)
tab1 = np.random.randint(0, 21, (5))
# liste des étudiants
tab2 = ["Christophe", "Clara", "Amine", "Amandine", "Lina"]
# notes de Maths
dic_maths = {tab2[i] : tab1[i] for i in range(len(tab1))}
# Série des notes de maths
serie_math = pd.Series(dic_maths)
# De même pour le cours de Physique
tab1 = np.random.randint(0, 21, (5))
dic_physique = {tab2[i] : tab1[i] for i in range(len(tab1))}
serie_physique = pd.Series(dic_physique)
# la dataframe
notes = pd.DataFrame({"Maths": dic_maths, "Physique": dic_physique})
notes["Moyenne"] = (notes["Maths"] + notes["Physique"])/2
notes

Unnamed: 0,Maths,Physique,Moyenne
Christophe,3,9,6.0
Clara,2,5,3.5
Amine,1,12,6.5
Amandine,8,17,12.5
Lina,2,3,2.5


 **Remarques** : Etant donné que la dataframe "**notes**"  est construite à partir d'**un seul dictionnaire**, dont les deux clés sont "Maths et Physiques" et les **valeurs sont eux mêmes des dictionnaires**, le remplissage de la dataframe 'note' se déroulera de la manière suivante :

 1. Les étiques des colonnes de la dataframe seront les deux clés du dictionnaire en argument que sont **'Maths'** et **'Physique'**
 2. Dans un premier temps, la valeur de la clé 'Maths' :
    - Cette valeur étant elle même un dictionnaire (dic_maths), de ce fait toutes les clés de **dic_maths** étiquetteront les lignes de la dataframe et la première colonne sera rempli entièrement en mettant la valeur d'une clé à l'emplacement convenable (intersection ligne et première colonne)
 3. Dans un second temps, tooutes les clés du second dictionnaire (dic_physique) vont être ajouter pour étiquetter les lignes suivantes de la dataframe 'note' **si, et seulement si**, ces étiquêtes n'étaient pas déjà présentes dans la dataframe
     - La seconde colonne sera alors complètement rempli à son tour.
 4. Les valeurs manquantes seront rempli par NaN dans la dataframe

### Sélection d'une colonne : 
Mettre l'étiquette (nom) de la colonne entre crochet

In [88]:
notes["Moyenne"]

Christophe     6.0
Clara          3.5
Amine          6.5
Amandine      12.5
Lina           2.5
Name: Moyenne, dtype: float64

Autre façon de faire : mettre un point (**.**) + le nom de la colonne

In [87]:
notes.Maths

Christophe    3
Clara         2
Amine         1
Amandine      8
Lina          2
Name: Maths, dtype: int32

### Sélection avec *iloc[]* :
Les lignes et colonnes sont indéxées par des entiers partant de 0, comme dans un tableau bi-dimensionnel de Numpy

In [89]:
notes.iloc[2]

Maths        1.0
Physique    12.0
Moyenne      6.5
Name: Amine, dtype: float64

### Sélection avec *loc[]* qui prend deux listes en argument : 
La première liste contiendra les étiquettes des lignes à récupérer et la deuxième liste, les étiquettes des colonnes.

In [90]:

notes.loc[["Christophe", "Lina"], ["Maths", "Moyenne"]]

Unnamed: 0,Maths,Moyenne
Christophe,3,6.0
Lina,2,2.5


## Sélection par tranche : 
**loc\[**debut_ligne : fin_ligne, debut_colonne : fin_colonne**]** avec : 
- debut_ligne (fin_ligne) : l'étiquette par laquelle on souhaite débuter (terminer)
- Si l'on veut toutes les lignes (toutes les colonnes) alors  : loc\[    **:**    , debut_colonne : fin_colonne] (loc\[debut_ligne : fin_ligne,    **:**   ]) 

In [92]:
notes.loc["Clara" : "Amandine", "Physique" : "Moyenne"]

Unnamed: 0,Physique,Moyenne
Clara,5,3.5
Amine,12,6.5
Amandine,17,12.5


In [93]:
notes.loc["Clara" : "Amandine", : ]

Unnamed: 0,Maths,Physique,Moyenne
Clara,2,5,3.5
Amine,1,12,6.5
Amandine,8,17,12.5


In [94]:
notes.loc[ : , "Physique" : "Moyenne"]

Unnamed: 0,Physique,Moyenne
Christophe,9,6.0
Clara,5,3.5
Amine,12,6.5
Amandine,17,12.5
Lina,3,2.5


In [96]:
notes.loc["Clara" : ,  : "Moyenne"]

Unnamed: 0,Maths,Physique,Moyenne
Clara,2,5,3.5
Amine,1,12,6.5
Amandine,8,17,12.5
Lina,2,3,2.5


#### Remarques : On peut séléctionner par tranche avec ***iloc[]***, cette fois les entiers (à partir de 0) idexeront les lignes et les colonnes.

## Sélection Conditionnelle

#### Cas 1 : un tableau bi_dimensionnel des valeurs booléens dans lesquel une cellule est **True** si la valeur vérifie la condition et **False** sinon. 

In [97]:
notes > 10

Unnamed: 0,Maths,Physique,Moyenne
Christophe,False,False,False
Clara,False,False,False
Amine,False,True,False
Amandine,False,True,True
Lina,False,False,False


#### Cas 2 :  On souhaite récupérer (afficher) les valeurs vérifiant condition (**NaN** lorsqu'elle n'est pas vérifiée)

In [99]:
notes[notes > 10]

Unnamed: 0,Maths,Physique,Moyenne
Christophe,,,
Clara,,,
Amine,,12.0,
Amandine,,17.0,12.5
Lina,,,


#### Cas 3 : Condition uni-dimensionnel (colonne)


In [100]:
notes["Physique"] > 10

Christophe    False
Clara         False
Amine          True
Amandine       True
Lina          False
Name: Physique, dtype: bool

In [102]:
notes[notes["Physique"] > 10]

Unnamed: 0,Maths,Physique,Moyenne
Amine,1,12,6.5
Amandine,8,17,12.5


#### **Remarque** : Les lignes ne vérifiant pas la codition sont ignorées.

#### Cas 4 : Afficher une colonne pour laquelle une condition sur une autre colonne a été satisfaite: 
Afficher la note en 'Maths' des étudiants, uniquement s'ils ont une moyenne **supérieure ou égale à 10**
(Premier filtre sur la moyenne et ensuite on affiche uniquement la colonne 'Maths')

In [103]:
notes[notes["Moyenne"] >= 10]["Maths"]

Amandine    8
Name: Maths, dtype: int32

##### Pour un meilleur rendu de l'affichage il est conseillé de mettre la deuxième étique de la colonne dans une liste (ici "Maths") 

In [104]:
notes[notes["Moyenne"] >= 10][["Maths"]]

Unnamed: 0,Maths
Amandine,8


#### Cas 5 :  Afficher plusieurs colonnes pour laquelle une condition sur une autre colonne a été satisfaite : 
On rajoute les étiquettes des colonnes souhaitées dans la liste du deuxième crochet.

In [105]:
notes[notes["Moyenne"] >= 10][["Physique", "Maths"]]

Unnamed: 0,Physique,Maths
Amandine,17,8


# Lecture d'un fichier CSV (comma separeted values) : 
Avec la méthode **read_csv()** de la bibliothèque Pandas on peut lire des fichiers **csv**. Mais parfois, il convient de rajouter certains paramètre supplémentaire à cette méthode notmment **l'encodage** (encoding) etc...le cas échéant.

In [22]:
import os
print(os.listdir())
dataframe = pd.read_csv("Order_v3.csv", encoding = 'latin1')
dataframe

['.ipynb_checkpoints', 'data', 'intro_pandas.ipynb', 'Order_v3.csv']


Unnamed: 0,orderIdentifier,orderType,vendor.organizationIdentifier,buyer.organizationIdentifier,shipFromInstructionLocation.locationIdentifier,shipToLocation.locationIdentifier,orderStatus,createdDate,requestedShipDate,requestedDeliveryDate,plannedShipDate,plannedDeliveryDate,quantity,quantityUnits,totalValue,orderValueCurrency,lineCount,totalShippedQuantity,exclude,sourceLink
0,100044349,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-20T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,189,EA,236250.0,USD,3,,,http://lighttree.com/100044349
1,100044350,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,20,EA,25000.0,USD,3,,,http://lighttree.com/100044350
2,100044353,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-13T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,212,EA,265000.0,USD,3,,,http://lighttree.com/100044353
3,100055001,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-11T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,761,EA,59473.0,USD,3,,,http://lighttree.com/100055001
4,100055003,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-20T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,520,EA,47438.0,USD,3,,,http://lighttree.com/100055003
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
209,100044330,OUTBOUND,LightTree,QPWD,LT-2,QPWD - Ville de Québec,,2021-07-07T00:00:00,2021-08-06T00:00:00,2021-08-12T00:00:00,2021-08-06T00:00:00,2021-08-12T00:00:00,12,EA,15000.0,USD,3,,,http://lighttree.com/100044330
210,100044331,OUTBOUND,LightTree,QPWD,LT-2,QPWD - Ville de Québec,,2021-07-07T00:00:00,2021-08-04T00:00:00,2021-08-12T00:00:00,2021-08-06T00:00:00,2021-08-12T00:00:00,960,EA,1200000.0,USD,3,,,http://lighttree.com/100044331
211,100044332,OUTBOUND,LightTree,QPWD,LT-2,QPWD - Ville de Québec,,2021-07-07T00:00:00,2021-08-21T00:00:00,2021-08-27T00:00:00,2021-08-21T00:00:00,2021-08-27T00:00:00,56,EA,70000.0,USD,3,,,http://lighttree.com/100044332
212,100055004,OUTBOUND,LightTree,QPWD,LT-2,QPWD - Ville de Québec,,2017-07-11T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,,,597,EA,44953.0,USD,3,,,http://lighttree.com/100055004


## Quelques commandes à connaitre : 

### 1. Afficher les 5 premières lignes

In [23]:
dataframe.head()

Unnamed: 0,orderIdentifier,orderType,vendor.organizationIdentifier,buyer.organizationIdentifier,shipFromInstructionLocation.locationIdentifier,shipToLocation.locationIdentifier,orderStatus,createdDate,requestedShipDate,requestedDeliveryDate,plannedShipDate,plannedDeliveryDate,quantity,quantityUnits,totalValue,orderValueCurrency,lineCount,totalShippedQuantity,exclude,sourceLink
0,100044349,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-20T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,189,EA,236250.0,USD,3,,,http://lighttree.com/100044349
1,100044350,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,20,EA,25000.0,USD,3,,,http://lighttree.com/100044350
2,100044353,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-13T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,212,EA,265000.0,USD,3,,,http://lighttree.com/100044353
3,100055001,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-11T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,761,EA,59473.0,USD,3,,,http://lighttree.com/100055001
4,100055003,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-20T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,520,EA,47438.0,USD,3,,,http://lighttree.com/100055003


### 2. Afficher les 5 premières lignes

In [24]:
dataframe.head()

Unnamed: 0,orderIdentifier,orderType,vendor.organizationIdentifier,buyer.organizationIdentifier,shipFromInstructionLocation.locationIdentifier,shipToLocation.locationIdentifier,orderStatus,createdDate,requestedShipDate,requestedDeliveryDate,plannedShipDate,plannedDeliveryDate,quantity,quantityUnits,totalValue,orderValueCurrency,lineCount,totalShippedQuantity,exclude,sourceLink
0,100044349,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-20T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,189,EA,236250.0,USD,3,,,http://lighttree.com/100044349
1,100044350,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,20,EA,25000.0,USD,3,,,http://lighttree.com/100044350
2,100044353,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-13T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,212,EA,265000.0,USD,3,,,http://lighttree.com/100044353
3,100055001,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-11T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,761,EA,59473.0,USD,3,,,http://lighttree.com/100055001
4,100055003,OUTBOUND,LightTree,AHTD,LT-2,AHTD - Bentonville,,2017-07-20T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,2021-08-11T00:00:00,2021-08-14T00:00:00,520,EA,47438.0,USD,3,,,http://lighttree.com/100055003


### 3. Afficher aléatoirement n (entier) enregistrements (lignes)

In [26]:
dataframe.sample(10)

Unnamed: 0,orderIdentifier,orderType,vendor.organizationIdentifier,buyer.organizationIdentifier,shipFromInstructionLocation.locationIdentifier,shipToLocation.locationIdentifier,orderStatus,createdDate,requestedShipDate,requestedDeliveryDate,plannedShipDate,plannedDeliveryDate,quantity,quantityUnits,totalValue,orderValueCurrency,lineCount,totalShippedQuantity,exclude,sourceLink
178,1000567423,INBOUND,Ripley,LightTree,Ripley - Trenton,LT-2,,2021-06-16T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,124,EA,43400.0,USD,1,,,http://lighttree.com/1000567423
87,1000567418,INBOUND,Alumi-lux,LightTree,Alumi-lux - Nashua,LT-1,,2021-06-16T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,124,EA,56420.0,USD,1,,,http://lighttree.com/1000567418
212,100055004,OUTBOUND,LightTree,QPWD,LT-2,QPWD - Ville de Québec,,2017-07-11T00:00:00,2021-08-10T00:00:00,2021-08-18T00:00:00,,,597,EA,44953.0,USD,3,,,http://lighttree.com/100055004
185,1000567449,INBOUND,Amos,LightTree,Amos - Philadelphia,LT-2,,2021-06-16T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,124,EA,6820.0,USD,1,,,http://lighttree.com/1000567449
48,1000567286,INBOUND,Brewers,LightTree,Brewers - Phoenix,LT-1,,2021-07-15T00:00:00,2021-07-22T00:00:00,2021-07-26T00:00:00,2021-07-22T00:00:00,,44,EA,56628.0,USD,1,,,http://lighttree.com/1000567286
125,1000066011,INBOUND,F & M,LightTree,F & M - Columbus,LT-2,,2021-07-01T00:00:00,2021-09-23T00:00:00,2021-09-26T00:00:00,2021-09-23T00:00:00,2021-09-26T00:00:00,1400,EA,109900.0,USD,4,,,http://lighttree.com/100055011
22,100044327,OUTBOUND,LightTree,COLA,LT-2,COLA - Los Alamos,,2021-07-11T00:00:00,2021-08-02T00:00:00,2021-08-10T00:00:00,2021-08-02T00:00:00,2021-08-11T00:00:00,12,EA,15000.0,USD,3,,,http://lighttree.com/100044327
103,1000567467,INBOUND,Hardy,LightTree,Hardy - Salina,LT-1,,2021-06-16T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,512,EA,12288.0,USD,1,,,http://lighttree.com/1000567467
122,1000066008,INBOUND,F & M,LightTree,F & M - Columbus,LT-2,,2021-07-01T00:00:00,2021-08-24T00:00:00,2021-08-27T00:00:00,2021-08-24T00:00:00,2021-08-27T00:00:00,1400,EA,109900.0,USD,4,,,http://lighttree.com/100055008
195,1000567481,INBOUND,McGrey,LightTree,McGrey - Mt Sterling,LT-2,,2021-06-16T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,2021-06-23T00:00:00,2021-06-27T00:00:00,320,EA,316800.0,USD,1,,,http://lighttree.com/1000567481


### 4. Donner des informations sur la structure de la Datframe

In [27]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 214 entries, 0 to 213
Data columns (total 20 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   orderIdentifier                                 214 non-null    int64  
 1   orderType                                       214 non-null    object 
 2   vendor.organizationIdentifier                   214 non-null    object 
 3   buyer.organizationIdentifier                    214 non-null    object 
 4   shipFromInstructionLocation.locationIdentifier  214 non-null    object 
 5   shipToLocation.locationIdentifier               214 non-null    object 
 6   orderStatus                                     0 non-null      float64
 7   createdDate                                     214 non-null    object 
 8   requestedShipDate                               214 non-null    object 
 9   requestedDeliveryDate                      

### 5. Statistiques sur les colonnes numériques

In [28]:
dataframe.describe()

Unnamed: 0,orderIdentifier,orderStatus,quantity,totalValue,lineCount,totalShippedQuantity,exclude
count,214.0,0.0,214.0,214.0,214.0,0.0,0.0
mean,806969500.0,,278.098131,122949.6,1.607477,,
std,370777300.0,,325.289506,241109.7,1.023269,,
min,100044300.0,,4.0,132.0,1.0,,
25%,1000066000.0,,74.25,7044.0,1.0,,
50%,1000567000.0,,124.0,39040.0,1.0,,
75%,1000567000.0,,320.0,121024.0,3.0,,
max,1000568000.0,,1400.0,1769600.0,4.0,,


### 6. Les accès aux donner : 
Lefonctionnement identique à celui de l'accès aux données d'une dataframe clasique

# Trier selon une colonne de la dataframe : 

Le premier paramètre est le nom (étiquette) de la colonne et le second est l'ordre (croissant ou Non) du trie

In [30]:
dataframe.sort_values("quantity", ascending = False)

Unnamed: 0,orderIdentifier,orderType,vendor.organizationIdentifier,buyer.organizationIdentifier,shipFromInstructionLocation.locationIdentifier,shipToLocation.locationIdentifier,orderStatus,createdDate,requestedShipDate,requestedDeliveryDate,plannedShipDate,plannedDeliveryDate,quantity,quantityUnits,totalValue,orderValueCurrency,lineCount,totalShippedQuantity,exclude,sourceLink
117,1000066003,INBOUND,Total Source,LightTree,Total Source - Waukesha,LT-2,,2021-07-01T00:00:00,2021-09-03T00:00:00,2021-09-06T00:00:00,2021-09-04T00:00:00,2021-09-07T00:00:00,1400,EA,226800.0,USD,4,,,http://lighttree.com/100055003
115,1000066001,INBOUND,Total Source,LightTree,Total Source - Waukesha,LT-2,,2021-07-01T00:00:00,2021-08-14T00:00:00,2021-08-17T00:00:00,2021-08-14T00:00:00,2021-08-17T00:00:00,1400,EA,226800.0,USD,4,,,http://lighttree.com/100055001
123,1000066009,INBOUND,F & M,LightTree,F & M - Columbus,LT-2,,2021-07-01T00:00:00,2021-09-03T00:00:00,2021-09-06T00:00:00,2021-09-04T00:00:00,2021-09-07T00:00:00,1400,EA,109900.0,USD,4,,,http://lighttree.com/100055009
122,1000066008,INBOUND,F & M,LightTree,F & M - Columbus,LT-2,,2021-07-01T00:00:00,2021-08-24T00:00:00,2021-08-27T00:00:00,2021-08-24T00:00:00,2021-08-27T00:00:00,1400,EA,109900.0,USD,4,,,http://lighttree.com/100055008
121,1000066007,INBOUND,F & M,LightTree,F & M - Columbus,LT-2,,2021-07-01T00:00:00,2021-08-14T00:00:00,2021-08-17T00:00:00,2021-08-14T00:00:00,2021-08-17T00:00:00,1400,EA,109900.0,USD,4,,,http://lighttree.com/100055007
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1,100044350,OUTBOUND,LightTree,AHTD,LT-1,AHTD - Bentonville,,2021-06-08T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,2021-07-23T00:00:00,2021-07-30T00:00:00,20,EA,25000.0,USD,3,,,http://lighttree.com/100044350
21,100044326,OUTBOUND,LightTree,COLA,LT-2,COLA - Los Alamos,,2021-07-11T00:00:00,2021-08-02T00:00:00,2021-08-10T00:00:00,2021-08-02T00:00:00,2021-08-10T00:00:00,12,EA,15000.0,USD,3,,,http://lighttree.com/100044326
209,100044330,OUTBOUND,LightTree,QPWD,LT-2,QPWD - Ville de Québec,,2021-07-07T00:00:00,2021-08-06T00:00:00,2021-08-12T00:00:00,2021-08-06T00:00:00,2021-08-12T00:00:00,12,EA,15000.0,USD,3,,,http://lighttree.com/100044330
22,100044327,OUTBOUND,LightTree,COLA,LT-2,COLA - Los Alamos,,2021-07-11T00:00:00,2021-08-02T00:00:00,2021-08-10T00:00:00,2021-08-02T00:00:00,2021-08-11T00:00:00,12,EA,15000.0,USD,3,,,http://lighttree.com/100044327


### Statistiques et agrégations : 

plusieurs méthodes, tout en précisant l'étique de la colonne sur laquelle on souhaite effectuer les opérations : 
- dataframe\["nomColonne"].mean() : **la moyenne arithmétique** selon l'étiquette de la colonne : **nomColonne**
- dataframe\["nomColonne"].sum() : **la somme** de toutes les valeurs des enregistrements de la colonne: **nomColonne**
- dataframe\["nomColonne"].max() : **la valeur maximale** selon l'étiquette de la colonne : **nomColonne**
- dataframe\["nomColonne"].min() : **la valeur minimale** selon l'étiquette de la colonne : **nomColonne**

In [32]:
# nombre d'occurrences des valeurs dans la colonnes d'étiquette : "buyer.organizationIdentifier"
dataframe["buyer.organizationIdentifier"].value_counts()

buyer.organizationIdentifier
LightTree    168
CALTRAN       11
AHTD           9
QPWD           7
COLA           5
NYDOT          5
FAA            4
KYTC           3
MAHD           2
Name: count, dtype: int64

### Enregistrer et exporter

In [33]:
dataframe.to_csv("nouveau_fichier.csv", index=False)  # Enregistre les données modifiées

#### Cela aurait pu se faire sous format **Excel** avec cette ligne de commande :
**dataframe.to_excel("emplacement/mon_fichier.xlsx", index=False)** 