<H1>Introduction à Pandas</H1>

Pandas est une librairie python qui permet de manipuler facilement des données que l'on souhaite analyser. Elle considère trois types de structures :
* les séries : un tableau à une dimension où les données sont de même type
* les dataframes : un tableau à deux dimensions où les données peuvent être de types différents
* les panels : un tableau à trois dimensions où les données peuvent être de types différents

Le **dataframe** est le plus utilisé dans pandas car il permet  de pouvoir manipuler des tableaux avec les noms des colonnes ou des lignes, offre de nombreuses fonctionalités similaires à celles de système de gestion de base de données (séléction, group-by, etc), offre des facilités pour pouvoir sauvegarder ou afficher des résultats.



## Installation


Avant de commencer, il est nécessaire de déjà posséder dans son environnement toutes les librairies utiles. Dans la seconde cellule nous importons toutes les librairies qui seront utiles à ce notebook. Il se peut que, lorsque vous lanciez l'éxecution de cette cellule, une soit absente. Dans ce cas il est nécessaire de l'installer. Pour cela dans la cellule suivante utiliser la commande :  

*! pip install nom_librairie*  


**Attention :** il est fortement conseillé lorsque l'une des librairies doit être installer de relancer le kernel de votre notebook.  


**Remarque :** même si toutes les librairies sont importées dès le début, les librairies utiles pour des fonctions présentées au cours de ce notebook sont ré-importées de manière à indiquer d'où elles viennent et ainsi faciliter la réutilisation de la fonction dans un autre projet.

In [None]:
# utiliser cette cellule pour installer les librairies manquantes
# pour cela il suffit de taper dans cette cellule : !pip install nom_librairie_manquante
# d'exécuter la cellule et de relancer la cellule suivante pour voir si tout se passe bien
# recommencer tant que toutes les librairies ne sont pas installées ...

# sous Colab il faut déjà intégrer ces deux librairies

#!pip install ... 

# eventuellement ne pas oublier de relancer le kernel du notebook

In [None]:
# Importation des différentes librairies utiles pour le notebook

#Sickit learn met régulièrement à jour des versions et 
#indique des futurs warnings. 
#ces deux lignes permettent de ne pas les afficher.
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

# librairies générales
import numpy as np
import pandas as pd
import sys


Pour pouvoir sauvegarder sur votre répertoire Google Drive, il est nécessaire de fournir une autorisation. Pour cela il suffit d'éxecuter la ligne suivante et de saisir le code donné par Google.

In [None]:
# pour monter son drive Google Drive local
from google.colab import drive
drive.mount('/content/gdrive')

Corriger éventuellement la ligne ci-dessous pour mettre le chemin vers un répertoire spécifique dans votre répertoire Google Drive :

In [None]:
my_local_drive='/content/gdrive/My Drive/Colab Notebooks/ML_FDS'
# Ajout du path pour les librairies, fonctions et données
sys.path.append(my_local_drive)
# Se positionner sur le répertoire associé
%cd $my_local_drive

%pwd

## Pandas

Les différents types pandas :  



Etant donné qu'il y a trois structure de données manipulables avec Pandas il va exister différentes manières de les indexer.  

Les séries ont un seul dimension appelé index (axis ==0)  
Les dataframes ont deux axes l'axe *index* (axis == 0), and l'axe des *colonnes* (axis == 1). Ils peuvent être vus comme des dictionnaires Python où la clé correspond aux noms des colonnes et la valeurs aux séries des colonnes.   
Les panels peuvent être vus comme des dictionnaires Python de dataframes. Ils ont donc des *items* ou *index* (axis == 0), des *axes majeurs* (axis == 1) et des *axes mineurs*(axis == 2).

|dtype Pandas	| type Python	| type NumPy	 |Utilisation |
| :-------------: |:-------------:| :----------:|:-----------:|
| object        | str           | string_, unicode_  | Texte|
| int64        | int           | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer|
| float64        | float           | float_, float16, float32, float64  | Float|
| bool        | bool           | bool_  | True/False|
| datetime64        | NA           | datetime64  | Date et Heure|
| timedelta        | NA           | NA  | Différence entre deux datetime|
| category        | NA           | NA  | Liste finie de valeurs textuelles|

Remarque : un dataframe peut être affiché par print ou par display.

### Petit rappel sur les tableaux en python 

Un tableau peut être créé à l'aide de la fonction *np.array()* 

In [None]:
import numpy as np
print ("Création d'un tableau à 1 dimension ")
tableau_une_dimension = np.array([5, 4, 3, 2, 1])
print (tableau_une_dimension)

print ("\nCréation d'un tableau à 1 dimension dont le type est float")
tableau_une_dimension_float = np.array([5, 4, 3, 2, 1],dtype='float')
print (tableau_une_dimension_float)

print ("\nCréation d'un tableau à 2 dimensions (2 lignes, 5 colonnes)")
tableau_deux_dimensions = np.array([[5, 4, 3, 2, 1],
                                    [1, 2, 3, 4, 5]])

print (tableau_deux_dimensions)

**Autres types d'initialisation**

In [None]:
print ("\nCréation d'un tableau à 2 dimensions initialisé à 0 et de type float ")
tableau_deux_dimensions_zero_float = np.zeros((2, 3), dtype='f')    
print (tableau_deux_dimensions_zero_float)

print ("\nCréation d'un tableau à 2 dimensions initialisé à 1 et de type integer ")
tableau_deux_dimensions_un_entier = np.ones((3, 5), dtype='i')    
print (tableau_deux_dimensions_un_entier)

print ("\nCréation d'un tableau à 1 dimension initialisé avec des valeurs régulièrement espacées ")
tableau_une_dimension_arrange= np.arange(10)
print (tableau_une_dimension_arrange)

print ("\nCréation d'un tableau à 1 dimension initialisé de 1 à 3 avec un espace de 0.5 ")
tableau_une_dimension_arrange2= np.arange(1,3,0.5)
print (tableau_une_dimension_arrange2)

print ("\nCréation d'un tableau à 2 dimensions initialisé avec arange ")
line_0=np.arange(1,3,0.5)
line_1=np.arange(3,1,-0.5)
tableau_deux_dimensions_arrange = np.array([line_0,
                                    line_1])
print (tableau_deux_dimensions_arrange)

print ("\nCréation d'un tableau à 2 dimensions initialisé aléatoirement suivant une loi normale centrée sur 0 avec une dispersion de 1")
tableau_deux_dimensions_aleatoire = np.random.normal(0, 1, (4, 4)) 
print (tableau_deux_dimensions_arrange)

**Copie d'un tableau**

In [None]:
tableau_une_dimension = np.array([5, 4, 3, 2, 1])
print ("Tableau initial\n",tableau_une_dimension)
copie_directe=tableau_une_dimension
print ("\nCopie directe\n",copie_directe)
print ("\nAttention une copie directe est un pointeur vers le tableau initial")
print ("\nModification d'une valeur de copie directe - copie_directe[0]=1")
copie_directe[0]=1
print ("\nTableau initial\n",tableau_une_dimension)

print ("\nUtilisation de la fonction .copy")
copie_copy=tableau_une_dimension.copy()
print ("\nCopie par .copy\n",copie_copy)
print ("\nModification d'une valeur de copie par copy - copie_copy[0]=5")
copie_copy[0]=5
print ("\nIl n'y a pas de modification dans tableau initial\n",tableau_une_dimension)

**Shape, size, len et accès aux valeurs**  

*shape* permet de connaître les dimensions d'un tableau. Il est possibe d'accéder aux valeurs en utilisant [nb]. Attention les index des tableaux commencent à 0. 

In [None]:
tableau_une_dimension = np.array([5, 4, 3, 2, 1])
print ("Tableau à 1 dimension \n",tableau_une_dimension)
print ("\nLes dimensions du tableau : ",tableau_une_dimension.shape)
print ("\nAccès au 3 ième élément du tableau : ", tableau_une_dimension[2])
print ("\nAccès au dernier élément du tableau avec -1 : ", tableau_une_dimension[-1])

tableau_deux_dimensions = np.array([[5, 4, 3, 2, 1],
                                    [1, 2, 3, 4, 5]])

print ("\nTableau à 2 dimensions \n",tableau_deux_dimensions)
print ("\nLes dimensions du tableau ",tableau_deux_dimensions.shape)
print ("\nshape[0] correspond au nombre de lignes", tableau_deux_dimensions.shape[0])
print ("\nshape[1] correspond au nombre de colonnes", tableau_deux_dimensions.shape[1])

print ("\nValeur pour la 2 ligne et colonne 3 : ",tableau_deux_dimensions[1,2])
print ("\nValeur de la seconde colonne, laisser la partie après la virgule vide : ", tableau_deux_dimensions[1,])
print ("\nAttention size et différent de len pour un tableau 2D")
print ("\nsize retourne le nombre d'éléments du tableau : ",np.size(tableau_deux_dimensions))
print ("\nlen retourne combien il y a de lignes dans le tableau : ",len(tableau_deux_dimensions))

**Slicing**  

Il est possible d'utiliser des techniques de "tranchage" (*slicing*) pour obtenir des parties de tableaux.  
Elle consiste à indiquer entre crochets des indices pour définir le début et la fin de la tranche (non comprise) et le pas éventuel et à les séparer par deux-points ':'. Syntaxe :  [début:fin:pas].  

Le principe est le même pour un tableau à deux dimensions, il suffit de séparer par des , les parties.


In [None]:
tableau_une_dimension = np.array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])
print ("Tableau à 1 dimension\n",tableau_une_dimension)
print ("\nObtention des trois premiers éléments du tableau :",tableau_une_dimension[0:3])
print ("\nObtention des trois premiers éléments du tableau sans spécifier à gauche des ':' :",tableau_une_dimension[:3])
print ("\nObtention des derniers éléments après le troisième sans spécifier à droite des ':' :",tableau_une_dimension[3:])
print ("\nObtention des éléments du premier au dernier non compris avec un pas de 3 :",tableau_une_dimension[1:9:3])

print ()
tableau_deux_dimensions = np.array([[9, 8, 7, 6, 5, 4, 3, 2, 1, 0],
                                    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
                                    [9, 8, 7, 6, 5, 4, 3, 2, 1, 0],
                                    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])
print ("Tableau à 2 dimensions\n",tableau_deux_dimensions)
print ("\nValeur pour la 2 ligne et colonne 3 :",tableau_deux_dimensions[1,2])
print ("\nTableau qui va de la ligne 1 à 3 et des colonnes 0 à 5 :\n",tableau_deux_dimensions[1:4,0:5])
print ("\nTableau avec un saut de 2 dans les valeurs :\n",tableau_deux_dimensions[::2, ::2])

**Redimensionnement d'un tableau**  

Il est parfois très utile de pouvoir redimensionner un tableau (certaines fonctions scikit learn nécessite d'avoir une vision en deux dimensions pour un tableau en une dimension). Il faut utiliser la fonction *reshape*. Syntaxe : namearray.reshape((un tuple de valeurs))

In [None]:
tableau_une_dimension = np.array([5, 4, 3, 2, 1, 0])
print ("Transformation 1 dimension en 2 dimensions")
print ("\nTableau initial ",tableau_une_dimension)
print ("\nShape du tableau", tableau_une_dimension.shape)
tableau_reshape_2D=tableau_une_dimension.reshape((tableau_une_dimension.shape[0], 1))
print ("\nTableau transformé en 2 dimensions \n",tableau_reshape_2D)
print ("\nShape du tableau", tableau_reshape_2D.shape)

print ("\nTransformation 2 dimensions en 3 dimensions")
tableau_deux_dimensions = np.array([[5, 4, 3, 2, 1],
                                    [1, 2, 3, 4, 5]])
print ("\nTableau initial \n",tableau_deux_dimensions)
print ("\nShape du tableau", tableau_deux_dimensions.shape)
tableau_reshape_3D=tableau_deux_dimensions.reshape((tableau_deux_dimensions.shape[0],tableau_deux_dimensions.shape[1],1))
print ("\nTableau transformé en 3 dimensions \n",tableau_reshape_3D)
print ("\nShape du tableau", tableau_reshape_3D.shape)

**Transposition**   

Il est possible de faire une transposition en utilisation la fonction *.transpose()* ou *.T*

In [None]:
tableau_deux_dimensions = np.array([[5, 4, 3, 2, 1],
                                    [1, 2, 3, 4, 5]])
print ("\nTableau initial \n",tableau_deux_dimensions)
print ("\nTransposition avec .transpose()",tableau_deux_dimensions.transpose())
print ("\nTransposition avec .T",tableau_deux_dimensions.T)

**Produit scalaire**  
Le produit scalaire de deux tableaux (matrices) peut se faire via la fonction *.dot* appliquée à une matrice ou par la fonction *np.dot(matrice1,matrice2)*

In [None]:
tableau_deux_dimensions = np.array([[5, 4, 3, 2, 1],
                                    [1, 2, 3, 4, 5]])
tableau_deux_dimensions2 = np.array([[5, 4, 3, 2, 1],
                                    [1, 2, 3, 4, 5]])
print ("Produit scalaire de la matrice \n",tableau_deux_dimensions)
print ("\navec \n",tableau_deux_dimensions2)
print ("\nDans un premier temps il faut faire un transpose de la seconde matrice\n ")
tableau2_transpose=tableau_deux_dimensions2.transpose()
print (tableau2_transpose)
print ("\nProduit scalaire des 2 matrices avec .dot sur la première matrice\n",tableau_deux_dimensions.dot(tableau2_transpose))
print ("\nProduit scalaire des 2 matrices avec np.dot\n",np.dot(tableau_deux_dimensions,tableau2_transpose))

**Quelques fonctions utiles**

In [None]:
tableau_une_dimension = np.array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

print ("Nombre d'éléments du tableau\n",len(tableau_une_dimension),' ',tableau_une_dimension.size)
print ("\nMinimum du tableau", tableau_une_dimension.min())
print ("\nMaximum du tableau", tableau_une_dimension.max())
print ("\nMoyenne du tableau", tableau_une_dimension.mean())
print ("\nSomme des éléments du tableau", tableau_une_dimension.sum())
print ("\nTri du tableau ",np.sort(tableau_une_dimension))

## Les séries 

Une série pandas peut être créée à partir du constructeur :

    pandas.Series( data, index, dtype, copy)  
où  
*data* peut être un ndarray, une liste, des constantes  
*index* doit être unique est hachable.  Par défaut : np.arrange(n) s'il n'y a pas d'index passé  
*dtype* type de données. Déterminé automatiquement s'il n'est pas indiqué  
*copy* copie des données. Par défaut : false  


Il est nécessaire d'importer la librairie : 

In [None]:
import pandas as pd

### Exemples de création de séries

In [None]:
# création d'une série vide
s=pd.Series()
print ('Une série pandas vide :')
print (s)

import numpy as np
# création d'une série par np.array
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print ('\nUne série pandas par np.array sans index :')
print (s)
print ('\nForme de la série :')
print (s.shape)

# création d'une série par np.array avec index
data = np.array(['a','b','c','d'])
s = pd.Series(data,index=[100,101,102,103])
print ('\nUne série pandas par np.array avec index :')
print (s)


# création d'une série par dictionnaire sans index
data = {'a' : 5.1, 'b' : 2., 'c' : 6.3}
s = pd.Series(data)
print ('\nUne série pandas par dictionnaire sans index :')
print (s)

# création d'une série par dictionnaire avec index
data = {'a' : 5.1, 'b' : 2., 'c' : 6.3}
s = pd.Series(data, index=['c','b','a'])
print ("\nremarque : l'index change l'ordre par rapport au précédent")
print ('\nUne série pandas par dictionnaire avec index :')
print (s)


# création d'une série par dictionnaire avec index
data = {'a' : 5.1, 'b' : 2., 'c' : 6.3}
s = pd.Series(data, index=['c','e','a','b'])
print ("\nQuand l'index est plus grand, la valeur prend NaN (Not a Number)")
print ('\nUne série pandas par dictionnaire avec index trop grand :')
print (s)


# création d'une série avec un scalaire et un index
s = pd.Series(10, index=[100,200,300])
print ('\nUne série pandas par un scalaire avec index :')
print (s)

### Accès aux éléments d'une série

Les éléments peuvent être accédés par leur position de la même manière qu'un ndarray (début position 0).  

Retrouver un élément d'une liste

In [None]:
s = pd.Series([1,2,3,4,5,6,7,8,9,10],
              index = ['a','b','c','d','e','f','g','h','i','j'])

In [None]:
print ('Le premier élément de la liste : ')
print (s[0])

print ('\n Le dernier élément de la liste : ')
print (s[len(s)-1])

Retrouver les quatre premiers éléments de la liste. Si la valeur est précédée par : alors toutes les valeurs le précédent seront renvoyées 

In [None]:
# Les quatre premiers éléments
print ('Les quatre premiers éléments')
print (s[:4])

# Les éléments entre 3 et 6
print ('\n Les éléments entre 4 et 6')
print (s[3:6])

# Les quatre derniers éléments 
print ('\nLes quatre derniers éléments')
print (s[-4:])

Utilisation du nom de l'index

In [None]:
# La première valeur de l'index
print ('Le premier élément de la liste : ')
print (s['a'])

# La dernière valeur de l'index
print ('Le dernier élément de la liste : ')
print (s['j'])

Il est possible d'indexer plusieurs valeurs

In [None]:
# indexation de plusieurs valeurs
print ("Les valeurs pour les index a, h, j : ")
print (s[['a','h','j']])

## Les dataframes 

Un dataframe pandas peut être créé à partir du constructeur :

    pandas.DataFrame( data, index, columns, dtype, copy)  
où  
*data* peut être un ndarray, des séries, des map, des listes, des constantes ou un autre dataframe   
*index* doit être unique est hachable.  Par défaut : np.arrange(n) s'il n'y a pas d'index passé    
*columns* pour le nom des colonnes. Par défaut : np.arrange(n)  
*dtype* le type de données de chaque colonne.    
*copy* copie des données. Par défaut : false  

Un dataframe peut être créé directement, importé d'un fichier CSV, importé d'une page HTML, de SQL, etc. Ici nous ne considérons que la création directe ou celle à partir d'un CSV. Pour de plus amples information ne pas hésiter à ce reporter à la page officielle de pandas (https://pandas.pydata.org).  

Il est nécessaire d'importer la librairie :

In [None]:
import pandas as pd

### Exemple de création de dataframe 

In [None]:
# création d'un dataframe vide
df=pd.DataFrame()
print ('Un dataframe pandas vide :')
print (df)


# création d'un dataframe à partir d'une liste
data = ['a','b','c','d']
df = pd.DataFrame(data)
print ("\nUn dataframe pandas à partir d'une liste :")
print (df)
# il est possible d'utiliser display (df)
display(df)
# création d'un dataframe à partir d'une liste
data = [['France','Paris'],['Allemagne','Berlin'],
        ['Italie','Rome']]
df = pd.DataFrame(data)
print ("\nUn dataframe pandas à partir d'une liste :")
print (df)


# création d'un dataframe à partir d'une liste
data = [['France','Paris'],['Allemagne','Berlin'],
        ['Italie','Rome']]
df = pd.DataFrame(data, )
print ("\nUn dataframe pandas à partir d'une liste :")
print (df)

# création d'un dataframe à partir d'une liste avec noms de colonnes
data = [['France','Paris'],['Allemagne','Berlin'],['Italie','Rome']]
df = pd.DataFrame(data, columns=['Pays','Capitale'])
print ("\nUn dataframe pandas à partir d'une liste avec noms de colonnes :")
print (df)


# création d'un dataframe à partir d'une liste avec noms de colonnes et typage
data = [['France',67186640],['Allemagne',82695000],
        ['Italie',59464644]]
df = pd.DataFrame(data, 
                  columns=['Pays','Habitants'], 
                  dtype=int)
print ("\nUn dataframe pandas à partir d'une liste avec noms de colonnes et typage :")
print (df)
print ("Les types des colonnes sont :")
print (df.info())

# Création d'un dataframe à partir d'un dictionnaire
df = pd.DataFrame(
    {'Nom': ['Pierre', 'Paul', 'Jean','Michel'], 
     'Age': [25, 32, 43,60]})
print ("\nUn dataframe pandas à partir d'un dictionnaire :")
print(df)

# Création d'un dataframe à partir d'un dictionnaire en renommant les index
df = pd.DataFrame(
    {'Nom': ['Pierre', 'Paul', 'Jean','Michel'], 
     'Age': [25, 32, 43,60]},
      index = ['i1', 'i2', 'i3','i4'])
print ("\nUn dataframe pandas à partir d'un dictionnaire en renommant les index :")
print(df)

# Création d'un dataframe à partir d'une liste de dictionnaires 
df = pd.DataFrame(
    [{'a':10, 'b':15,'c':30,'d':40 }, 
     {'a':25, 'b':32, 'd':60}])
print ("\nUn dataframe pandas à partir d'une liste de dictionnaires :")
print(df)

# Création d'un dataframe à partir d'une liste de dictionnaires en renommant les index
df = pd.DataFrame(
    [{'a':10, 'b':15,'c':30,'d':40 }, 
     {'a':25, 'b':32, 'd':60}],
    index=['premier', 'second'])
print ("\nNoter le NaN (Not a Numeric number) quand il n'y a pas de valeur")
print ("\nUn dataframe pandas à partir d'une liste de dictionnaires en renommant les index :")
print(df)

# Création d'un dataframe à partir d'une liste de dictionnaires et sélection des colonnes
data=[{'a':10, 'b':15,'c':30,'d':40 }, 
     {'a':25, 'b':32, 'd':60}]
df = pd.DataFrame(data,
                  index=['premier', 'second'],
                  columns=['a','d'])
print ("\nNoter le NaN (Not a Numeric number quand il n'y a pas de valeur")
print ("\nUn dataframe pandas à partir d'une liste de dictionnaires en sélectionnant des colonnes :")
print(df)

### Création de dataframe à partir d'un fichier CSV 

Il est possible de créer un data frame à partir d'un fichier csv :

    df = pandas.read_csv('myFile.csv')  
    
Il existe de très nombreuses options (voir https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).  

Par défaut suppose qu'il y a un header (header = 0) et qu'il n'y a pas de noms de colonnes.  
encoding='latin1' indique que le contenu doit être converti. Par défaut 'UTF-8'. 
sep = '\t' indique que le séparateur est une tabulation plutôt qu'une virgule.  
Pour donner un nom aux colonnes : names = ['col1','col2',...,'coln'].
Pour préciser les types de certaines colonnes, dtype = {'col1': str, 'col2': int, ...'col4': float}.  
Pour sauter des lignes au début du fichier : skiprows = nombre de lignes à sauter. Attention la première ligne sera considérée comme celle des attributs  
Pour lire un nombre limité de lignes : nrows = nombre de lignes à lire  


In [None]:
# A partir d'un fichier csv
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 
         'petal-length', 'petal-width', 'class']

df = pd.read_csv(url, names=names)
# 5 premières lignes du fichier
df.head()

Considérer le fichier exemple.csv suivant :  

In [None]:
#Création d'un fichier exemple
fichier = open("exemple.csv", "w")
fichier.write("A;B;C;D\n")
fichier.write("Pierre;10;18.5;14.5\n")
fichier.write("Paul;12;18.7;15.5\n")
fichier.write("Jacques;11;15.3;15.5\n")
fichier.close()

In [None]:
# lecture du fichier en changeant de séparateur
df = pd.read_csv('exemple.csv',sep=';')
print ("Lecture du fichier exemple.csv avec un séparateur ;\n")
print (df)

# lecture du fichier sans lire la première ligne
df = pd.read_csv('exemple.csv',sep=';', skiprows=1)
print ("\nLecture du fichier exemple.csv en sautant")
print ("une ligne attention la première ligne devient la liste des attributs.\n")
print (df)


# lecture du fichier en mettant des noms aux colonnes
df = pd.read_csv('exemple.csv',sep=';',skiprows=1,
                 names=['Nom','Age','Note1','Note2'])
print ("\nLecture du fichier exemple.csv en sautant")
print ("une ligne et en mettant des noms aux attributs.")
print ("La première ligne commence au bon index. \n")
print (df)

### Accès aux éléments d'un dataframe 

Comme les séries les dataframes peuvent être accédés par leur position de la même manière qu'un ndarray (début position 0), par les index ou par le nom de la colonne. L'intérêt des dataframe est justement de pouvoir utiliser le nom des colonnes pour les accès.

In [None]:
df = pd.DataFrame(
    {'Nom': ['Pierre', 'Paul', 'Jean','Michel'], 
     'Age': [25, 32, 43,60]},
      index = ['i1', 'i2', 'i3','i4'])

print('Le dataframe : ')
print ("\n",df)

print ('\nLa colonne correspondant au Nom dans le dataframe :  ')
print ("\n",df['Nom'])

**Accès aux lignes d'un dataframe**  
Il est possible d'accéder aux lignes d'un dataframe par leur nom ou bien en précisant l'intervalle.

In [None]:
print ("La ligne corrspondant à l'index i3 avec loc :")
print (df.loc[['i3']])

print ("\nLes trois premières lignes avec loc :")
# df.loc[inclusive:inclusive]
print (df.loc['i1':'i3'])


print ('\nLa première ligne du dataframe en utilisant la position : ')
print (df[:1])


print ('\nLa dernière ligne du dataframe en utilisant la position :  ')
print (df[len(df)-1:])

print ('\nLes lignes 2 et 3 du dataframe en utilisant la position :  ')
print (df[1:3])
# df.iloc[inclusive:exclusive]
# Note: .iloc est uniquement lié à 
#la position et non pas au nom de l'index
print ("\nLes lignes 2 et 3 du dataframe avec iloc : ")
print (df.iloc[1:3])

Il est possible de spécifier les colonnes dans le résultat 

In [None]:
df.loc[['i3'],['Age']]

## Manipulation des dataframes

### Information sur les dataframes

pandas propose de nombreuses fonctions pour connaître les informations des dataframes.

   *df.info()* : donne des infos sur le dataframe  
    *df.head()* : retourne les 5 premières lignes  
    *df.tail()* : retourne les 5 dernières lignes  
    *df.sample()* : retourne un ensemble aléatoire de données
    *df.head(10)* (*df.tail(10)*) : retourne les 10 premières lignes (resp. les 10 dernières)
    *df.shape* : renvoie la taille du dataframe avec nombre de lignes, nombre de colonnes 
    *df.ndim* : retourne le nombre de dimensions  
    *df.columns* : retourne les noms des colonnes    
    *df.columns.values* : le nom des colonnes sous forme d'array numpy    
    *df.dtypes* : retourne les différents types du dataframe    
    *df.index* : les noms des lignes (individus)    
    *df.index.values* : le nom des lignes sous forme d'array numpy    
    *df.values* : pour récupérer le dataframe sous forme d'array numpy 2d  
    *df.describe()* : renvoie un dataframe donnant des statistiques, pour les colonnes numériques, sur les valeurs (nombres de valeurs, moyenne, écart-type, ...)

In [None]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['SepalLengthCm', 'SepalWidthCm', 
         'PetalLengthCm', 'PetalWidthCm', 'Species']

df = pd.read_csv(url, names=names)

print ("Info \n")
print (df.info())
print ("\nLes deux premières lignes\n")
print (df.head(2))
print ("\nLes deux dernières lignes\n")
print (df.tail(2))
print ("\nCinq lignes au hasard\n")
print (df.sample(5))
print ('\nDimension du dataframe\n')
print (df.shape)
print ('\n\t Il y a :',df.shape[0],'lignes et',
       df.shape[1], 'colonnes\n')
print ('\nLe nombre de dimensions\n')
print (df.ndim)
print ('\nLes différents type du dataframe\n')
print (df.dtypes)

print ("\nNoms des colonnes\n")
print (df.columns)
print ('\nNom des index\n')
print (df.index)
print ('\nStatistiques élémentaires\n')
print (df.describe())

<H2> Faire une copie d'un dataframe </H2>

Il est parfois utile de faire une copie d'un dataframe. Il existe deux manières différentes.  

df2=df  

**Attention** toute modification faite sur df2 sera aussi reportée sur df  

Il existe également la possibilité de faire une copie superficielle (cf la cas précédent) ou une copie en profondeur. La copie superficielle créée une structure qui pointe sur les mêmes données donc toute modification des données via la copie va impacter le dataframe original.   
Pour effectuer une copie en profondeur : création d'une nouvelle structure et duplication des données vers la copie, il faut utiliser :  

df2=df.copy(deep=True)  

Par défaut : deep vaut False (*df.copy(deep=False)*) la copie est superficielle.


### Manipulation des colonnes et des lignes 

In [None]:
#Dataframe  
d = [1,2,3,4,5]

df = pd.DataFrame(d)
print (df)

**Changement du nom de colonne**

In [None]:
# Changement du nom de colonne
df.columns = ['Colonne']
print (df)

**Selection par valeur**

In [None]:
print ("Pour une valeur :")
print (df.loc[df['Colonne']==1])

print ("\nEn prenant plusieurs valeurs avec isin :")
print(df.loc[df['Colonne'].isin([1,2])])

**Trier les valeurs d'une colonne**

In [None]:
print ('Tri par ordre décroissant :')
print(df.sort_values(by='Colonne',ascending=False))

print ('\nTri par ordre croissant (par défaut) : ')
print(df.sort_values(by='Colonne'))

**Statistiques sur une colonne**

In [None]:
print ("Moyenne de la colonne : ")
print(df['Colonne'].mean())

print ('\nMaximum de la colonne :')
print(df['Colonne'].max())

print ('\nMinimul de la colonne :')
print(df['Colonne'].min())

print ("\nComptage des différentes valeurs de la colonne :")
print(df['Colonne'].value_counts())
print ("\nAjout d'une nouvelle ligne avec 5 pour vérifier : ")
df.loc[len(df)] = [5]
print (df)
print(df['Colonne'].value_counts())
df=df.drop(df.index[-1])

**Ajout d'une colonne**

In [None]:
# Ajout d'une colonne avec 1 comme valeur
df['Nouvelle Colonne'] = 1
print (df)

print ("\nSélection par valeur sur plusieurs colonnes avec un ET : ")
print (df.loc[(df['Colonne']==3) & (df['Nouvelle Colonne']==1)])

print ("\nSélection par valeur sur plusieurs colonnes avec un OU : ")
print (df.loc[(df['Colonne']==3) | (df['Nouvelle Colonne']==1)])

**Modification d'une colonne**

In [None]:
# Modification de la colonne en ajoutant un nombre aléaloire
import random
nb=random.randint(1, 6)
df['Nouvelle Colonne'] = df['Nouvelle Colonne'] + nb
df

**Supression d'une colonne**

In [None]:
# Supression d'une colonne
del df['Nouvelle Colonne']
df

**Ajout d'une ligne**

In [None]:
print ("Ajout d'une ligne à la fin : ")
df.loc[len(df)] = [6]
print (df)

print ("\nAjout d'une ligne au début attention il faut reorganiser les index : ")
df.loc[-1]=[7]
df.index = df.index + 1  # reorganiser les index
df = df.sort_index()  # trier les index
print (df)

**Modification d'une ligne**

In [None]:
print (df)
print ("Modification de la valeur de la troisième ligne")
df.loc[3] = [10]
print (df)

**Suppression d'une ligne**

In [None]:
print ("En utilisant une condition sur la colone : \n")
print ("Avant ",df)
df=df[df['Colonne']!=3]
print ("\nAprès ",df)

print ("\nEn utilisant les index (suppression de la dernière ligne) : ")
df=df.drop(df.index[-1])
print (df)

**Suppression d'une ligne dont la valeur est NaN**

In [None]:
print ("Ajout d'une ligne à la fin ne contenant rien (utilisant de numpy nan) : ")
df.loc[len(df)] = [np.nan]
print (df)

print ("\nSuppression des lignes n'ayant pas de valeur : ")
df=df.dropna()
print (df)

**re-indexer un index**

In [None]:
df = df.reset_index(drop=True)
df

**Changement du nom des index**

In [None]:
#il est possible de changer les noms ou valeurs des index
d = [1,2,3,4,5]

df = pd.DataFrame(d,columns = ['Colonne'])
print ("Dataframe initial :\n ",df)
i = [100,200,300,400,500]
df.index = i
print ("\nDataframe en changeant de valeur d'index : \n",df)

i = ['a','b','c','d','e']
df.index = i
print ("\nDataframe en changeant de valeur d'index avec des lettres : \n",df)

**Application d'une fonction à un dataframe**

In [None]:
def multiplication (x):
    return 100*x

print (df['Colonne'].apply(multiplication))

**Boucler sur les colonnes**

In [None]:
df = pd.DataFrame(
    {'Nom': ['Pierre', 'Paul', 'Jean','Michel'], 
     'Age': [23, 22, 23,20],
     'Note' : [15, 13, 14, 16]},
      index = ['i1', 'i2', 'i3','i4'])

In [None]:
# il est possible de boucler sur les colonnes
for col in df.columns:
              print(df[col].dtype)

**Trier les colonnes**

Il est possible de trier l'ensemble du dataframe par en fonction de valeur de colonnes à l'aide de la fonction sort_values.

In [None]:
print ("Dataframe initial : \n")
print (df)

print ("\nDataframe trié par Age : \n")
print (df.sort_values(by=['Age'], ascending=True))

print ("\nDataframe trié par Age et Note : \n")
print (df.sort_values(by=['Age','Note'], 
                      ascending=True))

**Groupby**

Il est possible de faire des group by comme en SQL : 

In [None]:
# Definition du groupby sur la colonne note
g = df.groupby('Note')

# Il est possible de faire une boucle sur toutes les partitions
for groupe in g:
    #groupe est un tuple
    print(groupe[0]) # valeur du partitionnement
    # Affichage des valeurs 
    print(groupe[1])
    print ("\n") 

### Travailler avec plusieurs dataframes

**Concaténation**  
Il est possible de concaténer des dataframes à l'aide de la fonction *concat*

In [None]:
df = pd.DataFrame(
    {'Nom': ['Pierre', 'Paul', 'Jean','Michel'], 
     'Age': [25, 32, 43,60],
     'Note' : [14, 13, 14, 16],
     'Sujet_id' : [5,3,1,4]},
      index = ['i1', 'i2', 'i3','i4'])

df2 = pd.DataFrame(
    { 'Sujet_id' : [1, 2, 3, 4],
      'Libelle' : ['Math','Informatique','Physique','Chimie']})
    
print ('Dataframe 1 : \n',df)
print ('\nDataframe 1 : \n',df2)

print ('\nConcaténation de deux dataframes en ligne : ')
print (pd.concat([df, df2]))

print ('\nConcaténation de deux dataframes en colonne : ')
print (pd.concat([df, df2], axis=1))

**Jointure**  
Il est possible d'exprimer différentes jointures (inner, outer, left, right) à l'aide de *merge*  

In [None]:
print ("\nJointure de deux dataframes en fonction de Sujet_id : ")
print (pd.merge(df, df2, on='Sujet_id', how='inner'))

print ("\nJointure externe (outer join) de deux dataframes en fonction de Sujet_id : ")
print (pd.merge(df, df2, on='Sujet_id', how='outer'))


print ("\nJointure externe droite (right outer join) : \n")
print (pd.merge(df, df2, on='Sujet_id', how='right'))

print ("\nJointure externe gauche (left outer join) : \n")
print (pd.merge(df, df2, on='Sujet_id', how='left'))

### Sauvegarde des dataframes 

Un dataframe peut être sauvegardé dans un fichier CSV.

In [None]:
df.to_csv('myFile.csv')  


*Separateur*. Par défaut le séparateur est une virgule. df.to_csv('myFile.csv', sep = '\t') utilise une tabulation comme séparateur  
*Header* Par defaut le header est sauvegardé. df.to_csv('myFile.csv', header=false) pour ne pas sauver l'entête  
*Index* Par défaut le nom des lignes est sauvegardé. df.to_csv('myFile.csv', index=false) pour ne pas les sauvegarder  
*NaN* Par défaut les NaN sont considérées comme des chaînes vides. Il est possible de remplacer le caractère. df.to_csv('myFile.csv', na_rep='-') remplace les valeurs manquantes par des -.  


In [None]:
df = pd.DataFrame(
    {'Nom': ['Pierre', 'Paul', 'Jean','Michel'], 
     'Age': [25, 32, 43,60],
     'Note' : [14, 13, 14, 16],
     'Sujet_id' : [5,3,1,4]},
      index = ['i1', 'i2', 'i3','i4'])

import sys
print ('Affichage du fichier sauvegardé sur stdout \n')
df.to_csv(sys.stdout)

print ('\nAffichage du fichier sauvegardé avec tabulation \n')
df.to_csv(sys.stdout,sep='\t')

print ('\nAffichage du fichier sauvegardé avec tabulation sans header\n')
df.to_csv(sys.stdout,sep='\t', header=False)


print ('\nAffichage du fichier sauvegardé avec tabulation sans index \n')
df.to_csv(sys.stdout,sep='\t', index=False)

print ('\nSauvegarde du fichier monfichier.csv \n')
df.to_csv('monfichier.csv',sep='\t', index=False)

print ('\nLecture pour vérification \n')
df = pd.read_csv('monfichier.csv',sep='\t')
print (df)