<img src = "data/logos.png" width = 600, align = "center">
<br>
<h1 align=center><font size = 5>Pandi Pandas</font></h1> 

# Premiers pas du Pandas

**pandas** est un package Python permettant de manipuler les données dans des structures simples d'utilisation. Les données sont rangées dans des tableaux et de nombreuses méthodes permettent de

pandas est adapté aux :

- données tabulaires dont les colonnes sont de types hétérogenes comme des tables SQL ou des classeurs excel.
- séries temporelles.
- matrices dont les lignes et colonnes sont labellisées.


In [1]:
import pandas as pd
import numpy as np

## Structures de données Pandas

### Series

Une **Series** est un vecteur de données (lsorte de array Numpy) muni d'un *index* qui étiquette chaque élement du vecteur (tableau associatif).

In [2]:
calories = pd.Series([314,314,401,"342"])
calories

0    314
1    314
2    401
3    342
dtype: object

Un index qui n'est pas spécifié est remplacé par une numérotation démarrant a 0. On peut considérer l'index et les valeurs comme des attributs de la `Series`. Il s'agit cependant d'objet de types différents :

In [3]:
calories.values

array([314, 314, 401, '342'], dtype=object)

In [4]:
type(calories.values)

numpy.ndarray

In [5]:
calories.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
type(calories.index)

pandas.core.indexes.range.RangeIndex

Il est préférable d'assigner aux index des valeurs compréhensibles ayant un sens correspondant au contexte :

In [7]:
fromages = pd.Series([314,314,401,342], 
    index=['Carredelest', 'Babybel', 'Beaufort', 'Bleu'])

fromages

Carredelest    314
Babybel        314
Beaufort       401
Bleu           342
dtype: int64

Ces étiquettes ou ` labels` sont les clés d'acces aux valeurs de la `serie`.

In [8]:
fromages['Babybel']

314

In [9]:
fromages[[name.endswith('el') for name in fromages.index]]

Babybel    314
dtype: int64

In [10]:
[name.endswith('el') for name in fromages.index]

[False, True, False, False]

Il reste cependant possible d'utiliser l'indexation par défaut a valeurs numériques :

In [11]:
fromages[0]

314

Les valeurs comme l'index peuvent etre nommés de maniere explicite :

In [12]:
fromages.name = 'nombre'
fromages.index.name = 'nom'
fromages

nom
Carredelest    314
Babybel        314
Beaufort       401
Bleu           342
Name: nombre, dtype: int64

Les opérations et fonctions mathématiques de Numpy peuvent etre utilisées avec les `series` sans perte de structure :

In [13]:
np.sqrt(fromages)

nom
Carredelest    17.720045
Babybel        17.720045
Beaufort       20.024984
Bleu           18.493242
Name: nombre, dtype: float64

Les `Series` peuvent etre filtrées par valeur :

In [14]:
fromages[fromages>400]

nom
Beaufort    401
Name: nombre, dtype: int64

Une `Series` peut etre créée a partir d'un `dict`:

In [15]:
fromages_dict = {'Carredelest': 314, 'Babybel': 314, 'Beaufort': 401, 'Bleu': 342}
pd.Series(fromages_dict)

Carredelest    314
Babybel        314
Beaufort       401
Bleu           342
dtype: int64

La `Series` est alors ordonnées par clé :
Si une erreur apparait dans l'index Pandas utilisera la valeur `NaN` (not a number) pour les valeurs manquantes.

In [16]:
fromages2 = pd.Series(fromages_dict, index=['Carredelest', 'Babybel', 'Beaufort', 'Bleu' , 'Comte'])
fromages2

Carredelest    314.0
Babybel        314.0
Beaufort       401.0
Bleu           342.0
Comte            NaN
dtype: float64

In [17]:
fromages2.isnull()

Carredelest    False
Babybel        False
Beaufort       False
Bleu           False
Comte           True
dtype: bool

Plus délicat, les index sont utilisés pour aligner les valeurs lors des opérations entre `Series` :

In [18]:
fromages + fromages2

Babybel        628.0
Beaufort       802.0
Bleu           684.0
Carredelest    628.0
Comte            NaN
dtype: float64

### DataFrame

Les données que nous qvons a manipuler sont plus souvent dans des dimensions supérieurs et a chaque *index* correspondront plusieurs colonnes souvent de types différents.

Un `DataFrame` est une struture tabulaire contenant plusieurs colonnes de type `Series`.

In [19]:
data = pd.DataFrame({'calories':[314,314,401,342, 264, 367],
                     'sodium':[353.5, 238,112, 336, 314, 256],
                     'nom':['Carredelest', 'Babybel', 'Beaufort', 'Bleu' , 'Camembert', 'Cantal']})
data

Unnamed: 0,calories,sodium,nom
0,314,353.5,Carredelest
1,314,238.0,Babybel
2,401,112.0,Beaufort
3,342,336.0,Bleu
4,264,314.0,Camembert
5,367,256.0,Cantal


Les colonnes du `DataFrame` peuvent être réordonnées :

In [20]:
data[['nom', 'calories', 'sodium']]

Unnamed: 0,nom,calories,sodium
0,Carredelest,314,353.5
1,Babybel,314,238.0
2,Beaufort,401,112.0
3,Bleu,342,336.0
4,Camembert,264,314.0
5,Cantal,367,256.0


Un `DataFrame` possede un deuxieme index, représentant les colonnes:

In [21]:
data.columns

Index(['calories', 'sodium', 'nom'], dtype='object')

On accede alors facilement aux colonnes par l'index ou comme attribut :

In [22]:
data['calories']

0    314
1    314
2    401
3    342
4    264
5    367
Name: calories, dtype: int64

In [23]:
data.calories

0    314
1    314
2    401
3    342
4    264
5    367
Name: calories, dtype: int64

In [24]:
type(data.calories)

pandas.core.series.Series

In [25]:
type(data[['calories']])

pandas.core.frame.DataFrame

A la difference des `Series`, l'acces a une ligne particuliere du `DataFrame` utilisera l'attribut `iloc`.

In [26]:
data.iloc[3]

calories     342
sodium       336
nom         Bleu
Name: 3, dtype: object

Il est important de noter que les `Series` obtenues depuis un `DataFrame` sont des **vues** du DataFrame et non une copie. Il faut donc être prudent lors de leurs manipulation.

In [27]:
valeurs = data.calories
valeurs

0    314
1    314
2    401
3    342
4    264
5    367
Name: calories, dtype: int64

In [28]:
calories[5] = 0
calories

0    314
1    314
2    401
3    342
5      0
dtype: object

In [29]:
data

Unnamed: 0,calories,sodium,nom
0,314,353.5,Carredelest
1,314,238.0,Babybel
2,401,112.0,Beaufort
3,342,336.0,Bleu
4,264,314.0,Camembert
5,367,256.0,Cantal


In [30]:
vals = data.calories.copy()
vals[5] = 1000
data

Unnamed: 0,calories,sodium,nom
0,314,353.5,Carredelest
1,314,238.0,Babybel
2,401,112.0,Beaufort
3,342,336.0,Bleu
4,264,314.0,Camembert
5,367,256.0,Cantal


Il est possible de créer ou de modifier des colonnes directement :

In [31]:
data.calories[3] = 145
data

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.calories[3] = 145


Unnamed: 0,calories,sodium,nom
0,314,353.5,Carredelest
1,314,238.0,Babybel
2,401,112.0,Beaufort
3,145,336.0,Bleu
4,264,314.0,Camembert
5,367,256.0,Cantal


In [32]:
data['calcium'] = 72.6
data

Unnamed: 0,calories,sodium,nom,calcium
0,314,353.5,Carredelest,72.6
1,314,238.0,Babybel,72.6
2,401,112.0,Beaufort,72.6
3,145,336.0,Bleu,72.6
4,264,314.0,Camembert,72.6
5,367,256.0,Cantal,72.6


Si une série est utilisée pour la création d'une colonne, ses valeurs seront placées en fonction fe l'index du DataFrame :

In [33]:
dispo = pd.Series([0]*4 + [1]*2)
dispo

0    0
1    0
2    0
3    0
4    1
5    1
dtype: int64

In [49]:
data['dispo'] = dispo
data

Unnamed: 0,calories,sodium,nom,calcium,dispo
0,314,353.5,Carredelest,72.6,0
1,314,238.0,Babybel,72.6,0
2,401,112.0,Beaufort,72.6,0
3,145,336.0,Bleu,72.6,0
4,264,314.0,Camembert,72.6,1
5,367,256.0,Cantal,72.6,1


Les structures ne possédant pas un index doivent absolument avoir la même longueur que le `DataFrame`:

In [50]:
mois = ['Jan', 'Fev', 'Mar', 'Avr']
data['mois'] = mois

ValueError: Length of values does not match length of index

In [51]:
data['mois'] = ['Jan']*len(data)
data

Unnamed: 0,calories,sodium,nom,calcium,dispo,mois
0,314,353.5,Carredelest,72.6,0,Jan
1,314,238.0,Babybel,72.6,0,Jan
2,401,112.0,Beaufort,72.6,0,Jan
3,145,336.0,Bleu,72.6,0,Jan
4,264,314.0,Camembert,72.6,1,Jan
5,367,256.0,Cantal,72.6,1,Jan


La méthode `del` peut être utilisée comme dans un `dict` pour supprimer les colonnes :

In [52]:
del data['mois']
data

Unnamed: 0,calories,sodium,nom,calcium,dispo
0,314,353.5,Carredelest,72.6,0
1,314,238.0,Babybel,72.6,0
2,401,112.0,Beaufort,72.6,0
3,145,336.0,Bleu,72.6,0
4,264,314.0,Camembert,72.6,1
5,367,256.0,Cantal,72.6,1


Le dataFrame possède des attributs de même nom que les colonnes et se présentant comme des `ndarray` :

In [53]:
data.calories

0    314
1    314
2    401
3    145
4    264
5    367
Name: calories, dtype: int64

## Importer des données

Pandas dispose d'un ensemble de fonctions dédiées à l'import des données tabulaires provenant de sources différentes directement sous la forme d'un dataFrame. Ces fonctions  These functions comportent un certain nombre d'options permettant d'indexer, de parser, de faire des itération et de nettoyer automatiquement les données.

**Chargement d'un format csv**

Utilisation de la méthode `read_csv` :
Remarque : Les caractères accentués necessitent un encodage particulier utf-8 ou latin 1 etc...

In [54]:
mb = pd.read_csv("data/fromage.csv")
mb.head()

Unnamed: 0,Fromages;calories;sodium;calcium;lipides;retinol;folates;proteines;cholesterol;magnesium
0,CarredelEst;314;353.5;72.6;26.3;51.6;30.3;21;7...
1,Babybel;314;238;209.8;25.1;63.7;6.4;22.6;70;27
2,Beaufort;401;112;259.4;33.3;54.9;1.2;26.6;120;41
3,Bleu;342;336;211.1;28.9;37.1;27.5;20.2;90;27
4,Camembert;264;314;215.9;19.5;103;36.4;23.4;60;20


La première ligne est, par défaut, considérée comme contenant les noms des colonnes.

Il est possible de personnaliser le DataFrame en modifiant les paramètres tels que `header`, `names` or `index_col`.

In [55]:
pd.read_csv("data/fromage.csv", encoding='latin1', header=None).head()

Unnamed: 0,0
0,Fromages;calories;sodium;calcium;lipides;retin...
1,CarredelEst;314;353.5;72.6;26.3;51.6;30.3;21;7...
2,Babybel;314;238;209.8;25.1;63.7;6.4;22.6;70;27
3,Beaufort;401;112;259.4;33.3;54.9;1.2;26.6;120;41
4,Bleu;342;336;211.1;28.9;37.1;27.5;20.2;90;27


`read_csv` est un cas particulier de la méthode `read_table` :

In [56]:
mb = pd.read_table("data/fromage.csv", sep=';')
mb.head()

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0


Dans ce cas, il est possible de personaliser la valeur du séparateur `sep`. On peut, par exemple utiliser une expréssion régulière pour définir un nombre d'espacements variables ce qui, malheureusement, trop fréquent.
    
    sep='\s+'

Pour une indexation plus complexe, de type hiérarchique par exemple, il est possible de spécifier l'argument `index_col`.

In [57]:
mb = pd.read_csv("data/fromage.csv", sep=";", index_col=['calories','Fromages'])
mb.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
calories,Fromages,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
314,CarredelEst,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
314,Babybel,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
401,Beaufort,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
342,Bleu,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
264,Camembert,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0


L'argument `skiprows` permet d'exclure certaines lignes du chargement:

In [58]:
pd.read_csv("data/fromage.csv", sep=';', skiprows=[3,4,6]).head()

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
3,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
4,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0


Ou bien n'importer qu'un nombre limité de lignes avec l'argument `nrows`:

In [59]:
pd.read_csv("data/fromage.csv", sep=';', nrows=4)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27


**ou de créer un découpage selon un pas**

In [60]:
data_decoupe = pd.read_csv("data/fromage.csv", sep=';',chunksize=5)
i=0
for chunk in data_decoupe : 
    print(chunk.Fromages[i])
    i+=5


CarredelEst
Cantal
Coulomniers
Fr.frais20nat.
Petitsuisse40
SaintPaulin


La plupart des jeux de données sont incomplets, truffés de trous et d'erreurs de saisie. Pandas marque automatiquement cles cellules vides.

In [61]:
pd.read_csv("data/fromage.csv", sep=";").head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


Pandas a reconnu automatiquement deux champs vides marqués NaN.

In [46]:
pd.isnull(pd.read_csv("data/fromage.csv", sep=";")).head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,True,False,False,False


Malheureusement les valeurs abérentes telles que "?" ou "-9999" ne sont pas détéctées et il faut alors spécifier le champ de filtrage avec des règles plus précises avec un argument `na_values` :
   

In [47]:
pd.read_csv("data/fromage.csv",sep=";", na_values=['?', -9999]).head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


### Microsoft Excel

Beaucoup de champs professionnels tels que la Finance fonctionnent encore avec des classeurs Excel. Pandas possède une méthode spécifique permettant d'y accéder : `read_excel`. Cependant des dépendances sont parfois nécessaires et doivent être installées en fonction de la version du fichier Excel importé `xlrd` et `openpyxl` (utiliser `pip` ou `easy_install`).
                                             

In [66]:
mb2 = pd.read_excel('data/Canada.xlsx', sheet_name='Canada by Citizenship (2)', header=None)
mb2.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33,34,35,36,37,38,39,40,41,42
0,Type,Coverage,OdName,AREA,AreaName,REG,RegName,DEV,DevName,1980,...,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013
1,Immigrants,Foreigners,Afghanistan,935,Asia,5501,Southern Asia,902,Developing regions,16,...,2978,3436,3009,2652,2111,1746,1758,2203,2635,2004
2,Immigrants,Foreigners,Albania,908,Europe,925,Southern Europe,901,Developed regions,1,...,1450,1223,856,702,560,716,561,539,620,603
3,Immigrants,Foreigners,Algeria,903,Africa,912,Northern Africa,902,Developing regions,80,...,3616,3626,4807,3623,4005,5393,4752,4325,3774,4331
4,Immigrants,Foreigners,American Samoa,909,Oceania,957,Polynesia,902,Developing regions,0,...,0,0,1,0,0,0,0,0,0,0


D'autres format sont accessibles via Python et peuvent être concertis en DataFrame ce sont les fichiers de type JSON, XML, HDF5, les bdd relationelles ou non, etc...

## Fonctions principales de Pandas

Dans cette dernière partie du Notebook nous allons voir les fonctions clés de Pandas.
Après le fromage un peu de sport !

In [67]:
football = pd.read_csv("data/fulldata.csv", index_col="Name")
football.shape

(17588, 52)

Le choix d'indexer le dataframe par le nom des joueurs peut sembler évident mais il convient de verifier l'unicité.

In [65]:
football.index.is_unique

False

En effet certains joueurs ayant changé d'équipe de nombreuses fois y compris lors d'une même année :

In [68]:
pd.Series(football.index).value_counts()

Felipe              6
Gabriel             5
Danilo              5
Carlos Rodríguez    4
Roberto             4
                   ..
Llorente            1
Pedro Queirós       1
Diego Godoy         1
Caio                1
Ryan Woods          1
Name: Name, Length: 17341, dtype: int64

In [69]:
football.loc['Felipe']

Unnamed: 0_level_0,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,Height,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Felipe,Brazil,,,FC Porto,RCB,28.0,07/01/2016,2021.0,80,185 cm,...,41,32,30,47,40,9,9,14,11,7
Felipe,Brazil,,,Udinese,LCB,30.0,08/31/2015,2017.0,75,188 cm,...,40,49,21,35,19,9,11,8,6,5
Felipe,Brazil,,,Chaves,Sub,33.0,07/04/2016,2017.0,73,189 cm,...,44,44,39,45,48,11,11,11,8,14
Felipe,Brazil,,,NY Red Bulls,RDM,8.0,01/27/2015,2022.0,71,171 cm,...,70,75,68,65,64,14,8,9,9,12
Felipe,Brazil,,,Sanfrecce Hiroshima,RF,10.0,01/25/2017,2017.0,71,171 cm,...,66,63,45,54,67,8,16,13,9,13
Felipe,Brazil,,,Hannover 96,Sub,20.0,07/01/2012,2018.0,70,193 cm,...,58,33,31,52,26,12,13,14,16,15


Peut être faut-il alors combiner des colonnes pour créer un index unique exemple `Name` avec `Club`:

In [70]:
id = football.index + football.Club
football_2 = football.copy()
football_2.index = id
football_2.head()

Unnamed: 0,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,Height,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
Cristiano RonaldoReal Madrid,Portugal,LS,7.0,Real Madrid,LW,7.0,07/01/2009,2021.0,94,185 cm,...,90,81,76,85,88,14,7,15,11,11
Lionel MessiFC Barcelona,Argentina,RW,10.0,FC Barcelona,RW,10.0,07/01/2004,2018.0,93,170 cm,...,88,89,90,74,85,14,6,15,11,8
NeymarFC Barcelona,Brazil,LW,10.0,FC Barcelona,LW,11.0,07/01/2013,2021.0,92,174 cm,...,77,79,84,81,83,15,9,15,9,11
Luis SuárezFC Barcelona,Uruguay,LS,9.0,FC Barcelona,ST,9.0,07/11/2014,2021.0,92,182 cm,...,86,86,84,85,88,33,27,31,25,37
Manuel NeuerFC Bayern,Germany,GK,1.0,FC Bayern,GK,1.0,07/01/2011,2021.0,92,193 cm,...,16,14,11,47,11,91,89,95,90,89


On vérifie :

In [71]:
pd.Series(football_2.index).value_counts()

Jake WrightSheffield Utd           2
Lee Jae SungJeonbuk Hyundai        2
Park Dae HanJeonnam Dragons        2
Pierrick CrosRed Star FC           2
Shigeto MasudaAlbirex Niigata      1
                                  ..
Zlatan KrizanovićFalkenbergs FF    1
Andrea CodaPescara                 1
Sławomir PeszkoLechia Gdańsk       1
Jhon DuqueMillonarios              1
Marvin MehlemKarlsruher SC         1
Length: 17584, dtype: int64

Toujours pas !

In [72]:
football_2.loc['Park Dae HanJeonnam Dragons']

Unnamed: 0,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,Height,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
Park Dae HanJeonnam Dragons,Korea Republic,,,Jeonnam Dragons,Sub,12.0,01/06/2017,2023.0,65,175 cm,...,31,29,29,23,34,11,7,9,8,14
Park Dae HanJeonnam Dragons,Korea Republic,,,Jeonnam Dragons,Sub,21.0,01/01/2017,2020.0,59,183 cm,...,5,14,14,10,8,52,64,55,54,64


Peut être faut-il ajouter la colone "Contract_Expiry".<br>On reprend pour Name comme index.

In [73]:
football = pd.read_csv("data/fulldata.csv")
football.head()

Unnamed: 0,Name,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
0,Cristiano Ronaldo,Portugal,LS,7.0,Real Madrid,LW,7.0,07/01/2009,2021.0,94,...,90,81,76,85,88,14,7,15,11,11
1,Lionel Messi,Argentina,RW,10.0,FC Barcelona,RW,10.0,07/01/2004,2018.0,93,...,88,89,90,74,85,14,6,15,11,8
2,Neymar,Brazil,LW,10.0,FC Barcelona,LW,11.0,07/01/2013,2021.0,92,...,77,79,84,81,83,15,9,15,9,11
3,Luis Suárez,Uruguay,LS,9.0,FC Barcelona,ST,9.0,07/11/2014,2021.0,92,...,86,86,84,85,88,33,27,31,25,37
4,Manuel Neuer,Germany,GK,1.0,FC Bayern,GK,1.0,07/01/2011,2021.0,92,...,16,14,11,47,11,91,89,95,90,89


## Méthodes de tri

Pandas permet de réorganiser les données avec des méthodes de tri simples.

In [74]:
football.sort_values(ascending=True,by='Name').head()

Unnamed: 0,Name,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
6190,A.J. DeLaGarza,Guam,,,Houston Dynamo,RB,20.0,01/13/2017,2021.0,69,...,36,61,55,52,48,12,13,16,9,11
15621,Aapo Halme,Finland,,,HJK Helsinki,Sub,16.0,01/01/2016,2020.0,57,...,13,22,21,31,25,12,12,11,6,14
15863,Aaron Amadi-Holloway,Wales,,,Oldham Athletic,RS,10.0,01/21/2017,2022.0,57,...,49,41,45,59,28,12,15,7,8,7
5800,Aaron Appindangoye,Gabon,,,Stade Lavallois,Sub,4.0,06/28/2016,2019.0,69,...,35,45,39,48,44,8,6,10,11,8
15425,Aaron Barry,Republic of Ireland,,,Derry City,LCB,30.0,02/07/2014,2017.0,58,...,38,26,29,38,30,10,7,16,15,13


In [75]:
football[['Name','Club','Contract_Expiry']].sort_values(ascending=[True,False], by=['Name', 'Contract_Expiry']).head(20)

Unnamed: 0,Name,Club,Contract_Expiry
6190,A.J. DeLaGarza,Houston Dynamo,2021.0
15621,Aapo Halme,HJK Helsinki,2020.0
15863,Aaron Amadi-Holloway,Oldham Athletic,2022.0
5800,Aaron Appindangoye,Stade Lavallois,2019.0
15425,Aaron Barry,Derry City,2017.0
17482,Aaron Bolger,Shamrock Rovers,2017.0
15404,Aaron Calver,Sydney FC,2017.0
15392,Aaron Chapman,Accrington,2018.0
1432,Aaron Cresswell,West Ham,2021.0
14052,Aaron Dhondt,Waasl. Beveren,2018.0


## Données manquantes

Les données manquantes sont détectées par Pandas et traitées comme une valeur de type NaN. Ceci est valable pour les cellules vises mais aussi celle égale à None.

In [76]:
foo = pd.Series([np.nan, -3, None, 'foobar'])
foo

0       NaN
1        -3
2      None
3    foobar
dtype: object

In [77]:
foo.isnull()

0     True
1    False
2     True
3    False
dtype: bool

Les valeurs manquantes peuvent être suprimées.

In [78]:
data = pd.read_csv("data/fromage.csv", sep=";")
data.head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


In [79]:
data = pd.read_csv("data/fromage.csv",sep=";", na_values=['?', -9999])
data.dropna().head(20) #si je veux le modifier ou l'écraser il fait faire data = data.dropna().head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
10,Coulomniers,308,222.0,79.2,25.6,63.6,21.1,20.5,80,13.0


In [80]:
data[data.notnull()]

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


La méthode `dropna` supprime touts les lignes contenant au moins une valeur manquante.

Il est possible de spécifier avec l'argumemnt `how='all'`, de ne supprimer que les lignes ne contenant **que des valeurs manquantes**.

In [81]:
data.dropna(how='all') #pour supprimer les lignes totalement vides

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


Ou encore avec l'argument `Thresh` qui spécifie un seuil de valeurs manquantes.

In [82]:
data.dropna(thresh=4) #il faut qu'il y ait au moins 4 valeurs manquantes pour qu'il supprime la ligne

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


Avec l'argument `axis=1` c'est la colonne qui est supprimée !

In [83]:
data.dropna(axis=1) #le mieux est de ne pas supprimer si on peut (uniquement quand doublons)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,proteines,cholesterol
0,CarredelEst,314,353.5,72.6,26.3,21.0,70
1,Babybel,314,238.0,209.8,25.1,22.6,70
2,Beaufort,401,112.0,259.4,33.3,26.6,120
3,Bleu,342,336.0,211.1,28.9,20.2,90
4,Camembert,264,314.0,215.9,19.5,23.4,60
5,Cantal,367,256.0,264.0,28.8,23.0,90
6,Chabichou,344,192.0,87.2,27.9,19.5,80
7,Chaource,292,276.0,132.9,25.4,17.8,70
8,Cheddar,406,172.0,182.3,32.5,26.0,110
9,Comte,399,92.0,220.5,32.4,29.2,120


Il est parfois préférable de ne pas supprimer les données mais de les remplacer par une vaaleurs judicieusement choisie : un zéro, une moyenne, une médiane ou une interpollation.

In [84]:
data.head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


In [85]:
data.fillna(0).head(20) #mettre des 0 à la place des NaN

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,0.0,29.2,120,51.0


Ou encore : 

In [86]:
data.fillna(method='bfill').head(20) #prend la valeur de la ligne suivante pour remplir la valeur manquante

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,21.1,29.2,120,51.0


In [87]:
data.fillna(data.mean()).head(20) #remplace la valeur manquante par la moyenne

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,13.428571,29.2,120,51.0


## Déscription analytique des données

De nombreux outils de calculs statistiques sont disponibles dans Pandas et permettent d'avoir une approche analytique des données.

In [88]:
data.sum()

Fromages       CarredelEstBabybelBeaufortBleuCamembertCantalC...
calories                                                    8701
sodium                                                    6092.5
calcium                                                   5386.3
lipides                                                    700.6
retinol                                                   1909.3
folates                                                      376
proteines                                                  584.9
cholesterol                                                 2163
magnesium                                                    708
dtype: object

In [89]:
data.mean()

calories       300.034483
sodium         210.086207
calcium        185.734483
lipides         24.158621
retinol         68.189286
folates         13.428571
proteines       20.168966
cholesterol     74.586207
magnesium       26.222222
dtype: float64

Pandas ne comptabilise pas les valeutrs manquantes mais il est possible de modifier son comportement.

In [90]:
data.mean(skipna=False) #skipna veut dire qu'il laisse les valeurs NaN

calories       300.034483
sodium         210.086207
calcium        185.734483
lipides         24.158621
retinol               NaN
folates               NaN
proteines       20.168966
cholesterol     74.586207
magnesium             NaN
dtype: float64

Pandas dispose d'une méthode très pratiquepour la description des données :  `describe`:

In [91]:
data.describe()#en une seul fois on a une visualisation globales de tous les calculs statistiques

Unnamed: 0,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
count,29.0,29.0,29.0,29.0,28.0,28.0,29.0,29.0,27.0
mean,300.034483,210.086207,185.734483,24.158621,68.189286,13.428571,20.168966,74.586207,26.222222
std,91.914356,108.678923,72.528882,8.129642,24.364901,11.716081,6.959788,28.245755,11.21926
min,70.0,22.0,72.6,3.4,37.1,1.2,4.1,10.0,10.0
25%,292.0,140.0,132.9,23.4,52.65,5.125,17.8,70.0,20.0
50%,321.0,223.0,202.3,26.3,62.85,6.55,21.0,80.0,25.0
75%,355.0,276.0,220.5,29.1,76.65,21.475,23.4,90.0,30.0
max,406.0,432.0,334.6,33.3,150.5,36.4,35.7,120.0,51.0


`describe` peut aussi être appliquée aux données non numériques.

In [92]:
data.Fromages.describe()

count            29
unique           29
top       Camembert
freq              1
Name: Fromages, dtype: object

Méthodes de correlation :

In [94]:
data.calories.corr(data.calcium)#correlation entre les colones (recherche) plus le chiffre est bas moins il y a de relation plus on s'approche de 1 plus c'est proche

0.4334000874295368

In [95]:
data.corr()

Unnamed: 0,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
calories,1.0,0.447224,0.4334,0.983634,-0.122009,-0.293005,0.885372,0.961923,0.761878
sodium,0.447224,1.0,0.005959,0.483344,0.108487,0.100462,0.275998,0.332994,0.058362
calcium,0.4334,0.005959,1.0,0.341132,-0.308874,-0.634257,0.610705,0.428446,0.689758
lipides,0.983634,0.483344,0.341132,1.0,-0.100329,-0.248391,0.809303,0.955444,0.715964
retinol,-0.122009,0.108487,-0.308874,-0.100329,1.0,0.53571,-0.090892,-0.166927,-0.140845
folates,-0.293005,0.100462,-0.634257,-0.248391,0.53571,1.0,-0.320867,-0.328885,-0.386002
proteines,0.885372,0.275998,0.610705,0.809303,-0.090892,-0.320867,1.0,0.817138,0.790515
cholesterol,0.961923,0.332994,0.428446,0.955444,-0.166927,-0.328885,0.817138,1.0,0.775202
magnesium,0.761878,0.058362,0.689758,0.715964,-0.140845,-0.386002,0.790515,0.775202,1.0


## Exportation des données

To comme la méthode read_csv il existe une méthode to_csv qui permet d'exporter un dataframe vers un fichier csv.

In [96]:
data.to_csv("data2.csv")

La méthode `to_csv` accepte aussi les argument `sep`, `header`, `index` et bien d'autres

<hr>
Copyright &copy; 2020 Hatem & Driss @NEEDEMAND