<img src = "data/logos.png" width = 600, align = "center">
<br>
<h1 align=center><font size = 5>Pandi Pandas</font></h1> 

# Premiers pas du Pandas

**pandas** est un package Python permettant de manipuler les données dans des structures simples d'utilisation. Les données sont rangées dans des tableaux et de nombreuses méthodes permettent de

pandas est adapté aux :

- données tabulaires dont les colonnes sont de types hétérogenes comme des tables SQL ou des classeurs excel.
- séries temporelles.
- matrices dont les lignes et colonnes sont labellisées.


In [3]:
import pandas as pd
import numpy as np

## Structures de données Pandas

### Series

Une **Series** est un vecteur de données (sorte de array Numpy) muni d'un *index* qui étiquette chaque élement du vecteur (tableau associatif).

In [4]:
calories = pd.Series([314,314,401,"342"])
calories

0    314
1    314
2    401
3    342
dtype: object

Un index qui n'est pas spécifié est remplacé par une numérotation démarrant a 0. On peut considérer l'index et les valeurs comme des attributs de la `Series`. Il s'agit cependant d'objet de types différents :

In [5]:
calories.values

array([314, 314, 401, '342'], dtype=object)

In [6]:
type(calories.values)

numpy.ndarray

In [7]:
calories.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
type(calories.index)

pandas.core.indexes.range.RangeIndex

Il est préférable d'assigner aux index des valeurs compréhensibles ayant un sens correspondant au contexte :

In [9]:
fromages = pd.Series([314,314,401,342], 
    index=['Carredelest', 'Babybel', 'Beaufort', 'Bleu'])

fromages

Carredelest    314
Babybel        314
Beaufort       401
Bleu           342
dtype: int64

Ces étiquettes ou ` labels` sont les clés d'acces aux valeurs de la `serie`.

In [10]:
fromages['Babybel']

314

In [11]:
fromages[[name.endswith('el') for name in fromages.index]]

Babybel    314
dtype: int64

In [12]:
[name.endswith('el') for name in fromages.index]

[False, True, False, False]

Il reste cependant possible d'utiliser l'indexation par défaut a valeurs numériques :

In [13]:
fromages[0]

314

Les valeurs comme l'index peuvent etre nommés de maniere explicite :

In [14]:
fromages.name = 'nombre'
fromages.index.name = 'nom'
fromages

nom
Carredelest    314
Babybel        314
Beaufort       401
Bleu           342
Name: nombre, dtype: int64

Les opérations et fonctions mathématiques de Numpy peuvent etre utilisées avec les `series` sans perte de structure :

In [15]:
np.sqrt(fromages)

nom
Carredelest    17.720045
Babybel        17.720045
Beaufort       20.024984
Bleu           18.493242
Name: nombre, dtype: float64

Les `Series` peuvent etre filtrées par valeur :

In [16]:
fromages[fromages>400]

nom
Beaufort    401
Name: nombre, dtype: int64

Une `Series` peut etre créée a partir d'un `dict`:

In [17]:
fromages_dict = {'Carredelest': 314, 'Babybel': 314, 'Beaufort': 401, 'Bleu': 342}
pd.Series(fromages_dict)

Carredelest    314
Babybel        314
Beaufort       401
Bleu           342
dtype: int64

La `Series` est alors ordonnées par clé :
Si une erreur apparait dans l'index Pandas utilisera la valeur `NaN` (not a number) pour les valeurs manquantes.

In [18]:
fromages2 = pd.Series(fromages_dict, index=['Carredelest', 'Babybel', 'Beaufort', 'Bleu' , 'Comte'])
fromages2

Carredelest    314.0
Babybel        314.0
Beaufort       401.0
Bleu           342.0
Comte            NaN
dtype: float64

In [19]:
fromages2.isnull()

Carredelest    False
Babybel        False
Beaufort       False
Bleu           False
Comte           True
dtype: bool

Plus délicat, les index sont utilisés pour aligner les valeurs lors des opérations entre `Series` :

In [20]:
fromages + fromages2

Babybel        628.0
Beaufort       802.0
Bleu           684.0
Carredelest    628.0
Comte            NaN
dtype: float64

### DataFrame

Les données que nous qvons a manipuler sont plus souvent dans des dimensions supérieurs et a chaque *index* correspondront plusieurs colonnes souvent de types différents.

Un `DataFrame` est une struture tabulaire contenant plusieurs colonnes de type `Series`.

In [None]:
data = pd.DataFrame({'calories':[314,314,401,342, 264, 367],
                     'sodium':[353.5, 238,112, 336, 314, 256],
                     'nom':['Carredelest', 'Babybel', 'Beaufort', 'Bleu' , 'Camembert', 'Cantal']})
data

Les colonnes du `DataFrame` peuvent être réordonnées :

In [None]:
data[['nom', 'calories', 'sodium']]

Un `DataFrame` possede un deuxieme index, représentant les colonnes:

In [None]:
data.columns

On accede alors facilement aux colonnes par l'index ou comme attribut :

In [None]:
data['calories']

In [None]:
data.calories

In [None]:
type(data.calories)

In [None]:
type(data[['calories']])

A la difference des `Series`, l'acces a une ligne particuliere du `DataFrame` utilisera l'attribut `iloc`.

In [None]:
data.iloc[3]

Il est important de noter que les `Series` obtenues depuis un `DataFrame` sont des **vues** du DataFrame et non une copie. Il faut donc être prudent lors de leurs manipulation.

In [None]:
valeurs = data.calories
valeurs

In [None]:
calories[5] = 0
calories

In [None]:
data

In [None]:
vals = data.calories.copy()
vals[5] = 1000
data

Il est possible de créer ou de modifier des colonnes directement :

In [None]:
data.calories[3] = 145
data

In [None]:
data['calcium'] = 72.6
data

Si une série est utilisée pour la création d'une colonne, ses valeurs seront placées en fonction fe l'index du DataFrame :

In [None]:
dispo = pd.Series([0]*4 + [1]*2)
dispo

In [None]:
data['dispo'] = dispo
data

Les structures ne possédant pas un index doivent absolument avoir la même longueur que le `DataFrame`:

In [None]:
mois = ['Jan', 'Fev', 'Mar', 'Avr']
data['mois'] = mois

In [None]:
data['mois'] = ['Jan']*len(data)
data

La méthode `del` peut être utilisée comme dans un `dict` pour supprimer les colonnes :

In [None]:
del data['mois']
data

Le dataFrame possède des attributs de même nom que les colonnes et se présentant comme des `ndarray` :

In [None]:
data.calories

## Importer des données

Pandas dispose d'un ensemble de fonctions dédiées à l'import des données tabulaires provenant de sources différentes directement sous la forme d'un dataFrame. Ces fonctions  These functions comportent un certain nombre d'options permettant d'indexer, de parser, de faire des itération et de nettoyer automatiquement les données.

**Chargement d'un format csv**

Utilisation de la méthode `read_csv` :
Remarque : Les caractères accentués necessitent un encodage particulier utf-8 ou latin 1 etc...

In [None]:
mb = pd.read_csv("data/fromage.csv")
mb.head()

La première ligne est, par défaut, considérée comme contenant les noms des colonnes.

Il est possible de personnaliser le DataFrame en modifiant les paramètres tels que `header`, `names` or `index_col`.

In [None]:
pd.read_csv("data/fromage.csv", encoding='latin1', header=None).head()

`read_csv` est un cas particulier de la méthode `read_table` :

In [None]:
mb = pd.read_table("data/fromage.csv", sep=';')
mb.head()

Dans ce cas, il est possible de personaliser la valeur du séparateur `sep`. On peut, par exemple utiliser une expréssion régulière pour définir un nombre d'espacements variables ce qui, malheureusement, trop fréquent.
    
    sep='\s+'

Pour une indexation plus complexe, de type hiérarchique par exemple, il est possible de spécifier l'argument `index_col`.

In [None]:
mb = pd.read_csv("data/fromage.csv", sep=";", index_col=['calories','Fromages'])
mb.head()

L'argument `skiprows` permet d'exclure certaines lignes du chargement:

In [None]:
pd.read_csv("data/fromage.csv", sep=';', skiprows=[3,4,6]).head()

Ou bien n'importer qu'un nombre limité de lignes avec l'argument `nrows`:

In [None]:
pd.read_csv("data/fromage.csv", sep=';', nrows=4)

**ou de créer un découpage selon un pas**

In [None]:
data_decoupe = pd.read_csv("data/fromage.csv", sep=';',chunksize=5)
i=0
for chunk in data_decoupe : 
    print(chunk.Fromages[i])
    i+=5


La plupart des jeux de données sont incomplets, truffés de trous et d'erreurs de saisie. Pandas marque automatiquement cles cellules vides.

In [None]:
pd.read_csv("data/fromage.csv", sep=";").head(20)

Pandas a reconnu automatiquement deux champs vides marqués NaN.

In [None]:
pd.isnull(pd.read_csv("data/fromage.csv", sep=";")).head(20)

Malheureusement les valeurs abérentes telles que "?" ou "-9999" ne sont pas détéctées et il faut alors spécifier le champ de filtrage avec des règles plus précises avec un argument `na_values` :
   

In [None]:
pd.read_csv("data/fromage.csv",sep=";", na_values=['?', -9999]).head(20)

### Microsoft Excel

Beaucoup de champs professionnels tels que la Finance fonctionnent encore avec des classeurs Excel. Pandas possède une méthode spécifique permettant d'y accéder : `read_excel`. Cependant des dépendances sont parfois nécessaires et doivent être installées en fonction de la version du fichier Excel importé `xlrd` et `openpyxl` (utiliser `pip` ou `easy_install`).
                                             

In [None]:
mb2 = pd.read_excel('data/Canada.xlsx', sheet_name='Canada by Citizenship (2)', header=None)
mb2.head()

D'autres format sont accessibles via Python et peuvent être concertis en DataFrame ce sont les fichiers de type JSON, XML, HDF5, les bdd relationelles ou non, etc...

## Fonctions principales de Pandas

Dans cette dernière partie du Notebook nous allons voir les fonctions clés de Pandas.
Après le fromage un peu de sport !

In [22]:
football = pd.read_csv("data/FullData.csv", index_col="Name")
football.shape

(17588, 52)

Le choix d'indexer le dataframe par le nom des joueurs peut sembler évident mais il convient de verifier l'unicité.

In [23]:
football.index.is_unique

False

En effet certains joueurs ayant changé d'équipe de nombreuses fois y compris lors d'une même année :

In [24]:
pd.Series(football.index).value_counts()

Felipe                6
Gabriel               5
Danilo                5
Carlos Rodríguez      4
Roberto               4
                     ..
James Pearson         1
John Hernández        1
Terrence Boyd         1
Abdulaziz Al Qasir    1
Ángel Correa          1
Name: Name, Length: 17341, dtype: int64

In [25]:
football.loc['Felipe']

Unnamed: 0_level_0,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,Height,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Felipe,Brazil,,,FC Porto,RCB,28.0,07/01/2016,2021.0,80,185 cm,...,41,32,30,47,40,9,9,14,11,7
Felipe,Brazil,,,Udinese,LCB,30.0,08/31/2015,2017.0,75,188 cm,...,40,49,21,35,19,9,11,8,6,5
Felipe,Brazil,,,Chaves,Sub,33.0,07/04/2016,2017.0,73,189 cm,...,44,44,39,45,48,11,11,11,8,14
Felipe,Brazil,,,NY Red Bulls,RDM,8.0,01/27/2015,2022.0,71,171 cm,...,70,75,68,65,64,14,8,9,9,12
Felipe,Brazil,,,Sanfrecce Hiroshima,RF,10.0,01/25/2017,2017.0,71,171 cm,...,66,63,45,54,67,8,16,13,9,13
Felipe,Brazil,,,Hannover 96,Sub,20.0,07/01/2012,2018.0,70,193 cm,...,58,33,31,52,26,12,13,14,16,15


Peut être faut-il alors combiner des colonnes pour créer un index unique exemple `Name` avec `Club`:

In [26]:
id = football.index + football.Club
football_2 = football.copy()
football_2.index = id
football_2.head()

Unnamed: 0,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,Height,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
Cristiano RonaldoReal Madrid,Portugal,LS,7.0,Real Madrid,LW,7.0,07/01/2009,2021.0,94,185 cm,...,90,81,76,85,88,14,7,15,11,11
Lionel MessiFC Barcelona,Argentina,RW,10.0,FC Barcelona,RW,10.0,07/01/2004,2018.0,93,170 cm,...,88,89,90,74,85,14,6,15,11,8
NeymarFC Barcelona,Brazil,LW,10.0,FC Barcelona,LW,11.0,07/01/2013,2021.0,92,174 cm,...,77,79,84,81,83,15,9,15,9,11
Luis SuárezFC Barcelona,Uruguay,LS,9.0,FC Barcelona,ST,9.0,07/11/2014,2021.0,92,182 cm,...,86,86,84,85,88,33,27,31,25,37
Manuel NeuerFC Bayern,Germany,GK,1.0,FC Bayern,GK,1.0,07/01/2011,2021.0,92,193 cm,...,16,14,11,47,11,91,89,95,90,89


On vérifie :

In [27]:
pd.Series(football_2.index).value_counts()

Park Dae HanJeonnam Dragons     2
Jake WrightSheffield Utd        2
Pierrick CrosRed Star FC        2
Lee Jae SungJeonbuk Hyundai     2
BritoMarítimo                   1
                               ..
Rodrigo VargasFree Agents       1
Roberto SalcedoNecaxa           1
Borja BastónSwansea City        1
Juan CarabalíCortuluá           1
Jens Kristian SkogmoIK Start    1
Length: 17584, dtype: int64

Toujours pas !

In [None]:
football_2.loc['Park Dae HanJeonnam Dragons']

Peut être faut-il ajouter la colone "Contract_Expiry".<br>On reprend pour Name comme index.

In [None]:
football = pd.read_csv("data/fulldata.csv")
football.head()

## Méthodes de tri

Pandas permet de réorganiser les données avec des méthodes de tri simples.

In [None]:
football.sort_values(ascending=True,by='Name').head()

In [None]:
football[['Name','Club','Contract_Expiry']].sort_values(ascending=[True,False], by=['Name', 'Contract_Expiry']).head(20)

## Données manquantes

Les données manquantes sont détectées par Pandas et traitées comme une valeur de type NaN. Ceci est valable pour les cellules vises mais aussi celle égale à None.

In [None]:
foo = pd.Series([np.nan, -3, None, 'foobar'])
foo

In [None]:
foo.isnull()

Les valeurs manquantes peuvent être suprimées.

In [29]:
data = pd.read_csv("data/fromage.csv", sep=";")
data.head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


In [30]:
data = pd.read_csv("data/fromage.csv",sep=";", na_values=['?', -9999])
data.dropna().head(20)

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
10,Coulomniers,308,222.0,79.2,25.6,63.6,21.1,20.5,80,13.0


In [31]:
data[data.notnull()]

Unnamed: 0,Fromages,calories,sodium,calcium,lipides,retinol,folates,proteines,cholesterol,magnesium
0,CarredelEst,314,353.5,72.6,26.3,51.6,30.3,21.0,70,20.0
1,Babybel,314,238.0,209.8,25.1,63.7,6.4,22.6,70,27.0
2,Beaufort,401,112.0,259.4,33.3,54.9,1.2,26.6,120,41.0
3,Bleu,342,336.0,211.1,28.9,37.1,27.5,20.2,90,27.0
4,Camembert,264,314.0,215.9,19.5,103.0,36.4,23.4,60,20.0
5,Cantal,367,256.0,264.0,28.8,48.8,5.7,23.0,90,30.0
6,Chabichou,344,192.0,87.2,27.9,90.1,36.3,19.5,80,36.0
7,Chaource,292,276.0,132.9,25.4,116.4,32.5,17.8,70,25.0
8,Cheddar,406,172.0,182.3,32.5,76.4,4.9,26.0,110,28.0
9,Comte,399,92.0,220.5,32.4,55.9,,29.2,120,51.0


La méthode `dropna` supprime touts les lignes contenant au moins une valeur manquante.

Il est possible de spécifier avec l'argumemnt `how='all'`, de ne supprimer que les lignes ne contenant **que des valeurs manquantes**.

In [None]:
data.dropna(how='all')

Ou encore avec l'argument `Thresh` qui spécifie un seuil de valeurs manquantes.

In [None]:
data.dropna(thresh=4)

Avec l'argument `axis=1` c'est la colonne qui est supprimée !

In [None]:
data.dropna(axis=1)

Il est parfois préférable de ne pas supprimer les données mais de les remplacer par une vaaleurs judicieusement choisie : un zéro, une moyenne, une médiane ou une interpollation.

In [None]:
data.head(20)

In [None]:
data.fillna(0).head(20)

Ou encore : 

In [None]:
data.fillna(method='bfill').head(20)

In [None]:
data.fillna(data.mean()).head(20)

## Déscription analytique des données

De nombreux outils de calculs statistiques sont disponibles dans Pandas et permettent d'avoir une approche analytique des données.

In [32]:
data.sum()

Fromages       CarredelEstBabybelBeaufortBleuCamembertCantalC...
calories                                                    8701
sodium                                                    6092.5
calcium                                                   5386.3
lipides                                                    700.6
retinol                                                   1909.3
folates                                                      376
proteines                                                  584.9
cholesterol                                                 2163
magnesium                                                    708
dtype: object

In [None]:
data.mean()

Pandas ne comptabilise pas les valeutrs manquantes mais il est possible de modifier son comportement.

In [None]:
data.mean(skipna=False)

Pandas dispose d'une méthode très pratiquepour la description des données :  `describe`:

In [None]:
data.describe()

`describe` peut aussi être appliquée aux données non numériques.

In [None]:
data.Fromages.describe()

Méthodes de correlation :

In [None]:
data.calories.corr(data.calcium)

In [None]:
data.corr()

## Exportation des données

To comme la méthode read_csv il existe une méthode to_csv qui permet d'exporter un dataframe vers un fichier csv.

In [None]:
data.to_csv("data2.csv")

La méthode `to_csv` accepte aussi les argument `sep`, `header`, `index` et bien d'autres

<hr>
Copyright &copy; 2020 Hatem & Driss @NEEDEMAND