![](https://upload.wikimedia.org/wikipedia/fr/thumb/9/9e/Logo_ENSG_G%C3%A9omatique_2012.svg/220px-Logo_ENSG_G%C3%A9omatique_2012.svg.png)


# ENSG : statistiques appliquées en cartographie
## Réaliser une analyse univariée à l'aide de Python

*   L'objectif de ce TD est de réaliser une petite analyse univariée à l'aide de Python

*   Cette analyse a pour but de vous faire découvrir un outil simple et gratuit pour l'analyse de données. Elle vise aussi à mieux comprendre vos données : nature, forme des distribution, signification.
  
*   Enfin, cette analyse vous permettra de justifier vos choix de discrétisation de manière objective

Pour cela, vous allez utiliser un notebook virtuel Jupyter Lab. Il permet d'éxécuter du code Python dans des cellules afin d'afficher et de partager des résultats d'analyse. Des blocs de texte Markdown permettent de commenter l'ensemble du notebook 

Notez qu'en Python, on ne commente jamais ligne pas ligne, mais pour des raisons pédagogiques, cela sera fait ici

Les excercices prendrons cette forme : 

> Exercice


# 1. Importation des packages et des données

## 1.1 Packages

- Les packages sont des outils permettant de réaliser certaines tâches facilement, sans avoir à tout coder vous même. Par exemple, lire un fichier Excel, charger un fond de carte etc.
- Vous découvrirez pas vous même des packages en fonction de vos besoins, mais pour ce TD, ils sont déjà sélectionnés

#### Lancer l'importation des packages dans une cellule de code
- Ci-dessous ce trouve une cellule de code. A l'inverse de la cellule actuelle (en Markdown), elle peut éxécuter du code Python dans le Notebook
- Pour lancez une cellule de code, sélectionnez la et appuyez sur Shift+Entrée

In [1]:
import pandas as pd # Pour gérer les tableaux de données (on partle de Dataframe)

## 1.2 Importation des données

- Vous allez importer le premier jeu de données du TD, sur l'Europe. 
- Les données sont au format CSV dans le répertoire ./data/ (visible dans la fenêtre de gauche)
- Le CSV est formaté avec un séparateur ";" et des décimales ","

In [8]:
df_ue = pd.read_csv("./data/TD_Europe.csv", decimal=",", sep=";") # charge avec Pandas le csv TD_Europe.csv dans la variable df_ue
df_ue # affichage du dataframe. Si le nombre de lignes est trop importantes, seule une partie est affichée

Unnamed: 0,Code,Pays,ICF_2014,ICF_2015,ICF_2016,ICF_2017,ICF_2018,ICF_2019
0,DE,Allemagne,1.47,1.5,1.6,1.57,1.57,1.54
1,AT,Autriche,1.46,1.49,1.53,1.52,1.47,1.46
2,BE,Belgique,1.74,1.7,1.68,1.65,1.62,1.6
3,BG,Bulgarie,1.53,1.53,1.54,1.56,1.56,1.58
4,CY,Chypre,1.31,1.32,1.37,1.32,1.32,1.33
5,HR,Croatie,1.46,1.4,1.42,1.42,1.47,1.47
6,DK,Danemark,1.69,1.71,1.79,1.75,1.73,1.7
7,ES,Espagne,1.32,1.33,1.34,1.31,1.26,1.23
8,EE,Estonie,1.54,1.58,1.6,1.59,1.67,1.66
9,FI,Finlande,1.71,1.65,1.57,1.49,1.41,1.35


> Excercice : vous allez faire en sorte d'afficher uniquement les 5 premières lignes du dataframe.<br>
  Pour cela, sélectionnez cette cellule et ajoutez une nouvelle cellule juste en dessous en appuyant sur "B" (Bellow). Tapez dans la nouvelle cellule : 


```python
df_ue.head(5)
```

> Insérer la nouvelle cellule après cette ligne en sélectionnant la cellule avec la souris puis en appuyant sur B. Affichez les 6 premières lignes de df_ue

--- 


Autres commandes :
- Pour supprimer une cellule, sélectionnez la et appuyez sur "X".
- Pour insérer une cellule au dessus de la sélection : "A" (Above).
- Pour annuler l'action précédente : "Z"

# 2. Manipuler le Dataframe
Vous pouvez manipuler votre dataframe facilement, comme un fichier Excel. Sauf que vous gardez une trace de vos actions.

## 2.1 Ajouter une nouvelle colonne
Par exemple, la commande ci-dessous calcule la moyenne de l'ICF 2018 et 2019 dans une nouvelle colonne

Entre crochets, on précise le nom de la nouvelle colonne :
```python
df_ue['moy_1819']
```

On précise la nouvelle valeur à calculer
```python
(df_ue['ICF_2018'] + df_ue['ICF_2019']) /2
```

In [9]:
df_ue['moy_1819'] = (df_ue['ICF_2018'] + df_ue['ICF_2019']) /2
df_ue.head(5)

Unnamed: 0,Code,Pays,ICF_2014,ICF_2015,ICF_2016,ICF_2017,ICF_2018,ICF_2019,moy_1819
0,DE,Allemagne,1.47,1.5,1.6,1.57,1.57,1.54,1.555
1,AT,Autriche,1.46,1.49,1.53,1.52,1.47,1.46,1.465
2,BE,Belgique,1.74,1.7,1.68,1.65,1.62,1.6,1.61
3,BG,Bulgarie,1.53,1.53,1.54,1.56,1.56,1.58,1.57
4,CY,Chypre,1.31,1.32,1.37,1.32,1.32,1.33,1.325


> Exercice <br>
> Dans la cellule ci-dessous, calculez le taux d'évolution de l'ICF entre 2014 et 2019. <br>
> Nommez la nouvelle colonne de manière efficace

## 2.2 Supprimer une colonne
Pour supprimer une colonne : 


In [11]:
df_ue.drop(columns=['moy_1819'],inplace=True) # inplace=True permet d'appliquer directement la suppression. Cela revient (presque) à : df_ue = df_ue.drop(columns=['moy_1819'])
df_ue.head(5)

Unnamed: 0,Code,Pays,ICF_2014,ICF_2015,ICF_2016,ICF_2017,ICF_2018,ICF_2019
0,DE,Allemagne,1.47,1.5,1.6,1.57,1.57,1.54
1,AT,Autriche,1.46,1.49,1.53,1.52,1.47,1.46
2,BE,Belgique,1.74,1.7,1.68,1.65,1.62,1.6
3,BG,Bulgarie,1.53,1.53,1.54,1.56,1.56,1.58
4,CY,Chypre,1.31,1.32,1.37,1.32,1.32,1.33


## 2.3 Filtrer un Dataframe
- Il existe de très nombreuses fonctionnalités avec Pandas très commune en base de données comme des regroupements, des pivots etc.
- Vous pouvez également filtrer le contenu. Par exemple, en affichant uniquement les pays dont l'ICF en 2019 > 1.7


In [14]:
df_ue.query("ICF_2019>1.7")

Unnamed: 0,Code,Pays,ICF_2014,ICF_2015,ICF_2016,ICF_2017,ICF_2018,ICF_2019
10,FR,France,2.0,1.96,1.93,1.89,1.87,1.86
13,IE,Irlande,1.89,1.85,1.81,1.77,1.75,1.71
22,CZ,Tchéquie,1.53,1.57,1.63,1.69,1.71,1.71
23,RO,Roumanie,1.56,1.62,1.69,1.78,1.76,1.77
26,SE,Suède,1.88,1.85,1.85,1.78,1.76,1.71


## 3. Statistiques univariées
Il est aussi possible de calculer des statistiques pour une ou plusieurs colonnes, ainsi que de réaliser des graphiques

### 3.1 Description des données
La fonction describe donne pour un dataframe :
- le nombre d'individus
- la moyenne (mean)
- l'écart-type (std)
- les quartiles

In [17]:
df_ue.describe()

Unnamed: 0,ICF_2014,ICF_2015,ICF_2016,ICF_2017,ICF_2018,ICF_2019
count,27.0,27.0,27.0,27.0,27.0,27.0
mean,1.53963,1.544074,1.565926,1.551481,1.53963,1.524444
std,0.196948,0.182867,0.17048,0.169449,0.170056,0.177576
min,1.23,1.31,1.34,1.26,1.23,1.14
25%,1.375,1.385,1.4,1.405,1.415,1.39
50%,1.53,1.53,1.57,1.56,1.56,1.57
75%,1.67,1.68,1.685,1.67,1.65,1.635
max,2.0,1.96,1.93,1.89,1.87,1.86


### 3.2 Coefficient d'asymétrie
- Le coefficient d'asymétrie (skew) peut être calculé pour toute les colonnes numériques
- On constate que pour 2017 et 2018, les données semblent plutôt symétriques. A confirmer avec les graphiques

In [21]:
df_ue.skew(numeric_only=True) # le paramètre numeric_only=True précise que le Skew ne sera pas calculé sur les colonnes non numériques

ICF_2014    0.601037
ICF_2015    0.498751
ICF_2016    0.355266
ICF_2017    0.037223
ICF_2018   -0.092586
ICF_2019   -0.323104
dtype: float64

### 3.3 Normalité des séries
Il serait possible de calculer le coefficient d'applatissement de chaque série : 

```python
df_ue.kurtosis(numeric_only=True)
```

Mais nous allons plutôt utiliser un test statistique pour vérifier si les données suivent une loi normale.

- Attention, avec seulement 27 pays, il est nécessaire de rester prudent quant à l'interprétation

Pour cela, vous allez utiliser un autre package très utile en statistique : scipy
- Il contient de nombreux outils statistiques et fonctionne bien avec Pandas (et plus généralement Numpy)

In [29]:
from scipy import stats # scipy n'est pas importé complètement, seule un module qui nous intéresse est chargé : stats

stats.shapiro(df_ue[['ICF_2018']])

ShapiroResult(statistic=0.9759425520896912, pvalue=0.7616128325462341)