# Master TIDE - Conférences Python 2021

Francis Wolinski

&copy; 2021 Yotta Conseil

# 3. Pandas : manipulations et modifications des données

In [None]:
# import des modules usuels
import pandas as pd
import numpy as np

# options d'affichage
pd.set_option("display.max_rows", 16)

In [None]:
# chargement des données
geo = pd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11),
                  index_col="Code INSEE")
geo

## 3.1 Tri
La méthode `sort_values()` permet de trier un *DataFrame* selon les valeurs d'une ou plusieurs colonnes (ordre lexicographique) et la méthode `sort_index()` selon les valeurs de l'index.

Pour trier selon l'ordre inverse on utilise l'option `ascending=False`.

Ces méthodes retournent des copies du `DataFrame` initial, sauf si l'option `inplace=True` est utilisée. Dans ce cas l'objet est effectivement modifié.

In [None]:
# tri selon l'altitude
geo.sort_values("Altitude Moyenne").head()

In [None]:
# tri selon l'altitude inverse
geo.sort_values("Altitude Moyenne", ascending=False).head()

In [None]:
# tri selon l'altitude puis suivant le nom de la commune A->Z
geo.sort_values(["Altitude Moyenne", "Commune"]).head()

In [None]:
# tri selon l'altitude puis suivant le nom de la commune Z->A
geo.sort_values(["Altitude Moyenne", "Commune"], ascending=[True, False]).head()

In [None]:
# tri selon l'index
geo = geo.sort_index()
geo.head()

## 3.2 Modification de colonnes et conversions

Toutes les opérations de sélection permettent d'effectuer des modifications avec l'opérateur `=`.

Par exemple, il est possible de modifier toutes les valeurs d'une colonne.

In [None]:
# la superficie des communes est en hectares, on la passe en km2
geo["Superficie"] = geo["Superficie"] / 100.0  # ou bien geo["Superficie"] =/ 100.0
geo.head()

N. B. : La modification d'un objet issu d'un *DataFrame* (colonne par exemple) est répercutée sur l'objet initial.

On peut également appliquer une méthode de conversion de type sur une colonne.

In [None]:
# exemple de conversion
geo["Altitude Moyenne"] = geo["Altitude Moyenne"].astype(int)
geo.head()

Transformation d'une variable catégorielle sous forme de chaines de caractères et categorie.

A noter, la catégorie peut être ordonnée.

In [None]:
# info
geo.info()

In [None]:
# select avec des chaines
%timeit geo.loc[geo['Statut']=='Chef-lieu canton']

In [None]:
# conversion de la colonne Statut en catégorie

statuts = ["Commune simple", "Chef-lieu canton", "Sous-préfecture",
            "Préfecture", "Préfecture de région", "Capitale d'état"]

cat_statut = pd.CategoricalDtype(categories=statuts, ordered=True)
geo["Statut"] = geo["Statut"].astype(cat_statut)

geo.info()

In [None]:
# select avec des categories
%timeit geo.loc[geo['Statut']=='Chef-lieu canton']

In [None]:
# opérateur cat
geo['Statut'].cat.categories

In [None]:
# opérateur cat
geo['Statut'].cat.codes

## 3.3 Ajout de colonnes

In [None]:
# on ajoute la colonne "Densité"
geo["Densité"] = 1000 * geo["Population"] / geo["Superficie"]
geo.head()

#### Ajout de colonnes en utilisant la méthode *apply()* appliquée à une colonne

La latitude et la longitude sont données sous la forme d'une chaîne de caractères dans la colonne *geo_point_2d*. La latitude et la longitude sont séparées par une virdule et un espace (", ")

In [None]:
# la colonne "geo_point_2d" est constituée de chaînes de caractères
geo["geo_point_2d"]

In [None]:
# par exemple
geo_point_2d = geo.loc["01001", "geo_point_2d"]
geo_point_2d

Pour extraire les 2 grandeurs, on va utiliser la méthode **split()** qui retourne la liste des sous-chaînes séparées par une chaîne donnée.

On va l'utiliser avec la chaîne de séparation ", ".

N.B. : Si la chaîne était variable (par ex., un ou plusieurs espaces) on pourrait utiliser une expression réguière (module *re* de Python).

In [None]:
# application de la méthode split()
x = geo_point_2d.split(', ')
x

Il va falloir extraire chacune des grandeurs et la transformer en nombre flottant.

Il va falloir appliquer cette technique à chaque ligne de la colonne et aux deux grandeurs. Dans un langage classique, on appliquerait une boucle.

En pandas, la méthode *apply()* permet d'appliquer une fonction (ou une lambda) à chaque élement d'une *Series* ou d'un *DataFrame* et de retourner un objet avec le résultat de la fonction appliquée à chaque élément.

In [None]:
# on calcule  la latitude et la longitude et on ajoute les colones
#geo["Latitude"] = geo["geo_point_2d"].apply()
#geo["Longitude"] = geo["geo_point_2d"].apply()
geo.head()

In [None]:
# on vérifie le type des colonne ajoutées
geo.info()

Une autre manière de faire est d'utiliser la méthode `extract` capable d'extraire un motif sous forme d'expression régulière.

In [None]:
# méthode extract
geo["geo_point_2d"].str.extract("(.*), (.*)")

In [None]:
# méthode extract
geo[['Latitude', 'Longitude']] = geo["geo_point_2d"].str.extract("(.*), (.*)").astype(float)
geo.head()

<div class="alert alert-success">
<b>Exercice 1</b>
<ul>
    <li>Ajoutez une colonne 'CP Ville' avec le Code postal + un espace + et le nom de la Ville</li>
    <li>Ecrivez une fonction qui détermine la commune la plus proche d'un point à partir de sa latitude et sa longitude.</li>
    <li>Ajoutez une fonction de conversion pour pouvoir utiliser la première fonction avec un GPS (degrés, minutes, secondes).</li>
</ul>
</div>

In [None]:
# fonction recherche de ville
def ville(lat, long):
    pass

In [None]:
# on applique la fonction à une coordonnée tirée au hasard
np.random.seed(0)
a, b = 41.5, 51.1  # latitude min et max de la France métropolitaine
lat = (b - a) * np.random.random() + a
a, b = -5.1, 9.5  # longitude min et max de la France métropolitaine
long = (b - a) * np.random.random() + a
print(lat, long)
ville(lat, long)

In [None]:
# conversion degrés, minutes, secondes => décimal
def dms2dec(deg, mn, sec):
    pass

<div class="alert alert-success">
<b>Exercice 2</b>
<br />
La colonne "geo_shape" est formée de chaines de catactères en JSON (JavaScript Object Notation). Le format JSON est très utilisé comme le format XML.

<ul>
    <li>Utiliser la librairie Python json pour parser la colonne "geo_shape" : json.loads()</li>
    <li>Donner le décompte des valeurs accédées avec la clé "type".</li>
    <li>Donner le décompte des longueurs des listes accédées avec la clé "coordinates".</li>
    <li>Quelle commune est la plus complexe géométriquement ?</li>
    <li>Quelles sont les villes qui sont de type "Polygon" mais dont la longueur des listes accédées avec la clé "coordinates" vaut 2 ?</li>
    <li>Pour ces villes vérifier que le premier polygone contient bien le second (enclave). NB : installer la librairie shapely, utiliser la classe Polygon de shapely.geometry. Sur Windows shapely peut nécessiter d'installer la dll "geos_c.dll" dans le répertoire "Library/bin" de votre environnement Python.</li>
</ul>
</div>

Les formes géométriques des communes sont des polygones ou composées de plusieurs polygones.

## 3.4 Discrétisation de valeurs continues

La fonction `cut()` permet de discrétiser des variables continues. Elle renvoie un objet de type `Series` numérique qui partage le même index que l'objet Series initial.

A noter, on utilise la valeur `numpy.inf` qui désigne $+\infty$.

In [None]:
# + infini
1e10 < np.inf

In [None]:
# - infini
np.NINF

In [None]:
# indéterminé
np.inf + np.NINF

In [None]:
# une ville comporte plus de 2000 habitants
var = pd.cut(geo["Population"], [0.0, 2.0, np.inf], labels=["Village", "Ville"])
var

In [None]:
# décompte des villages et des villes de France
var.value_counts()

La fonction `qcut()` cherche à discrétiser les valeurs en quantiles identiques.

In [None]:
# On sépare en 2 catégories identiques
var = pd.qcut(geo["Population"], 2, labels=["MonVillage", "MaVille"])
var

In [None]:
# décompte des villages et des villes de France
var.value_counts()

In [None]:
# seuil de la population pour MonVillage
geo.loc[var == "MonVillage", "Population"].max()

In [None]:
# on vérifie qu'il s'agit bien de la médiane
geo["Population"].median()