# 5. Pandas : manipulations et modifications des données

In [1]:
# import des modules usuels
import pandas as pnd
import numpy as np
import matplotlib.pyplot as plt

# commande magique pour l'affichage des graphiques
%matplotlib inline

# options d'affichage
pnd.set_option("display.max_rows", 16)
plt.style.use('seaborn-darkgrid')

In [2]:
# chargement des données
geo = pnd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11),
                  index_col="Code INSEE")
geo.sort_index(inplace=True)
geo

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
01001,01400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
01002,01640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
01004,01500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
01005,01330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
01006,01300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."
01007,01500,AMBRONAY,AIN,RHONE-ALPES,Commune simple,309.0,3359.0,2.3,"46.0055913782, 5.35760660735","{""type"": ""Polygon"", ""coordinates"": [[[5.413533..."
01008,01500,AMBUTRIX,AIN,RHONE-ALPES,Commune simple,274.0,518.0,0.7,"45.9367134524, 5.3328092349","{""type"": ""Polygon"", ""coordinates"": [[[5.321986..."
01009,01300,ANDERT-ET-CONDON,AIN,RHONE-ALPES,Commune simple,294.0,696.0,0.3,"45.7873565333, 5.65788307924","{""type"": ""Polygon"", ""coordinates"": [[[5.656393..."
...,...,...,...,...,...,...,...,...,...,...
97610,97600,KOUNGOU,MAYOTTE,MAYOTTE,Chef-lieu canton,138.0,2769.0,19.8,"-12.7465604467, 45.1869991913","{""type"": ""Polygon"", ""coordinates"": [[[45.23692..."


## 5.1 Tri
La méthode **sort_values()** permet de trier un *DataFrame* selon les valeurs d'une ou plusieurs colonnes (ordre lexicographique) et la méthode **sort_index()** selon les valeurs de l'index.

Pour trier selon l'ordre inverse on utilise l'option *ascending=False*.

Ces méthodes retournent des copies du *DataFrame* initial, sauf si l'option *inplace=True* est utilisée. Dans ce cas l'objet est effectivement modifié.

In [3]:
# tri selon l'altitude
geo.sort_values("Altitude Moyenne").head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
34192,34250,PALAVAS-LES-FLOTS,HERAULT,LANGUEDOC-ROUSSILLON,Commune simple,0.0,920.0,6.0,"43.533536456, 3.92620839566","{""type"": ""Polygon"", ""coordinates"": [[[3.907955..."
59404,59122,LES MOERES,NORD,NORD-PAS-DE-CALAIS,Commune simple,0.0,1967.0,0.8,"51.0240965472, 2.5473689484","{""type"": ""Polygon"", ""coordinates"": [[[2.572476..."
59605,59229,UXEM,NORD,NORD-PAS-DE-CALAIS,Commune simple,1.0,808.0,1.3,"51.0239750832, 2.49246889837","{""type"": ""Polygon"", ""coordinates"": [[[2.505855..."
29085,29980,ILE-TUDY,FINISTERE,BRETAGNE,Commune simple,1.0,128.0,0.7,"47.8527643575, -4.16160884308","{""type"": ""Polygon"", ""coordinates"": [[[-4.15131..."
66017,66420,LE BARCARES,PYRENEES-ORIENTALES,LANGUEDOC-ROUSSILLON,Commune simple,1.0,1539.0,4.0,"42.8127710984, 3.02834125149","{""type"": ""Polygon"", ""coordinates"": [[[3.025922..."


In [4]:
# tri selon l'altitude inverse
geo.sort_values("Altitude Moyenne", ascending=False).head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
73047,73480,BONNEVAL-SUR-ARC,SAVOIE,RHONE-ALPES,Commune simple,2713.0,11231.0,0.2,"45.3858269371, 7.09178979521","{""type"": ""Polygon"", ""coordinates"": [[[7.110695..."
73040,73480,BESSANS,SAVOIE,RHONE-ALPES,Commune simple,2649.0,15414.0,0.3,"45.292032537, 7.04532734274","{""type"": ""Polygon"", ""coordinates"": [[[7.110695..."
73290,73500,TERMIGNON,SAVOIE,RHONE-ALPES,Commune simple,2584.0,18010.0,0.4,"45.3441528771, 6.84789108583","{""type"": ""Polygon"", ""coordinates"": [[[6.854937..."
73304,73150,VAL-D'ISERE,SAVOIE,RHONE-ALPES,Commune simple,2583.0,10765.0,1.6,"45.4310113935, 6.99852444032","{""type"": ""Polygon"", ""coordinates"": [[[6.998183..."
38375,38520,SAINT-CHRISTOPHE-EN-OISANS,ISERE,RHONE-ALPES,Commune simple,2557.0,23740.0,0.1,"44.9290846615, 6.24454607842","{""type"": ""Polygon"", ""coordinates"": [[[6.336319..."


In [5]:
# tri selon l'altitude puis suivant le nom de la commune A->Z
geo.sort_values(["Altitude Moyenne", "Commune"]).head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
59404,59122,LES MOERES,NORD,NORD-PAS-DE-CALAIS,Commune simple,0.0,1967.0,0.8,"51.0240965472, 2.5473689484","{""type"": ""Polygon"", ""coordinates"": [[[2.572476..."
34192,34250,PALAVAS-LES-FLOTS,HERAULT,LANGUEDOC-ROUSSILLON,Commune simple,0.0,920.0,6.0,"43.533536456, 3.92620839566","{""type"": ""Polygon"", ""coordinates"": [[[3.907955..."
30003,30220,AIGUES-MORTES,GARD,LANGUEDOC-ROUSSILLON,Chef-lieu canton,1.0,5776.0,8.1,"43.5507249635, 4.18349802063","{""type"": ""Polygon"", ""coordinates"": [[[4.237933..."
59154,59380,COUDEKERQUE-VILLAGE,NORD,NORD-PAS-DE-CALAIS,Commune simple,1.0,1203.0,1.2,"50.9945680467, 2.42167016066","{""type"": ""Polygon"", ""coordinates"": [[[2.435660..."
29085,29980,ILE-TUDY,FINISTERE,BRETAGNE,Commune simple,1.0,128.0,0.7,"47.8527643575, -4.16160884308","{""type"": ""Polygon"", ""coordinates"": [[[-4.15131..."


In [6]:
# tri selon l'altitude puis suivant le nom de la commune Z->A
geo.sort_values(["Altitude Moyenne", "Commune"], ascending=[True, False]).head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
34192,34250,PALAVAS-LES-FLOTS,HERAULT,LANGUEDOC-ROUSSILLON,Commune simple,0.0,920.0,6.0,"43.533536456, 3.92620839566","{""type"": ""Polygon"", ""coordinates"": [[[3.907955..."
59404,59122,LES MOERES,NORD,NORD-PAS-DE-CALAIS,Commune simple,0.0,1967.0,0.8,"51.0240965472, 2.5473689484","{""type"": ""Polygon"", ""coordinates"": [[[2.572476..."
59605,59229,UXEM,NORD,NORD-PAS-DE-CALAIS,Commune simple,1.0,808.0,1.3,"51.0239750832, 2.49246889837","{""type"": ""Polygon"", ""coordinates"": [[[2.505855..."
59588,59229,TETEGHEM,NORD,NORD-PAS-DE-CALAIS,Commune simple,1.0,1896.0,7.1,"51.0158652678, 2.45278368133","{""type"": ""Polygon"", ""coordinates"": [[[2.449611..."
13096,13460,SAINTES-MARIES-DE-LA-MER,BOUCHES-DU-RHONE,PROVENCE-ALPES-COTE D'AZUR,Chef-lieu canton,1.0,37242.0,2.3,"43.50398297, 4.46396357194","{""type"": ""Polygon"", ""coordinates"": [[[4.597237..."


In [7]:
# tri selon l'index
geo.sort_index(inplace=True)
geo.head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


## 5.2 Modification de colonnes et conversions

Toutes les opérations de sélection permettent d'effectuer des modifications avec l'opérateur *=*.

Par exemple, il est possible de modifier toutes les valeurs d'une colonne.

In [8]:
# la superficie des communes est en hectares, on la passe en km2
geo["Superficie"] = geo["Superficie"] / 100.0  # ou bien geo["Superficie"] =/ 100.0
geo.head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,15.65,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,9.12,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,24.48,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,16.05,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,6.02,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


N. B. : La modification d'un objet issu d'un *DataFrame* (colonne par exemple) est répercutée sur l'objet initial.

On peut également appliquer une méthode de conversion de type sur une colonne.

In [9]:
# exemple de conversion
geo["Altitude Moyenne"] = geo["Altitude Moyenne"].astype(int)
geo.head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242,15.65,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483,9.12,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379,24.48,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290,16.05,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589,6.02,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


Transformation d'une variable catégorielle sous forme de chaines de caractères et categorie.

A noter, la catégorie peut être ordonnée.

In [10]:
# info
geo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36742 entries, 01001 to 97617
Data columns (total 10 columns):
Code Postal         36742 non-null object
Commune             36742 non-null object
Département         36742 non-null object
Région              36742 non-null object
Statut              36742 non-null object
Altitude Moyenne    36742 non-null int32
Superficie          36742 non-null float64
Population          36742 non-null float64
geo_point_2d        36742 non-null object
geo_shape           36742 non-null object
dtypes: float64(2), int32(1), object(7)
memory usage: 2.9+ MB


In [11]:
# conversion de la colonne Statut en catégorie
geo["Statut"] = geo["Statut"].astype('category',
                                     categories=["Commune simple", "Chef-lieu canton", "Sous-préfecture",
                                                "Préfecture", "Préfecture de région", "Capitale d'état"], 
                                     ordered=True)
geo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36742 entries, 01001 to 97617
Data columns (total 10 columns):
Code Postal         36742 non-null object
Commune             36742 non-null object
Département         36742 non-null object
Région              36742 non-null object
Statut              36742 non-null category
Altitude Moyenne    36742 non-null int32
Superficie          36742 non-null float64
Population          36742 non-null float64
geo_point_2d        36742 non-null object
geo_shape           36742 non-null object
dtypes: category(1), float64(2), int32(1), object(6)
memory usage: 2.7+ MB


In [12]:
geo.dtypes

Code Postal           object
Commune               object
Département           object
Région                object
Statut              category
Altitude Moyenne       int32
Superficie           float64
Population           float64
geo_point_2d          object
geo_shape             object
dtype: object

## 5.3 Ajout de colonnes

In [13]:
# on ajoute la colonne "Densité"
geo["Densité"] = 1000 * geo["Population"] / geo["Superficie"]
geo.head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape,Densité
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242,15.65,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273...",51.118211
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483,9.12,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089...",21.929825
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379,24.48,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190...",547.385621
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290,16.05,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580...",99.688474
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589,6.02,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854...",16.611296


#### Ajout de colonnes en utilisant la méthode *apply()* appliquée à une colonne

La latitude et la longitude sont données sous la forme d'une chaîne de caractères dans la colonne *geo_point_2d*. La latitude et la longitude sont séparées par une virdule et un espace (", ")

In [14]:
# la colonne "geo_point_2d" est constituée de chaînes de caractères
geo["geo_point_2d"]

Code INSEE
01001     46.1534255214, 4.92611354223
01002     46.0091878776, 5.42801696363
01004      45.9608475114, 5.3729257777
01005     45.9961799872, 4.91227250796
01006     45.7494989044, 5.59432017366
01007     46.0055913782, 5.35760660735
01008      45.9367134524, 5.3328092349
01009     45.7873565333, 5.65788307924
                     ...              
97610    -12.7465604467, 45.1869991913
97611    -12.7899979586, 45.1932456026
97612    -12.6875073612, 45.0736802335
97613    -12.7513099309, 45.0871696871
97614    -12.8370955196, 45.1379095497
97615    -12.7961353309, 45.2842063102
97616    -12.8611649609, 45.1185503145
97617    -12.7821666736, 45.1344279083
Name: geo_point_2d, Length: 36742, dtype: object

In [15]:
# par exemple
geo.loc["01001", "geo_point_2d"]

'46.1534255214, 4.92611354223'

Pour extraire les 2 grandeurs, on va utiliser la méthode **split()** qui retourne la liste des sous-chaînes séparées par une chaîne donnée.

On va l'utiliser avec la chaîne de séparation ", ".

N.B. : Si la chaîne était variable (par ex., un ou plusieurs espaces) on pourrait utiliser une expression réguière (module *re* de Python).

In [16]:
# application de la méthode split()
x = geo.loc["01001", "geo_point_2d"].split(', ')
x

['46.1534255214', '4.92611354223']

Il va falloir extraire chacune des grandeurs et la transformer en nombre flottant.

In [17]:
# extraction de la latitude, indice 0 dans la liste retournée par *split()*
x[0]  # on obtient une chaîne de caractères

'46.1534255214'

In [18]:
float(x[0])  # on obtient enfin un nombre flottant représentant la latitude avec le convertisseur float()

46.1534255214

Il va falloir appliquer cette technique à chaque ligne de la colonne et aux deux grandeurs. Dans un langage classique, on appliquerait une boucle.

En pandas, la méthode *apply()* permet d'appliquer une fonction (ou une lambda) à chaque élement d'une *Series* ou d'un *DataFrame* et de retourner un objet avec le résultat de la fonction appliquée à chaque élément.

In [19]:
# on calcule  la latitude et la longitude et on ajoute les colones
geo["Latitude"] = geo["geo_point_2d"].apply(lambda x: float(x.split(', ')[0]))
geo["Longitude"] = geo["geo_point_2d"].apply(lambda x: float(x.split(', ')[1]))
geo.head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape,Densité,Latitude,Longitude
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242,15.65,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273...",51.118211,46.153426,4.926114
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483,9.12,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089...",21.929825,46.009188,5.428017
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379,24.48,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190...",547.385621,45.960848,5.372926
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290,16.05,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580...",99.688474,45.99618,4.912273
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589,6.02,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854...",16.611296,45.749499,5.59432


In [20]:
# on vérifie le type des colonne ajoutées
geo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36742 entries, 01001 to 97617
Data columns (total 13 columns):
Code Postal         36742 non-null object
Commune             36742 non-null object
Département         36742 non-null object
Région              36742 non-null object
Statut              36742 non-null category
Altitude Moyenne    36742 non-null int32
Superficie          36742 non-null float64
Population          36742 non-null float64
geo_point_2d        36742 non-null object
geo_shape           36742 non-null object
Densité             36742 non-null float64
Latitude            36742 non-null float64
Longitude           36742 non-null float64
dtypes: category(1), float64(5), int32(1), object(6)
memory usage: 4.8+ MB


**Exercice**

1) Ecrivez une fonction qui détermine la commune la plus proche d'un point à partir de sa latitude et sa longitude. On pourra utiliser la méthode *idxmin()* qui donne l'index de la valeur minimale d'un objet de type *Series*.

2) Ajoutez une fonction de conversion pour pouvoir utiliser la première fonction avec un GPS (degrés, minutes, secondes).

In [21]:
# fonction recherche de ville
def ville(lat, long):
    pass

In [22]:
# on applique la fonction à une coordonnée tirée au hasard
a, b = 41.5, 51.1  # latitude min et max de la France métropolitaine
lat = (b - a) * np.random.random() + a
a, b = -5.1, 9.5  # longitude min et max de la France métropolitaine
long = (b - a) * np.random.random() + a

ville(lat, long)

In [23]:
# conversion degrés, minutes, secondes => décimal
def dms2dec(deg, mn, sec):
    pass

In [24]:
# à partir de coordonnées GPS précises
ville(dms2dec(48, 50, 7), dms2dec(2, 14, 27))

**Exercice optionnel de manipulation de données au format JSON**

La colonne "geo_shape" est formée de chaines de catactères en JSON (JavaScript Object Notation).

Le format JSON est très utilisé comme le format XML.

Utiliser la librairie Python *json* pour parser la colonne "geo_shape" : **json.loads()**

Donner le décompte des valeurs accédées avec la clé "type".

Donner le décompte des longueurs des listes accédées avec la clé "coordinates".

Quelle commune est la plus complexe géométriquement ?

Les formes géométriques des communes sont des polygones ou composées de plusieurs polygones.

## 5.4 Discrétisation de valeurs continues

La fonction **cut()** permet de discrétiser des variables continues. Elle renvoie un objet Series numérique qui partage le même index que l'objet Series initial.

A noter, on utilise la valeur *numpy.inf* qui désigne $+\infty$.

In [25]:
# une ville comporte plus de 2000 habitants
var = pnd.cut(geo["Population"], [0.0, 2.0, np.inf], labels=["Village", "Ville"])
var

Code INSEE
01001    Village
01002    Village
01004      Ville
01005    Village
01006    Village
01007      Ville
01008    Village
01009    Village
          ...   
97610      Ville
97611      Ville
97612      Ville
97613      Ville
97614      Ville
97615      Ville
97616      Ville
97617      Ville
Name: Population, Length: 36742, dtype: category
Categories (2, object): [Village < Ville]

In [26]:
# décompte des villages et des villes de France
var.value_counts()

Village    30819
Ville       5008
Name: Population, dtype: int64

La méthode **qcut()** cherche à discrétiser les valeurs en quantiles identiques.

In [27]:
# On sépare en 2 catégories identiques
var = pnd.qcut(geo["Population"], 2, labels=["MonVillage", "MaVille"])
var

Code INSEE
01001       MaVille
01002    MonVillage
01004       MaVille
01005       MaVille
01006    MonVillage
01007       MaVille
01008       MaVille
01009    MonVillage
            ...    
97610       MaVille
97611       MaVille
97612       MaVille
97613       MaVille
97614       MaVille
97615       MaVille
97616       MaVille
97617       MaVille
Name: Population, Length: 36742, dtype: category
Categories (2, object): [MonVillage < MaVille]

In [28]:
# décompte des villages et des villes de France
var.value_counts()

MonVillage    18953
MaVille       17789
Name: Population, dtype: int64

In [29]:
# seuil de la population pour MonVillage
geo[var == "MonVillage"]["Population"].max()

0.40000000000000002

In [30]:
# on vérifie qu'il s'agit bien de la médiane
geo["Population"].median()

0.4