**Projet maison**

La colonne "geo_shape" comporte des chaines de catactères au format JSON. Elles représentent les formes géométriques des communes qui sont soit des polygones soit composées de plusieurs polygones.

- Utiliser la librairie Python json pour parser la colonne "geo_shape".
- Donner le décompte des valeurs accédées avec la clé "type".
- Donner le décompte des longueurs des listes accédées avec la clé "coordinates".
- Quelle commune est la plus complexe géométriquement ?
- Quelle commune est la seconde la plus complexe géométriquement ?
- Quelles sont les villes qui sont de type "Polygon" mais dont la longueur des listes accédées avec la clé "coordinates" vaut 2 ?
- Pour ces villes vérifier que le premier polygone contient bien le second (enclave). NB : installer la librairie shapely, utiliser la classe Polygon de shapely.geometry. Sur Windows shapely peut nécessiter d'installer la dll "geos_c.dll" dans le répertoire "Library/bin" de votre environnement Python.


In [118]:
# import des modules usuels
import numpy as np
import pandas as pd
import json
from shapely.geometry import Polygon

# options d'affichage
pd.set_option("display.min_rows", 16)

In [119]:
# chargement des données
geo = pd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11))
geo

Unnamed: 0,Code INSEE,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
0,31080,31350,BOULOGNE-SUR-GESSE,HAUTE-GARONNE,MIDI-PYRENEES,Chef-lieu canton,301.0,2470.0,1.6,"43.2904403081, 0.650641474176","{""type"": ""Polygon"", ""coordinates"": [[[0.671852..."
1,11143,11510,FEUILLA,AUDE,LANGUEDOC-ROUSSILLON,Commune simple,314.0,2426.0,0.1,"42.9291375888, 2.90138923544","{""type"": ""Polygon"", ""coordinates"": [[[2.906996..."
2,43028,43200,BESSAMOREL,HAUTE-LOIRE,AUVERGNE,Commune simple,888.0,743.0,0.4,"45.1306448726, 4.07952494849","{""type"": ""Polygon"", ""coordinates"": [[[4.091674..."
3,78506,78660,PRUNAY-EN-YVELINES,YVELINES,ILE-DE-FRANCE,Commune simple,155.0,2717.0,0.8,"48.5267627187, 1.80513972814","{""type"": ""Polygon"", ""coordinates"": [[[1.829610..."
4,84081,84310,MORIERES-LES-AVIGNON,VAUCLUSE,PROVENCE-ALPES-COTE D'AZUR,Commune simple,49.0,1042.0,7.6,"43.9337788848, 4.90875878315","{""type"": ""Polygon"", ""coordinates"": [[[4.927176..."
5,80462,80150,LAMOTTE-BULEUX,SOMME,PICARDIE,Commune simple,59.0,613.0,0.4,"50.1865666179, 1.83564836965","{""type"": ""Polygon"", ""coordinates"": [[[1.849459..."
6,40200,40410,MOUSTEY,LANDES,AQUITAINE,Commune simple,49.0,6736.0,0.7,"44.3882918763, -0.750880080586","{""type"": ""Polygon"", ""coordinates"": [[[-0.71016..."
7,17394,17700,SAINT-SATURNIN-DU-BOIS,CHARENTE-MARITIME,POITOU-CHARENTES,Commune simple,45.0,2528.0,0.9,"46.1401428747, -0.665133364912","{""type"": ""Polygon"", ""coordinates"": [[[-0.66124..."
...,...,...,...,...,...,...,...,...,...,...,...
36734,15024,15700,BRAGEAC,CANTAL,AUVERGNE,Commune simple,555.0,1222.0,0.1,"45.2038604898, 2.26559675808","{""type"": ""Polygon"", ""coordinates"": [[[2.302124..."


In [120]:
#Utiliser la librairie Python json pour parser la colonne "geo_shape".
geo["geo_shape"]=geo["geo_shape"].apply(json.loads)


In [121]:
#J'ajoute une colonne avec les values qui correspondent à la key "type" en "geo_shape"
geo["Types"] = geo["geo_shape"].apply(lambda x: x["type"])

In [122]:
#J'ajoute une colonne avec les values qui correspondent à la key "Coordinates" en "geo_shape"
geo["Coordinates"]=geo["geo_shape"].apply(lambda x: x["coordinates"])

In [123]:
# on vérifie le type des colonne ajoutées
geo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36742 entries, 0 to 36741
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Code INSEE        36742 non-null  object 
 1   Code Postal       36742 non-null  object 
 2   Commune           36742 non-null  object 
 3   Département       36742 non-null  object 
 4   Région            36742 non-null  object 
 5   Statut            36742 non-null  object 
 6   Altitude Moyenne  36742 non-null  float64
 7   Superficie        36742 non-null  float64
 8   Population        36742 non-null  float64
 9   geo_point_2d      36742 non-null  object 
 10  geo_shape         36742 non-null  object 
 11  Types             36742 non-null  object 
 12  Coordinates       36742 non-null  object 
dtypes: float64(3), object(10)
memory usage: 3.6+ MB


In [124]:
#Donner le décompte des valeurs accédées avec la clé "type"
geo["Types"].value_counts()

Polygon         36670
MultiPolygon       72
Name: Types, dtype: int64

In [125]:
#Donner le décompte des longueurs des listes accédées avec la clé "coordinates".
#on peut utiliser str.len() pour les lists!
geo["Coordinates"].str.len().value_counts()

1    36660
2       80
4        1
3        1
Name: Coordinates, dtype: int64

In [126]:
#J'ajoute une colonne avec les longueurs
geo["Len_coordinate"]=geo["Coordinates"].apply(lambda x: len(x))

In [127]:
#Quelle commune est la plus complexe géométriquement ? 
#La plus complexe siginfie quoi?
#Pour moi signifie trouver entre les Mulypolygons la commune avec plus coordonnées
#Je regarde les villes de type MultyPolygon, je le tri pour les longueurs et je prende le top 
s = geo.loc[geo["Types"] == "MultiPolygon"]
s.sort_values("Len_coordinate", ascending=False)
first_line = s.sort_values("Len_coordinate", ascending=False).head(1)
first_line["Commune"]

28831    HYERES
Name: Commune, dtype: object

In [128]:
#Quelle commune est la seconde la plus complexe géométriquement ?
first_twolines = s.sort_values("Len_coordinate", ascending=False).head(2)
first_twolines["Commune"].tail(1)

23622    VAL-DE-REUIL
Name: Commune, dtype: object

In [129]:
#Quelles sont les villes qui sont de type "Polygon" mais dont la longueur des listes accédées avec la clé "coordinates" vaut 2 ?
#geo.
t = geo.loc[(geo["Types"]=="Polygon") & (geo["Len_coordinate"] == 2), ["Commune", "Coordinates"]]
t

Unnamed: 0,Commune,Coordinates
5634,SARTENE,"[[[8.940487655060174, 41.490088793265336], [8...."
6082,LANGOGNE,"[[[3.850531831651621, 44.68745054452225], [3.8..."
9552,LA BASTIDE-DE-SEROU,"[[[1.423960819701936, 42.99550854650971], [1.4..."
12180,BEAUVERNOIS,"[[[5.416652515196548, 46.826781866293906], [5...."
13321,PLOUBALAY,"[[[-2.11237709725211, 48.52896113651634], [-2...."
15985,COYOLLES,"[[[3.037897560658703, 49.16921270775551], [3.0..."
23859,CALENZANA,"[[[8.911220447280732, 42.41019895400797], [8.8..."
24022,EYGLIERS,"[[[6.719912606601575, 44.70392733592357], [6.7..."
28946,SUNDHOUSE,"[[[7.594939251325704, 48.23228567615893], [7.5..."
34854,EGUISHEIM,"[[[7.281156117554148, 48.02598189605906], [7.2..."


In [130]:
#Pour ces villes vérifier que le premier polygone contient bien le second (enclave). 
#NB : installer la librairie shapely, utiliser la classe Polygon de shapely.geometry.
p= t["Coordinates"]
p.apply(lambda x : Polygon(x[0]).contains(Polygon(x[1])))

5634     True
6082     True
9552     True
12180    True
13321    True
15985    True
23859    True
24022    True
28946    True
34854    True
Name: Coordinates, dtype: bool