# Données carroyées

Les [données carroyées](https://www.insee.fr/fr/statistiques/2520034#titre-bloc-5) sont des données économiques agrégées sur tout le territoire français sur des carrés de 200m de côté.

In [1]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

## Département de la réunion

Le code suivant utilise les données de la réunion disponible sur le site de l'INSEE : [Données carroyées à 200 mètres](https://www.insee.fr/fr/statistiques/2520034). Voir aussi la fonction [load_carreau_from_zip](https://github.com/sdpython/papierstat/blob/master/src/papierstat/datasets/carreau.py#L184) et aussi la fonction [from_file](http://geopandas.org/reference.html?highlight=from_file#GeoDataFrame.from_file) du module [geopandas](http://geopandas.org/index.html).

In [2]:
from papierstat.datasets import load_carreau_from_zip
dfcar, shpcar, dfrect, shprect = load_carreau_from_zip()

In [3]:
dfcar.head()

Unnamed: 0,id,idINSPIRE,idk,ind_c,nbcar
0,UTM40S200M_N38171E01797,CRS2975RES200mN7634200E0359400,N38171E01797-N38172E01797,16.0,2.0
1,UTM40S200M_N38172E01779,CRS2975RES200mN7634400E0355800,N38172E01779-N38172E01779,40.0,1.0
2,UTM40S200M_N38172E01780,CRS2975RES200mN7634400E0356000,N38172E01780-N38172E01780,64.0,1.0
3,UTM40S200M_N38172E01781,CRS2975RES200mN7634400E0356200,N38172E01781-N38172E01782,106.0,2.0
4,UTM40S200M_N38172E01782,CRS2975RES200mN7634400E0356400,N38172E01781-N38172E01782,6.0,2.0


In [4]:
shpcar.head()

Unnamed: 0,idINSPIRE,id,geometry
0,CRS2975RES200mN7634200E0359400,UTM40S200M_N38171E01797,"POLYGON ((359400 7634200, 359600 7634200, 3596..."
1,CRS2975RES200mN7634400E0355800,UTM40S200M_N38172E01779,"POLYGON ((355800 7634400, 356000 7634400, 3560..."
2,CRS2975RES200mN7634400E0356000,UTM40S200M_N38172E01780,"POLYGON ((356000 7634400, 356200 7634400, 3562..."
3,CRS2975RES200mN7634400E0356200,UTM40S200M_N38172E01781,"POLYGON ((356200 7634400, 356400 7634400, 3564..."
4,CRS2975RES200mN7634400E0356400,UTM40S200M_N38172E01782,"POLYGON ((356400 7634400, 356600 7634400, 3566..."


In [5]:
dfrect.head().T

Unnamed: 0,0,1,2,3,4
idk,N38171E01797-N38172E01797,N38172E01779-N38172E01779,N38172E01780-N38172E01780,N38172E01781-N38172E01782,N38172E01798-N38173E01798
men,32,15,39,44,14
men_surf,2263,1202,2605,3103,1379
men_occ5,17,8,3,21,14
men_coll,12,0,0,1,0
men_5ind,7,2,2,6,1
men_1ind,7,3,22,14,1
i_1ind,0,0,0,0,0
men_prop,17,10,8,22,11
i_prop,0,0,2,0,1


In [6]:
shprect.head()

Unnamed: 0,idk,geometry
0,N38171E01797-N38172E01797,"POLYGON ((359400 7634200, 359600 7634200, 3596..."
1,N38172E01779-N38172E01779,"POLYGON ((355800 7634400, 356000 7634400, 3560..."
2,N38172E01780-N38172E01780,"POLYGON ((356000 7634400, 356200 7634400, 3562..."
3,N38172E01781-N38172E01782,"POLYGON ((356200 7634400, 356600 7634400, 3566..."
4,N38172E01798-N38173E01798,"POLYGON ((359600 7634400, 359800 7634400, 3598..."


## IRIS et données carroyées

Cette base contient que des données liées à la population. Il faut lui ajouter des données économiques ce qu'on obtient à l'adresse suivant : [recherche autour des données carroyées](https://www.insee.fr/fr/statistiques?debut=0&categorie=1&geo=ICQ-1). La fusion n'a pas l'air simple cependant car les données IRIS sont agrégrées sur des zones plus grandes [Les données carroyées pour toujours plus de précision](https://www.geocible.com/autres-news/107-les-donnees-carroyees-pour-toujours-plus-de-precision.html) pour garder la confidentialité des données économiques.

In [7]:
from pyensae.datasource import download_data
download_data("demandeur-emploi_AN_2017.xls", 
              url="https://www.insee.fr/fr/statistiques/fichier/3622223/")

'demandeur-emploi_AN_2017.xls'

In [8]:
import pandas
var = pandas.read_excel('demandeur-emploi_AN_2017.xls', sheet_name="Variables")
var.head(n=10)

Unnamed: 0,Demandeurs d'emploi au 31 décembre 2017 (données annuelles),Unnamed: 1,Unnamed: 2
0,Variables,,
1,Mise en ligne le 08/10/2018,,
2,"©Insee Source : Pôle Emploi-Dares, STMT",,
3,,,
4,VAR_ID,VAR_LIB,VAR_LIB_LONG
5,CODGEO,Code géographique,"Code du quartier prioritaire, de l’Iris, de la..."
6,LIBGEO,Libellé géographique,"Nom du quartier prioritaire, de l’Iris, de la ..."
7,EPCI_1,Code EPCI au 1er janvier 2015,Code EPCI au 1er janvier 2015 pour les QPV
8,EPCI_2,Code EPCI au 1er janvier 2015,Code EPCI au 1er janvier 2015 pour les QPV loc...
9,EPCI,Code EPCI au 1er janvier 2015,Code EPCI au 1er janvier 2015 pour les commune...


In [9]:
iris = pandas.read_excel('demandeur-emploi_AN_2017.xls', sheet_name="IRIS", skiprows=5)
iris.head(n=10).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
CODGEO,010040101,010040102,010040201,010040202,010330101,010330102,010330201,010330202,010330301,010530101
LIBGEO,Les Perouses-Triangle d'Activite,Longeray-Gare,Centre-St Germain-Vareilles,Tiret-Les Allymes,Coupy-Vanchy,Centre Ville,Arc Vouvray-Gare-Chatillon,Plateau de Musinens,Arlod,Centre-Ville
EPCI,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08
UU,01302,01302,01302,01302,00357,00357,00357,00357,00357,01501
REG,84,84,84,84,84,84,84,84,84,84
NOTE,0,0,0,0,0,0,0,0,0,0
ABCDE,225,561,464,380,140,404,243,336,203,232
ABCDE_H,114,263,210,144,81,200,116,174,110,114
ABCDE_F,111,298,254,236,59,204,127,162,93,118
ABC,202,512,414,344,,371,219,314,,207


## Récupérer les shapefile des IRIS

On va à l'adresse suivante : [Contour des IRIS INSEE tout en un](https://www.data.gouv.fr/fr/datasets/contour-des-iris-insee-tout-en-un/#_).

## Fusion de données - point appartenant à un shapefile

On peut récupérer données localisées avec longitude-latitude. Pour fusionner ces données avec les données IRIS ou carooyées, il faut pouvoir si ce point appartient à une zone en particulier donc à un *shapefile*. Les données carroyées sont supposées suivre le système de coordonnées ESPG 3035 (d'après ce document [Documentation générale sur le carroyage](https://www.insee.fr/fr/statistiques/fichier/2520034/donnee-carroyees-documentation-generale.pdf)).

In [11]:
shprect[1000:1002]

Unnamed: 0,idk,geometry
1000,N38210E01748-N38210E01749,"POLYGON ((349600 7642000, 350000 7642000, 3500..."
1001,N38210E01750-N38211E01750,"POLYGON ((350000 7642000, 350200 7642000, 3502..."


On essaye avec un point dans Paris.

In [12]:
from pyproj import Proj, transform
p1 = Proj(init='epsg:4326')  # longitude / latidude
p2 = Proj(init='epsg:3035')  # Lambert 93
coor = transform(p1, p2, 2.333333, 48.866667)
coor

(3759509.493847901, 2890742.7970881974)

In [13]:
p1 = Proj(init='epsg:4326')  # longitude / latidude
p2 = Proj(init='epsg:3035')  # Lambert 93
coor = transform(p2, p1, 349600, 7642000)
coor

(-93.87371871351789, 55.54315281737337)

Bref, j'ai essayé dans tous les sens et ça bug quelque part. On pourrait utiliser [Données carroyées à 200m sur la population](https://www.data.gouv.fr/fr/datasets/donnees-carroyees-a-200m-sur-la-population/#_) qui ont l'air de plutôt bien fonctionner.

In [14]:
## Données IRIS

Le

In [15]:
from pyensae.datasource import download_data
download_data("iris-2013-01-01.zip", 
              url="https://www.data.gouv.fr/s/resources/contour-des-iris-insee-tout-en-un/20150428-161348/")

['.\\iris-2013-01-01.shp',
 '.\\iris-2013-01-01.dbf',
 '.\\iris-2013-01-01.prj',
 '.\\iris-2013-01-01.shx']

In [16]:
import geopandas
geo = geopandas.read_file("iris-2013-01-01.shp")

In [17]:
geo.shape

(508980, 8)

In [18]:
geo[10000:10005]

Unnamed: 0,DEPCOM,NOM_COM,IRIS,DCOMIRIS,NOM_IRIS,TYP_IRIS,ORIGINE,geometry
10000,35357,VILLAMEE,0,353570000,VILLAMEE,Z,,"POLYGON ((-1.21661524857897 48.47689666811728,..."
10001,35153,LILLEMER,0,351530000,LILLEMER,Z,,POLYGON ((-1.858321033006746 48.55999645008986...
10002,35274,SAINT-GERMAIN-SUR-ILLE,0,352740000,SAINT-GERMAIN-SUR-ILLE,Z,,POLYGON ((-1.634295663355298 48.25396517011049...
10003,35090,CREVIN,0,350900000,CREVIN,Z,,POLYGON ((-1.655521767501034 47.91505018727604...
10004,35288,SAINT-MALO,102,352880102,LE SILLON-COURTOISVILLE,H,,POLYGON ((-1.992541080973889 48.65908323743086...


In [19]:
geo.shape, len(set(geo.DEPCOM))

((508980, 8), 36727)

On récupère d'autres données économiques.

In [20]:
download_data("beneficiaires_CAF_31-12-2016.xls", 
              url="https://www.insee.fr/fr/statistiques/fichier/3532623/")

'beneficiaires_CAF_31-12-2016.xls'

In [21]:
import pandas
var = pandas.read_excel("beneficiaires_CAF_31-12-2016.xls", skiprows=5, sheet_name="Variables")
var

Unnamed: 0,VAR_ID,VAR_LIB,VAR_LIB_LONG
0,CODGEO,Code géographique,"Code du quartier prioritaire, de l'Iris, de la..."
1,LIBGEO,Libellé géographique,"Nom du quartier prioritaire, de l'Iris, de la ..."
2,EPCI1,Code EPCI au 1er janvier 2015,Code EPCI au 1er janvier 2015
3,EPCI2,Code EPCI au 1er janvier 2015,Code EPCI au 1er janvier 2015 pour les QPV loc...
4,EPCI,Code EPCI au 1er janvier 2015,Code EPCI au 1er janvier 2015 pour les commune...
5,UU,Code de l'unité urbaine,Code de l'unité urbaine
6,REG,Code région,Code région (nouvelles régions au 1er janvier ...
7,REG2,Code région,Code région (nouvelles régions au 1er janvier ...
8,DEPCOM,Code commune,Code la commune (pour la table Iris)
9,LIBCOM,Libellé de la commune,Libellé de la commune (pour la table Iris)


In [22]:
caf = pandas.read_excel("beneficiaires_CAF_31-12-2016.xls", skiprows=5, sheet_name="IRIS")
caf.shape, len(set(caf.CODGEO))

((13148, 30), 13148)

In [23]:
caf.head().T

Unnamed: 0,0,1,2,3,4
CODGEO,010040101,010040102,010040201,010040202,010330101
LIBGEO,Les Perouses-Triangle d'Activite,Longeray-Gare,Centre-St Germain-Vareilles,Tiret-Les Allymes,Coupy-Vanchy
DEPCOM,01004,01004,01004,01004,01033
LIBCOM,Ambérieu-en-Bugey,Ambérieu-en-Bugey,Ambérieu-en-Bugey,Ambérieu-en-Bugey,Bellegarde-sur-Valserine
EPCI,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08,2.40101e+08
REG,84,84,84,84,84
NOTE,0,0,0,0,0
A,397,929,883,740,221
PERCOU,983,2256,2252,2358,584
AI,174,371,317,146,77


On peut fusionner sur ``CODGEO`` à condition d'agréger les polygnes sur la base la plus grosse.

## Première carte