# Procesamiento de bases de indicadores

Este notebook documenta el proceso para obtener las bases de indicadores.

* Asociar datos del censo con cartografía de manzanas
* Asignar ids de cuadrante y colonia a las manzanas
* Agregar manzanas a la base de datos (GeoPackage)
* Construcción de agregados de variables por unidades

In [None]:
import pandas as pd
import geopandas as gpd

## Asociar manzanas y censo

### Leer y preprocesar manzanas

In [None]:
manzanas = gpd.read_file("datos/descargas/manzanas_2020_cdmx.zip")
# Quitamos las columnas que forman la CVEGEO (las vamos a tener de los dtos del censo)
manzanas = manzanas.drop(columns=['CVE_ENT', 'CVE_MUN',	'CVE_LOC', 'CVE_AGEB', 'CVE_MZA'])
manzanas.head()

Unnamed: 0,CVEGEO,AMBITO,TIPOMZA,geometry
0,901000010898031,Urbana,Típica,"POLYGON ((2790204.135 820779.247, 2790125.593 ..."
1,901000012269024,Urbana,Típica,"POLYGON ((2791387.916 821465.156, 2791376.215 ..."
2,901000011472068,Urbana,Típica,"POLYGON ((2788494.355 822775.106, 2788478.422 ..."
3,901000011824024,Urbana,Típica,"POLYGON ((2790870.494 819456.298, 2790862.256 ..."
4,901000012377004,Urbana,Típica,"POLYGON ((2792111.138 821977.886, 2792115.437 ..."


### Leer y preprocesar censo

In [None]:
censo = pd.read_csv("datos/descargas/conjunto_de_datos_ageb_urbana_09_cpv2020.zip", 
                    dtype={"ENTIDAD":str, "MUN": str, "LOC":str, "AGEB":str, "MZA": str})
# Nos quedamos sólo con las filas que tienen datos de manzanas (no localidad, agebs, etc)
censo = censo.loc[censo['MZA'] != '000']
# Construimos la cvegeo de las manzanas
censo['CVEGEO'] = censo['ENTIDAD'] + censo['MUN'] + censo['LOC'] + censo['AGEB'] + censo['MZA']
censo.head()

Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,AGEB,MZA,POBTOT,POBFEM,...,VPH_CEL,VPH_INTER,VPH_STVP,VPH_SPMVPI,VPH_CVJ,VPH_SINRTV,VPH_SINLTC,VPH_SINCINT,VPH_SINTIC,CVEGEO
4,9,Ciudad de México,2,Azcapotzalco,1,Azcapotzalco,10,1,159,86,...,42,39,18,13,6,*,0,9,0,900200010010001
5,9,Ciudad de México,2,Azcapotzalco,1,Azcapotzalco,10,2,145,80,...,38,32,14,12,5,0,0,9,0,900200010010002
6,9,Ciudad de México,2,Azcapotzalco,1,Azcapotzalco,10,3,124,64,...,28,25,11,15,7,0,*,6,0,900200010010003
7,9,Ciudad de México,2,Azcapotzalco,1,Azcapotzalco,10,4,158,83,...,38,34,14,4,7,0,0,7,0,900200010010004
8,9,Ciudad de México,2,Azcapotzalco,1,Azcapotzalco,10,5,154,86,...,42,38,12,5,6,0,0,7,0,900200010010005


### Asociar manzanas con censo

In [None]:
# Asociamos con ojin izquierdo porque no nos interesan las manzanas sin datos
manzanas = manzanas.merge(censo, on='CVEGEO', how='left')
manzanas.head()

Unnamed: 0,CVEGEO,AMBITO,TIPOMZA,geometry,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,...,VPH_TELEF,VPH_CEL,VPH_INTER,VPH_STVP,VPH_SPMVPI,VPH_CVJ,VPH_SINRTV,VPH_SINLTC,VPH_SINCINT,VPH_SINTIC
0,901000010898031,Urbana,Típica,"POLYGON ((2790204.135 820779.247, 2790125.593 ...",9,Ciudad de México,10,Álvaro Obregón,1,Álvaro Obregón,...,20,19,15,16,6,3,0,0,7,0
1,901000012269024,Urbana,Típica,"POLYGON ((2791387.916 821465.156, 2791376.215 ...",9,Ciudad de México,10,Álvaro Obregón,1,Álvaro Obregón,...,*,*,*,*,*,*,*,*,*,*
2,901000011472068,Urbana,Típica,"POLYGON ((2788494.355 822775.106, 2788478.422 ...",9,Ciudad de México,10,Álvaro Obregón,1,Álvaro Obregón,...,25,29,25,22,9,8,0,*,7,0
3,901000011824024,Urbana,Típica,"POLYGON ((2790870.494 819456.298, 2790862.256 ...",9,Ciudad de México,10,Álvaro Obregón,1,Álvaro Obregón,...,54,90,69,56,29,14,*,*,25,*
4,901000012377004,Urbana,Típica,"POLYGON ((2792111.138 821977.886, 2792115.437 ...",9,Ciudad de México,10,Álvaro Obregón,1,Álvaro Obregón,...,15,21,13,13,6,3,0,0,9,0


## Identificadores de colonia y cuadrante

In [None]:
# Leemos las geometrías de colonias y cuadrantes
colonias = gpd.read_file("datos/criminologia_capas.gpkg", layer='colonias')
cuadrantes = gpd.read_file("datos/criminologia_capas.gpkg", layer='cuadrantes')
# Extraemos puntos al interior de las manzanas
puntos_manzanas = manzanas.loc[:, ['CVEGEO', 'geometry']]
puntos_manzanas['geometry'] = puntos_manzanas['geometry'].representative_point()
# Unimos los puntos con las geometrías de cuadrantes y colonias
puntos_manzanas = (gpd
                   .sjoin(puntos_manzanas, colonias.to_crs(puntos_manzanas.crs)[['geometry', 'colonia_cve']], how='left')
                   .drop(columns='index_right'))
puntos_manzanas['colonia_cve'] = puntos_manzanas['colonia_cve'].astype('Int64')
puntos_manzanas = (gpd
                   .sjoin(puntos_manzanas, cuadrantes.to_crs(puntos_manzanas.crs)[['geometry', 'cuadrante_id']], how='left')
                   .drop(columns='index_right'))
# Unimos de regreso a las manzanas
manzanas = manzanas.merge(puntos_manzanas[['CVEGEO', 'colonia_cve', 'cuadrante_id']], on='CVEGEO', how='left')
manzanas[['CVEGEO', 'colonia_cve', 'cuadrante_id']]

Unnamed: 0,CVEGEO,colonia_cve,cuadrante_id
0,0901000010898031,1119,017
1,0901000012269024,1082,014
2,0901000011472068,1030,011
3,0901000011824024,1135,0110
4,0901000012377004,1081,018
...,...,...,...
66785,0900700015376020,1442,019
66786,0900700015376021,1442,019
66787,0900700013045056,1419,0113
66788,0900700013045032,1419,0113


### Guardar en geodatabase

El archivo es muy grande, entonces lo vamos a poner en algún lugar de donde se pueda bajar desde el módulo de covariables

In [None]:
manzanas.to_file("datos/descargas/covariables.gpkg", layer='manzanas', driver="GPKG")