In [None]:
# default_exp etl

# etl

> Utilerias para extraer y transformar datos sobre delincuencia en la CDMX.

In [None]:
#hide
from nbdev.showdoc import *

In [None]:
# export
import os
import glob
import itertools
from pathlib import Path
import numpy as np
import pandas as pd
import geopandas as gpd
from datetime import timedelta, date, datetime
import seaborn as sns
import requests
import h3
from shapely.geometry import Polygon

In [None]:
# export
DATA_PATH = "datos/"
DOWNLOADS_PATH = "datos/descargas/"

## procesa_registros

In [None]:
# export
def procesa_registros(records):
    """Hace el procesamineto básico de los records de carpetas o víctimas."""
    records.replace('NA', np.nan, inplace=True)
    records.dropna(subset=['longitud', 'latitud'], how='any', inplace=True)
    records = gpd.GeoDataFrame(records, geometry=gpd.points_from_xy(records.longitud, records.latitud))
    records = records.set_crs(epsg=4326)
    return records

## get_carpetas_from_api

In [None]:
# export
def get_carpetas_from_api(limit=100):
    """Regresa un GeoDataFrame con los primeros `limit` registros de la base abierta."""
    url = f'https://datos.cdmx.gob.mx/api/3/action/datastore_search?resource_id=48fcb848-220c-4af0-839b-4fd8ac812c0f&limit={limit}'
    r = requests.get(url, allow_redirects=True)
    records = r.json()['result']['records']
    records = pd.DataFrame(records)
    records = procesa_registros(records)
    records['fecha_hechos'] = pd.to_datetime(records.fecha_hechos, dayfirst=True)
    return records

In [None]:
carpetas = get_carpetas_from_api()
assert type(carpetas) == gpd.GeoDataFrame

## get_victimas_from_api

In [None]:
# export
def get_victimas_from_api(limit=100):
    """Regresa un GeoDataFrame con los primeros `limit` registros de la base abierta de víctimas."""
    url = f'https://datos.cdmx.gob.mx/api/3/action/datastore_search?resource_id=d543a7b1-f8cb-439f-8a5c-e56c5479eeb5&limit={limit}'
    r = requests.get(url, allow_redirects=True)
    records = r.json()['result']['records']
    records = pd.DataFrame(records)
    records = procesa_registros(records)
    records['FechaHecho'] = pd.to_datetime(records.FechaHecho, dayfirst=True)
    records = records.rename({'FechaHecho':'fecha_hechos',
                              'Delito': 'delito',
                              'Categoria': 'categoria'}, axis=1)
    return records

In [None]:
victimas = get_victimas_from_api()
assert type(victimas) == gpd.GeoDataFrame

## get_historico_carpetas

In [None]:
# export
def get_historico_carpetas():
    """Regresa un GeoDataFrame con todos los registros de carpetas de investigación."""
    archivo = os.path.join(DOWNLOADS_PATH, 'carpetas_fiscalia.csv')
    url = "https://archivo.datos.cdmx.gob.mx/fiscalia-general-de-justicia/carpetas-de-investigacion-fgj-de-la-ciudad-de-mexico/carpetas_completa_febrero_2022.csv"
    r = requests.get(url, allow_redirects=True)
    open(archivo, 'wb').write(r.content)
    records = pd.read_csv(archivo, low_memory=False)
    records = procesa_registros(records)
    records['fecha_hechos'] = pd.to_datetime(records.fecha_hechos, dayfirst=True)
    return records

In [None]:
carpetas_todas = get_historico_carpetas()
assert type(carpetas_todas) == gpd.GeoDataFrame

## get_historico_victimas

In [None]:
# export
def get_historico_victimas():
    """Regresa un GeoDataFrame con todos los registros de victimas en carpetas de investigación."""
    archivo = os.path.join(DOWNLOADS_PATH, 'victimas_carpetas_fiscalia.csv')
    url = "https://archivo.datos.cdmx.gob.mx/fiscalia-general-de-justicia/victimas-en-carpetas-de-investigacion-fgj/victimas_completa_febrero_2022.csv"
    r = requests.get(url, allow_redirects=True)
    open(archivo, 'wb').write(r.content)
    records = pd.read_csv(archivo)
    records = procesa_registros(records)
    records['FechaHecho'] = pd.to_datetime(records.FechaHecho, dayfirst=True)
    records = records.rename({'FechaHecho':'fecha_hechos',
                              'Delito': 'delito',
                              'Categoria': 'categoria'}, axis=1)
    return records

In [None]:
victimas_todas = get_historico_victimas()
assert type(victimas_todas) == gpd.GeoDataFrame

## get_carpetas_desde_archivo

In [None]:
# export
def get_carpetas_desde_archivo(archivo):
    """Regresa un GeoDataFrame con los registros leídos de un archivo"""
    records = pd.read_csv(archivo, low_memory=False)
    records = procesa_registros(records)
    records['fecha_hechos'] = pd.to_datetime(records.fecha_hechos, dayfirst=True)
    return records

In [None]:
carpetas_todas = get_carpetas_desde_archivo("datos/descargas/carpetas_fiscalia.csv")
assert type(carpetas_todas) == gpd.GeoDataFrame

## get_victimas_desde_archivo

In [None]:
# export
def get_victimas_desde_archivo(archivo):
    """Regresa un GeoDataFrame con los registros leídos de un archivo"""
    records = pd.read_csv(archivo)
    records = procesa_registros(records)
    records['FechaHecho'] = pd.to_datetime(records.FechaHecho, dayfirst=True)
    records = records.rename({'FechaHecho':'fecha_hechos',
                              'Delito': 'delito',
                              'Categoria': 'categoria'}, axis=1)
    return records

In [None]:
carpetas_todas = get_victimas_desde_archivo("datos/descargas/victimas_carpetas_fiscalia.csv")
assert type(carpetas_todas) == gpd.GeoDataFrame

## get_datos_911

In [None]:
# export
def get_datos_911():
    """ Regresa un GeoDataFrame con los datos del 911 integrados por nosotros.
        
        El preproceso es similar al de carpetas y víctimas.
        
        NOTA: son los mismos archivos descargados de la página de datos abiertos pero 
              integrados y con el encoding arreglado
    """
    if os.path.exists(DOWNLOADS_PATH + 'incidentes_911.pkl'):
        print("El archivo ya está descargado.")
    else:
        print("Descargando archivo de incidentes.")
        url = "https://www.dropbox.com/s/l83t5ak108hz2ax/911_19-21_unidas.csv.zip?dl=1"
        r = requests.get(url, allow_redirects=True)
        open(DOWNLOADS_PATH + 'incidentes_911.pkl', 'wb').write(r.content)
    records = pd.read_pickle(DOWNLOADS_PATH + 'incidentes_911.pkl')
    return records

In [None]:
datos_911 = get_datos_911()
datos_911

El archivo ya está descargado.


Unnamed: 0,folio,incidente_c4,fecha_creacion,hora_creacion,mes_creacion,año_creacion,fecha_cierre,mes_cierre,año_cierre,hora_cierre,...,codigo_cierre,clas_con_f_alarma,delegacion_cierre,manzana,longitud_centroide,latitud_centroide,geometry,colonia_cve,colonia_nombre,cuadrante_id
0,C5/200702/07369,Lesionado-Caída,2020-07-02,21:25:59,Julio,2020.0,2020-07-02,Julio,2020.0,21:30:35,...,Duplicado,URGENCIAS MEDICAS,GUSTAVO A. MADERO,0900500012907021,-99.09506,19.48655,POINT (-99.09506 19.48655),662,SALVADOR DIAZ MIRON,015
6657,C5/200703/03163,Médicos-Convulsiones,2020-07-03,11:46:51,Julio,2020.0,2020-07-03,Julio,2020.0,11:52:46,...,Duplicado,URGENCIAS MEDICAS,GUSTAVO A. MADERO,0900500012907021,-99.09506,19.48655,POINT (-99.09506 19.48655),662,SALVADOR DIAZ MIRON,015
25901,C5/200712/00975,Disturbio-Fiestas,2020-07-12,01:39:46,Julio,2020.0,2020-07-12,Julio,2020.0,01:42:46,...,Duplicado,FALTA CÍVICA,GUSTAVO A. MADERO,0900500012907021,-99.09506,19.48655,POINT (-99.09506 19.48655),662,SALVADOR DIAZ MIRON,015
45484,C5/200709/04377,Disturbio-Escándalo,2020-07-09,16:44:01,Julio,2020.0,2020-07-09,Julio,2020.0,16:53:41,...,Negativo,FALTA CÍVICA,GUSTAVO A. MADERO,0900500012907021,-99.09506,19.48655,POINT (-99.09506 19.48655),662,SALVADOR DIAZ MIRON,015
48174,C5/200717/04329,Lesionado-Por Golpes-Agresión,2020-07-17,15:32:46,Julio,2020.0,2020-07-17,Julio,2020.0,15:49:46,...,Negativo,URGENCIAS MEDICAS,GUSTAVO A. MADERO,0900500012907021,-99.09506,19.48655,POINT (-99.09506 19.48655),662,SALVADOR DIAZ MIRON,015
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3681081,C5/190718/02975,Cadáver-Natural,2019-07-18,11:51:59,Julio,2019.0,2019-07-18,Julio,2019.0,13:14:20,...,Afirmativo,EMERGENCIA,COYOACAN,0900300011730006,-99.133123,19.314774,POINT (-99.13312 19.31477),1232,LOS ROBLES (FRACC),0213
3703218,C5/191229/06232,Lesionado-Caída,2019-12-29,18:22:55,Diciembre,2019.0,2019-12-29,Diciembre,2019.0,18:44:00,...,Duplicado,URGENCIAS MEDICAS,MILPA ALTA,0900900170365011,-99.011308,19.194389,POINT (-99.01131 19.19439),1548,SAN AGUSTIN OHTENCO (PBLO),023
3704538,C5/191229/05845,Lesionado-Caída,2019-12-29,17:28:25,Diciembre,2019.0,2019-12-29,Diciembre,2019.0,17:59:58,...,Afirmativo,URGENCIAS MEDICAS,MILPA ALTA,0900900170365011,-99.011308,19.194389,POINT (-99.01131 19.19439),1548,SAN AGUSTIN OHTENCO (PBLO),023
3706709,C5/190725/04837,Daños por Fenómeno Natural o Tercero-Caída de ...,2019-07-25,16:20:31,Julio,2019.0,2019-07-25,Julio,2019.0,16:29:21,...,Duplicado,SERVICIO,ALVARO OBREGON,0901000011148032,-99.259052,19.338943,POINT (-99.25905 19.33894),1122,VILLA VERDUN,013


## agrega_911

In [None]:
def agrega_911(datos, columna_y, valores_y, 
               fecha_inicio, fecha_fin, 
               agregacion='colonias',
               filtro = 'Afirmativos',
               nombre_y=None):
    """ Regresa un DataFrame con la las llamadas del 911 agregadas entre fecha_inicio y fecha_fin
        en las unidades requeridas.
        
        Args:
            datos (DataFrame): carpetas/victimas con ids espaciales y categorías de usuario
            columna_y (str): Nombre de la columna en donde vienen los incidentes de valor_y
            valores_y (list): delitos o categorías a utilizar como Y
            fecha_inicio (str): fecha inicial para agregar delitos "d-m-Y"
            fecha_fin (str): fecha final para agregar delitos "d-m-Y"
            agregacion (str): colonias/cuadrantes/manzanas. Eventualmente debe recibir 
                              agregaciones arbitrarias (opcional)
            filtro (str): 'Afirmativos'/None: si viene 'Afirmativos'  se regresan sólo los 
                          eventos confirmados
            nombre_y (str): Nombre para la columna con la variable dependiente 
                           (opcional, si se omite se concatenan los nombres de valores_y).
    """
    fecha_inicio = pd.to_datetime(fecha_inicio, dayfirst=True)
    fecha_fin = pd.to_datetime(fecha_fin, dayfirst=True)
    datos = datos.loc[datos['fecha_creacion'].between(fecha_inicio, fecha_fin)]
    if filtro == 'Afirmativos':
        datos = datos.loc[datos['codigo_cierre'].isin(['Afirmativo', 'A'])]
    datos = datos.loc[datos[columna_y].isin(valores_y)]
    if agregacion == 'colonias':
        columna_agrega = 'colonia_cve'
        layer = 'colonias'
    elif agregacion == 'cuadrantes':
        columna_agrega = 'cuadrante_id'
        layer = 'cuadrantes'
    elif agregacion == 'manzanas':
        try:
            assert 'manzana_cvegeo' in datos.columns
        except AssertionError:
            print("Para usar la agregación por manzanas primero \
                  debes agregar el identificador correspondiente")
            raise
        columna_agrega = 'manzana_cvegeo'
    else:
        raise ValueError("unidades debe ser 'colonias' o 'cuadrantes'")
    datos = datos.groupby(columna_agrega).size()
    if nombre_y is not None:
        datos.name = nombre_y
    else:
        datos.name = " ".join(valores_y)
    if agregacion in ('colonias', 'cuadrantes'):
        unidades = gpd.read_file("datos/criminologia_capas.gpkg", layer=layer)
    else:
        unidades = (gpd
                    .read_file("datos/descargas/manzanas_identificadores.gpkg", layer="manzanas")
                    .rename({"CVEGEO": columna_agrega}, axis=1))
        
    
    datos = unidades[[columna_agrega]].merge(datos, on=columna_agrega, how='left').fillna(0)
    return datos   

In [None]:
fecha_inicio = "01-01-2019"
fecha_fin = "31-12-2019"
d_19 = agrega_911(datos_911, 'clas_con_f_alarma', 
                  ['DELITO'], fecha_inicio, fecha_fin, 
                  agregacion='colonias', nombre_y='Incidentes 2019')
d_19

Unnamed: 0,colonia_cve,Incidentes 2019
0,32,0.0
1,619,45.0
2,1792,3.0
3,1774,2.0
4,583,54.0
...,...,...
1819,1731,51.0
1820,1801,0.0
1821,1799,18.0
1822,1800,24.0


## descarga_manzanas

In [None]:
# export
def descarga_manzanas():
    """ Descarga la geometría de manzanas con ids de cuadrante y colonia."""
    if os.path.exists(DOWNLOADS_PATH + 'manzanas_identificadores.gpkg'):
        print("El archivo ya está descargado.")
    else:
        url = "https://www.dropbox.com/s/a370kmtknhgca2y/manzanas_identificadores.gpkg?dl=1"
        r = requests.get(url, allow_redirects=True)
        open(DOWNLOADS_PATH + 'manzanas_identificadores.gpkg', 'wb').write(r.content)

In [None]:
descarga_manzanas()

## agrega_ids_espaciales

In [None]:
# export
def agrega_ids_espaciales(carpetas, metodo='manzanas', tolerancia=500):
    """ Agrega ids de colonias y cuadrantes a cualquier base de incidentes.
    
        Args:
        
            metodo (str): manzanas/poligonos. El método 'manzanas' hace un join_nearest con 
                          las manzanas que ya tienen ids de cuadrante y polígono; el método poligonos
                          hace la unión espacial de los incidentes con las geometrías.
            tolerancia (float): ¿qué tan lejos puede estar un incidente de una manzana? En el
                                método 'poligonos' se ignora
    
    """
    
    if 'manzana_cvegeo' in carpetas.columns:
        carpetas = carpetas.drop(columns='colonia_cve')
    if 'colonia_cve' in carpetas.columns:
        carpetas = carpetas.drop(columns='colonia_cve')
    if 'cuadrante_id' in carpetas.columns:
        carpetas = carpetas.drop(columns='cuadrante_id')
    if 'municipio_cvegeo' in carpetas.columns:
        carpetas = carpetas.drop(columns='municipio_cvegeo')
    if metodo == 'poligonos':
        shapes = os.path.join(DATA_PATH, 'criminologia_capas.gpkg')
        colonias = gpd.read_file(shapes, layer='colonias').drop(columns='colonia_geom_6362')
        cuadrantes = gpd.read_file(shapes, layer='cuadrantes')
        carpetas = (gpd.tools.sjoin(carpetas, colonias[['colonia_cve', 'colonia_nombre', 'municipio_cvegeo', 'geometry']])
                    .drop(columns=['index_right'])
                   )
        carpetas = (gpd.tools.sjoin(carpetas, cuadrantes[['cuadrante_id', 'geometry']])
                    .drop(columns=['index_right']))
    elif metodo == 'manzanas':
        crs_original = carpetas.crs
        manzanas = gpd.read_file("datos/descargas/manzanas_identificadores.gpkg")
        manzanas['municipio_cvegeo'] = manzanas['CVE_ENT'] + manzanas['CVE_MUN']
        carpetas = (carpetas
                    .to_crs(manzanas.crs)
                    .sjoin_nearest(manzanas[['CVEGEO', 'municipio_cvegeo', 'colonia_cve', 
                                             'cuadrante_id', 'geometry']], max_distance=tolerancia)
                    .rename({'CVEGEO': 'manzana_cvegeo'}, axis=1)
                    .drop(columns='index_right')
                    .to_crs(crs_original))
    else:
        raise ValueError("'metodo' debe ser 'poligonos' o 'manzanas'")
    return carpetas

In [None]:
# Pruebas método polígono
carpetas = agrega_ids_espaciales(carpetas, metodo='poligonos')
assert 'colonia_cve' in carpetas.columns
assert 'cuadrante_id' in carpetas.columns
assert 'municipio_cvegeo' in carpetas.columns
victimas = agrega_ids_espaciales(victimas, metodo='poligonos')
assert 'colonia_cve' in victimas.columns
assert 'cuadrante_id' in victimas.columns
assert 'municipio_cvegeo' in victimas.columns
# Pruebas método manzanas
carpetas = agrega_ids_espaciales(carpetas, metodo='manzanas')
assert 'colonia_cve' in carpetas.columns
assert 'cuadrante_id' in carpetas.columns
assert 'municipio_cvegeo' in carpetas.columns
assert 'manzana_cvegeo' in carpetas.columns
victimas = agrega_ids_espaciales(victimas, metodo='manzanas')
assert 'colonia_cve' in victimas.columns
assert 'cuadrante_id' in victimas.columns
assert 'municipio_cvegeo' in victimas.columns
assert 'manzana_cvegeo' in carpetas.columns
# TODO prueba de excepción

## agregar_categorias_carpetas

In [None]:
# export
def agregar_categorias_carpetas(carpetas, archivo_categorias="datos/categorias_carpetas.csv"):
    """Agrega una columna con categorías definidas por el usuario.

      Las categorías tienen que venir en un csv con columnas incidente y categoria que
      relacionen las categorías del usuario con la columna delitos de la base de carpetas.
    """
    if 'categoria' in carpetas.columns:
        carpetas = carpetas.drop(columns='categoria')
    if 'incidente' in carpetas.columns:
        carpetas = carpetas.drop(columns='incidente')
    categorias = pd.read_csv(archivo_categorias)
    carpetas = (carpetas
                .merge(categorias, left_on='delito', right_on='incidente', how='left')
                .drop(columns='incidente'))
    return carpetas

In [None]:
carpetas = agregar_categorias_carpetas(carpetas)
assert 'categoria' in carpetas.columns

## agregar_categorias_victimas

In [None]:
# export
def agregar_categorias_victimas(carpetas, archivo_categorias="datos/categorias_victimas.csv"):
    """Columnas con niveles definidos por el usuario

      Las categorías tienen que venir en un csv con columnas llamadas Nivel 1, Nivel 2 ...
      que relacionen los niveles con las columnas Delito y Categoría en la base de Víctimas.
    """
    columnas_nivel = [c for c in carpetas.columns if 'Nivel' in c]
    if len(columnas_nivel):
        carpetas = carpetas.drop(columns=columnas_nivel)
    categorias = pd.read_csv(archivo_categorias)
    carpetas = (carpetas
                .merge(categorias, left_on='delito', right_on='Delito', how='left')
                .rename({'categoria_x': 'categoria'}, axis=1)
                )
    return carpetas

In [None]:
victimas = agregar_categorias_victimas(victimas)
assert 'Nivel 1' in victimas.columns

## exporta_datos_visualizador

In [None]:
# export
def exporta_datos_visualizador(carpetas, archivo_resultado,
                               fecha_inicio=pd.to_datetime('01/01/2019'),
                               tipo='victimas'):
    """ Escribe en archivo_resultado un csv para consumirse en el visualizador.

        La opción tipo=victimas/carpetas controla si los datos de entrada son carpetas o victimas.
    """
    columnas = ['fecha_hechos', 'delito', 'municipio_cvegeo',
                'colonia_cve', 'cuadrante_id', 'categoria', 'lat', 'long']
    if tipo == 'carpetas':
        columnas = columnas + ['categoria']
    elif tipo == 'victimas':
        columnas_nivel = [c for c in carpetas.columns if 'Nivel' in c]
        columnas = columnas + columnas_nivel
    carpetas['lat'] = carpetas.geometry.y
    carpetas['long'] = carpetas.geometry.x
    carpetas = carpetas[columnas]
    carpetas = carpetas.loc[carpetas.fecha_hechos >= fecha_inicio]
    carpetas.to_csv(archivo_resultado)

In [None]:
exporta_datos_visualizador(carpetas, "datos/salidas/carpetas.csv", tipo='carpetas')
exporta_datos_visualizador(victimas, "datos/salidas/victimas.csv", tipo='victimas')

## serie_de_tiempo_categoria

In [None]:
# export
def serie_de_tiempo_categoria(carpetas, fecha_inicio, categoria, freq='M'):
    """ Regresa una serie de tiempo con los agregados por `freq` de la `categoria`.

        parameters:
        carpetas: incidentes, deben traer la columna categoria
        fecha_inicio: pd.datetime fecha del inicio de la serie
        categoria: nombre de la categoría a agregar (`agregar_categorias_de_usuario`)
        freq: frecuencia de agregación (https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases)
    """
    carpetas = carpetas.loc[carpetas.fecha_hechos >= fecha_inicio]
    carpetas = carpetas.loc[carpetas.categoria == categoria]
    serie = (carpetas
             .set_index('fecha_hechos')[['categoria']]
             .resample(freq)
             .size()
             .reset_index()
             .rename({0:categoria}, axis=1)
            )
    return serie

In [None]:
serie = serie_de_tiempo_categoria(carpetas, pd.to_datetime('01/01/2016'), 'Robo a pasajero')
serie

Unnamed: 0,fecha_hechos,Robo a pasajero
0,2016-02-29,2


## serie_tiempo_categorias_unidades

In [None]:
# export
def serie_tiempo_categorias_unidades(datos, fecha_inicio, tipo='victimas',
                                     geografia='colonias',freq='W',
                                     categorias=['Nivel 1']):
    """ Regresa una serie de tiempo con los agregados por `freq` para categorias y
        la geografía especificada.

        parameters:
        datos: víctimas/carpetas, deben tener agregadas las categorías de usuario
        fecha_inicio: pd.datetime fecha del inicio de la serie
        tipo: carpetas/victimas
        geografia: 'colonias/cuadrantes'
        freq: frecuencia de agregación (https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases)
        categorias: lista de las categorías para agregar. Las columnas deben existir en la base
    """
    dummies = pd.get_dummies(datos[categorias])
    datos = datos.loc[datos.fecha_hechos >= fecha_inicio]
    datos = pd.concat([datos, dummies], axis=1)
    if geografia == 'colonias':
        id_vars = ['colonia_nombre', 'colonia_cve']
    elif geografia == 'cuadrantes':
        id_vars = ['cuadrante_id']
    else:
        return #RAISE!!!!!
    serie = (datos[['fecha_hechos', *id_vars, *list(dummies.columns)]]
             .set_index('fecha_hechos')
             .groupby([pd.Grouper(freq="M"), *id_vars])
             .sum())
    serie = serie.reset_index().melt(id_vars=['fecha_hechos', *id_vars])
    return serie

In [None]:
serie = serie_tiempo_categorias_unidades(victimas, pd.to_datetime('01/01/2019'))
serie

Unnamed: 0,fecha_hechos,colonia_nombre,colonia_cve,variable,value
0,2019-01-31,7 DE JULIO,868.0,Nivel 1_Abuso de Confianza,0
1,2019-01-31,AGRICOLA ORIENTAL V,885.0,Nivel 1_Abuso de Confianza,0
2,2019-01-31,ASTURIAS (AMPL),170.0,Nivel 1_Abuso de Confianza,0
3,2019-01-31,AÑO DE JUAREZ,1469.0,Nivel 1_Abuso de Confianza,0
4,2019-01-31,"BOSQUE DE CHAPULTEPEC I, II Y III SECCIONES",187.0,Nivel 1_Abuso de Confianza,0
...,...,...,...,...,...
640,2019-01-31,TACUBAYA,181.0,Nivel 1_Violencia Familiar,0
641,2019-01-31,TENORIOS,1401.0,Nivel 1_Violencia Familiar,0
642,2019-01-31,TEPETATAL,14.0,Nivel 1_Violencia Familiar,0
643,2019-01-31,TLAXPANA,204.0,Nivel 1_Violencia Familiar,0


## punto_to_hexid

In [None]:
# export
def punto_to_hexid(punto, resolution):
    """Regresa el hexid (h3) del punto."""
    return h3.geo_to_h3(punto.y, punto.x, resolution)

## agrega_en_hexagonos

In [None]:
# export
def agrega_en_hexagonos(puntos, resolution):
    """Regresa un GeoDataFrame con las cuentas de puntos agregadas en hexágonos.

       params:
       puntos: GeoDataFrame: los puntos a agregar
       resolution: int: la resolución en uber.h3
    """
    puntos.loc[:,'hex_id'] = puntos.loc[:,'geometry'].apply(punto_to_hexid, args=[resolution])
    by_hex = puntos.groupby('hex_id').size().reset_index()
    # by_hex['geometry'] = by_hex['hex_id'].apply(lambda hex_id: Polygon(h3.h3_to_geo_boundary(hex_id)))
    by_hex['geometry'] = by_hex['hex_id'].apply(lambda hex_id: Polygon([x[::-1] for x in h3.h3_to_geo_boundary(hex_id)]))
    by_hex = gpd.GeoDataFrame(by_hex).rename({0:'incidentes'}, axis=1).set_crs(epsg=4326)
    return by_hex