# JuzData - ODSLA - Columnas Geográficas

En este notebook se trabaja sobre las columnas de información geográfica del dataset, para (1) rellenar los datos que estén incompletos y (2) tener un panorama de los datos que faltan y su naturaleza. 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

Diccionario de las columnas del dataset principal.

In [2]:
df_dict = pd.read_excel('diccionario de datos ingresos a juzg.xlsx',
                       header=0)
df_dict.keys()

Index(['Variables ', 'Definición'], dtype='object')

In [3]:
# columnas del dataset ppal
df_dict['Variables '].values 

array(['org_idradactual', 'exp_cuij', 'org_idintpri', 'org_cod_pri',
       'org_descorta_pri', 'org_descr_Pri', 'org_idintseg', 'est_id',
       'est_descr', 'exp_anio', 'exp_cuerpos', 'exp_fojas',
       'exp_detenidos', 'exp_id', 'exp_sufijo', 'exp_fechecho',
       'exp_fecinidem', 'exp_fecini', 'exp_fecreg', 'exp_fecsor',
       'exp_fecelev', 'exp_letra', 'oju_id', 'oju_descr', 'exp_ultmov',
       'exp_ultmovf', 'den_id', 'den_cod_casoMPF', 'Tipo_ingreso_MPF',
       'org_cod', 'org_descr', 'org_descorta', 'org_den',
       'org_descorta_Den', 'org_descr_Den', 'den_flagrante', 'Comuna',
       'den_altura', 'den_barrio', 'den_calle_id', 'den_cod_postal',
       'den_entre_calle1_id', 'den_entre_calle2_id', 'den_fec_hecho',
       'den_fec_ingreso_MPF', 'den_fec_ini_comi', 'den_hora_hecho',
       'den_latitud', 'den_longitud', 'den_tipo_den', 'den_loc_id',
       'den_calle_texto', 'den_lugar_hecho', 'exp_lughecho',
       'den_sin_lugar_hecho', 'den_v_domestica', 'den_v_genero'

In [4]:
col_geo = ['Comuna','den_altura', 'den_barrio', 'den_calle_id', 'den_cod_postal',
       'den_entre_calle1_id', 'den_entre_calle2_id',
       'den_latitud', 'den_longitud', 'den_loc_id',
       'den_calle_texto', 'den_lugar_hecho', 'exp_lughecho',
       'den_sin_lugar_hecho','den_zon_id', 'den_zona',]


df_dict[df_dict['Variables '].isin(col_geo)]

Unnamed: 0,Variables,Definición
36,Comuna,Indica el número de comuna en el que ocurrió e...
37,den_altura,Altura de la calle en la que ocurrió el hecho
38,den_barrio,Barrio en el que ocurrió el hecho
39,den_calle_id,Código numérico de la calle del hecho
40,den_cod_postal,Código postal en el que ocurrió el hecho
41,den_entre_calle1_id,Código de la calle 1 entre la que ocurrió el h...
42,den_entre_calle2_id,Código de la calle 2 entre la que ocurrió el h...
47,den_latitud,Latitud del lugar del hecho
48,den_longitud,Longitud del lugar del hecho
50,den_loc_id,Código de la localidad del lugar del hecho


In [5]:
df = pd.read_excel('penal_df.xlsx')
df.head()

Unnamed: 0,org_idradactual,exp_cuij,org_idintpri,org_cod_pri,org_descorta_pri,org_descr_Pri,org_idintseg,est_id,est_descr,exp_anio,...,den_v_domestica,den_v_genero,den_zon_id,den_zona,filter_.,org_destino_act,PrimarioDen_id,PrimarioDen_id_oju,PrimarioExp_id,PrimarioExp_oju
0,72,01-00042685-3,72,JUZP01,JUZGADO N°1,JUZGADO DE 1RA INSTANCIA EN LO PENAL CONTRAVEN...,unknown,1,ASIGNADO,2016,...,,,unknown,unknown,1,unknown,1,1,1,1
1,72,01-00039012-3,72,JUZP01,JUZGADO N°1,JUZGADO DE 1RA INSTANCIA EN LO PENAL CONTRAVEN...,unknown,14,ARCHIVADO,2016,...,,,unknown,unknown,1,unknown,1,1,1,1
2,72,01-00035028-8,72,JUZP01,JUZGADO N°1,JUZGADO DE 1RA INSTANCIA EN LO PENAL CONTRAVEN...,unknown,1,ASIGNADO,2016,...,,,unknown,unknown,1,unknown,1,1,1,1
3,72,01-00036824-1,72,JUZP01,JUZGADO N°1,JUZGADO DE 1RA INSTANCIA EN LO PENAL CONTRAVEN...,unknown,14,ARCHIVADO,2016,...,,,unknown,unknown,1,unknown,1,1,1,1
4,72,01-00034124-6,72,JUZP01,JUZGADO N°1,JUZGADO DE 1RA INSTANCIA EN LO PENAL CONTRAVEN...,unknown,14,ARCHIVADO,2016,...,,,unknown,unknown,1,unknown,1,1,1,1


In [6]:
df.columns

Index(['org_idradactual', 'exp_cuij', 'org_idintpri', 'org_cod_pri',
       'org_descorta_pri', 'org_descr_Pri', 'org_idintseg', 'est_id',
       'est_descr', 'exp_anio', 'exp_cuerpos', 'exp_fojas', 'exp_detenidos',
       'exp_id', 'exp_sufijo', 'exp_fechecho', 'exp_fecinidem', 'exp_fecini',
       'exp_fecreg', 'exp_fecsor', 'exp_fecelev', 'exp_letra', 'oju_id',
       'oju_descr', 'exp_ultmov', 'exp_ultmovf', 'den_id', 'den_cod_casoMPF',
       'Tipo_ingreso_MPF', 'org_cod', 'org_descr', 'org_descorta', 'org_den',
       'org_descorta_Den', 'org_descr_Den', 'den_flagrante', 'Comuna',
       'den_barrio', 'den_calle_id', 'den_cod_postal', 'den_fec_hecho',
       'den_fec_ingreso_MPF', 'den_fec_ini_comi', 'den_hora_hecho',
       'den_latitud', 'den_longitud', 'den_tipo_den', 'den_loc_id',
       'den_sin_lugar_hecho', 'den_v_domestica', 'den_v_genero', 'den_zon_id',
       'den_zona', 'filter_.', 'org_destino_act', 'PrimarioDen_id',
       'PrimarioDen_id_oju', 'PrimarioExp_id', 'Pri

In [7]:
# hay columnas en el diccionario que no están
# en este dataset, las filtro
no_match = [col for col in df_dict['Variables '].unique() if col not in df.columns]
print(no_match)

['den_altura', 'den_entre_calle1_id', 'den_entre_calle2_id', 'den_calle_texto', 'den_lugar_hecho', 'exp_lughecho']


El problema de no tener las primeras tres columnas es que la calle ('den_calle_id') no me sirve de mucho si no tengo la altura o entre qué calles está. 

In [8]:
# me quedo con las que coinciden
col_geo = [col for col in col_geo if col in df.columns]
print(col_geo)

['Comuna', 'den_barrio', 'den_calle_id', 'den_cod_postal', 'den_latitud', 'den_longitud', 'den_loc_id', 'den_sin_lugar_hecho', 'den_zon_id', 'den_zona']


In [9]:
# convierto 'unknown' en NaN para contabilizar
import itertools as it
for i, col in it.product(df.index,df.columns):
    if df.at[i,col] == 'unknown':
        df.at[i,col] = np.nan

In [10]:
print(f'Total muestra: {df.shape[0]}')

Total muestra: 37136


In [11]:
df[col_geo].isna().sum()

Comuna                 20479
den_barrio             27396
den_calle_id            9706
den_cod_postal         27391
den_latitud            26017
den_longitud           26017
den_loc_id             12064
den_sin_lugar_hecho     3642
den_zon_id             15004
den_zona               32337
dtype: int64

In [12]:
# quiero ver las columnas mas prometedoras
# mis columnas base con den_lat, den_long
filtro = df.den_latitud.isna()
df[filtro][col_geo].notna().sum().sort_values(ascending=False)

den_sin_lugar_hecho    22375
den_loc_id             17322
den_calle_id           16382
den_zon_id             16333
Comuna                 15215
den_barrio              1882
den_cod_postal          1881
den_zona                   0
den_longitud               0
den_latitud                0
dtype: int64

Analizamos las columnas en orden, de las que tienen menos NaNs a las que tienen más.

### den_loc_id

In [13]:
# definicion del dato
df_dict[df_dict['Variables '] == 'den_loc_id']

Unnamed: 0,Variables,Definición
50,den_loc_id,Código de la localidad del lugar del hecho


No estoy seguro qué sería el código de la localidad, habría que invertir algo de energía en averiguarlo (empezando por preguntar a Pablo y Yasmin). Antes vamos a ver a qué tan útil puede llegar a ser.

In [14]:
print(f"Valores unicos: {df['den_loc_id'].unique().shape[0]}")
print(f"Valores: {df['den_loc_id'].unique()}")
inst_filtro = df[df.den_latitud.isna() & df.den_loc_id.notna()]
instancias = inst_filtro.shape[0]
print(f"Instancias: {instancias}")  

Valores unicos: 14
Valores: [nan 248 245 202 237 7130 171 1524 243 122 82 210 242 238]
Instancias: 17322


In [15]:
df[filtro]['den_loc_id'].value_counts()

248     17298
243         4
7130        2
1524        2
245         2
238         2
237         2
202         2
171         2
122         2
82          2
242         1
210         1
Name: den_loc_id, dtype: int64

Aún si pudiéramos averiguar la codificación de esta variable, no nos será de mucha utilidad para geolocalizar: la enorme mayoría de los datos tienen el mismo valor. O es un problema de data entry, o es irrelevante porque no clasifica. (Intuitivamente me inclino por pensar lo primero).

### den_calle_id

In [16]:
# definicion del dato
df_dict[df_dict['Variables '] == 'den_calle_id']

Unnamed: 0,Variables,Definición
39,den_calle_id,Código numérico de la calle del hecho


In [17]:
print(f"Valores unicos: {df[filtro]['den_calle_id'].unique().shape[0]}")
print(f"Valores: {df[filtro]['den_calle_id'].unique()}")
inst_filtro = df[df.den_latitud.isna() & df.den_calle_id.notna()]
instancias = inst_filtro.shape[0]
print(f"Instancias: {instancias}")      

Valores unicos: 6515
Valores: [nan 14375 15237 ... 20050 84731 85163]
Instancias: 16382


In [18]:
df[filtro]['den_calle_id'].value_counts().head(7)

13224    593
8960     529
10158    226
17045    110
12590     80
17424     76
8971      75
Name: den_calle_id, dtype: int64

En principio el dato de las calles me serviría para geolocalizar 16382 instancias, pero para ello necesitaría que sucedan estas dos cosas: (1) tener el nomenclador de calles con 'den_calle_id' y (2) tener la altura o las calles-entre. Con respecto a 1, estuve buscando referencias de INDEC y de BA Data, ambos tienen nomencladores de calle (dejo copia en el repositorio) pero no encuentro coincidencia con este. De todos modos, esto no serviría si no tenemos acceso a (2). En caso de que consigamos estas dos cosas, BA Data tiene una API que parece bastante seria para pasar de este dato a coordenadas.

### den_zon_id

In [19]:
# definicion del dato
df_dict[df_dict['Variables '] == 'den_zon_id']

Unnamed: 0,Variables,Definición
57,den_zon_id,Código de las zonas del MPF


In [20]:
print(f"Valores unicos: {df[filtro]['den_zon_id'].unique().shape[0]}")
print(f"Valores: {df[filtro]['den_zon_id'].unique()}")
inst_filtro = df[df.den_latitud.isna() & df.den_zon_id.notna()]
instancias = inst_filtro.shape[0]
print(f"Instancias: {instancias}") 

Valores unicos: 7
Valores: [nan 5 1 7 3 8 9]
Instancias: 16333


In [21]:
df[filtro]['den_zon_id'].value_counts()

1    5085
5    4131
7    3969
3    2840
8     301
9       7
Name: den_zon_id, dtype: int64

Zonas muy grandes como para que sean útiles para geolocalizar.

### Comuna

In [22]:
# definicion del dato
df_dict[df_dict['Variables '] == 'Comuna']

Unnamed: 0,Variables,Definición
36,Comuna,Indica el número de comuna en el que ocurrió e...


In [23]:
print(f"Valores unicos: {df[filtro]['Comuna'].unique().shape[0]}")
print(f"Valores: {df[filtro]['Comuna'].unique()}")
inst_filtro = df[df.den_latitud.isna() & df.Comuna.notna()]
instancias = inst_filtro.shape[0]
print(f"Instancias: {instancias}") 

Valores unicos: 16
Valores: [nan 9 1 7 10 4 6 5 11 8 3 2 14 12 13 15]
Instancias: 15215


Si bien el dato de Comuna no me sirve para geolocalizar dentro de cada cuadrícula de la grid, sí podemos rehacer el mapa de casos por Comuna agregándole estas instancias (lo hacemos en el notebook correspondiente).

### barrio

In [24]:
# definicion del dato
df_dict[df_dict['Variables '] == 'den_barrio']

Unnamed: 0,Variables,Definición
38,den_barrio,Barrio en el que ocurrió el hecho


In [25]:
print(f"Valores unicos: {df[filtro]['den_barrio'].unique().shape[0]}")
print(f"Valores: {df[filtro]['den_barrio'].unique()}")
inst_filtro = df[df.den_latitud.isna() & df.den_barrio.notna()]
instancias = inst_filtro.shape[0]
print(f"Instancias: {instancias}") 

Valores unicos: 49
Valores: [nan 26 36 24 39 3 38 16 23 20 7 28 4 17 12 5 45 47 29 18 48 30 43 9 22 2
 34 13 42 6 32 8 15 11 19 14 21 41 31 46 27 33 10 1 35 25 40 44 37]
Instancias: 1882


Misma observación que el apartado anterior, pero con un impacto mucho menor (1882 instancias).

### den_cod_postal

In [26]:
# definicion del dato
df_dict[df_dict['Variables '] == 'den_cod_postal']

Unnamed: 0,Variables,Definición
40,den_cod_postal,Código postal en el que ocurrió el hecho


In [27]:
print(f"Valores unicos: {df[filtro]['den_cod_postal'].unique().shape[0]}")
print(f"Valores: {df[filtro]['den_cod_postal'].unique()}")
inst_filtro = df[df.den_latitud.isna() & df.den_cod_postal.notna()]
instancias = inst_filtro.shape[0]
print(f"Instancias: {instancias}") 

Valores unicos: 260
Valores: [nan 1437 1419 1082 1439 1408 1417 1407 1284 1405 1425 1424 1294 1265 1137
 1440 1107 1406 1263 1059 1429 1264 1430 1416 1164 1226 1202 1214 1159
 1252 1046 1005 1427 1231 1047 1025 1259 1136 1162 1086 1104 1290 1090
 1032 1013 1135 1111 1029 1096 1428 1230 1150 1193 1042 1431 1206 1125
 1414 1127 1051 1012 1241 1201 1255 1243 1248 1229 1008 1139 1262 1055
 1089 1426 1088 1031 1153 1103 1209 1151 1045 1192 1052 1068 1041 1015
 1181 1233 1288 1160 1296 1134 1112 1054 1256 1225 0 1240 1037 1039 1019
 1118 1196 1050 1157 1283 1156 1155 1268 1272 1081 1168 1293 1295 1163
 1270 1271 1245 1100 1079 1099 1083 1117 1061 1063 1075 1244 1101 1218
 1161 1274 1203 1170 1221 1017 1182 1171 1213 1187 1043 1065 1200 1138
 1215 1113 1048 1001 1094 1227 1020 1173 1044 1114 1016 1095 1053 1174
 1024 1070 1175 1237 1185 1009 1056 1033 1210 1176 1178 1195 1194 1143
 1177 1275 1066 1022 1077 1085 1228 1097 1091 1003 1257 1189 1122 1067
 1247 1026 1260 1291 1246 1279 1282 1261 1

In [28]:
df[filtro]['den_cod_postal'].value_counts().head(7)

1406    132
1437    122
1439     91
1407     89
1428     72
1425     72
1417     59
Name: den_cod_postal, dtype: int64

A continuación necesitamos vincular el CPA con coordenadas. Desafortunadamente no es tarea fácil. El Correo Argentino tiene un motor de búsqueda para ir de calles a CPA (pero no al revés). Conseguir bases de datos oficiales no me resultó posible (a pesar de que debiera ser información pública). Lo mejor que encontré fue este [repo de Github](https://github.com/OpenDataCordoba/codigo-postal-argentino), que tiene varias bases de datos que, con un poquito de dolor, podemos llevar a coordenadas (espero). La otra página que tiene datos en el formato que necesitaríamos (tabla con CPAs y coordenadas) es [GeoPostCodes](http://es.geopostcodes.com/Buenos_Aires_Capital_Federal). Lamentablemente hay que pagarla en ese caso. De todos modos, me parece que no sería demasiado útil, por lo que explico a continuación.

El CPA (Código Postal Argentino) tiene en la actualidad tres letras y cuatro números, por ejemplo: C1406AGK. Según el [Correo Argentino](https://www.correoargentino.com.ar/formularios/cpa) (y [Wikipedia](https://en.wikipedia.org/wiki/Postal_codes_in_Argentina)), el CPA tiene la siguiente estructura: la primera letra se refiere a las provincias (C = CABA), los numeros identifican calle / altura / localidad, y las tres últimas letras la cara de la manzana. Esta descripción no es muy precisa, pero masajeando la base de datos que encontré se puede entender un poco mejor. 

Lo que necesitamos, en primer lugar, es si la información en el formato actual tiene una precision que nos resulte útil.

In [29]:
# dataset de codigos postales argentinos
cpas = pd.read_csv('CPA/cpa_argentina/alturas.csv',sep=';')

In [30]:
cpas.head()

Unnamed: 0,codcalle,desde,hasta,codpostal
0,14284.0,1.0,2.0,S3077AAA
1,14285.0,1.0,2.0,S3077ABA
2,14286.0,1.0,2.0,S3077ACA
3,14287.0,1.0,2.0,S3077ADA
4,14289.0,1.0,2.0,S3077AEA


In [31]:
cpas.shape

(2116009, 4)

In [32]:
cpas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2116009 entries, 0 to 2116008
Data columns (total 4 columns):
codcalle     float64
desde        float64
hasta        float64
codpostal    object
dtypes: float64(3), object(1)
memory usage: 64.6+ MB


In [33]:
# extraigo primera letra
for i in cpas.index:
    cpas.at[i,'Loc'] = str(cpas.at[i,'codpostal'])[0]
cpas.head()

Unnamed: 0,codcalle,desde,hasta,codpostal,Loc
0,14284.0,1.0,2.0,S3077AAA,S
1,14285.0,1.0,2.0,S3077ABA,S
2,14286.0,1.0,2.0,S3077ACA,S
3,14287.0,1.0,2.0,S3077ADA,S
4,14289.0,1.0,2.0,S3077AEA,S


In [34]:
cpas = cpas[cpas.Loc == 'C']
cpas.head()

Unnamed: 0,codcalle,desde,hasta,codpostal,Loc
481739,76423.0,1801.0,1899.0,C1437HKA,C
481740,76423.0,1802.0,1900.0,C1437HKB,C
481741,76423.0,1901.0,1999.0,C1437HKC,C
481742,76423.0,1902.0,2000.0,C1437HKD,C
481743,76424.0,701.0,799.0,C1426BKA,C


In [35]:
# dataset de calles
calles = pd.read_csv('CPA/cpa_argentina/calles.csv',sep=';')

In [36]:
calles.head()

Unnamed: 0,codcalle,tipocalle,nombrecalle,barrio,referencia,nombrealt,codloc
0,14291,RUTA PROVINCIAL,*,TAB,TAB,2,1120
1,14284,CALLE,25 DE MAYO,TAB,TAB,25 DE MAYO,1120
2,14286,CALLE,GRAL MANUEL BELGRANO,TAB,TAB,BELGRANO GRAL MANUEL,1120
3,14290,CALLE,DR LISANDRO DE LA TORRE,TAB,TAB,DE LA TORRE DR LISANDRO,1120
4,14289,CALLE,GRAL LOPEZ,TAB,TAB,LOPEZ GRAL,1120


In [37]:
calles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150599 entries, 0 to 150598
Data columns (total 7 columns):
codcalle       150599 non-null int64
tipocalle      150599 non-null object
nombrecalle    150599 non-null object
barrio         150599 non-null object
referencia     150599 non-null object
nombrealt      150599 non-null object
codloc         150599 non-null int64
dtypes: int64(2), object(5)
memory usage: 8.0+ MB


In [38]:
# join de CPAs y calles
df_cpa = pd.merge(cpas,calles,
                  on='codcalle',
                 how='left')
df_cpa.head()

Unnamed: 0,codcalle,desde,hasta,codpostal,Loc,tipocalle,nombrecalle,barrio,referencia,nombrealt,codloc
0,76423.0,1801.0,1899.0,C1437HKA,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0
1,76423.0,1802.0,1900.0,C1437HKB,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0
2,76423.0,1901.0,1999.0,C1437HKC,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0
3,76423.0,1902.0,2000.0,C1437HKD,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0
4,76424.0,701.0,799.0,C1426BKA,C,CALLE,11 DE SEPTIEMBRE,TAB,TAB,11 DE SEPTIEMBRE,5001.0


In [39]:
# llego los CPAs al formato de 4 numeros
# que hay en el df juz_data
for i in df_cpa.index:
    df_cpa.at[i,'cp'] = int(df_cpa.at[i,'codpostal'][1:5])
df_cpa.head(10)    

Unnamed: 0,codcalle,desde,hasta,codpostal,Loc,tipocalle,nombrecalle,barrio,referencia,nombrealt,codloc,cp
0,76423.0,1801.0,1899.0,C1437HKA,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0,1437.0
1,76423.0,1802.0,1900.0,C1437HKB,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0,1437.0
2,76423.0,1901.0,1999.0,C1437HKC,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0,1437.0
3,76423.0,1902.0,2000.0,C1437HKD,C,PASAJE,1 DE MAYO,TAB,TAB,1 DE MAYO,5001.0,1437.0
4,76424.0,701.0,799.0,C1426BKA,C,CALLE,11 DE SEPTIEMBRE,TAB,TAB,11 DE SEPTIEMBRE,5001.0,1426.0
5,76424.0,702.0,800.0,C1426BKB,C,CALLE,11 DE SEPTIEMBRE,TAB,TAB,11 DE SEPTIEMBRE,5001.0,1426.0
6,76424.0,801.0,899.0,C1426BKC,C,CALLE,11 DE SEPTIEMBRE,TAB,TAB,11 DE SEPTIEMBRE,5001.0,1426.0
7,76424.0,802.0,900.0,C1426BKD,C,CALLE,11 DE SEPTIEMBRE,TAB,TAB,11 DE SEPTIEMBRE,5001.0,1426.0
8,76424.0,901.0,999.0,C1426BKE,C,CALLE,11 DE SEPTIEMBRE,TAB,TAB,11 DE SEPTIEMBRE,5001.0,1426.0
9,76424.0,902.0,1000.0,C1426BKF,C,CALLE,11 DE SEPTIEMBRE,TAB,TAB,11 DE SEPTIEMBRE,5001.0,1426.0


Pareciera ser que los cuatro dígitos identifican la calle, mientras que las tres letras identifican la altura (dos combinaciones por cuadra, una para cada mano). Es decir que si no tengo las últimas tres letras no puedo ser muy preciso para geolocalizar. Pongámoslo en numeros.

In [40]:
cpas_caba = df_cpa.shape[0]
cpas_nro = df_cpa['cp'].unique().shape[0]
print(f'Total CPAs CABA: {cpas_caba}')
print(f'Total Nros CPAs CABA: {cpas_nro}')
cuadras = (cpas_caba/cpas_nro)/2
# divido por dos porque cada codigo de letras
# abarca una sola mano de una cuadra
print(f'Cuadras por numero: {cuadras}')

Total CPAs CABA: 45973
Total Nros CPAs CABA: 306
Cuadras por numero: 75.11928104575163


Es decir que cada CPA en mi df de juz_data tendrá una imprecisión promedio de 75 cuadras. Para calles más largas (y ceteris paribus, con más causas), obviamente esto será peor. Veamos:

In [41]:
print('Cuadras por CPA')
print(f'CPA       Cuadras')
print(np.divide(df_cpa['cp'].value_counts(),2).head())

Cuadras por CPA
CPA       Cuadras
1407.0    1851.5
1437.0    1380.0
1406.0    1373.5
1419.0    1372.5
1439.0    1277.0
Name: cp, dtype: float64


No creo que haya calles con 1800 cuadras, será que cada CPA numérico puede tener más de una calle. Veamos.

In [42]:
# df_cpa[df_cpa.cp == 1407]
df_cpa[df_cpa.cp == 1407]['nombrecalle'].value_counts()

TAB                       71
MARIANO ACOSTA            54
LACARRA                   54
MOZART                    54
GRAL CESAR DIAZ           52
                          ..
TOKIO                      2
CAGLIARI                   2
CALINGASTA                 2
RECUERDOS DE PROVINCIA     2
VIGO                       2
Name: nombrecalle, Length: 227, dtype: int64

No solo tengo 1800 cuadras en 227 calles con ese nombre, sino que el valor más repetido es TAB, un NaN. 

En conclusión: el dato de CPA, solamente el número, es altamente impreciso, al punto de que no resulta útil para geolocalizar.