# Explorando GeoRef-AR API

## Extraction y preprocessing 

In [3]:
import pandas as pd
from IPython.display import display

In [4]:
df = pd.read_csv('provincias_cp_localidades.csv', encoding='latin-1')

In [5]:
df.head()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
2,30/06/2015,,CF,1006
3,AR,,1688,12 DE AGOSTO
4,05/08/1987,,BA,1684


Hay algunos problemas con los datos. Pasare a limpiar aquellos campos que no sean "string" en `nacionalidad`, ni "integer" en `cp_part`

In [6]:
df.nacionalidad.str.contains('/').sum()

2

In [7]:
df.nacionalidad.isna().sum()

10

Son solo dos con fecha y 10 valores nulos. Paso a removerlos directamente

In [8]:
#df['cp_part'] = df['cp_part'].apply(lambda x: pd.to_numeric(x, errors='coerce', downcast = 'integer')).copy()

In [9]:
df2 = df.loc[df.nacionalidad.str.contains('/') == False].reset_index(drop = True) #elimina los Nan y los campos con fecha
df2.head()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
2,AR,,1688,12 DE AGOSTO
3,AR,,6660,25 DE MAYO
4,AR,,0,9 DE ABRIL


In [10]:
df2.nacionalidad.isna().sum()

0

---

## Probando el modulo get_centroides (el nombre puede cambiar)
Toma datos de la API de https://datosgobar.github.io/georef-ar-api/

In [11]:
import get_centroides as geo

In [12]:
geo.get_centroides('localidades','Olivos')

[{'categoria': 'Localidad simple',
  'centroide': {'lat': -33.4394729739475, 'lon': -64.8316610855999},
  'departamento': {'id': '14098', 'nombre': 'Río Cuarto'},
  'id': '14098270000',
  'localidad_censal': {'id': '14098270', 'nombre': 'Suco'},
  'municipio': {'id': '142588', 'nombre': 'Suco'},
  'nombre': 'SUCO',
  'provincia': {'id': '14', 'nombre': 'Córdoba'}},
 {'categoria': 'Entidad',
  'centroide': {'lat': -28.407625810512, 'lon': -67.0961546311905},
  'departamento': {'id': '46119', 'nombre': 'San Blas de Los Sauces'},
  'id': '46119010008',
  'localidad_censal': {'id': '46119010', 'nombre': 'Salicas - San Blas'},
  'municipio': {'id': '460119', 'nombre': 'San Blas de los Sauces'},
  'nombre': 'SALICAS',
  'provincia': {'id': '46', 'nombre': 'La Rioja'}},
 {'categoria': 'Componente de localidad compuesta',
  'centroide': {'lat': -34.6132917290185, 'lon': -58.3887517365082},
  'departamento': {'id': None, 'nombre': None},
  'id': '02000010000',
  'localidad_censal': {'id': '0200

In [13]:
geo.get_centroides('localidades','olivos', provincia = 'buenos aires')

[{'categoria': 'Localidad simple',
  'centroide': {'lat': -37.1774801030509, 'lon': -62.7578962604015},
  'departamento': {'id': '06007', 'nombre': 'Adolfo Alsina'},
  'id': '06007010000',
  'localidad_censal': {'id': '06007010', 'nombre': 'Carhué'},
  'municipio': {'id': '060007', 'nombre': 'Adolfo Alsina'},
  'nombre': 'CARHUE',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -37.4486186469627, 'lon': -63.117609405389},
  'departamento': {'id': '06007', 'nombre': 'Adolfo Alsina'},
  'id': '06007020000',
  'localidad_censal': {'id': '06007020',
   'nombre': 'Colonia San Miguel Arcángel'},
  'municipio': {'id': '060007', 'nombre': 'Adolfo Alsina'},
  'nombre': 'COLONIA SAN MIGUEL ARCANGEL',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -37.3173292631958, 'lon': -63.2331690622102},
  'departamento': {'id': '06007', 'nombre': 'Adolfo Alsina'},
  'id': '060

In [14]:
geo.get_localidad('Buenos Aires','Olivos')

[{'categoria': 'Localidad simple',
  'centroide': {'lat': -37.1774801030509, 'lon': -62.7578962604015},
  'departamento': {'id': '06007', 'nombre': 'Adolfo Alsina'},
  'id': '06007010000',
  'localidad_censal': {'id': '06007010', 'nombre': 'Carhué'},
  'municipio': {'id': '060007', 'nombre': 'Adolfo Alsina'},
  'nombre': 'CARHUE',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -37.4486186469627, 'lon': -63.117609405389},
  'departamento': {'id': '06007', 'nombre': 'Adolfo Alsina'},
  'id': '06007020000',
  'localidad_censal': {'id': '06007020',
   'nombre': 'Colonia San Miguel Arcángel'},
  'municipio': {'id': '060007', 'nombre': 'Adolfo Alsina'},
  'nombre': 'COLONIA SAN MIGUEL ARCANGEL',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -37.3173292631958, 'lon': -63.2331690622102},
  'departamento': {'id': '06007', 'nombre': 'Adolfo Alsina'},
  'id': '060

---

## Aplicando get_centroides al DF

In [15]:
df2.provincia_part.unique()

array([nan, 'BA', 'CA', 'CB', 'CF', 'CH', 'CO', 'CT', 'ER', 'FO', 'JU',
       'LP', 'MI', 'MZ', 'NE', 'RN', 'SA', 'SC', 'SE', 'SF', 'SJ', 'SL',
       'TF', 'TU'], dtype=object)

In [16]:
df2.head()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
2,AR,,1688,12 DE AGOSTO
3,AR,,6660,25 DE MAYO
4,AR,,0,9 DE ABRIL


In [17]:
print(df2.loc_part[3])
geo.get_centroides('localidades', df2.loc_part[3])

25 DE MAYO


[{'categoria': 'Localidad simple',
  'centroide': {'lat': -33.4394729739475, 'lon': -64.8316610855999},
  'departamento': {'id': '14098', 'nombre': 'Río Cuarto'},
  'id': '14098270000',
  'localidad_censal': {'id': '14098270', 'nombre': 'Suco'},
  'municipio': {'id': '142588', 'nombre': 'Suco'},
  'nombre': 'SUCO',
  'provincia': {'id': '14', 'nombre': 'Córdoba'}},
 {'categoria': 'Entidad',
  'centroide': {'lat': -28.407625810512, 'lon': -67.0961546311905},
  'departamento': {'id': '46119', 'nombre': 'San Blas de Los Sauces'},
  'id': '46119010008',
  'localidad_censal': {'id': '46119010', 'nombre': 'Salicas - San Blas'},
  'municipio': {'id': '460119', 'nombre': 'San Blas de los Sauces'},
  'nombre': 'SALICAS',
  'provincia': {'id': '46', 'nombre': 'La Rioja'}},
 {'categoria': 'Componente de localidad compuesta',
  'centroide': {'lat': -34.6132917290185, 'lon': -58.3887517365082},
  'departamento': {'id': None, 'nombre': None},
  'id': '02000010000',
  'localidad_censal': {'id': '0200

In [18]:
df2.tail()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
1410,AR,TU,4000,SAN MIGUEL DE TUCUM
1411,AR,TU,4000,SAN MIGUEL DE TUCUM
1412,AR,TU,4107,TUCUMAN
1413,AR,TU,4107,YERBA BUENA
1414,AR,TU,4107,YERBA BUENA


In [18]:
geo.get_centroides('localidades', df2.loc_part[1414], provincia = df2.provincia_part[1414], aplanar = True)

[{'categoria': 'Localidad simple',
  'centroide_lat': -26.6843396000243,
  'centroide_lon': -65.0481349066456,
  'departamento_id': '90007',
  'departamento_nombre': 'Burruyacú',
  'id': '90007010000',
  'localidad_censal_id': '90007010',
  'localidad_censal_nombre': 'Barrio San Jorge',
  'municipio_id': '908021',
  'municipio_nombre': 'El Naranjo y el Sunchal',
  'nombre': 'BARRIO SAN JORGE',
  'provincia_id': '90',
  'provincia_nombre': 'Tucumán'},
 {'categoria': 'Localidad simple',
  'centroide_lat': -26.7583605607957,
  'centroide_lon': -65.0693888917573,
  'departamento_id': '90007',
  'departamento_nombre': 'Burruyacú',
  'id': '90007020000',
  'localidad_censal_id': '90007020',
  'localidad_censal_nombre': 'El Chañar',
  'municipio_id': '908014',
  'municipio_nombre': 'El Chañar',
  'nombre': 'EL CHAÑAR',
  'provincia_id': '90',
  'provincia_nombre': 'Tucumán'},
 {'categoria': 'Localidad simple',
  'centroide_lat': -26.6571859218044,
  'centroide_lon': -65.0483602838482,
  'depa

## Breve analisis descriptivo para saber la cantidad de localidades

### Cómo está compuesto el CPA
El CPA amplía la información del código postal, incorporando 4 letras que permiten identificar cada cara de manzana en las localidades de más de 500 habitantes. Las localidades de menos de 500 habitantes poseen un único CPA.
La unica forma de que el CP nos sea util es si contamos con datos de la provincia.

https://xn--cdigos-postales-vrb.cybo.com/argentina/ es una pagina bastante completa con listado de CP. Sin embargo debe haber una API sencilla para consultar estos datos.<br>
Otra es http://mapanet.eu/Postal_Codes/?C=AR&n=0&r0=&r1=&r2=&r3=&r4=&l=0

Dado que todos los datos son solo 4 digitos se esta usando el codigo postal viejo. El isguiente listado nos da una idea aproximada de que region seria basados en el CP
https://en.wikipedia.org/wiki/Postal_codes_in_Argentina

In [19]:
df2.loc_part.unique().size #Numero de localidades unicas

654

In [20]:
df2.loc_part.isna().sum() #Solo 4 son NA. Podriamos verlo mas detalladamente

4

In [21]:
df2.groupby(by=['loc_part','provincia_part']).count().sort_values('cp_part', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,nacionalidad,cp_part
loc_part,provincia_part,Unnamed: 2_level_1,Unnamed: 3_level_1
LOMAS DEL MIRADOR,CF,2,2
LAS FLORES,BA,2,2
LANUS OESTE,BA,2,2
SANTOS LUGARES,BA,2,2
LANUS ESTE,BA,2,2
LANUS ESTE,...,...,...
LANUS ESTE,CF,1,1
LANUES OESTE,BA,1,1
LANOS OESTE,BA,1,1
LANGUEYU,BA,1,1


Cuando vemos la cantidad de rows podemos notar que hay casos en los que 'loc_part' no es suficiente para agregar a todos los datos

In [60]:
df2.groupby(by=['loc_part','provincia_part','cp_part'],).count().sort_values('nacionalidad', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nacionalidad
loc_part,provincia_part,cp_part,Unnamed: 3_level_1
SAN MARTIN,BA,1650,2
GLEW,BA,1856,2
SAN ANTONIO OESTE,RN,8520,2
GREGORIO DE LA FERR,BA,1752,2
GREGORIA LAFERRERE,BA,1757,2
...,...,...,...
Gualeguaychú,ER,2820,1
HAEDO,CF,1708,1
HAEDO SUR,BA,1706,1
HOYO DE EPUYÉN,BA,1708,1


In [61]:
df2.loc[df2.loc_part.isna()] 

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
1130,AR,CF,1884,
1131,AR,CF,1884,


Solo cuatro casos no presentan `loc_part`, inforamcion minima que precisamos. Los primeros dos indices son practicamente inutiles. Veamos si podemos ver cuales son los loc_part de `CF`

In [62]:
df2.loc[df2.provincia_part == 'CF']

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
1130,AR,CF,1884,
1131,AR,CF,1884,
1132,AR,CF,1425,-1
1133,AR,CF,1870,AVELLANEDA
1134,AR,CF,1870,AVELLANEDA
...,...,...,...,...
1244,AR,CF,1603,VILLA MARTELLI
1245,AR,CF,1709,VILLA SARMIENTO
1246,AR,CF,1709,VILLA SARMIENTO
1247,AR,CF,1875,WILDE


Evidentemente `loc_part` toma distritos del conurbano y no solamente la Capital Federal. Ver esto en la Documentacoin porque es distinto a como lo clasifica la API.

In [22]:
df2.loc[df2.provincia_part == 'CF'].loc_part.unique()

array([nan, '-1', 'AVELLANEDA', 'BANFIELD', 'BARILOCHE', 'BERAZATEGUI',
       'BERNAL', 'CABA', 'CABA RETIRO', 'CAMPANA', 'CAP FED', 'CAPITAL',
       'CAPITAL -LA RIOJA-', 'CAPITAL FEDERAL', 'CASEROS', 'CASTELAR',
       'CASTELLAR', 'CATAMARCA', 'CDAD AUTONOMA BS AS', 'CIUDAD MADERO',
       'CIUDADELA', 'COMODORO RIVADAVIA', 'CORDOBA', 'CUERPO 2',
       'DEL VISO', 'DTO 308', 'EXALTACION DE LA CRU', 'FLORIDA',
       'FORMOSA', 'FRANCISCO ALVAREZ', 'GONZALEZ CATAN', 'HAEDO',
       'HURLINGHAN', 'ITUZAINGO', 'JOSE LEON SUAREZ', 'KM 45',
       'LA FLORIDA', 'LA MATANZA', 'LA UNION', 'LANUS', 'LANUS ESTE',
       'LANUS OESTE', 'LOMAS DE ZAMORA', 'LOMAS DEL MIRADOR', 'LUJAN',
       'MALAVER', "MAR DEL P'LATA", 'MAR DEL PLATA', 'MARCOS PAZ',
       'MARIANO BENITEZ PERG', 'MARTINEZ', 'MERCEDES', 'MINA CLAVERO',
       'MORON', 'NAVARRO', 'OLIVOS', 'PABLO NOGUES', 'PALOMAR', 'PIGUE',
       'PINAMAR', 'POMPEYA', 'QUILMES', 'QUILMES OESTE', 'RAMOS MEJIA',
       'REMEDIOS DE ESCALADA

Evidentemente los datos no estan muy limpios. 
Si bien casi todos los distritos pertenecen al Conurbano, hay lugares como Bariloche, Cordoba, Mar del Plata, Santa Fe. Consultar:
- CF incluye al Conurbano?
- Por que los datos no son coherentes?

---

### Intentar popular una base con los datos solicitados

In [23]:
df_loc =  df2.groupby(['loc_part', 'provincia_part']).count().copy()
df_loc.reset_index(inplace = True)
df_loc.head(10)

Unnamed: 0,loc_part,provincia_part,nacionalidad,cp_part
0,VENEZUELA Y PERU,BA,1,1
1,-1,BA,2,2
2,-1,CF,1,1
3,-1,SJ,1,1
4,-1,SL,2,2
5,10064,BA,2,2
6,12 DE AGOSTO,BA,2,2
7,12 DE OCTUBRE,BA,2,2
8,16 DE JULIO,BA,2,2
9,17 DE AGOSTO,BA,1,1


In [24]:
df_loc.loc_part.unique()  # Exploremos los diferentes localidades

array([' VENEZUELA Y PERU', '-1', '10064', '12 DE AGOSTO',
       '12 DE OCTUBRE', '16 DE JULIO', '17 DE AGOSTO', '20 DE JUNIO',
       '25 DE MAYO', '3 DE FEBRERO', '30 DE AGOSTO', '9 DE ABRIL',
       '9 DE JULIO', 'ABASTO', 'ACASSUSO', 'ADROGUE',
       'ADROGUE-ALTE BROWN', 'AEROPUERTO EZEIZA', 'AGOTE',
       'AGUAS CORRIENTES', 'AGUSTINA', 'ALBARRACIN', 'ALBERTI',
       'ALDO BONZI', 'ALEJANDRO KORN', 'ALEJANDRO PETION', 'ALICIA',
       'ALMIRANTE BROWN', 'ALSINA', 'ALUMINE', 'ALVEAR', 'AMERICA UNIDA',
       'ARRECIFES', 'AVELLANEDA', 'AYACUCHO', 'AZUL', 'Avellaneda',
       'BAHIA BLANCA', 'BALCARCE', 'BANFIELD', 'BARADERO', 'BARILOCHE',
       'BARRIO PARQUE LELOIR', 'BASAVILBASO', 'BECCAR',
       'BELEN DE ESCOBAR', 'BELLA VISTA', 'BENAVIDEZ', 'BERAZATEGUI',
       'BERISSO', 'BERNAL', 'BERNAL ESTE', 'BERNAL OESTE', 'BOLIVAR',
       'BOSCH', 'BOSQUES', 'BOULOGNE', 'BRAGADO', 'BUENO AIRES',
       'BUENOS AIRES', 'BURZACO', 'Baradero', 'Boulogne',
       'C.J.EL PALOMAR', 

Deberia eliminarse los primeros 5 rows dado que los valores son muy anomalos. 
Ademas abria que ver de eliminar `10064` 

In [66]:
# Script corte y quizas ineficiente para 
df_loc['centroide_lat'] = None
df_loc['centroide_lon'] = None
df_loc['departamento_nombre'] = None
df_loc['municipio_nombre'] = None
df_loc['localidad_nombre'] = None
df_loc['provincia_de_API'] = None

In [67]:
for r in df_loc.index:
    datos = geo.get_centroides('localidades', df_loc.loc_part[r], max = 1, aplanar = True)
    if len(datos) == 0:  # El flow es asi: Si no encuentra localidad, busca por municipio y sino por departamento
        datos = geo.get_centroides('municipios', df_loc.loc_part[r], max = 1, aplanar = True)
        
        if len(datos) == 0: 
            datos = geo.get_centroides('departamentos', df_loc.loc_part[r], max = 1, aplanar = True)
            
            if len(datos) == 0:
                print (f'{df_loc.loc_part[r]} == NULL')
                continue
                
            else:  # Departamento
                try:
                    df_loc.loc[r,'centroide_lat'] = datos[0]['centroide_lat']
                    df_loc.loc[r,'centroide_lon'] = datos[0]['centroide_lon']
                    df_loc.loc[r,'departamento_nombre'] = datos[0]['nombre']
                    df_loc.loc[r,'provincia_de_API'] = datos[0]['provincia_nombre']
                except: pass

        else:  # Municipio
            try:
                df_loc.loc[r,'centroide_lat'] = datos[0]['centroide_lat']
                df_loc.loc[r,'centroide_lon'] = datos[0]['centroide_lon']
                df_loc.loc[r,'provincia_de_API'] = datos[0]['provincia_nombre']
                df_loc.loc[r,'departamento_nombre'] = datos[0]['departamento_nombre']
                df_loc.loc[r,'municipio_nombre'] = datos[0]['nombre']
            except: pass
    else:  #Localidad
        try: 
            df_loc.loc[r,'centroide_lat'] = datos[0]['centroide_lat']
            df_loc.loc[r,'centroide_lon'] = datos[0]['centroide_lon']
            df_loc.loc[r,'provincia_de_API'] = datos[0]['provincia_nombre']
            df_loc.loc[r,'departamento_nombre'] = datos[0]['departamento_nombre']
            df_loc.loc[r,'municipio_nombre'] = datos[0]['municipio_nombre']
            df_loc.loc[r,'localidad_nombre'] = datos[0]['nombre']
        except: pass

Arriba se pueden ver todos los casos en los que hubo errores nulos

In [71]:
df_loc.shape

(699, 10)

In [69]:
df_loc.localidad_nombre.isna().sum()

0

Sobre la totalidad de opciones unicas agrupadas como localidad + provincia (699), 115 opciones no se encontraron. Esto puede verse mas abajo donde la informacion no es consistente o el nombre de la localidad y la provincia. A su vez, hay que corregir manualmente el input `ciudad de buenos aires` para capital. 
Para esta querry no utilice el campo de provincia del dataset original dado que es inconsistente.


In [99]:
pd.set_option('display.max_rows', 800)  # Para ver todas las filas
df_loc

Unnamed: 0,loc_part,provincia_part,nacionalidad,cp_part,centroide_lat,centroide_lon,departamento_nombre,municipio_nombre,localidad_nombre,provincia_de_API
0,VENEZUELA Y PERU,BA,1,1,,,,,,
1,-1,BA,2,2,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
2,-1,CF,1,1,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
3,-1,SJ,1,1,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
4,-1,SL,2,2,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
5,10064,BA,2,2,,,,,,
6,12 DE AGOSTO,BA,2,2,,,,,,
7,12 DE OCTUBRE,BA,2,2,-35.6077,-60.9183,9 de Julio,9 de Julio,12 DE OCTUBRE,Buenos Aires
8,16 DE JULIO,BA,2,2,-37.2021,-60.1652,Azul,Azul,16 DE JULIO,Buenos Aires
9,17 DE AGOSTO,BA,1,1,-37.9087,-62.936,Puán,Puán,17 DE AGOSTO,Buenos Aires


In [32]:
df_loc.groupby('departamento_nombre').count().sort_values('loc_part', ascending = False)

Unnamed: 0,loc_part,provincia_part,nacionalidad,cp_part,centroide_lat,centroide_lon,departamento_nombre,municipio_nombre,localidad_nombre,provincia_de_API
0,VENEZUELA Y PERU,BA,1,1,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
1,-1,BA,2,2,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
2,-1,CF,1,1,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
3,-1,SJ,1,1,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
4,-1,SL,2,2,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
...,...,...,...,...,...,...,...,...,...,...
694,ZAVALIA,BA,2,2,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
695,ZELAYA,BA,2,2,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
696,capilla del señor,BA,1,1,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba
697,martinez,BA,1,1,-33.4395,-64.8317,Río Cuarto,Suco,SUCO,Córdoba


---

# Probando usar CPA para terminar de ubicar missing data

Cree una base de datos usando informacion externa para obtener las localidades de todos los CPA de la Republica Argentina. La misma se encuentra en [GitHub](link)

In [19]:
import sqlalchemy
engine = sqlalchemy.create_engine('sqlite:///SQL/CPA.db')
con = engine.connect()

In [20]:
con.execute('select * from provincia limit 10').fetchall() #Probar si conecto a la base

[(1, 'Ciudad Autónoma de Buenos Aires (CABA)', 'AR-C'),
 (2, 'Buenos Aires', 'AR-B'),
 (3, 'Catamarca', 'AR-K'),
 (4, 'Córdoba', 'AR-X'),
 (5, 'Corrientes', 'AR-W'),
 (6, 'Entre Ríos', 'AR-E'),
 (7, 'Jujuy', 'AR-Y'),
 (8, 'Mendoza', 'AR-M'),
 (9, 'La Rioja', 'AR-F'),
 (10, 'Salta', 'AR-A')]

cpa_pro = pd.read_sql('provincia', con = con)
cpa_pro.head(5)

In [22]:
cpa_loc = pd.read_sql('localidad', con = con)
cpa_loc.head(5)

  % (coltype, args)
  % (coltype, args)


Unnamed: 0,l_id,provincia_id,nombre,codigopostal
0,1,13,CABEZA DE CHANCHO,3061
1,2,13,CAMPO GARAY,3066
2,3,13,CAMPO SAN JOSE,3060
3,4,13,COLONIA INDEPENDENCIA,3066
4,5,13,COLONIA MONTEFIORE,2341


###### cpa_all = cpa_loc.merge(cpa_pro, left_on='provincia_id', right_on='p_id', suffixes=['_localidad','_provincia'])
cpa_all.sample(10)

In [24]:
cpa_all.loc[cpa_all.codigopostal == 0]

Unnamed: 0,l_id,provincia_id,nombre_localidad,codigopostal,p_id,nombre_provincia,codigo31662
3059,2755,1,C.A.B.A.,0,1,Ciudad Autónoma de Buenos Aires (CABA),AR-C


Sacar codigo postal = 0  (Capital Federal) este data frame. Para capital usaremos otra tabla.


In [25]:
# Chequear por provincia
cpa_all.groupby(['nombre_provincia']).count().sort_values(by= 'provincia_id', ascending = False)

Unnamed: 0_level_0,l_id,provincia_id,nombre_localidad,codigopostal,p_id,codigo31662
nombre_provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Santiago del Estero,2432,2432,2432,2432,2432,2432
Tucumán,2203,2203,2203,2203,2203,2203
Buenos Aires,2117,2117,2117,2117,2117,2117
Córdoba,1979,1979,1979,1979,1979,1979
Mendoza,1483,1483,1483,1483,1483,1483
Corrientes,1293,1293,1293,1293,1293,1293
Salta,1251,1251,1251,1251,1251,1251
San Luis,1230,1230,1230,1230,1230,1230
Entre Ríos,1116,1116,1116,1116,1116,1116
Catamarca,967,967,967,967,967,967


Evidentemente hay un error y/o la base se encuentra incompleta dado que no hay codigos para CABA. Intentare rellenar una base con los mismos
usando los links anteriormente mencionados

In [26]:
cpa_all.loc[cpa_all.nombre_localidad == 'OLIVOS'] # Palermo

Unnamed: 0,l_id,provincia_id,nombre_localidad,codigopostal,p_id,nombre_provincia,codigo31662
3000,17298,2,OLIVOS,1636,2,Buenos Aires,AR-B


Una vez resuelto esto deberiamos ver que casos tenemos nulos e intentar popularlos.
Para eso vamos a seguir cuatro pasos:<br>
1) Ubicar `None` values en la columna localidad del dataframe (`df_loc`) y tomar ese CPA.<br>
2) Buscar en la tabla `cpa_all` a que localidad corresponde ese CPA.<br>
3) Buscar los datos de geolocalizacion en la API de georefar<br>
4) Agregar esos datos nuevamente a la tabla.

## Corriendo la repopulacion

In [18]:
df_missing = df_loc.loc[df_loc.localidad_nombre.isna()].copy() #vamos a conservar los index para rellenar la df_loc

NameError: name 'df_loc' is not defined

In [159]:
df_missing.groupby('provincia_part').count()

Unnamed: 0_level_0,loc_part,nacionalidad,cp_part,centroide_lat,centroide_lon,departamento_nombre,municipio_nombre,localidad_nombre,provincia_de_API
provincia_part,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
BA,90,90,90,5,5,0,0,0,5
CA,1,1,1,0,0,0,0,0,0
CB,1,1,1,0,0,0,0,0,0
CF,17,17,17,2,2,0,0,0,2
ER,2,2,2,0,0,0,0,0,0
MZ,1,1,1,0,0,0,0,0,0
NE,1,1,1,1,1,0,0,0,1
SC,1,1,1,0,0,0,0,0,0
SF,1,1,1,0,0,0,0,0,0


La mayoria de los valores faltantes sonn de Buenos Aires y Capital. Deberiamos juntar estos CP antes de proseguir.

In [162]:
df_missing.loc[df_missing.provincia_de_API.notna()]

Unnamed: 0,loc_part,provincia_part,nacionalidad,cp_part,centroide_lat,centroide_lon,departamento_nombre,municipio_nombre,localidad_nombre,provincia_de_API
193,ESTEBAN ECHEVERRIA,BA,2,2,-34.8312,-58.477,,,,Buenos Aires
194,EXALTACION DE LA CR,BA,2,2,-34.2951,-59.1559,,,,Buenos Aires
195,EXALTACION DE LA CRU,BA,1,1,-34.2951,-59.1559,,,,Buenos Aires
196,EXALTACION DE LA CRU,CF,1,1,-34.2951,-59.1559,,,,Buenos Aires
304,LA MATANZA,BA,2,2,-34.7702,-58.6254,,,,Buenos Aires
305,LA MATANZA,CF,1,1,-34.7702,-58.6254,,,,Buenos Aires
545,SAN MARTIN DE LOS A,NE,2,2,-40.1348,-71.3015,,,,Neuquén
596,TRES DE FEBRERO,BA,2,2,-34.596,-58.5791,,,,Buenos Aires


## Creando base de Datos para CABA

In [27]:
import csv
with open('./SQL/capital_cp.csv', newline='', encoding='utf-8') as f: #el archivo contiene datos scrapeados de https://www.barriorecoleta.com.ar/blog/codigos-postales/
    reader = csv.reader(f)
    data = list(reader)

In [28]:
capital_df = pd.DataFrame(columns = ['barrio', 'comuna_numero', 'codigo_postal'])

In [29]:
for barrio in data:
    for cp in barrio[2:]:
        capital_df = capital_df.append({'barrio' : barrio[0], 'comuna_numero' : barrio[1], 'codigo_postal' : cp} , ignore_index=True)
                       

In [30]:
capital_df.sample(5)  # Anda bien

Unnamed: 0,barrio,comuna_numero,codigo_postal
164,Barracas,4,1153
158,Barracas,4,1138
563,Villa General Mitre,11,1406
444,San Cristóbal,3,1230
112,Balvanera,3,1083


El CP no es unico para un barrio o comuna. Atencion a esto! esto es coherente con la informacion consultada

In [31]:
capital_df.to_csv('./SQL/capital_formatted.csv')

Una vez que obtuve esta base la agregue a un script de SQL y la agregue a la base `CPA.db`

In [32]:
con = engine.connect()
capital_cp = pd.read_sql('comunas_capital', con=con)

  % (coltype, args)


In [33]:
capital_cp.loc[capital_cp.codigopostal == 1414]

Unnamed: 0,c_id,provincia_id,barrio,comuna,codigopostal
56,56,1,Recoleta,2,1414
75,75,1,Palermo,14,1414
242,242,1,Chacarita,15,1414
250,250,1,Colegiales,13,1414
548,548,1,Villa Crespo,15,1414
553,553,1,Villa del Parque,11,1414
580,580,1,Villa Real,10,1414
596,596,1,Caballito,6,1414


In [34]:
capital_cp.sample(5)

Unnamed: 0,c_id,provincia_id,barrio,comuna,codigopostal
451,451,1,San Cristóbal,3,1244
286,286,1,Constitución,1,1159
34,34,1,Recoleta,2,1119
388,388,1,Paternal,15,1427
600,600,1,Flores,7,1407


In [35]:
df_completo = cpa_all.merge(capital_cp, on='provincia_id',how='left')

In [36]:
df_completo.loc[(df_completo.provincia_id == 1) | (df_completo.provincia_id == 2) ]

Unnamed: 0,l_id,provincia_id,nombre_localidad,codigopostal_x,p_id,nombre_provincia,codigo31662,c_id,barrio,comuna,codigopostal_y
942,878,2,AVELLANEDA,1870,2,Buenos Aires,AR-B,,,,
943,879,2,CRUCESITA,1870,2,Buenos Aires,AR-B,,,,
944,880,2,DOCK SUD,1871,2,Buenos Aires,AR-B,,,,
945,881,2,SARANDI,1872,2,Buenos Aires,AR-B,,,,
946,882,2,VILLA DOMINICO,1874,2,Buenos Aires,AR-B,,,,
...,...,...,...,...,...,...,...,...,...,...,...
3680,2755,1,C.A.B.A.,0,1,Ciudad Autónoma de Buenos Aires (CABA),AR-C,621.0,Villa Lugano,8.0,1439.0
3681,2755,1,C.A.B.A.,0,1,Ciudad Autónoma de Buenos Aires (CABA),AR-C,622.0,Villa Riachuelo,8.0,1439.0
3682,2755,1,C.A.B.A.,0,1,Ciudad Autónoma de Buenos Aires (CABA),AR-C,623.0,Villa Soldati,8.0,1406.0
3683,2755,1,C.A.B.A.,0,1,Ciudad Autónoma de Buenos Aires (CABA),AR-C,624.0,Villa Soldati,8.0,1407.0


La base esta completa y funcionando.

## A la base original le voy a agregar los campos nombre_localidad, provincia_id, nombre_provincia, barrio y comuna.

In [37]:
# un set con los CP en Capital Federal
set_capital = set(capital_cp.codigopostal)
set_capital.intersection(set(cpa_all.codigopostal)) #no se solapa con los CP de provincia. Esto es coherente con la informacion que tenemos

set()

In [38]:
df2.loc[df2.cp_part == '0'].shape # 100 rows sin CP y sin provincia. Estos seran adivinados

(100, 4)

In [39]:
df2.loc[df2.cp_part == '0'].head()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
4,AR,,0,9 DE ABRIL
9,AR,,0,ALMIRANTE BROWN
10,AR,,0,ALSINA
17,AR,,0,BECCAR
23,AR,,0,BERNAL ESTE


In [40]:
df2.cp_part.isna().sum() # No hay missing values

0

Chequear cuantos CP corresponden a una unica provincia y unica localidad

In [61]:
cpa_all.groupby(['codigopostal', 'nombre_provincia']).count().sort_values( by = 'p_id', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,l_id,provincia_id,nombre_localidad,p_id,codigo31662
codigopostal,nombre_provincia,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
5590,Mendoza,204,204,204,204,204
5569,Mendoza,196,196,196,196,196
4178,Tucumán,151,151,151,151,151
4119,Tucumán,149,149,149,149,149
5467,San Juan,139,139,139,139,139
...,...,...,...,...,...,...
5000,Córdoba,1,1,1,1,1
4709,Catamarca,1,1,1,1,1
1601,Buenos Aires,1,1,1,1,1
4613,Santiago del Estero,1,1,1,1,1


In [62]:
provincia_por_cp = cpa_all.groupby('codigopostal')['nombre_provincia'].nunique()
provincia_por_cp.loc[provincia_por_cp > 1].count() 

100

In [63]:
# Hay 100 codigos postales que comparten diferentes provincias

In [64]:
cpa_all.loc[cpa_all.codigopostal == 9420].head() #Ejemplo

Unnamed: 0,l_id,provincia_id,nombre_localidad,codigopostal,p_id,nombre_provincia,codigo31662
3076,2772,24,EL PARAMO,9420,24,Tierra del Fuego,AR-V
3077,2773,24,RIO GRANDE,9420,24,Tierra del Fuego,AR-V
3078,2774,24,SAN SEBASTIAN,9420,24,Tierra del Fuego,AR-V
3079,2775,24,SANTA INES,9420,24,Tierra del Fuego,AR-V
3080,2776,24,TOLHUIN,9420,24,Tierra del Fuego,AR-V


In [65]:
cp_prov_no_unicos = set(provincia_por_cp.loc[provincia_por_cp > 1].index)
len(cp_prov_no_unicos)

100

In [66]:
localidad_por_cp = cpa_all.groupby('codigopostal')['nombre_localidad'].nunique()

In [67]:
cp_loc_no_unicos = set(localidad_por_cp.loc[localidad_por_cp > 1].index )
len (cp_loc_no_unicos)

1632

In [68]:
len(cp_loc_no_unicos.intersection(cp_prov_no_unicos))  # Evidentemente si hay 100 codigos que coparten provincia, es esperable que todos los cp que comparten distintas localidades
                                                       # esten incluidos. Sanity check.

100

---

Ahora con Capital Federal

In [69]:
cpa_all.groupby('codigopostal')['nombre_localidad'].nunique().sort_values(ascending=False) # Vemos como CP no siempre asigna un nombre de localidad tampoco.

codigopostal
5590    204
5569    195
4178    151
4119    140
5539    138
       ... 
4709      1
5000      1
5012      1
5014      1
0         1
Name: nombre_localidad, Length: 1901, dtype: int64

In [70]:
localidad_por_cp = cpa_all.groupby('codigopostal')['nombre_localidad'].nunique()
cp_localidad_no_unicos = set(localidad_por_cp.loc[localidad_por_cp > 1].index) 

In [71]:
len(cp_localidad_no_unicos) # 1636 cp que no corresponden a un unico municipio.

1632

Ahora con capital

In [72]:
Capital_barrio_por_cp = capital_cp.groupby('codigopostal')['barrio'].nunique()

In [73]:
capital_cp_barrio_no_unicos = set(Capital_barrio_por_cp.loc[Capital_barrio_por_cp > 1].index)
len(capital_cp_barrio_no_unicos)

159

In [74]:
len(set(Capital_barrio_por_cp.loc[Capital_barrio_por_cp == 1].index))  # Hay 159 CP que no corresponden a un unico barrio

144

In [75]:
Capital_comuna_por_CP = capital_cp.groupby('codigopostal')['comuna'].nunique()
capital_cp_comuna_no_unicos = set(Capital_comuna_por_CP.loc[Capital_comuna_por_CP > 1].index)

In [76]:
len(capital_cp_comuna_no_unicos) # Hay 119 CP que no corresponden a una unica comuna

119

In [77]:
len(set(Capital_comuna_por_CP.loc[Capital_comuna_por_CP == 1].index))

184

In [78]:
len(capital_cp_barrio_no_unicos.intersection(capital_cp_comuna_no_unicos)) #Logicamente si un CP se usa en otra Comuna entonces hay otro barrio con el mismo CP.

119

---

# Algoritmo

1) Ver si es de provincia o capital
- 1.1) Si es de Capital ver si CP corresponde a barrio unico. Si es asi se asigna Localidad , Comuna [departamento] y Provincia<br>
-  1.2) Si no corresponde a barrio unico se checa si el CP corresponde a unica comuna. Si es asi se asigna solo comuna y Provincia.Sino solo se asigna Provincia Capital Federal.<br>
- 1.3) Si es de provincia se checa si el CP corresponde a una unica localidad. Si es asi se asigna localidad y Provincia.<br>
- 1.4) Si no corresponde a una unica localidad se checa si el CP corresponde a una unica provincia. Si es asi se asgina solo Provincia. Sino no se asigna ningun valor.<br>

2) Usando la tabla modificada se correra la funcion geo.get_centroides con las siguientes reglas:<br>
- 2.1) Si hay provincia registrada se ingresa a la funcion.<br>
- 2.1.1) Si hay localidad se ingresa a la funcion. Se obtiene el centroide para la localidad.<br>
- 2.1.2) Si no hay localidad habra dos opciones, dependiendo si es de Capital o Provincia:<br>
- -      Provincia) Se usa la provincia como campo y se usa el campo `loc_part` (ingresado por el usuario). Si encuentra se agrega la localidad. Sino se agrega centroide de la provincia.<br>
- -     Capital) Se usa la comuna si la hay y se busca por departamento. Sino se usa el campo 'loc_part' como localidad. Es probabable que no devuelva dato por lo que solo se agrega centroide de Capital Federal. Si devuelve datos se agrega la comuna y no la localidad.<br>
- 2.2) Si no hay provincia registrada se usa el campo `loc_pat`.
    

In [79]:
df2.head(3)

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
2,AR,,1688,12 DE AGOSTO


In [80]:
augmented_df = df2.copy()
augmented_df['provincia_por_cp']= None
augmented_df['localidad_por_cp']= None
augmented_df['departamento_por_cp']= None
augmented_df.head(3)

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp
0,AR,,1704,,,,
1,AR,,1704,,,,
2,AR,,1688,12 DE AGOSTO,,,


In [81]:
set_provincia = set(cpa_all.codigopostal)
set_provincia.remove(0) # Removemos el codigo postal 0
len(set_provincia)

1900

In [82]:
def infer_provincia(cp):
    if int(cp) in set_capital:
        return 'CIUDAD AUTONOMA DE BUENOS AIRES'
    if int(cp) in set_provincia:
        if  int(cp) in cp_prov_no_unicos:
            return  'NO UNICA PROVINCIA'
        else:
            prov = cpa_all.loc[cpa_all.codigopostal == int(cp)].nombre_provincia.unique()
            return prov[0].upper()
    if (int(cp) not in set_provincia and int(cp) not in set_capital):
        return 'CP INDEFINIDO'
    if cp.isna() or int(cp) == 0:
        return 'CP INDEFINIDO'

def infer_localidad(cp):
    cp = int(cp)
    if cp in set_capital:
        if cp in capital_cp_barrio_no_unicos:
                return 'NO UNICA LOCALIDAD'
        else:
            localidad = capital_cp.loc[capital_cp.codigopostal == cp].barrio.unique()[0]
            return localidad.upper()
    if cp in set_provincia:
        if cp in cp_localidad_no_unicos:
            return 'NO UNICA LOCALIDAD'
        else:
            localidad = cpa_all.loc[cpa_all.codigopostal == cp].nombre_localidad.unique()[0]
            return localidad.upper()
    if cp not in set_provincia and cp not in set_capital:
        return 'CP INDEFINIDO'
    
def infer_departamento(cp):
    cp = int(cp)
    if cp in set_capital:
        if cp in capital_cp_barrio_no_unicos:
            return 'NO UNICO DEPARTAMENTO'
        else:
            departamento = capital_cp.loc[capital_cp.codigopostal == cp].comuna.unique()
            return f'COMUNA {departamento[0]}'

In [83]:
# Provincia
augmented_df['provincia_por_cp'] = augmented_df.cp_part.apply(infer_provincia)

In [84]:
augmented_df.sample(10)

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp
668,AR,BA,1766,LA TRIBU,BUENOS AIRES,,
240,AR,,1754,SAN JUSTO,BUENOS AIRES,,
150,AR,,1752,LOMAS DEL MIRADOR,BUENOS AIRES,,
775,AR,BA,1831,MONTEGRANDE,CP INDEFINIDO,,
625,AR,BA,1846,José Marmol,BUENOS AIRES,,
621,AR,BA,1714,ITUZAINGO,BUENOS AIRES,,
588,AR,BA,1752,GREGORIO DE LA FERR,BUENOS AIRES,,
1112,AR,CB,1181,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,,
413,AR,BA,2812,CAPILLA DEL SEÑOR,BUENOS AIRES,,
509,AR,BA,1618,EL TALAR,BUENOS AIRES,,


In [85]:
# Localidad
augmented_df['localidad_por_cp'] = augmented_df.cp_part.apply(infer_localidad)
augmented_df.sample(5)

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp
970,AR,BA,1667,TORTUGUITAS,BUENOS AIRES,NO UNICA LOCALIDAD,
927,AR,BA,1650,SAN MARTIN DE TOURS,BUENOS AIRES,GENERAL SAN MARTIN,
394,AR,BA,1638,BUENO AIRES,BUENOS AIRES,VICENTE LOPEZ,
906,AR,BA,1646,SAN FERNANDO,BUENOS AIRES,NO UNICA LOCALIDAD,
1111,AR,CA,5900,VILLA MARIA,CÓRDOBA,NO UNICA LOCALIDAD,


In [86]:
augmented_df.loc[augmented_df.localidad_por_cp != 'NO UNICA LOCALIDAD'].sample(10)

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp
323,AR,BA,1641,ACASSUSO,CP INDEFINIDO,CP INDEFINIDO,
499,AR,BA,1611,DON TORCUATO,BUENOS AIRES,DON TORCUATO,
1204,CN,CF,1708,MORON,BUENOS AIRES,MORON,
65,AR,,0,DON BOSCO,CP INDEFINIDO,CP INDEFINIDO,
664,AR,BA,1774,LA SALADA,BUENOS AIRES,LA SALADA,
751,AR,BA,1723,MARIANO ACOSTA,BUENOS AIRES,MARIANO ACOSTA,
496,PY,BA,1984,DOMSELAAR,BUENOS AIRES,DOMSELAAR,
296,AR,,1875,WILDE,BUENOS AIRES,WILDE,
1028,AR,BA,1772,VILLA CLELIA,CP INDEFINIDO,CP INDEFINIDO,
1246,AR,CF,1709,VILLA SARMIENTO,CP INDEFINIDO,CP INDEFINIDO,


In [87]:
# Departamento
augmented_df['departamento_por_cp'] = augmented_df.cp_part.apply(infer_departamento)
augmented_df.sample(5)

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp
447,AR,BA,1684,CDAD AUTONOMA BS AS,BUENOS AIRES,NO UNICA LOCALIDAD,
717,AR,BA,1613,LOS POLVORINES,BUENOS AIRES,NO UNICA LOCALIDAD,
17,AR,,0,BECCAR,CP INDEFINIDO,CP INDEFINIDO,
824,AR,BA,2700,PERGAMINO,BUENOS AIRES,NO UNICA LOCALIDAD,
603,AR,BA,1686,HURLINGHAM,BUENOS AIRES,HURLINGHAM,


## Breves analisis de la primera parte

In [88]:
augmented_df.shape

(1415, 7)

In [89]:
augmented_df.loc[augmented_df.provincia_por_cp == 'NO UNICA PROVINCIA'].shape

(22, 7)

In [90]:
augmented_df.loc[augmented_df.provincia_por_cp == 'CP INDEFINIDO'].shape

(185, 7)

In [91]:
augmented_df.loc[(augmented_df.provincia_por_cp != 'NO UNICA PROVINCIA') & (augmented_df.provincia_por_cp != 'CP INDEFINIDO')].shape

(1208, 7)

In [92]:
1208/1415*100

85.37102473498234

---

In [93]:
augmented_df.loc[augmented_df.localidad_por_cp == 'NO UNICA LOCALIDAD'].shape

(807, 7)

In [94]:
augmented_df.loc[(augmented_df.localidad_por_cp != 'NO UNICA LOCALIDAD') & (augmented_df.localidad_por_cp != 'CP INDEFINIDO')].shape

(423, 7)

In [95]:
augmented_df.loc[augmented_df.localidad_por_cp == 'CP INDEFINIDO'].shape

(185, 7)

In [96]:
423/1415 * 100

29.89399293286219

---

In [97]:
augmented_df.loc[(augmented_df.departamento_por_cp.notna()) & (augmented_df.departamento_por_cp != 'NO UNICO DEPARTAMENTO')] 

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp
41,AR,,1217,CAPITAL FEDERAL,CIUDAD AUTONOMA DE BUENOS AIRES,SAN TELMO,COMUNA 1
415,AR,BA,1271,capilla del señor,CIUDAD AUTONOMA DE BUENOS AIRES,BARRACAS,COMUNA 4
1249,AR,CH,1027,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,BALVANERA,COMUNA 3


Si bien el sistema funciona, se puede ver como claramente la persona se confundio el CP en el caso de `Capilla del Señor`

### CONCLUSIONES 

El CP es util para asignar localidades en un 29.89 % de los casos.<BR>
El CP es util para asignar provincias en un 85.37 % de los casos.

## Paso dos del algoritmo. Consultar la API

In [98]:
augmented_df['provincia_por_API'] = None
augmented_df['localidad_por_API'] = None
augmented_df['departamento_por_API'] = None
augmented_df['centroide_lat_localidad'] = None
augmented_df['centroide_lon_localidad'] = None
augmented_df['centroide_lat_departamento'] = None
augmented_df['centroide_lon_departamento'] = None
augmented_df['centroide_lat_provincia'] = None
augmented_df['centroide_lon_provincia'] = None
augmented_df.loc_part = augmented_df.loc_part.apply(lambda x: str(x).upper()) #Poner todo en mayuscula

Creare una lista aparte con provincia y localidad. Excluyendo las provincias y localidades no definidas. Es decir remover `NO UNICA LOCALIDAD`,`NO UNICA PROVINCIA` y `CP INDEFINIDO`

In [99]:
gby_prov_loc = augmented_df.groupby(['provincia_por_cp','localidad_por_cp']).count().reset_index(level=['provincia_por_cp', 'localidad_por_cp']).copy()
gby_prov_loc = gby_prov_loc.loc[(gby_prov_loc.localidad_por_cp != 'NO UNICA LOCALIDAD') & (gby_prov_loc.localidad_por_cp != 'CP INDEFINIDO')]
gby_prov_loc = gby_prov_loc.loc[(gby_prov_loc.provincia_por_cp != 'NO UNICA PROVINCIA') & (gby_prov_loc.provincia_por_cp != 'CP INDEFINIDO')]
gby_prov_loc.shape

(83, 16)

In [100]:
gby_prov_loc.sample(5)

Unnamed: 0,provincia_por_cp,localidad_por_cp,nacionalidad,provincia_part,cp_part,loc_part,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento,centroide_lat_provincia,centroide_lon_provincia
44,BUENOS AIRES,PASO DEL REY,4,3,4,4,0,0,0,0,0,0,0,0,0,0
31,BUENOS AIRES,LA SALADA,5,3,5,5,0,0,0,0,0,0,0,0,0,0
65,BUENOS AIRES,VICENTE LOPEZ,3,3,3,3,0,0,0,0,0,0,0,0,0,0
77,BUENOS AIRES,WILDE,7,5,7,7,0,0,0,0,0,0,0,0,0,0
19,BUENOS AIRES,GONZALEZ CATAN,7,5,7,7,0,0,0,0,0,0,0,0,0,0


In [185]:
# crea una lista de tuplas para realizar el post
import get_centroides as geo
prov_loc = list(gby_prov_loc.apply(lambda x: (x.provincia_por_cp, x.localidad_por_cp), axis=1))

In [186]:
prov_loc[:5]

[('BUENOS AIRES', 'AEROPUERTO EZEIZA'),
 ('BUENOS AIRES', 'ALEJANDRO KORN'),
 ('BUENOS AIRES', 'BANFIELD'),
 ('BUENOS AIRES', 'BECCAR'),
 ('BUENOS AIRES', 'BELLA VISTA')]

In [187]:
#Realizo un POST request para pedir todos de una y no hacer multiples request (limite 5000).
datos = geo.post_centroides('localidades', prov_loc)

In [188]:
len(datos)

83

In [108]:
def get_field(i, field1, field2 = None):
        if len(i) == 0:
            return 'NO HUBO REQUEST'
        else: 
            if field2: 
                return i[field1][field2]       
            else: 
                return i[field1]


In [190]:
gby_prov_loc['provincia_por_API'] = [get_field(i,'provincia','nombre').upper() for i in datos]

In [191]:
gby_prov_loc['localidad_por_API'] = [get_field(i,'nombre').upper() for i in datos]
gby_prov_loc['centroide_lat_localidad'] = [get_field(i,'centroide','lat') for i in datos]
gby_prov_loc['centroide_lon_localidad'] = [get_field(i,'centroide','lon') for i in datos]

In [192]:
gby_prov_loc.sample(5)

Unnamed: 0,provincia_por_cp,localidad_por_cp,nacionalidad,provincia_part,cp_part,loc_part,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento
65,BUENOS AIRES,VICENTE LOPEZ,3,3,3,3,0,BUENOS AIRES,VICENTE LOPEZ,0,-34.5255,-58.4736,0,0
33,BUENOS AIRES,LIBERTAD,5,3,5,5,0,BUENOS AIRES,LIBERTAD,0,-34.7085,-58.6796,0,0
45,BUENOS AIRES,QUILMES,6,5,6,6,0,BUENOS AIRES,QUILMES,0,-34.7241,-58.2492,0,0
60,BUENOS AIRES,SARANDI,8,5,8,8,0,BUENOS AIRES,SARANDI,0,-34.6844,-58.3481,0,0
18,BUENOS AIRES,GLEW,3,2,3,3,0,BUENOS AIRES,GLEW,0,-34.886,-58.3818,0,0


In [105]:
gby_prov_loc[gby_prov_loc.provincia_por_API == 'NO HUBO REQUEST'] 

Unnamed: 0,provincia_por_cp,localidad_por_cp,nacionalidad,provincia_part,cp_part,loc_part,departamento_por_cp,provincia_por_API,localidad_por_API,centroide_lat_localidad,centroide_lon_localidad
11,BUENOS AIRES,CIUDAD MADERO,14,12,14,14,0,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST
27,BUENOS AIRES,JOSE CLEMENTE PAZ,10,6,10,10,0,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST
43,BUENOS AIRES,NORDELTA,3,3,3,3,0,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST
54,BUENOS AIRES,SAN BERNARDO DEL TUYU,5,5,5,5,0,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST


4 Localidades bien definidas no encontraron request. Indagar por que no estan en la API

In [113]:
geo.get_centroides('municipios', 'jose paz', provincia = 'buenos aires', max = 2)

[{'centroide': {'lat': -38.5808546732895, 'lon': -62.1656895327094},
  'id': '060056',
  'nombre': 'Bahía Blanca',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'centroide': {'lat': -38.2027130466249, 'lon': -58.0722485722111},
  'id': '060280',
  'nombre': 'General Alvarado',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}}]

In [114]:
geo.get_centroides('municipios', 'jose c. paz', provincia = 'buenos aires', max = 2) #La api esta andando mal para el GET
# Cheque esto con la base entera de localidades y no tiene sentido el output

[{'centroide': {'lat': -38.5808546732895, 'lon': -62.1656895327094},
  'id': '060056',
  'nombre': 'Bahía Blanca',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'centroide': {'lat': -38.2027130466249, 'lon': -58.0722485722111},
  'id': '060280',
  'nombre': 'General Alvarado',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}}]

### 2.2 Chequear solo comunas

In [193]:
gby_comunas = augmented_df.loc[(augmented_df.provincia_por_cp == 'CIUDAD AUTONOMA DE BUENOS AIRES')  &
                               (augmented_df.localidad_por_cp == 'NO UNICA LOCALIDAD') &
                               (augmented_df.localidad_por_cp == 'NO UNICA LOCALIDAD')].copy()

In [194]:
gby_comunas

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento
34,AR,,1414,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
35,AR,,1425,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
306,AR,BA,1406,12 DE OCTUBRE,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
308,AR,BA,1427,16 DE JULIO,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
330,AR,BA,1425,AGOTE,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
402,AR,BA,1424,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
403,AR,BA,1407,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
407,AR,BA,1428,CAMPO LOS AROMOS,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
555,AR,BA,1425,GENERAL BELGRANO,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,
698,AR,BA,1408,LINIERS,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,


En nuestro caso no hay casos de COMUNA identificada sin identificar localidad

In [144]:
gby_comunas = augmented_df.loc[(augmented_df.provincia_por_cp == 'CIUDAD AUTONOMA DE BUENOS AIRES')  &
                               (augmented_df.localidad_por_cp == 'NO UNICA LOCALIDAD') &
                               (augmented_df.departamento_por_cp == 'NO UNICA DEPARTAMENTO')].copy()

In [145]:
gby_comunas

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp


In [147]:
gby_comunas['centroide_lat_departamento'] = None
gby_comunas['centroide_lon_departamento'] = None

In [161]:
comunas = list(gby_comunas.apply(lambda x: (x.provincia_por_cp, x.departamento_por_cp), axis=1))
comunas

[(nan, nan)]

In [151]:
#comunas = [('CIUDAD AUTONOMA DE BUENOS AIRES','COMUNA 14')]   ejemplo para ver que devolveria
comunas

[('CIUDAD AUTONOMA DE BUENOS AIRES', 'COMUNA 14')]

In [155]:
datos = geo.post_centroides('departamentos', comunas)
datos

[{'centroide': {'lat': -34.5738372943158, 'lon': -58.4222211632133},
  'id': '02098',
  'nombre': 'Comuna 14',
  'provincia': {'id': '02', 'nombre': 'Ciudad Autónoma de Buenos Aires'}}]

In [160]:
gby_comunas['centroide_lat_departamento'] = [get_field(i,'centroide','lat') for i in datos]
gby_comunas['centroide_lon_departamento'] = [get_field(i,'centroide','lon') for i in datos]

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp,centroide_lat_comuna,centroide_lon_comuna,centroide_lat_localidad,centroide_lon_localidad
0,,,,,,,,,,-34.573837,-58.422221


---

## Chequear LOC PART con datos de provincia
2.1.2) Si no hay localidad habra dos opciones, dependiendo si es de Capital o Provincia:
Provincia) Se usa la provincia como campo y se usa el campo loc_part (ingresado por el usuario). Si encuentra se agrega la localidad. Sino se agrega centroide de la provincia.

Capital) Se usa la comuna si la hay y se busca por departamento. Sino se usa el campo 'loc_part' como localidad. Es probabable que no devuelva dato por lo que solo se agrega centroide de Capital Federal. Si devuelve datos se agrega la comuna y no la localidad.

In [202]:
augmented_df.loc[augmented_df.localidad_por_cp == 'NO UNICA LOCALIDAD']

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento
3,AR,,6660,25 DE MAYO,BUENOS AIRES,NO UNICA LOCALIDAD,,,,,,,,
6,AR,,1770,ALDO BONZI,BUENOS AIRES,NO UNICA LOCALIDAD,,,,,,,,
7,AR,,1770,ALDO BONZI,BUENOS AIRES,NO UNICA LOCALIDAD,,,,,,,,
11,AR,,1870,AVELLANEDA,BUENOS AIRES,NO UNICA LOCALIDAD,,,,,,,,
20,AR,,1884,BERAZATEGUI,BUENOS AIRES,NO UNICA LOCALIDAD,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1410,AR,TU,4000,SAN MIGUEL DE TUCUM,TUCUMÁN,NO UNICA LOCALIDAD,,,,,,,,
1411,AR,TU,4000,SAN MIGUEL DE TUCUM,TUCUMÁN,NO UNICA LOCALIDAD,,,,,,,,
1412,AR,TU,4107,TUCUMAN,TUCUMÁN,NO UNICA LOCALIDAD,,,,,,,,
1413,AR,TU,4107,YERBA BUENA,TUCUMÁN,NO UNICA LOCALIDAD,,,,,,,,


In [207]:
gby_solo_provincia = augmented_df.groupby(['loc_part', 'provincia_por_cp']).count().reset_index(['loc_part','provincia_por_cp']) # con este subset armar un post request
gby_solo_provincia = gby_solo_provincia.loc[(gby_solo_provincia.provincia_por_cp != 'CP INDEFINIDO') & (gby_solo_provincia.provincia_por_cp != 'NO UNICA PROVINCIA')]
print(gby_solo_provincia.shape)
gby_solo_provincia.sample(10)

(616, 14)


Unnamed: 0,loc_part,provincia_por_cp,nacionalidad,provincia_part,cp_part,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento
133,CHARATA,CHACO,2,2,2,2,0,0,0,0,0,0,0,0
138,CHOELE CHOEL,RÍO NEGRO,1,1,1,1,0,0,0,0,0,0,0,0
595,SAN JULIAN,BUENOS AIRES,2,2,2,2,0,0,0,0,0,0,0,0
710,VILLA GENERAL BELGR,CÓRDOBA,1,1,1,1,0,0,0,0,0,0,0,0
463,NORDELTA,BUENOS AIRES,1,1,1,1,0,0,0,0,0,0,0,0
342,LA MATILDE,BUENOS AIRES,1,1,1,1,0,0,0,0,0,0,0,0
613,SAN VICENTE,BUENOS AIRES,2,2,2,2,0,0,0,0,0,0,0,0
244,GENERAL LAS HERAS,BUENOS AIRES,2,2,2,2,0,0,0,0,0,0,0,0
257,GERLI.-AVELLANEDA,BUENOS AIRES,1,1,1,1,0,0,0,0,0,0,0,0
667,V ADELINA,BUENOS AIRES,1,0,1,1,0,0,0,0,0,0,0,0


In [211]:
prov_loc_part = list(gby_solo_provincia.apply(lambda x: (x.provincia_por_cp, x.loc_part), axis=1))
len(prov_loc_part)

616

In [209]:
prov_loc_part[:7]

[('BUENOS AIRES', ' VENEZUELA Y PERU'),
 ('BUENOS AIRES', '-1'),
 ('CIUDAD AUTONOMA DE BUENOS AIRES', '-1'),
 ('SAN JUAN', '-1'),
 ('SAN LUIS', '-1'),
 ('BUENOS AIRES', '10064'),
 ('BUENOS AIRES', '12 DE AGOSTO')]

In [212]:
datos = geo.post_centroides('localidades', prov_loc_part)

In [214]:
datos[5:12]

[{},
 {},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -35.607730780146, 'lon': -60.9182929927645},
  'departamento': {'id': '06588', 'nombre': '9 de Julio'},
  'id': '06588030000',
  'localidad_censal': {'id': '06588030', 'nombre': '12 de Octubre'},
  'municipio': {'id': '060588', 'nombre': '9 de Julio'},
  'nombre': '12 DE OCTUBRE',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -37.2020524773603, 'lon': -60.1652139181813},
  'departamento': {'id': '06049', 'nombre': 'Azul'},
  'id': '06049050000',
  'localidad_censal': {'id': '06049050', 'nombre': '16 de Julio'},
  'municipio': {'id': '060049', 'nombre': 'Azul'},
  'nombre': '16 DE JULIO',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -37.9086924428976, 'lon': -62.9360284730803},
  'departamento': {'id': '06651', 'nombre': 'Puán'},
  'id': '06651040000',
  'localidad_censal': {

In [215]:
gby_solo_provincia['provincia_por_API'] = [get_field(i,'provincia','nombre').upper() for i in datos]
gby_solo_provincia['localidad_por_API'] = [get_field(i,'nombre').upper() for i in datos]
gby_solo_provincia['centroide_lat_localidad'] = [get_field(i,'centroide','lat') for i in datos]
gby_solo_provincia['centroide_lon_localidad'] = [get_field(i,'centroide','lon') for i in datos]

In [217]:
gby_solo_provincia.sample(7)

Unnamed: 0,loc_part,provincia_por_cp,nacionalidad,provincia_part,cp_part,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento
682,VICTORIA,BUENOS AIRES,2,2,2,2,0,0,VICTORIA,0,-34.462,-58.5596,0,0
442,MONTE CASEROS,CORRIENTES,2,2,2,2,0,0,MONTE CASEROS,0,-30.2516,-57.6388,0,0
755,WILDE,BUENOS AIRES,6,4,6,6,0,0,WILDE,0,-34.7062,-58.3218,0,0
228,FLORIDA-VTE LOPEZ,BUENOS AIRES,1,1,1,1,0,0,NO HUBO REQUEST,0,NO HUBO REQUEST,NO HUBO REQUEST,0,0
245,GENERAL MADARIAGA,BUENOS AIRES,2,2,2,2,0,0,GENERAL JUAN MADARIAGA,0,-36.9968,-57.1375,0,0
16,30 DE AGOSTO,BUENOS AIRES,1,1,1,1,0,0,30 DE AGOSTO,0,-36.278,-62.5453,0,0
328,LA BANDA,SANTIAGO DEL ESTERO,1,1,1,1,0,0,LA BANDA,0,-27.7339,-64.239,0,0


### Ahora con los CP INDEFINIDO y NO UNICA PROVINCIA 

In [101]:
gby_sin_datos = augmented_df.groupby(['loc_part', 'provincia_por_cp']).count().reset_index(['loc_part','provincia_por_cp']) # con este subset armar un post request
gby_sin_datos = gby_sin_datos.loc[(gby_sin_datos.provincia_por_cp == 'CP INDEFINIDO') | (gby_sin_datos.provincia_por_cp == 'NO UNICA PROVINCIA')]
print(gby_sin_datos.shape)
gby_sin_datos

(144, 16)


Unnamed: 0,loc_part,provincia_por_cp,nacionalidad,provincia_part,cp_part,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento,centroide_lat_provincia,centroide_lon_provincia
7,12 DE AGOSTO,CP INDEFINIDO,1,1,1,1,0,0,0,0,0,0,0,0,0,0
18,9 DE ABRIL,CP INDEFINIDO,2,0,2,2,0,0,0,0,0,0,0,0,0,0
21,ABASTO,CP INDEFINIDO,1,1,1,1,0,0,0,0,0,0,0,0,0,0
22,ACASSUSO,CP INDEFINIDO,2,2,2,2,0,0,0,0,0,0,0,0,0,0
35,ALICIA,CP INDEFINIDO,1,1,1,1,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
737,VILLA REGINA,NO UNICA PROVINCIA,1,1,1,1,0,0,0,0,0,0,0,0,0,0
743,VILLA SARMIENTO,CP INDEFINIDO,2,2,2,2,0,0,0,0,0,0,0,0,0,0
744,VILLA SOLDATI,CP INDEFINIDO,2,2,2,2,0,0,0,0,0,0,0,0,0,0
749,VILLARS,CP INDEFINIDO,2,2,2,2,0,0,0,0,0,0,0,0,0,0


In [102]:
solo_loc = gby_sin_datos.loc_part
datos = geo.post_centroides('localidades', solo_loc, prov = False)

In [106]:
datos[:3]

[{},
 {'categoria': 'Entidad',
  'centroide': {'lat': -34.7565075768115, 'lon': -58.4902923509723},
  'departamento': {'id': '06260', 'nombre': 'Esteban Echeverría'},
  'id': '06260010005',
  'localidad_censal': {'id': '06260010', 'nombre': 'Esteban Echeverría'},
  'municipio': {'id': '060260', 'nombre': 'Esteban Echeverría'},
  'nombre': '9 DE ABRIL',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'categoria': 'Entidad',
  'centroide': {'lat': -35.0103681960184, 'lon': -58.1151848585184},
  'departamento': {'id': '06441', 'nombre': 'La Plata'},
  'id': '06441030001',
  'localidad_censal': {'id': '06441030', 'nombre': 'La Plata'},
  'municipio': {'id': '060441', 'nombre': 'La Plata'},
  'nombre': 'ABASTO',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}}]

In [109]:
gby_sin_datos['provincia_por_API'] = [get_field(i,'provincia','nombre').upper() for i in datos]
gby_sin_datos['localidad_por_API'] = [get_field(i,'nombre').upper() for i in datos]
gby_sin_datos['centroide_lat_localidad'] = [get_field(i,'centroide','lat') for i in datos]
gby_sin_datos['centroide_lon_localidad'] = [get_field(i,'centroide','lon') for i in datos]

In [110]:
gby_sin_datos

Unnamed: 0,loc_part,provincia_por_cp,nacionalidad,provincia_part,cp_part,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento,centroide_lat_provincia,centroide_lon_provincia
7,12 DE AGOSTO,CP INDEFINIDO,1,1,1,1,0,NO HUBO REQUEST,NO HUBO REQUEST,0,NO HUBO REQUEST,NO HUBO REQUEST,0,0,0,0
18,9 DE ABRIL,CP INDEFINIDO,2,0,2,2,0,BUENOS AIRES,9 DE ABRIL,0,-34.7565,-58.4903,0,0,0,0
21,ABASTO,CP INDEFINIDO,1,1,1,1,0,BUENOS AIRES,ABASTO,0,-35.0104,-58.1152,0,0,0,0
22,ACASSUSO,CP INDEFINIDO,2,2,2,2,0,BUENOS AIRES,ACASSUSO,0,-34.4794,-58.5074,0,0,0,0
35,ALICIA,CP INDEFINIDO,1,1,1,1,0,CÓRDOBA,ALICIA,0,-31.9387,-62.4658,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
737,VILLA REGINA,NO UNICA PROVINCIA,1,1,1,1,0,RÍO NEGRO,VILLA REGINA,0,-39.0963,-67.0828,0,0,0,0
743,VILLA SARMIENTO,CP INDEFINIDO,2,2,2,2,0,BUENOS AIRES,VILLA SARMIENTO,0,-34.6347,-58.5716,0,0,0,0
744,VILLA SOLDATI,CP INDEFINIDO,2,2,2,2,0,CIUDAD AUTÓNOMA DE BUENOS AIRES,VILLA SOLDATI,0,-34.6655,-58.4465,0,0,0,0
749,VILLARS,CP INDEFINIDO,2,2,2,2,0,BUENOS AIRES,VILLARS,0,-34.83,-58.9423,0,0,0,0


In [112]:
gby_sin_datos.loc[gby_sin_datos.localidad_por_API == 'NO HUBO REQUEST'].shape

(27, 16)

In [113]:
27/114

0.23684210526315788

Un 23% de request no arrojaron resultados. Sin embargo esto es solamente el 23% del +- 10% del dataset total

###  Capital sin localidad definida

In [118]:
gby_cap_sin_loc = augmented_df.loc[(augmented_df.provincia_por_cp == 'CIUDAD AUTONOMA DE BUENOS AIRES')]
gby_cap_sin_loc = gby_cap_sin_loc.loc[(gby_cap_sin_loc.localidad_por_cp == 'NO UNICA LOCALIDAD')]
print(gby_cap_sin_loc.shape)
gby_cap_sin_loc.sample(5)

(28, 16)


Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento,centroide_lat_provincia,centroide_lon_provincia
991,AR,BA,1431,URQUIZA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,,,
1376,AR,SF,1181,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,,,
1166,AR,CF,1431,DTO 308,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,,,
407,AR,BA,1428,CAMPO LOS AROMOS,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,,,
403,AR,BA,1407,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,,,,,,,,,


In [119]:
cap_sin_loc = list(gby_cap_sin_loc.apply(lambda x: (x.provincia_por_cp, x.loc_part), axis=1))

In [125]:
cap_sin_loc[:5]

[('CIUDAD AUTONOMA DE BUENOS AIRES', 'CABA'),
 ('CIUDAD AUTONOMA DE BUENOS AIRES', 'CABA'),
 ('CIUDAD AUTONOMA DE BUENOS AIRES', '12 DE OCTUBRE'),
 ('CIUDAD AUTONOMA DE BUENOS AIRES', '16 DE JULIO'),
 ('CIUDAD AUTONOMA DE BUENOS AIRES', 'AGOTE')]

In [126]:
datos = geo.post_centroides('localidades', cap_sin_loc)

In [127]:
gby_cap_sin_loc['provincia_por_API'] = [get_field(i,'provincia','nombre').upper() for i in datos]
gby_cap_sin_loc['departamento_por_API'] = [get_field(i,'departamento','nombre').upper() for i in datos]
gby_cap_sin_loc['localidad_por_API'] = [get_field(i,'nombre').upper() for i in datos]
gby_cap_sin_loc['centroide_lat_localidad'] = [get_field(i,'centroide','lat') for i in datos]
gby_cap_sin_loc['centroide_lon_localidad'] = [get_field(i,'centroide','lon') for i in datos]

In [128]:
gby_cap_sin_loc

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part,provincia_por_cp,localidad_por_cp,departamento_por_cp,provincia_por_API,localidad_por_API,departamento_por_API,centroide_lat_localidad,centroide_lon_localidad,centroide_lat_departamento,centroide_lon_departamento,centroide_lat_provincia,centroide_lon_provincia
34,AR,,1414,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,CIUDAD AUTÓNOMA DE BUENOS AIRES,CABALLITO,COMUNA 6,-34.6168,-58.4436,,,,
35,AR,,1425,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,CIUDAD AUTÓNOMA DE BUENOS AIRES,CABALLITO,COMUNA 6,-34.6168,-58.4436,,,,
306,AR,BA,1406,12 DE OCTUBRE,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,,,,
308,AR,BA,1427,16 DE JULIO,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,,,,
330,AR,BA,1425,AGOTE,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,,,,
402,AR,BA,1424,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,CIUDAD AUTÓNOMA DE BUENOS AIRES,CABALLITO,COMUNA 6,-34.6168,-58.4436,,,,
403,AR,BA,1407,CABA,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,CIUDAD AUTÓNOMA DE BUENOS AIRES,CABALLITO,COMUNA 6,-34.6168,-58.4436,,,,
407,AR,BA,1428,CAMPO LOS AROMOS,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,,,,
555,AR,BA,1425,GENERAL BELGRANO,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,NO HUBO REQUEST,,,,
698,AR,BA,1408,LINIERS,CIUDAD AUTONOMA DE BUENOS AIRES,NO UNICA LOCALIDAD,NO UNICO DEPARTAMENTO,CIUDAD AUTÓNOMA DE BUENOS AIRES,LINIERS,COMUNA 9,-34.6438,-58.5191,,,,



La API tiende a asignar CABALLITO y Comuna 6 como localidad y departamento por defecto. Debido a que se encuentran en el medio de la capital.