# Explorando GeoRef-AR API

## Extraction y preprocessing 

In [27]:
import pandas as pd
from IPython.display import display

In [28]:
df = pd.read_csv('provincias_cp_localidades.csv', encoding='latin-1')

In [29]:
df.head()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
2,30/06/2015,,CF,1006
3,AR,,1688,12 DE AGOSTO
4,05/08/1987,,BA,1684


Hay algunos problemas con los datos. Pasare a limpiar aquellos campos que no sean "string" en `nacionalidad`, ni "integer" en `cp_part`

In [30]:
df.nacionalidad.str.contains('/').sum()

2

In [31]:
df.nacionalidad.isna().sum()

10

Son solo dos con fecha y 10 valores nulos. Paso a removerlos directamente

In [32]:
#df['cp_part'] = df['cp_part'].apply(lambda x: pd.to_numeric(x, errors='coerce', downcast = 'integer')).copy()

In [33]:
df2 = df.loc[df.nacionalidad.str.contains('/') == False].reset_index(drop = True) #elimina los Nan y los campos con fecha
df2.head()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
2,AR,,1688,12 DE AGOSTO
3,AR,,6660,25 DE MAYO
4,AR,,0,9 DE ABRIL


In [34]:
df2.nacionalidad.isna().sum()

0

---

## Probando el modulo get_centroides (el nombre puede cambiar)
Toma datos de la API de https://datosgobar.github.io/georef-ar-api/

In [35]:
import get_centroides as geo

In [36]:
geo.get_centroides('localidades','Olivos')

[{'categoria': 'Entidad',
  'centroide': {'lat': -34.512161433984, 'lon': -58.4985444232342},
  'departamento': {'id': '06861', 'nombre': 'Vicente López'},
  'id': '06861010006',
  'localidad_censal': {'id': '06861010', 'nombre': 'Vicente López'},
  'municipio': {'id': '060861', 'nombre': 'Vicente López'},
  'nombre': 'OLIVOS',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -32.6972155730911, 'lon': -68.3295580099939},
  'departamento': {'id': '50056', 'nombre': 'Lavalle'},
  'id': '50056070000',
  'localidad_censal': {'id': '50056070', 'nombre': 'Barrio Los Olivos'},
  'municipio': {'id': '500056', 'nombre': 'Lavalle'},
  'nombre': 'BARRIO LOS OLIVOS',
  'provincia': {'id': '50', 'nombre': 'Mendoza'}}]

In [37]:
geo.get_centroides('localidades','olivos', provincia = 'buenos aires')

[{'categoria': 'Entidad',
  'centroide': {'lat': -34.512161433984, 'lon': -58.4985444232342},
  'departamento': {'id': '06861', 'nombre': 'Vicente López'},
  'id': '06861010006',
  'localidad_censal': {'id': '06861010', 'nombre': 'Vicente López'},
  'municipio': {'id': '060861', 'nombre': 'Vicente López'},
  'nombre': 'OLIVOS',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}}]

In [38]:
geo.get_localidad('Buenos Aires','Olivos')

[{'categoria': 'Entidad',
  'centroide': {'lat': -34.512161433984, 'lon': -58.4985444232342},
  'departamento': {'id': '06861', 'nombre': 'Vicente López'},
  'id': '06861010006',
  'localidad_censal': {'id': '06861010', 'nombre': 'Vicente López'},
  'municipio': {'id': '060861', 'nombre': 'Vicente López'},
  'nombre': 'OLIVOS',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}}]

---

## Aplicando get_centroides al DF

In [39]:
df2.provincia_part.unique()

array([nan, 'BA', 'CA', 'CB', 'CF', 'CH', 'CO', 'CT', 'ER', 'FO', 'JU',
       'LP', 'MI', 'MZ', 'NE', 'RN', 'SA', 'SC', 'SE', 'SF', 'SJ', 'SL',
       'TF', 'TU'], dtype=object)

In [40]:
df2.head()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
2,AR,,1688,12 DE AGOSTO
3,AR,,6660,25 DE MAYO
4,AR,,0,9 DE ABRIL


In [41]:
print(df2.loc_part[3])
geo.get_centroides('localidades', df2.loc_part[3])

25 DE MAYO


[{'categoria': 'Localidad simple',
  'centroide': {'lat': -35.4339385892588, 'lon': -60.1731209454056},
  'departamento': {'id': '06854', 'nombre': '25 de Mayo'},
  'id': '06854100000',
  'localidad_censal': {'id': '06854100', 'nombre': '25 de Mayo'},
  'municipio': {'id': '060854', 'nombre': '25 de Mayo'},
  'nombre': '25 DE MAYO',
  'provincia': {'id': '06', 'nombre': 'Buenos Aires'}},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -37.7697053748681, 'lon': -67.7172958236186},
  'departamento': {'id': '42112', 'nombre': 'Puelén'},
  'id': '42112020000',
  'localidad_censal': {'id': '42112020', 'nombre': '25 de Mayo'},
  'municipio': {'id': '420385', 'nombre': 'Veinticinco de Mayo'},
  'nombre': '25 DE MAYO',
  'provincia': {'id': '42', 'nombre': 'La Pampa'}},
 {'categoria': 'Localidad simple',
  'centroide': {'lat': -34.5859138924719, 'lon': -68.5495682219631},
  'departamento': {'id': '50105', 'nombre': 'San Rafael'},
  'id': '50105220000',
  'localidad_censal': {'id': '5

In [42]:
df2.tail()

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
1410,AR,TU,4000,SAN MIGUEL DE TUCUM
1411,AR,TU,4000,SAN MIGUEL DE TUCUM
1412,AR,TU,4107,TUCUMAN
1413,AR,TU,4107,YERBA BUENA
1414,AR,TU,4107,YERBA BUENA


In [43]:
geo.get_centroides('localidades', df2.loc_part[1414], provincia = df2.provincia_part[1414], aplanar = True)

[{'categoria': 'Entidad',
  'centroide_lat': -26.8088452576169,
  'centroide_lon': -65.3106988268486,
  'departamento_id': '90119',
  'departamento_nombre': 'Yerba Buena',
  'id': '90119030002',
  'localidad_censal_id': '90119030',
  'localidad_censal_nombre': 'Yerba Buena - Marcos Paz',
  'municipio_id': '908560',
  'municipio_nombre': 'Municipalidad de Yerba Buena',
  'nombre': 'YERBA BUENA - MARCOS PAZ',
  'provincia_id': '90',
  'provincia_nombre': 'Tucumán'}]

## Breve analisis descriptivo para saber la cantidad de localidades

### Cómo está compuesto el CPA
El CPA amplía la información del código postal, incorporando 4 letras que permiten identificar cada cara de manzana en las localidades de más de 500 habitantes. Las localidades de menos de 500 habitantes poseen un único CPA.
La unica forma de que el CP nos sea util es si contamos con datos de la provincia.

https://xn--cdigos-postales-vrb.cybo.com/argentina/ es una pagina bastante completa con listado de CP. Sin embargo debe haber una API sencilla para consultar estos datos.<br>
Otra es http://mapanet.eu/Postal_Codes/?C=AR&n=0&r0=&r1=&r2=&r3=&r4=&l=0

Dado que todos los datos son solo 4 digitos se esta usando el codigo postal viejo. El isguiente listado nos da una idea aproximada de que region seria basados en el CP
https://en.wikipedia.org/wiki/Postal_codes_in_Argentina

In [86]:
df2.loc_part.unique().size #Numero de localidades unicas

654

In [87]:
df2.loc_part.isna().sum() #Solo 4 son NA. Podriamos verlo mas detalladamente

4

In [88]:
df2.groupby(by=['loc_part','provincia_part']).count().sort_values('cp_part', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,nacionalidad,cp_part
loc_part,provincia_part,Unnamed: 2_level_1,Unnamed: 3_level_1
LOMAS DEL MIRADOR,CF,2,2
LAS FLORES,BA,2,2
LANUS OESTE,BA,2,2
SANTOS LUGARES,BA,2,2
LANUS ESTE,BA,2,2
LANUS,CF,2,2
LANUS,BA,2,2
SARANDI,BA,2,2
SARMIENTO,CB,2,2
LAGO PUELO,CB,2,2


Cuando vemos la cantidad de rows podemos notar que hay casos en los que 'loc_part' no es suficiente para agregar a todos los datos

In [89]:
df2.groupby(by=['loc_part','provincia_part','cp_part'],).count().sort_values('nacionalidad', ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nacionalidad
loc_part,provincia_part,cp_part,Unnamed: 3_level_1
SAN MARTIN,BA,1650,2
GLEW,BA,1856,2
SAN ANTONIO OESTE,RN,8520,2
GREGORIO DE LA FERR,BA,1752,2
GREGORIA LAFERRERE,BA,1757,2
GRAND DOCK,BA,1757,2
GRAND BOURG,BA,1615,2
SAN BERNARDO,BA,7111,2
GOYA,CO,3450,2
GONZALEZ CATAN,BA,1751,2


In [90]:
df2.loc[df2.loc_part.isna()] 

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
0,AR,,1704,
1,AR,,1704,
1130,AR,CF,1884,
1131,AR,CF,1884,


Solo cuatro casos no presentan `loc_part`, inforamcion minima que precisamos. Los primeros dos indices son practicamente inutiles. Veamos si podemos ver cuales son los loc_part de `CF`

In [91]:
df2.loc[df2.provincia_part == 'CF']

Unnamed: 0,nacionalidad,provincia_part,cp_part,loc_part
1130,AR,CF,1884,
1131,AR,CF,1884,
1132,AR,CF,1425,-1
1133,AR,CF,1870,AVELLANEDA
1134,AR,CF,1870,AVELLANEDA
1135,AR,CF,1828,BANFIELD
1136,AR,CF,8400,BARILOCHE
1137,AR,CF,8400,BARILOCHE
1138,AR,CF,1884,BERAZATEGUI
1139,CN,CF,1876,BERNAL


Evidentemente `loc_part` toma disrtitos del conurbano y no solamente la Capital Federal. Ver esto en la Documentacoin porque es distinto a como lo clasifica la API.

In [92]:
df2.loc[df2.provincia_part == 'CF'].loc_part.unique()

array([nan, '-1', 'AVELLANEDA', 'BANFIELD', 'BARILOCHE', 'BERAZATEGUI',
       'BERNAL', 'CABA', 'CABA RETIRO', 'CAMPANA', 'CAP FED', 'CAPITAL',
       'CAPITAL -LA RIOJA-', 'CAPITAL FEDERAL', 'CASEROS', 'CASTELAR',
       'CASTELLAR', 'CATAMARCA', 'CDAD AUTONOMA BS AS', 'CIUDAD MADERO',
       'CIUDADELA', 'COMODORO RIVADAVIA', 'CORDOBA', 'CUERPO 2',
       'DEL VISO', 'DTO 308', 'EXALTACION DE LA CRU', 'FLORIDA',
       'FORMOSA', 'FRANCISCO ALVAREZ', 'GONZALEZ CATAN', 'HAEDO',
       'HURLINGHAN', 'ITUZAINGO', 'JOSE LEON SUAREZ', 'KM 45',
       'LA FLORIDA', 'LA MATANZA', 'LA UNION', 'LANUS', 'LANUS ESTE',
       'LANUS OESTE', 'LOMAS DE ZAMORA', 'LOMAS DEL MIRADOR', 'LUJAN',
       'MALAVER', "MAR DEL P'LATA", 'MAR DEL PLATA', 'MARCOS PAZ',
       'MARIANO BENITEZ PERG', 'MARTINEZ', 'MERCEDES', 'MINA CLAVERO',
       'MORON', 'NAVARRO', 'OLIVOS', 'PABLO NOGUES', 'PALOMAR', 'PIGUE',
       'PINAMAR', 'POMPEYA', 'QUILMES', 'QUILMES OESTE', 'RAMOS MEJIA',
       'REMEDIOS DE ESCALADA

Evidentemente los datos no estan muy limpios. 
Si bien casi todos los distritos pertenecen al Conurbano, hay lugares como Bariloche, Cordoba, Mar del Plata, Santa Fe. Consultar:
- CF incluye al Conurbano?
- Por que los datos no son coherentes?

---

### Intentar popular una base con los datos solicitados

In [93]:
df_loc =  df2.groupby(['loc_part', 'provincia_part']).count().copy()
df_loc.reset_index(inplace = True)
df_loc.head(10)

Unnamed: 0,loc_part,provincia_part,nacionalidad,cp_part
0,VENEZUELA Y PERU,BA,1,1
1,-1,BA,2,2
2,-1,CF,1,1
3,-1,SJ,1,1
4,-1,SL,2,2
5,10064,BA,2,2
6,12 DE AGOSTO,BA,2,2
7,12 DE OCTUBRE,BA,2,2
8,16 DE JULIO,BA,2,2
9,17 DE AGOSTO,BA,1,1


In [94]:
df_loc.loc_part.unique()  # Exploremos los diferentes localidades

array([' VENEZUELA Y PERU', '-1', '10064', '12 DE AGOSTO',
       '12 DE OCTUBRE', '16 DE JULIO', '17 DE AGOSTO', '20 DE JUNIO',
       '25 DE MAYO', '3 DE FEBRERO', '30 DE AGOSTO', '9 DE ABRIL',
       '9 DE JULIO', 'ABASTO', 'ACASSUSO', 'ADROGUE',
       'ADROGUE-ALTE BROWN', 'AEROPUERTO EZEIZA', 'AGOTE',
       'AGUAS CORRIENTES', 'AGUSTINA', 'ALBARRACIN', 'ALBERTI',
       'ALDO BONZI', 'ALEJANDRO KORN', 'ALEJANDRO PETION', 'ALICIA',
       'ALMIRANTE BROWN', 'ALSINA', 'ALUMINE', 'ALVEAR', 'AMERICA UNIDA',
       'ARRECIFES', 'AVELLANEDA', 'AYACUCHO', 'AZUL', 'Avellaneda',
       'BAHIA BLANCA', 'BALCARCE', 'BANFIELD', 'BARADERO', 'BARILOCHE',
       'BARRIO PARQUE LELOIR', 'BASAVILBASO', 'BECCAR',
       'BELEN DE ESCOBAR', 'BELLA VISTA', 'BENAVIDEZ', 'BERAZATEGUI',
       'BERISSO', 'BERNAL', 'BERNAL ESTE', 'BERNAL OESTE', 'BOLIVAR',
       'BOSCH', 'BOSQUES', 'BOULOGNE', 'BRAGADO', 'BUENO AIRES',
       'BUENOS AIRES', 'BURZACO', 'Baradero', 'Boulogne',
       'C.J.EL PALOMAR', 

Deberia eliminarse los primeros 5 rows dado que los valores son muy anomalos. 
Ademas abria que ver de eliminar `10064` 

In [95]:
# Script corte y quizas ineficiente para 
df_loc['centroide_lat'] = None
df_loc['centroide_lon'] = None
df_loc['departamento_nombre'] = None
df_loc['municipio_nombre'] = None
df_loc['localidad_nombre'] = None
df_loc['provincia_de_API'] = None

In [96]:
for r in df_loc.index:
    datos = geo.get_centroides('localidades', df_loc.loc_part[r], max = 1, aplanar = True)
    if len(datos) == 0:  # El flow es asi: Si no encuentra localidad, busca por municipio y sino por departamento
        datos = geo.get_centroides('municipios', df_loc.loc_part[r], max = 1, aplanar = True)
        
        if len(datos) == 0: 
            datos = geo.get_centroides('departamentos', df_loc.loc_part[r], max = 1, aplanar = True)
            
            if len(datos) == 0:
                print (f'{df_loc.loc_part[r]} == NULL')
                continue
                
            else:  # Departamento
                try:
                    df_loc.loc[r,'centroide_lat'] = datos[0]['centroide_lat']
                    df_loc.loc[r,'centroide_lon'] = datos[0]['centroide_lon']
                    df_loc.loc[r,'departamento_nombre'] = datos[0]['nombre']
                    df_loc.loc[r,'provincia_de_API'] = datos[0]['provincia_nombre']
                except: pass

        else:  # Municipio
            try:
                df_loc.loc[r,'centroide_lat'] = datos[0]['centroide_lat']
                df_loc.loc[r,'centroide_lon'] = datos[0]['centroide_lon']
                df_loc.loc[r,'provincia_de_API'] = datos[0]['provincia_nombre']
                df_loc.loc[r,'departamento_nombre'] = datos[0]['departamento_nombre']
                df_loc.loc[r,'municipio_nombre'] = datos[0]['nombre']
            except: pass
    else:  #Localidad
        try: 
            df_loc.loc[r,'centroide_lat'] = datos[0]['centroide_lat']
            df_loc.loc[r,'centroide_lon'] = datos[0]['centroide_lon']
            df_loc.loc[r,'provincia_de_API'] = datos[0]['provincia_nombre']
            df_loc.loc[r,'departamento_nombre'] = datos[0]['departamento_nombre']
            df_loc.loc[r,'municipio_nombre'] = datos[0]['municipio_nombre']
            df_loc.loc[r,'localidad_nombre'] = datos[0]['nombre']
        except: pass

 VENEZUELA Y PERU == NULL
10064 == NULL
12 DE AGOSTO == NULL
3 DE FEBRERO == NULL
ADROGUE-ALTE BROWN == NULL
AGOTE == NULL
AGUAS CORRIENTES == NULL
BARRIO PARQUE LELOIR == NULL
C.J.EL PALOMAR == NULL
CA?ADA DE GOMEZ == NULL
CABA RETIRO == NULL
CAMPO LOS AROMOS == NULL
CANNING -EZEIZA. == NULL
CAP FED == NULL
CAPILLA DEL SEÑOR == NULL
CAPITAL -LA RIOJA- == NULL
CAPITAL FEDERAL == NULL
CAPITAL FEDERAL == NULL
CASEY == NULL
CDAD AUTONOMA BS AS == NULL
CDAD AUTONOMA BS AS == NULL
CDAD. JARDIN LOMAS D == NULL
CHIMEN AIKE == NULL
CIUDAD DE EDUARDO M == NULL
CIUDAD JARDIN DEL P == NULL
CIUDAD MADERO == NULL
CIUDAD MADERO == NULL
COLON-ENTRE RIOS == NULL
CONDARCO == NULL
CORDOBA CAPITAL == NULL
CORDOBA CAPITAL == NULL
CUARTEL CUATRO == NULL
CUERPO 2 == NULL
DOMINGO FAUSTINO SA == NULL
DTO 308 == NULL
ENTRE RIOS == NULL
FLAMENCO == NULL
FLORIDA-VTE LOPEZ == NULL
G DE LA FERRERE == NULL
G. CATAN == NULL
G. DE LA FERRERE == NULL
G. DE LAFERRERE == NULL
G.DE LA FERRERE == NULL
GARIN (ESCOBAR) == N

Arriba se pueden ver todos los casos en los que hubo errores nulos

In [97]:
df_loc.shape

(699, 10)

In [98]:
df_loc.localidad_nombre.isna().sum()

115

Sobre la totalidad de opciones unicas agrupadas como localidad + provincia (699), 115 opciones no se encontraron. Esto puede verse mas abajo donde la informacion no es consistente o el nombre de la localidad y la provincia. A su vez, hay que corregir manualmente el input `ciudad de buenos aires` para capital. 
Para esta querry no utilice el campo de provincia del dataset original dado que es inconsistente.


In [99]:
pd.set_option('display.max_rows', 800)  # Para ver todas las filas
df_loc

Unnamed: 0,loc_part,provincia_part,nacionalidad,cp_part,centroide_lat,centroide_lon,departamento_nombre,municipio_nombre,localidad_nombre,provincia_de_API
0,VENEZUELA Y PERU,BA,1,1,,,,,,
1,-1,BA,2,2,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
2,-1,CF,1,1,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
3,-1,SJ,1,1,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
4,-1,SL,2,2,-31.3069,-64.1785,Colón,Estación Juárez Celman,1 DE AGOSTO,Córdoba
5,10064,BA,2,2,,,,,,
6,12 DE AGOSTO,BA,2,2,,,,,,
7,12 DE OCTUBRE,BA,2,2,-35.6077,-60.9183,9 de Julio,9 de Julio,12 DE OCTUBRE,Buenos Aires
8,16 DE JULIO,BA,2,2,-37.2021,-60.1652,Azul,Azul,16 DE JULIO,Buenos Aires
9,17 DE AGOSTO,BA,1,1,-37.9087,-62.936,Puán,Puán,17 DE AGOSTO,Buenos Aires


In [100]:
df_loc.groupby('departamento_nombre').count().sort_values('loc_part', ascending = False).head()

Unnamed: 0_level_0,loc_part,provincia_part,nacionalidad,cp_part,centroide_lat,centroide_lon,municipio_nombre,localidad_nombre,provincia_de_API
departamento_nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
La Matanza,34,34,34,34,34,34,34,34,34
Tres de Febrero,21,21,21,21,21,21,21,21,21
Vicente López,17,17,17,17,17,17,17,17,17
Morón,16,16,16,16,16,16,16,16,16
Avellaneda,14,14,14,14,14,14,14,14,14
