### El objetivo de esta notebook es extraer las coordenadas de los locales bailables en CABA y sus principales características

In [329]:
import numpy as np
import pandas as pd

In [330]:
locales_bailables = pd.read_csv('../Data/locales-bailables.csv')
locales_bailables.sample(3)

Unnamed: 0,longitud,latitud,numero_registro,nombre,calle,numero,direccion_normalizada,numero_expediente,capacidad,clase,...,numero_disp_de_rechazo,fecha_disposicion_de_rechazo,numero_disposicion_de_recalculo_capacidad,fecha_disposicion_de_capacidad,fecha_de_entrega_nueva_revalida,vencimiento,barrio,comuna,codigo_postal,codigo_postal_argentino
104,-58.436228,-34.586604,105.0,INPUT,AV. JUAN B. JUSTO,1658,AV. JUAN B. JUSTO 1658,3570271/19,742 personas,C,...,,,103,2010-08-20 00:00:00,2019-10-08,2019-12-28,Palermo,Comuna 14,1414.0,C1414CWS
151,-58.436459,-34.552903,151.0,MINA,SUCRE,646/8,SUCRE 646,23211628/19,402 personas,C,...,,,81,2019-08-28 00:00:00,,,Belgrano,Comuna 13,1428.0,C1428DUB
9,-58.391179,-34.605601,10.0,MALUCO \nBELEZA,SARMIENTO,1728,SARMIENTO 1728,3944043/19,1076 personas,"""C""",...,,,92,2006-07-11 00:00:00,,,San Nicolas,Comuna 1,1042.0,C1042ABH


In [331]:
locales_bailables.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 161 entries, 0 to 160
Data columns (total 25 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   longitud                                   135 non-null    float64
 1   latitud                                    135 non-null    float64
 2   numero_registro                            160 non-null    float64
 3   nombre                                     160 non-null    object 
 4   calle                                      161 non-null    object 
 5   numero                                     159 non-null    object 
 6   direccion_normalizada                      161 non-null    object 
 7   numero_expediente                          160 non-null    object 
 8   capacidad                                  159 non-null    object 
 9   clase                                      159 non-null    object 
 10  estado                    

In [332]:
# Creamos una columna que contenga la latitud y longitud simultáneamente
locales_bailables['lat-lon'] = list(zip(locales_bailables.latitud, locales_bailables.longitud))
locales_bailables.columns

Index(['longitud', 'latitud', 'numero_registro', 'nombre', 'calle', 'numero',
       'direccion_normalizada', 'numero_expediente', 'capacidad', 'clase',
       'estado', 'disposicion', 'fecha_disp_inscripcion', 'numero_dips',
       'fecha_disp_re_inscripcion', 'numero_disp_de_rechazo',
       'fecha_disposicion_de_rechazo',
       'numero_disposicion_de_recalculo_capacidad',
       'fecha_disposicion_de_capacidad', 'fecha_de_entrega_nueva_revalida',
       'vencimiento', 'barrio', 'comuna', 'codigo_postal',
       'codigo_postal_argentino', 'lat-lon'],
      dtype='object')

In [344]:
# Renombro la columna capacidad
locales_bailables_1 = locales_bailables_1.rename(columns={'capacidad':'capacidad_personas', 'direccion_normalizada':'direccion'})
locales_bailables_1

Unnamed: 0,numero_registro,direccion,lat-lon,capacidad_personas
0,1.0,RIOBAMBA 345,"(-34.605027, -58.39375)",428 personas
1,2.0,ESMERALDA 1040,"(-34.596003, -58.37851)",408 personas
2,3.0,PERU 342,"(-34.612002000000004, -58.374727)",901 personas
3,4.0,SARMIENTO 1656,"(-34.605531, -58.390154)",1372 personas
4,5.0,LAVALLE 343,"(-34.60195, -58.371747)",880 personas
...,...,...,...,...
156,156.0,AV. RAFAEL \nOBLIGADO 1221,"(nan, nan)",1195 personas
157,157.0,AV. JUAN B. JUSTO 1579,"(-34.585813, -58.435554)",376 personas
158,158.0,AV. RIVADAVIA 10919,"(-34.639008000000004, -58.517858999999994)",1852 personas
159,159.0,AV. RAFAEL \nOBLIGADO 6201,"(nan, nan)",956 personas


In [345]:
# Chequeo antes la presencia de nulos en la columna "capacidad_personas" y los viusualizo en el df original
mask_nulls_capacidad = locales_bailables_1['capacidad_personas'].isnull()
locales_bailables.loc[mask_nulls_capacidad]

Unnamed: 0,longitud,latitud,numero_registro,nombre,calle,numero,direccion_normalizada,numero_expediente,capacidad,clase,...,fecha_disposicion_de_rechazo,numero_disposicion_de_recalculo_capacidad,fecha_disposicion_de_capacidad,fecha_de_entrega_nueva_revalida,vencimiento,barrio,comuna,codigo_postal,codigo_postal_argentino,lat-lon
46,-58.386061,-34.605278,47.0,SALON AGUSTEO,SARMIENTO,1374,SARMIENTO 1374,10587/05,,ART 1º,...,,,,,,San Nicolas,Comuna 1,1041.0,C1041ABB,"(-34.605278000000006, -58.386061)"
123,-58.436026,-34.586454,,,Av. J. B. JUSTO,1634,Av. J. B. JUSTO 1634,,,,...,,,,,,Palermo,Comuna 14,1414.0,C1414CWS,"(-34.586453999999996, -58.436026)"


In [346]:
# Al haber tan poca información de estos casos en el df original, optamos por desecharlas
locales_bailables_2 = locales_bailables_1.dropna(axis=0)
locales_bailables_2.capacidad_personas.isnull().value_counts()

False    159
Name: capacidad_personas, dtype: int64

In [340]:
# Vamos a quedarnos solo con las columnas más relevantes para nuestro trabajo
locales_bailables_1 = locales_bailables.loc[:,['numero_registro', 'direccion_normalizada','lat-lon','capacidad']]
# Explicar por qué utilizamos la columna "capacidad" y no "clase" (?
locales_bailables_1.sample(3)

Unnamed: 0,numero_registro,direccion_normalizada,lat-lon,capacidad
63,64.0,RECONQUISTA 876,"(-34.597627, -58.372953)",208 personas
72,73.0,AV JUAN B. JUSTO 1625,"(-34.586175, -58.43604499999999)",572 personas
138,138.0,BALCARCE 605,"(-34.614905, -58.370716)",425 personas


In [1]:
# Le saco las caracteres para luego modificar hacerla de tipo 'int'
locales_bailables_1['capacidad_personas'] = locales_bailables_1.capacidad_personas.str.strip('personas ')
locales_bailables_1

NameError: name 'locales_bailables_1' is not defined

In [342]:
# Chequeo antes la presencia de nulos en la columna "lat-lon" y los viusualizo en el df original
mask_lb_null = (locales_bailables.longitud.isnull() | locales_bailables.latitud.isnull())

locales_bailables[mask_lb_null]

Unnamed: 0,longitud,latitud,numero_registro,nombre,calle,numero,direccion_normalizada,numero_expediente,capacidad,clase,...,fecha_disposicion_de_rechazo,numero_disposicion_de_recalculo_capacidad,fecha_disposicion_de_capacidad,fecha_de_entrega_nueva_revalida,vencimiento,barrio,comuna,codigo_postal,codigo_postal_argentino,lat-lon
10,,,11.0,XEL - HA,AV SAN M ARTÍN,6628,AV SAN M ARTÍN 6628,6128100/19,692 personas,"""C""",...,,70,2005-06-10 00:00:00,2019-11-20,2020-02-10,Villa Devoto,Comuna 11,1419.0,C1419ICQ,"(nan, nan)"
37,,,38.0,CAIX,R. OBLIGADO \nY SALGUERO,sin nº,R. OBLIGADO \nY SALGUERO,4960926/19,1764 personas,"""C""",...,,134,2005-09-28 00:00:00,2019-11-14,2020-02-15,,,,,"(nan, nan)"
43,,,44.0,MANDARINE,R. OBLIGADO \nY SARMIENTO,sin nº,R. OBLIGADO \nY SARMIENTO,2335460/19,1613 personas,"""C""",...,,38,2009-03-23 00:00:00,2019-11-22,2020-02-21,,,,,"(nan, nan)"
54,,,55.0,CLUB 74,FIGUEROA \nALCORTA,7474,FIGUEROA \nALCORTA 7474,10836/05,180 personas,"""B""",...,,76,2006-06-01 00:00:00,,,Belgrano,Comuna 13,1428.0,C1428BCX,"(nan, nan)"
64,,,65.0,PACHA,COSTANERA\n Y PAMPA,sin nº,COSTANERA\n Y PAMPA,30712/05,1942 personas,"""C""",...,,105,2010-08-20 00:00:00,,,,,,,"(nan, nan)"
75,,,76.0,DORSIA,A. MOREAU \nDE JUSTO,2092,A. MOREAU \nDE JUSTO 2092,24150733/19,679 personas,"""C""",...,,83,2010-06-18 00:00:00,2019-08-06,2019-11-10,,Comuna 1,1107.0,C1107AFP,"(nan, nan)"
76,,,77.0,LA MADELEINE,A. MOREAU\n DE JUSTO,102/112,A. MOREAU\n DE JUSTO 102,80621/05,205 personas,"""C.C""",...,,75,2006-06-01 00:00:00,,,Puerto Madero,Comuna 1,1107.0,C1107AAD,"(nan, nan)"
77,,,78.0,LA CITY,AV. ALVAREZ \nTHOMAS,1391/93,AV. ALVAREZ \nTHOMAS 1391,29275034/19,940 personas,"""C""",...,,85,2006-06-23 00:00:00,2019-09-27,2019-12-28,Villa Ortuzar,Comuna 15,1427.0,C1427CDA,"(nan, nan)"
82,,,83.0,LO DE CELIA,HUMBERTO \nPRIMO,1783 1°P,HUMBERTO \nPRIMO 1783,22159527/17,150 personas,"""C.C""",...,,123,2006-11-02 00:00:00,,,Constitucion,Comuna 1,1103.0,C1103ADI,"(nan, nan)"
83,,,84.0,CONTRAMANO,RODRIGUEZ \nPEÑA,1082 PB,RODRIGUEZ \nPEÑA 1082,26552605/17,335 personas,C C,...,,56,2007-04-23 00:00:00,,,Recoleta,Comuna 2,1020.0,C1020ADV,"(nan, nan)"


In [306]:
# ¿Cómo imputar los missing de las columnas "longitud" y "latitud"?
#      Investigar en google maps la ubicación del boliche y copiar las coordenadas
#      Crear un diccionario con el nombre del lugar y las coordenadas (respetando el orden latitud-longitud)
#               Ej: {'XEL - HA' : '(-34.59287390837825, -58.50793450348261)'}

In [307]:
#finalmente decidimos eliminar columna 'capacidad_personas' porque nos pareció irrelevante para nuestro trabajo
locales_bailables_1.drop(['capacidad_personas'], axis='columns', inplace=True)
locales_bailables_1

Unnamed: 0,numero_registro,direccion_normalizada,lat-lon
0,1.0,RIOBAMBA 345,"(-34.605027, -58.39375)"
1,2.0,ESMERALDA 1040,"(-34.596003, -58.37851)"
2,3.0,PERU 342,"(-34.612002000000004, -58.374727)"
3,4.0,SARMIENTO 1656,"(-34.605531, -58.390154)"
4,5.0,LAVALLE 343,"(-34.60195, -58.371747)"
...,...,...,...
156,156.0,AV. RAFAEL \nOBLIGADO 1221,"(nan, nan)"
157,157.0,AV. JUAN B. JUSTO 1579,"(-34.585813, -58.435554)"
158,158.0,AV. RIVADAVIA 10919,"(-34.639008000000004, -58.517858999999994)"
159,159.0,AV. RAFAEL \nOBLIGADO 6201,"(nan, nan)"


In [312]:
locales_bailables[mask_lb_null] 


Unnamed: 0,longitud,latitud,numero_registro,nombre,calle,numero,direccion_normalizada,numero_expediente,capacidad,clase,...,fecha_disposicion_de_rechazo,numero_disposicion_de_recalculo_capacidad,fecha_disposicion_de_capacidad,fecha_de_entrega_nueva_revalida,vencimiento,barrio,comuna,codigo_postal,codigo_postal_argentino,lat-lon
10,,,11.0,XEL - HA,AV SAN M ARTÍN,6628,AV SAN M ARTÍN 6628,6128100/19,692 personas,"""C""",...,,70,2005-06-10 00:00:00,2019-11-20,2020-02-10,Villa Devoto,Comuna 11,1419.0,C1419ICQ,"(nan, nan)"
37,,,38.0,CAIX,R. OBLIGADO \nY SALGUERO,sin nº,R. OBLIGADO \nY SALGUERO,4960926/19,1764 personas,"""C""",...,,134,2005-09-28 00:00:00,2019-11-14,2020-02-15,,,,,"(nan, nan)"
43,,,44.0,MANDARINE,R. OBLIGADO \nY SARMIENTO,sin nº,R. OBLIGADO \nY SARMIENTO,2335460/19,1613 personas,"""C""",...,,38,2009-03-23 00:00:00,2019-11-22,2020-02-21,,,,,"(nan, nan)"
54,,,55.0,CLUB 74,FIGUEROA \nALCORTA,7474,FIGUEROA \nALCORTA 7474,10836/05,180 personas,"""B""",...,,76,2006-06-01 00:00:00,,,Belgrano,Comuna 13,1428.0,C1428BCX,"(nan, nan)"
64,,,65.0,PACHA,COSTANERA\n Y PAMPA,sin nº,COSTANERA\n Y PAMPA,30712/05,1942 personas,"""C""",...,,105,2010-08-20 00:00:00,,,,,,,"(nan, nan)"
75,,,76.0,DORSIA,A. MOREAU \nDE JUSTO,2092,A. MOREAU \nDE JUSTO 2092,24150733/19,679 personas,"""C""",...,,83,2010-06-18 00:00:00,2019-08-06,2019-11-10,,Comuna 1,1107.0,C1107AFP,"(nan, nan)"
76,,,77.0,LA MADELEINE,A. MOREAU\n DE JUSTO,102/112,A. MOREAU\n DE JUSTO 102,80621/05,205 personas,"""C.C""",...,,75,2006-06-01 00:00:00,,,Puerto Madero,Comuna 1,1107.0,C1107AAD,"(nan, nan)"
77,,,78.0,LA CITY,AV. ALVAREZ \nTHOMAS,1391/93,AV. ALVAREZ \nTHOMAS 1391,29275034/19,940 personas,"""C""",...,,85,2006-06-23 00:00:00,2019-09-27,2019-12-28,Villa Ortuzar,Comuna 15,1427.0,C1427CDA,"(nan, nan)"
82,,,83.0,LO DE CELIA,HUMBERTO \nPRIMO,1783 1°P,HUMBERTO \nPRIMO 1783,22159527/17,150 personas,"""C.C""",...,,123,2006-11-02 00:00:00,,,Constitucion,Comuna 1,1103.0,C1103ADI,"(nan, nan)"
83,,,84.0,CONTRAMANO,RODRIGUEZ \nPEÑA,1082 PB,RODRIGUEZ \nPEÑA 1082,26552605/17,335 personas,C C,...,,56,2007-04-23 00:00:00,,,Recoleta,Comuna 2,1020.0,C1020ADV,"(nan, nan)"
