<h1> Digital House - Data Science </h1>
<h3>Grupo 7</h3>
<ul>
    <li>Ignacio Mendieta</li>
    <li>Laura Jazmín Chao</li>
    <li>Juan Nicolás Capistrano</li>
    <li>Betiana Srur</li>
    <li>Marecelo Carrizo</li>
    
</ul>

<h1>Desafio 1</h1>

<p>La inmobiliaria Properati publica periódicamente información sobre ofertas de propiedades para venta y alquiler. Ud. deberá asesorar a la inmobiliaria a desarrollar un modelo de regresión que permita predecir el precio por metro cuadrado de una propiedad. El objetivo             
final es que el modelo que desarrollen sea utilizado como tasador automático a ser aplicados a las próximas propiedades que sean comercializadas por la empresa. Para ello la empresa le provee de un dataset correspondiente al primer semestre de 2017.</p>

El dataset es de tamaño entre pequeño y mediano, pero tiene dos complejidades a las que deberá prestarle atención:
 
<ul>
    <li>Peso de missing data en algunas variables relevantes.</li>
    <li>Será importante tener en cuenta el problema de la influencia espacial en los precios por metro cuadrado. En efecto, es probable que existan diferencias importantes de en las diferentes geografías, barrios y zonas analizadas.</li>
</ul>

<h2>Objetivos:</h2>

<ul>
    <li>Efectuar una limpieza del dataset provisto. Particularmente, deberá diseñar estrategias para lidiar con los datos perdidos en ciertas variables.</li>
    <li>Realizar un análisis descriptivo de las principales variables.</li>
    <li>Crear nuevas columnas a partir de las características dadas que puedan tener valor predictivo.</li>
</ul>

<a id="section_toc"></a> 
<h2> Tabla de Contenidos </h2>

[Librerías](#section_import)

[Dataset](#section_dataset)

$\hspace{.5cm}$[1. Cargar el dataset](#section_dataset1)

$\hspace{.5cm}$[2. Análisis de forma y tipo de datos](#section_dataset_forma)

$\hspace{.5cm}$[3. Cálculo de cantidad de nulos](#section_dataset_nulos)

$\hspace{.5cm}$[4. Distribucion de algunos campos de interés](#section_dataset_distribution)

$\hspace{.5cm}$[5. Drop de columnas innecesarias](#section_dataset_drop)

$\hspace{.5cm}$[6. Distribución por provincias y selección de datos](#section_provincias1)

[CABA](#section_caba)

$\hspace{.5cm}$[1. Nuevo dataframe](#section_caba_data)

$\hspace{.5cm}$[2. Análisis de campos de precio y metros cuadrados](#section_caba_filtros)

$\hspace{1.cm}$[2.1 Cantidad de nulos según umbral](#section_caba_drop_nulos)

$\hspace{1.cm}$[2.2 Tasa de cambio](#section_caba_tasacambio)

$\hspace{1.cm}$[2.3 Precio en USD](#section_caba_preciodolar)

$\hspace{.5cm}$[3. Análisis de campos geográficos](#section_caba_geoname)

$\hspace{1.cm}$[3.1 Análisis de campo <strong>place_with_parent_name</strong>](#section_caba_place)

$\hspace{1.cm}$[3.2 Visualización preliminar de distribución por barrio](#section_caba_viz_tribution)

$\hspace{.5cm}$[4. Group_by() barrio y describe()](#section_caba_groupby_barrio)

$\hspace{.5cm}$[5. Análisis de outliers con boxplot e histogramas](#section_caba_viz2)

$\hspace{.5cm}$[6. Imputacion de datos faltantes](#section_caba_imputacion)

$\hspace{1.cm}$[6.1 Primera estrategia: por división simple](#section_caba_imputacion_1)

$\hspace{1.cm}$[6.2 Segunda estrategia: por media barrial y categoría de superficie](#section_caba_imputacion_2)

$\hspace{1.cm}$[6.3 Tercera estrategia: por media barrial y <strong>property_type</strong>](#section_caba_imputacion_3)


$\hspace{.5cm}$[7. Comparación de desvío estándar](#section_caba_std)

$\hspace{.5cm}$[8. Analisis de campo <strong>description</strong>](#section_caba_description)

$\hspace{1.cm}$[8.1 Cantidad de ambientes](#section_caba_description_amb)

$\hspace{1.cm}$[8.2 Amenities](#section_caba_description_amenities)

$\hspace{.5cm}$[9. Obtención de variables dummies de datos categóricos](#section_caba_dummies)

$\hspace{.5cm}$[10. Visualización de datos geolocalizados y promedio de <strong>price_per_m2</strong>](#section_caba_viz3)

<a id="section_import"></a> 
<h3>Import de las librerías que vamos a utilizar</h3>

[volver a TOC](#section_toc)

In [None]:
import numpy as np
import pandas as pd
import chardet
import re
import seaborn as sns

# Visualización
from bokeh.plotting import figure, show, output_notebook
from bokeh.models import NumeralTickFormatter # Para imprimir los %
from bokeh.tile_providers import CARTODBPOSITRON, get_provider, Vendors 
from bokeh.resources import INLINE

<a id="section_dataset"></a> 
<h2>Dataset</h2>

[volver a TOC](#section_toc)

<a id="section_dataset1"></a> 
<h3>1. Carga del dataset y verificación de que los datos se hayan importado correctamente</h3>

[volver a TOC](#section_toc)

In [None]:
# Funcion especial para autodetectar el encoding. La eliminamos porque demora mucho
# def get_encoding_type(csv_path):
#     rawdata = open(csv_path, 'rb').read()
#     result = chardet.detect(rawdata)
#     return result.get('encoding')

In [None]:
# Definimos la ruta de la información.
data_propiedades = "../Data/properati.csv"

# Leemos los datos del archivo
data = pd.read_csv(data_propiedades, sep=",", encoding="UTF-8")

# Chequeamos que los datos se hayan importado correctamente
data

<a id="section_dataset_forma"></a> 
<h3>2. Análisis de forma y tipo de datos</h3>

[volver a TOC](#section_toc)

In [None]:
# Chequeamos cantidad de registros y cantidad de columnas
data.shape

In [None]:
# Vemos las columnas que componen el dataframe.
data.columns

In [None]:
# Vemos qué tipos de datos tienen los campos
data.dtypes

<h4> Drop de la primera columna </h4>

In [None]:
# Hacemos drop de la columba "Unnamed 0", es duplicación del Index
data.drop('Unnamed: 0', inplace=True, axis=1)
data.head(3)

<a id="section_dataset_nulos"></a> 
<h3>3. Cálculo de cantidad de nulos</h3>

[volver a TOC](#section_toc)

In [None]:
# Calculamos cantidad de nulos por campo
cant_nulos_por_campo = data.isnull().sum()
cant_nulos_por_campo

In [None]:
# Calculamos porcentaje de nulos por campo
cant_registros = data.shape[0]
print(f'Cantidad Original de registros: {cant_registros}\n')
#len(data.index) es lo mismo

porc_nulos_por_campo = np.round((100 * cant_nulos_por_campo / cant_registros),2)
print(porc_nulos_por_campo)

<a id="section_dataset_distribution"></a> 
<h3>4. Distribución y muestras de distintos campos</h3>

[volver a TOC](#section_toc)

<h4> Distribución de <strong>property_type</strong> y de <strong>operation</strong> </h4>

In [None]:
# Contamos cantidad de valores de cada elemento en property_type y operation para ver distribución
property_type_count = data.property_type.value_counts()
print(f'property_type: \n{property_type_count}')

property_operation_count = data.operation.value_counts()
print(f'operation: \n{property_operation_count}')

In [None]:
# Convertimos el count anterior en las categorías del gráfico
categories = np.array(property_type_count.index)

cord_x = data.property_type.value_counts() / data.shape[0]

palette = ['#440154', '#29788E', '#22A784', '#FDE724']

p = figure(x_range=categories, plot_width=500, plot_height=200)
p.vbar(x=categories, top=cord_x, width=0.6,
       color=palette)

p.yaxis.formatter = NumeralTickFormatter(format='0 %')

output_notebook(resources=INLINE)

show(p)

<h4> Distribución de <strong>country</strong> </h4>

In [None]:
country_name_count = data.country_name.value_counts()
print(f'Country: {country_name_count}')

Observamos que todos los registros corresponden a Argentina

<h4>Distribución de <strong>currency</strong></h4>


In [None]:
data.currency.value_counts()

In [None]:
# Creamos una mask para traer los valores en monedas que no son USD ni ARS.
currency_OTHER_CURRENCY_mask = (data.currency == 'PEN') | (data.currency == 'UYU')
# Observamos esos registros
data.loc[currency_OTHER_CURRENCY_mask, :]

Visto que no se puede garantizar que estos datos estén cargados correctamente y son solo tres registros en todo el data set, se toma la decision de eliminarlos.

In [None]:
# data.drop(data.loc[currency_PEN_mask].index, inplace = True)
# data.drop(data.loc[currency_UYU_mask].index, inplace = True)
# Hacemos drop de esos registros y chequeamos la diferencia entre cantidad original y actual
data.drop(data.loc[currency_OTHER_CURRENCY_mask, :].index, inplace = True)

print(f'Cantidad de registros original - registro actuales: {cant_registros - data.shape[0]}')

<a id="section_dataset_drop"></a> 
<h3> 5. Drop de columnas innecesarias </h3>

[volver a TOC](#section_toc)

Observamos que las columnas <strong>properati_url</strong> y <strong>image_thumbnail</strong> contienen URL que no vamos a analizar.
Asimismo, la columna <strong>expenses</strong> tiene un 88% de datos nulos que no se pueden recomponer.
La columna <strong>lat-lon</strong> corresponde al string formado por las dos columnas siguientes, tampoco será usado en el análisis. 
Decidimos armar un data set dropeando estas columnas.
El dato de expensas puede servir para un análisis que está fuera del alcance de este trabajo.

In [None]:
# Creamos la lista de columnas a filtrar
drop_columns = ['properati_url','image_thumbnail','expenses','lat-lon']

# Creamos una variable nueva para guardar los datos (el cambio se realiza inplace=False)
data_filtered = data.drop(drop_columns, axis=1)
data_filtered.head(5)

<a id="section_provincias1"></a> 
<h3> 6. Distribucion por provincias y selección de datos a analizar</h3>

[volver a TOC](#section_toc)

<h4>Distribución del campo <strong>state_name</strong> (provincias)</h4>

In [None]:
data_filtered.state_name.value_counts()

<h4>Agrupación de provincias por zonas según ubicación y cantidad de datos</h4>

In [None]:
# Creamos un diccionario con la nueva agrupación
provincia={'Capital Federal':'CABA','Bs.As. G.B.A. Zona Norte': 'Bs. As. G.B.A.', 'Bs.As. G.B.A. Zona Sur':'Bs. As. G.B.A.',
           'Córdoba':'Córdoba','Santa Fe':'Santa Fe','Buenos Aires Costa Atlántica':'Buenos Aires',
           'Bs.As. G.B.A. Zona Oeste':'Bs. As. G.B.A.', 'Buenos Aires Interior':'Buenos Aires','Río Negro':'Resto del país',
           'Neuquén':'Resto del país', 'Mendoza':'Resto del país', 'Tucumán':'Resto del país', 'Corrientes':'Resto del país',
           'Misiones':'Resto del país', 'Entre Ríos':'Resto del país', 'Salta':'Resto del país', 'Chubut':'Resto del país', 
           'San Luis':'Resto del país', 'La Pampa':'Resto del país','Formosa':'Resto del país', 'Chaco': 'Resto del país', 
           'San Juan':'Resto del país','Tierra Del Fuego':'Resto del país', 'Catamarca':'Resto del país',
           'Jujuy': 'Resto del país', 'Santa Cruz':'Resto del país', 'La Rioja':'Resto del país', 'Santiago Del Estero':'Resto del país'}

In [None]:
# Mapeamos las provincias con el diccionario y ponermos el grupo en una columna nueva
data_filtered['province_group'] = data_filtered.state_name.map(provincia)
data_filtered.sample(5)

In [None]:
# Agrupamos según esta división para ver cantidad de datos
province_group = data_filtered.groupby('province_group')

In [None]:
# Tomamos solo la distribución de la columna nueva con un value_counts
distribution_province_group = data_filtered['province_group'].value_counts()
distribution_province_group

In [None]:
# Calculamos el porcentaje de datos representado por cada grupo
porcentaje_data_agrupada = np.round((100 * distribution_province_group / data_filtered.shape[0]),2)
porcentaje_data_agrupada

In [None]:
# Graficamos los porcentajes
categories = ("Bs. As. G.B.A.", "CABA", "Buenos Aires", "Córdoba", "Santa Fe", "Resto del país")
cord_x = distribution_province_group / data_filtered.shape[0]
palette = ['#440154', '#404387', '#29788E', '#22A784', '#79D151', '#FDE724']
p = figure(x_range=categories, plot_width=500, plot_height=200)
p.vbar(x=categories, top=cord_x, width=0.6, color=palette)
p.yaxis.formatter = NumeralTickFormatter(format='0 %')
output_notebook(resources=INLINE)
show(p)

<h4>Distribución de <strong>property_type</strong> por grupo</h4>

In [None]:
#Hacemos value_counts sobre una de las columnas de las provincias agrupada
distribution_prop_type = province_group.property_type.value_counts()
distribution_prop_type

In [None]:
# Graficamos los distintos tipos de propiedad para cada grupo
palette = ['#440154','#29788E', '#22A784', '#FDE724'] ## '#404387', '#79D151'
with sns.axes_style('white'):
    g = sns.catplot("province_group", data=data_filtered, aspect=2.0, kind='count',
                    hue='property_type', palette=palette)
    g.set_ylabels('Distribución tipo de propiedad por grupo')

Evaluando la cantidad de datos disponibles por provincia (agrupando GBA) y teniendo en cuenta la dispersión greográfica y de tipo de propiedad que presentan las provincias, decidimos seleccionar CABA como subconjunto de datos para realizar un análisis más profundo e imputación de datos faltantes.

In [None]:
#intento de calcular nulos por grupo

<a id="section_caba"></a> 
<h2>Análisis de CABA</h2>

[volver a TOC](#section_toc)

Haremos un analisis de Capital Federal únicamente, ya que es un grupo que se distingue del resto por la cantidad y tipo de datos (en <strong>place_with_parent_name</strong>).

<a id="section_caba_data"></a> 
<h3>1. Selección de datos en un nuevo dataframe </h3>

[volver a TOC](#section_toc)

<h4> Creación de nuevo data frame solo con los datos de CABA </h4>

In [None]:
# Creamos una máscara y la aplicamos al dataframe anterior para traer los registros que necesitamos
data_caba_mask = data_filtered.state_name == 'Capital Federal' 

data_caba = data_filtered.loc[data_caba_mask, :]

# Chequeamos cómo quedaron los datos
data_caba

<h4>Drop de la columna de grupo de provincia creada anteriormente y reset del index</h4>

In [None]:
data_caba.drop(columns='province_group', inplace=True)

In [None]:
data_caba.reset_index(drop=True, inplace=True) ## No deberiamos resetear el INDEX porque no podriamos hacer join luego con los datos originales.

In [None]:
data_caba.head(3)

In [None]:
data_caba.shape

<h4> Cálculos de cantidad y porcentaje de nulos</h4>

In [None]:
print('Cantidad de valores incompletos por columna:')
print(data_caba.isnull().sum())

print('\nPorcentaje de valores incompletos por columna:')
print(f'{round(100 * data_caba.isnull().sum()/data_caba.shape[0], 2)}')


<a id="section_caba_filtros"></a> 
<h3>2. Análisis de campos de precio y metros cuadrado </h3>

[volver a TOC](#section_toc)

Armamos un nuevo DataFrame con los valores que pueden resultar de interés para analizar columnas numéricas descartando los datos de posicion geografica.

In [None]:
# Creamos una lista con las columnas que deseamos incluir
selected_columns =['property_type','state_name','place_name', 'geonames_id','price','currency', 'price_aprox_usd','price_aprox_local_currency', 
                    'surface_total_in_m2', 'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2']
# Creamos un nuevo dataframe
data_precio_caba = pd.DataFrame(data_caba, columns=selected_columns)
data_precio_caba.head()

In [None]:
data_precio_caba.shape

<a id="section_caba_drop_nulos"></a> 
<h3> 2.1 Cálculo de cantidad de nulos según umbral </h3>

[volver a TOC](#section_toc)

Tratamos de calcular la cantidad de datos nulos mínimos por registro que podemos tener para imputar finalmente el precio por mt2

In [None]:
# Usamos una máscara booleana para buscar las filas que posean más de 6 celdas nulas
precios_caba_mas10_mask = data_precio_caba.isnull().sum(axis=1) > 6 

data_nulos_umbral = data_precio_caba.loc[precios_caba_mas10_mask, :]
data_nulos_umbral

Observamos que hay filas con muchos valores nulos, pero que contienen el nombre del barrio, vamosa ver más adelante si podemos imputar sabiendo el promedio por barrio. 

In [None]:
# En el caso de optar por eliminar podemos usar: 
# umbral = 6
# precios_caba_clean1 = precios_caba.dropna(axis = 0, thresh=umbral)

<a id="section_caba_tasacambio"></a> 
<h3> 2.2 Análisis de tasa de cambio y comparación de precios</h3>

[volver a TOC](#section_toc)

In [None]:
# Creamos una columna para guardar la tasa de cambio de los precios en USD y ARS
data_precio_caba['usdtolocal'] = data_precio_caba.price_aprox_local_currency / data_precio_caba.price_aprox_usd

# Buscamos máximo y mínimo para ver si hay diferencias
cambio_usd_max = data_precio_caba.usdtolocal.max()
cambio_usd_min = data_precio_caba.usdtolocal.min()

In [None]:
# Verificamos si son iguales
print(round(cambio_usd_max, 2))
print(round(cambio_usd_min, 2))

In [None]:
# Verificamos si todos los valores de la nueva columna son iguales
check_change = round(data_precio_caba.usdtolocal, 2) == round(cambio_usd_max, 2)

print(f'Son todos igual a {round(cambio_usd_max, 2)}: {all(check_change)}')

print(f'Hay valores que son NaN?: {any(data_precio_caba.usdtolocal.isnull())}')

In [None]:
# Seteamos una variable con la tasa de cambio por si es necesaria luego
cambio_usd = data_precio_caba.usdtolocal.max()

<h4> Comparación de de <strong>price</strong> y <strong>price_aprox_usd</strong> que parecen ser lo mismo</h4>

In [None]:
# revisar price contra price_aprox_usd
check_prices_usd = data_precio_caba.price == data_precio_caba.price_aprox_usd
print(f'El valor de price es igual a price_aprox_usd? {all(check_prices_usd)}')
print(f'Hay precios con campos NaN? {any(data_precio_caba.price.isnull())}') # Hay precios que son Nulos.

Con esto detectamos que el precio y precio no son iguales en todos los registros.

<h4>Comparación de <strong>price_usd_per_m2</strong> y <strong>price_per_m2</strong></h4>

In [None]:
check_price_mt = data_precio_caba.price_usd_per_m2 == data_precio_caba.price_per_m2
print(f'El valor de price_usd_per_m2 es igual a price_per_m2? {all(check_price_mt)}')
print(f'Hay price_per_m2 con campos NaN? {any(data_precio_caba.price_per_m2.isnull())}') # Hay precios que son Nulos.

In [None]:
check_price_mt_cambio = data_precio_caba.price_usd_per_m2 == data_precio_caba.price_per_m2 / cambio_usd
print(f'El valor de price_usd_per_m2 corresponde a una conversión? {all(check_price_mt)}')

Observamos que no aparenta haber correlación entre estas columnas, <strong>price_per_m2</strong> no corresponde a un valor aproximado en ARS.

<a id="section_caba_preciodolar"></a> 
<h3> 2.3 Nueva columna con precio en USD </h3>

[volver a TOC](#section_toc)

Creamos una columna con el valor en USD en funcion de price para unificar precios totales.

In [None]:
# Creamos la columna y asinamos valor en USD a través de una lambda
data_precio_caba['price_usd']= round(data_precio_caba.apply(lambda x: x['price']  if x['currency'] == 'USD'
                                                            else (x['price'] * x['usdtolocal'] if x['currency'] == 'ARS' else np.NaN), axis=1),2)
data_precio_caba.sample(5)

Por último, buscando muestras, se puede observar que en el <strong>price_per_m2</strong> y <strong>price_usd_per_m2</strong> son valores cercanos, pero en el primero hay menos nulos que en el segundo. En función del objetivo del trabajo intentaremos imputar esos datos luego del análisis de los campos con información geográfica.

<a id="section_caba_geoname"></a> 
<h3> 3. Análisis de campos geográficos</h3>

[volver a TOC](#section_toc)

Armamos un dataframe con las columnas que nos sirven al análisis.

In [None]:
# Creamos una lista con columnas seleccionadas
selected_columns_2 =['place_name', 'place_with_parent_names','state_name','geonames_id', 'lat', 'lon', 'description']
data_places_caba = pd.DataFrame(data_caba, columns=selected_columns_2)
data_places_caba.head()

In [None]:
# Calculamos la cantidad de nulos por campo
data_places_caba.isnull().sum()

Primero observamos que hay datos nulos en la columna <strong>geonames_id</strong>, es un campo que probablemente no sea útil al análisis, vamos a ver una muestra y observar qué barrios aparecen.

In [None]:
data_caba_geo_mask = data_places_caba.geonames_id.isnull()

data_caba_geo = data_places_caba.loc[data_caba_geo_mask, :]

data_caba_geo.head()

<a id="section_caba_place"></a> 
<h3> 3.1 Análisis de campo <strong>place_with_parent_name</strong></h3>

[volver a TOC](#section_toc)

<h4>Distribucion de <strong>place_name</strong> </h4>

In [None]:
barrio_count_pre = data_places_caba.place_name.value_counts()
barrio_count_pre

In [None]:
# Vemos la cantidad de barrios que obtuvimos
len(barrio_count_pre)

<h4>Eliminamos "Argentina" y "|" de los strings ya que hay una columna de país</h4>

In [None]:
# Creamos una serie sobre la columna para trabajarla
serie_place_with_parent_names = data_places_caba.place_with_parent_names
serie_place_with_parent_names

In [None]:
# Sacamos el string el pais
pattern_arg = '^\|Argentina\|'
# RE busca |Argentina al comienzo del string
pattern_arg_regex = re.compile(pattern_arg)
# Creamos una variable nueva para hacer el apply y reemplazo "|Argentina" por string vacio 
place_parent_name_no_arg = serie_place_with_parent_names.apply(lambda x: pattern_arg_regex.sub("", x))

# Chequeamos los valores que quedaron
place_parent_name_no_arg.head()

In [None]:
# Eliminamos los pipes innecesarios
pattern_pipe_final = '\|$'

# RE busca | al final del string
regex_pipe_final = re.compile(pattern_pipe_final)

# Reemplazamos el pipe por string vacio así despues puedo splitear la cadena
place_parent_final = place_parent_name_no_arg.apply(lambda x: regex_pipe_final.sub("", x))
place_parent_final

<h4>Hacemos un split de la cadena para obtener una lista</h4>

In [None]:
serie_list_place_split = place_parent_final.apply(lambda x: x.split("|"))
serie_list_place_split.head(10)
# type(serie_list_place_split)

In [None]:
# Evaluamos las longitudes de las listas que me quedaron en la serie
serie_len = serie_list_place_split.apply(len)
serie_len.value_counts()
# serie_len.values

Vemos que hay valores en esa serie que tienen un solo elemento, los miramos para ver si sirven al análisis.

In [None]:
# Hacemos una mascara e indexamos la lista a traves de una lamba que compara la longitud de cada elemento
mask_len_1 = serie_list_place_split.apply(lambda x: len(x) == 1)
serie_list_place_split.loc[mask_len_1]

In [None]:
# Indexamos la lista para que nos devuelva los valores con 1 elementos distinto a 'Capital Federal'
mask_len_1_not_caba = serie_list_place_split.apply(lambda x: (len(x) == 1) & (x[0] != 'Capital Federal'))
serie_list_place_split[mask_len_1_not_caba]

No hay elementos únicos distintos a 'Capital Federal'.

Observamos que no todos estos elementos contienen la especificidad del <strong>barrio </strong> que es necesaria para hacer los calculos de precio por mt2 con más granularidad.
No es necesario hacer drop de estos registros pero no serán tomando en cuenta.

<h4>Obtenemos dos series de barrio y sub_barrio</h4>

In [None]:
# Funciones para extraer el elemento que me interesa de cada lista según la posicion
def get_sub_barrio(x):
    return x[2] if len(x) == 3 else np.NaN
        
def get_barrio(x):
    return x[1] if (len(x) == 3 or len(x) == 2) else np.NaN

# def get_provincia(x):
#     return np.NaN if len(x) == 1 else x[0]

In [None]:
# Hacemos apply de las funciones para crear las series
serie_sub_barrio = serie_list_place_split.apply(get_sub_barrio)

serie_barrio = serie_list_place_split.apply(get_barrio)

# serie_provincia = serie_lista_place_split.apply(get_provincia)

In [None]:
barrio_count = serie_barrio.value_counts().sort_index()
barrio_count

In [None]:
# Chequeamos los nulos que quedaron en las series creadas
serie_barrio.isnull().sum() #son los que corresponden a 'Capital Federal' sin especificidad de barrio

In [None]:
#Vemos el tamaño para comparar con la lista anterior
len(barrio_count)

In [None]:
# Creamos un dataframe nuevo con las series nuevas
frame = {'barrio': serie_barrio, 'sub_barrio': serie_sub_barrio}  
caba_place_names = pd.DataFrame(frame) 

data_barrios_caba = pd.concat([data_places_caba, caba_place_names], axis=1, sort=False)
data_barrios_caba.head(5)


<a id="section_caba_viz_tribution"></a> 
<h3> 3.2 Visualización preliminar de distribución de propiedades por barrio </h3>

[volver a TOC](#section_toc)

Importamos un dataset externo que contiene datos de geolocalización de los barrios de Capital Federal.

In [None]:
# Se define la ruta de la información.
data_localidades = "../Data/localidades_caba.csv"
# Leemos los datos del archivo
localidades = pd.read_csv(data_localidades, sep=",", encoding="UTF-8")
# Chequeamos que los datos se hayan importado correctamente
localidades.head(3)

In [None]:
# Creamos un dataframe con los datos de los barrios que se extrajeron antes y los datos  externos
localidades_gis = pd.concat([localidades, pd.DataFrame(barrio_count.values)], axis=1) 

# Los concatena en base al orden y no al key, pero funciona
# Renombramos una columna y convertimos los datos de coordenadas a tipo float
localidades_gis.rename(columns={0: "value"}, inplace=True)
localidades_gis['lat'] = localidades_gis['lat'].astype(float)
localidades_gis['lon'] = localidades_gis['lon'].astype(float)
localidades_gis.head(3)

# Eliminamos los datos nulos
localidades_gis_clean = localidades_gis.dropna()

In [None]:
len(localidades_gis_clean.name_dataset)

In [None]:
localidades_gis_clean

<h4> Chequeamos la diferencia entre la lista de barrios obtenida desde <strong>place_with_parent_name</strong> y la lista de coordenadas externa</h4>

In [None]:
# Chequeamos diferencia con index.difference
difference_localidades = barrio_count.index.difference(localidades_gis_clean.name_dataset, sort=False)
difference_localidades

Si bien existen diferencias entre las listas de barrios, la información externa nos sirve para una primera visualización preliminar de la distribución geográfica de las propiedas y la cantidad por barrio. 

<h4> Visualización preliminar</h4>

In [None]:
from bokeh.models import ColumnDataSource, GMapOptions
from bokeh.plotting import gmap


map_options = GMapOptions(lat=-34.61, lng=-58.45, map_type="roadmap", zoom=12)

# For GMaps to function, Google requires you obtain and enable an API key:
#
#     https://developers.google.com/maps/documentation/javascript/get-api-key
#
# Replace the value below with your personal API key:

# Traemos un mapa de google a través de la API, le pasamos coordenadas, título y dimensiones
gis = gmap("AIzaSyA8_ydp6n54UUPJ26Rz3wE1PaBNwjN7-KM", map_options, title="Ciudad de Buenos Aires", plot_width=800, plot_height=800)

source = ColumnDataSource(
    data=dict(lat=localidades_gis_clean['lat'],
              lon=localidades_gis_clean['lon'],
              size=localidades_gis_clean.value/30) 
)

gis.circle(x="lon", y="lat", size="size", fill_color='#29788E', fill_alpha=0.4, source=source)


show(gis)

<h4>Exportamos el gráfico</h4>

In [None]:
# from bokeh.io import export_png
# export_png(gis, filename="viz1_prop_por_barrio.png")

<a id="section_caba_groupby_barrio"></a> 
<h3> 4. Agrupación por <strong> barrio </strong> para ver algunas estadísticas</h3>

[volver a TOC](#section_toc)

Volvemos a unir el dataframe para tener todos los datos. Se puede observar que las columnas country y operation han quedado fuera de los dataframes, al ser el mismo dato en todos los registros, no tienen relevancia para el análisis. 

In [None]:
# Definimos las columnas a través de la diferencia entre uno y otro dataframes
cols_to_use = data_barrios_caba.columns.difference(data_precio_caba.columns)
cols_to_use

In [None]:
data_caba_final = data_precio_caba.join(data_barrios_caba[cols_to_use], how="left")

In [None]:
data_caba_final

In [None]:
barrio_group = data_caba_final.groupby('barrio')

In [None]:
# Utilizamos el describe() para ver los datos estadísticos por barrio
caba_describe_inicial = barrio_group.price_per_m2.describe()
caba_describe_inicial

<a id="section_caba_viz2"></a> 
<h3> 5. Análisis de outliers con boxplots e histogramas</h3>

[volver a TOC](#section_toc)

<h4>Boxplot de los <strong>price_per_m2</strong></h4>

In [None]:
from matplotlib import pyplot as plt
plt.boxplot(data_caba_final['price_per_m2'].dropna(), vert=False) # Hay que hacer DROPNA() para que se muestren los valores.
plt.show

In [None]:
# with sns.axes_style(style='ticks'):
#     vio = sns.violinplot("Barrio", "price_per_m2", data=data_caba_barrios,aspect=4.0, kind="box")
# #    vio.set_axis_labels("Barrio", "Precio x m2");
#     vio.set_xticklabels(rotation=90)

<h4>Boxplot de los <strong>price_per_m2</strong> por <strong>barrio</strong></h4>

In [None]:
# Representamos un boxplot del precio por m2 de todas las variables.
import seaborn as sns
from matplotlib import rcParams

with sns.axes_style(style='ticks'):
    box = sns.catplot("barrio", "price_per_m2", data=data_caba_final,aspect=4.0, kind="box")
    box.set_axis_labels("barrio", "Precio x m2");
    box.set_xticklabels(rotation=90)

<h4>Histograma de los <strong>price_per_m2</strong></h4>
Vemos que no se puede identificar los outliers

In [None]:
#Ver cuales outliers de cada barrio y analizar el desvio ANTES de impurtar los mt2 promedio por barrio

# Primero se puede dibujar un histograma de un barrio para entender su distribución.
import matplotlib
from matplotlib import pyplot as plt
%matplotlib inline
matplotlib.rcParams['figure.figsize'] = (10,5)

## Al PRINCIOPIO LO ARME PARA UN SOLO BARRIO.
# barrio_mask = data_caba_barrios['Barrio'] == "Villa Devoto"
# barrio_villadevoto = data_caba_barrios.loc[barrio_mask, :]
# CONVERTI A ENTERO EL PRECIO, pense que tenia algun problema tratando como FLOAT.-
# barrio_villadevoto_m2 = barrio_villadevoto.price_per_m2.fillna(0).astype(np.int64)

plt.hist(data_caba_final.price_per_m2, bins=90, rwidth=0.9, color = '#29788E')
plt.xlabel = 'Precio x M2'
plt.ylabel = 'Count'
plt.show()

print(data_caba_final.price_per_m2.max()) 
print(data_caba_final.price_per_m2.min())


A simple vista no podemos conformar una distribución del precio.

<h4>Histogramas de los <strong>price_per_m2</strong> con outliers definidos</h4>

Definimos outliers aproximados y vemos un nuevo histograma de precio por mt2 donde se observa mejor la distribución

In [None]:
# Definimos outliers aproximados
lower_bound = 0.01
upper_bound = 0.92
rest = data_caba_final.price_per_m2.quantile([lower_bound, upper_bound])
rest

In [None]:
# Creamos una mask entendiendo que los precios minimos y maximos pueden rondar los 600 USD y 4000 USD y fijamos outliers aproximados

precioxm2_mask = (data_caba_final.price_per_m2 >= rest[0.01]) & (data_caba_final.price_per_m2 <= rest[0.92])
data_caba_clean = data_caba_final.loc[precioxm2_mask, :]

# Vuelvo a graficar.

plt.hist(data_caba_clean.price_per_m2, bins=20, rwidth=0.8, color = '#29788E')
plt.xlabel = 'Precio x M2'
plt.ylabel = 'Count'
plt.show()

print(data_caba_clean.price_per_m2.max()) 
print(data_caba_clean.price_per_m2.min())

# Parece una distribución normal? sino fuera por los valores elevados que tenemos a partir de los 3500...

In [None]:
from scipy.stats import norm


plt.hist(data_caba_clean.price_per_m2, bins=90, rwidth=0.3, density=True, color = '#29788E')
plt.xlabel = 'Precio x M2'
plt.ylabel = 'Count'
# plt.show()

#Si incrementamos los bins se muestra mejor la distribución

#Si los datos se comportaran como una normal se graficarían de la siguiente manera
# rng = np.arange(data_caba_clean.price_per_m2.min(), data_caba_clean.price_per_m2.max(), 0.3)
# plt.plot(rng, norm.pdf(rng, data_caba_clean.price_per_m2.mean(), data_caba_clean.price_per_m2.std()))

Al agrandar los bins mejora la visualización, observamos las asimetrías en la distribución debido a los outliers.

<h4> Boxplot de <strong>price_per_m2</strong></h4>

Vemos un nuevo boxplot sobre los datos totales, habiendo sacado los outliers

In [None]:
# plt.boxplot(data_caba_clean['price_per_m2'].dropna(), vert=False, showmeans=True) # Hay que hacer DROPNA() para que se muestren los valores.
# plt.show
# print(data_caba_clean['price_per_m2'].mean())
# print(data_caba_clean['price_per_m2'].median())


m1 = data_caba_clean['price_per_m2'].dropna().mean(axis=0)
med = data_caba_clean['price_per_m2'].dropna().median(axis=0)
st1 = data_caba_clean['price_per_m2'].dropna().std(axis=0)

fig, ax = plt.subplots()
bp = ax.boxplot(data_caba_clean['price_per_m2'].dropna(), vert=False, showmeans=True)

for i, line in enumerate(bp['medians']):
    x, y = line.get_xydata()[1]
    text = ' μ={:.2f} / m={:.2f}\n σ={:.2f}\n'.format(m1, med, st1)
    ax.annotate(text, xy=(x, y))

<h4> Boxplot de <strong>price_per_m2</strong> por barrio</h4>

Por último, graficamos los boxplot de precio por mt2 para cada barrio, una vez eliminados los outliers más extremos.

In [None]:
# Vuevo a graficar los boxplot para ver si ahora tengo mejor representada la información

with sns.axes_style(style='ticks'):
    box = sns.catplot("barrio", "price_per_m2", data=data_caba_clean,aspect=4.0, kind="box")
    box.set_axis_labels("Barrio", "Precio x m2");
    box.set_xticklabels(rotation=90)

Observamos entonces que los barrios tienen comportamientos distintos que definen el valor de los outliers.

Volvemos a agrupar por barrio, sin outliers, y vemos las diferencias en el desvío estándar

In [None]:
barrio_gr_clean = data_caba_clean.groupby('barrio')

In [None]:
caba_describe_sin_outliers = barrio_gr_clean.price_per_m2.describe()
caba_describe_sin_outliers

<strong>Todavía seguimos teniendo mucha dispersión de datos.</strong>

[volver a TOC](#section_toc)

<h3>Función para eliminar outliers </h3>
Esta función debería repetirse en todos los barrios para eliminar los outliers, tomamos el ejemplo de Palermo, que es el barrio más grande de la muestra.

In [None]:
# Analizo uno de los barrios con más datos! PALERMO!

data_caba_clean_palermo_mask = data_caba_clean.barrio == 'Palermo'

data_caba_clean_palermo = data_caba_clean.loc[data_caba_clean_palermo_mask, :]

data_caba_clean_palermo.sample(3)

<h4> Boxplot de <strong>price_per_m2</strong> de Palermo</h4>

In [None]:
# with sns.axes_style(style='ticks'):
#     box = sns.catplot("Barrio", "price_per_m2", data=data_caba_clean_palermo,aspect=1.0, kind="box")
#     box.set_axis_labels("Palermo", "Precio x m2");
#     box.set_xticklabels(rotation=90)


m1 = data_caba_clean_palermo['price_per_m2'].dropna().mean(axis=0)
med = data_caba_clean_palermo['price_per_m2'].dropna().median(axis=0)
st1 = data_caba_clean_palermo['price_per_m2'].dropna().std(axis=0)

fig, ax = plt.subplots()
bp = ax.boxplot(data_caba_clean_palermo['price_per_m2'].dropna(), vert=False, showmeans=True)

for i, line in enumerate(bp['medians']):
    x, y = line.get_xydata()[1]
    text = ' μ={:.2f} / m={:.2f}\n σ={:.2f}\n'.format(m1, med, st1)
    ax.annotate(text, xy=(x, y))

<h4> Boxplot de <strong>price_per_m2</strong> de Palermo por sub_barrio</h4>

Si en vez de tomar barrio tomamos sub_barrios se ve que Palermo Chico tira la media hacia arriba y representa los outliers de Palermo

In [None]:
palette = ['#404387', '#29788E', '#22A784', '#79D151', '#FDE724']
with sns.axes_style(style='ticks'):
    box = sns.catplot("place_name", "price_per_m2", data=data_caba_clean_palermo,aspect=1.0, kind="box", palette = palette)
    box.set_axis_labels("Palermo", "Precio x m2");
    box.set_xticklabels(rotation=30)

<h4> Boxplot de <strong>price_per_m2</strong> de Palermo por tipo de propiedad</h4>

Box plot de Palermo por tipo de propiedad. Con los locales ocurre lo mismo, los precios son más elevados. 

In [None]:
data_palermo_gr = data_caba_clean_palermo.property_type.value_counts()
data_palermo_gr

In [None]:
palette = ['#29788E', '#22A784', '#79D151', '#FDE724']
with sns.axes_style(style='ticks'):
    box = sns.catplot("property_type", "price_per_m2", data=data_caba_clean_palermo,aspect=1.0, kind="box",palette = palette)
    box.set_axis_labels("Palermo", "Precio x m2");
    box.set_xticklabels(rotation=30)

<h4> Histograma de distribución de <strong>price_per_m2</strong> de Palermo </h4>

In [None]:
plt.hist(data_caba_clean_palermo.price_per_m2, bins=90, rwidth=0.3, density=True, color = '#29788E' )
plt.xlabel = 'Precio x M2'
plt.ylabel = 'Count'
# plt.show()

# Dibujamos la normal de los datos de Palermo. 

# rng = np.arange(data_caba_clean_palermo.price_per_m2.min(), data_caba_clean_palermo.price_per_m2.max(), 0.3)
# plt.plot(rng, norm.pdf(rng, data_caba_clean_palermo.price_per_m2.mean(), data_caba_clean_palermo.price_per_m2.std()))

Vemos que además de no poder sacar promedios generales de Capital Federal unificando los barrios, dentro de cada uno, el comportamiento del tipo de propiedad también influirá en las estadísticas y en las deciciones a la hora de imputar datos. 

Graficamos una manera distinta de visualizar el comportamiento de los datos de Palermo

In [None]:
data_palermo_pairplot = pd.DataFrame(data_caba_clean_palermo, columns=['price_per_m2','price_usd', 'property_type'])
data_palermo_pairplot.head(3)
palette = ['#404387', '#22A784', '#79D151', '#FDE724']
sns.pairplot(data_palermo_pairplot, hue='property_type', height=2.5, palette=palette);

<a id="section_caba_imputacion"></a> 
<h3> 6. Imputación de datos faltantes</h3>

[volver a TOC](#section_toc)

In [None]:
# Comparamos la cantidad de datos nulos en los dataframes con y sin outliers
data_caba_final.price_per_m2.isnull().sum()

In [None]:
data_caba_clean.price_per_m2.isnull().sum()

Vamos a intentar imputar el <strong>price_per_m2</strong> en el dataframe unificado

In [None]:
# Analizamos un único registro de muestra para ensayar la imputación de datos.
mask_price_null  =  data_caba_final.price_per_m2.isnull()
sample1 = data_caba_final.loc[mask_price_null, :].sample()
sample1

# Encontramos que no tiene el precio_usd_per_m2, y se puede calcular de dos maneras:
# 1. price_usd / surface_total_in_m2

In [None]:
# Calculamos el valor del metro cuadrado para esta propiedad...
round(sample1.price_usd / sample1.surface_total_in_m2, 2)


In [None]:
# Contamos todos los elementos de CABA que no tiene price_per_m2

price_per_m2_mask = data_caba_final.price_per_m2.isnull()

print(price_per_m2_mask.loc[sample1.index]) # Verificamos que la funcion de True para el sample.

price_per_m2_isnan = data_caba_final.loc[price_per_m2_mask, :]

# print(price_usd_per_m2_mask)
print(price_per_m2_mask.value_counts())
print(f'{round(price_per_m2_mask.sum() / data_caba_final.shape[0], 2)} % de valores con NaN')

# De esto ultimo se desprende que tenemos 15% de datos donde falta el valor de precio_usd_per_m2

price_per_m2_isnan.sample(10)

Entonces ahora trato de reemplazar los valores faltantes operando con los datos que tengo.

<a id="section_caba_imputacion_1"></a> 
<h3> 6.1 Primera estrategia de imputación</h3>

[volver a TOC](#section_toc)

<h4>Primera estrategia: la división de price_usd y superficie cuando existan</h4>

In [None]:
# Hacemos una máscara que nos devuelva los registros de los datos que queremos imputar 
#que tengan completas las columnas que necesitamos (price y surface)

mask_price_surface_not_null = data_caba_final.price_per_m2.isnull() & \
                        data_caba_final.price_usd.notnull() & data_caba_final.surface_covered_in_m2.notnull()
mask_price_surface_not_null.sum()

In [None]:
mask_price_surface_total_not_null = data_caba_final.price_per_m2.isnull() & \
                        data_caba_final.price_usd.notnull() & data_caba_final.surface_total_in_m2.notnull()

#Hacemos este calculo sobre surface_total y no surface_covered ya que solo hay 2 registros

In [None]:
mask_price_surface_total_not_null.sum()

Se ha bservado que surface_covered y surface_total no son iguales, pero elegimos usar surface_total para imputar datos ya que en los registros que tienen price_per_m2 nulo, tenemos ese dato dispoible.

Dejamos esto como opción de imputación pero es riesgoso ya que los datos de superficie no son homogéneos y el precio en USD es un dato que no existía en el dataset original

In [None]:
#Buscamos los registro según la máscara e imputamos los valores
# data_caba_final.loc[mask_price_surface_total_not_null, 'price_per_m2'] = data_caba_final.price_usd / data_caba_final.surface_total_in_m2

In [None]:
# Volvemos a calcular la cantidad de datos nulos
data_caba_final.price_per_m2.isnull().sum()

<a id="section_caba_imputacion_2"></a> 
<h3> 6.2 Segunda estrategia de imputación</h3>

[volver a TOC](#section_toc)

<h4>Segunda estrategia: por la media barrial y categorías de superficie</h4>

Optamos por aplicar esta opción por ser más granular. Además de imputar por la media barrial, asignamos categorías por cantidad de metros y hacemos un segundo agrupamiento.
Dividimos los datos en categorías por tamaño de las propiedades.

In [None]:
# Delimitamos los bins para realizar un cut
bins = [20, 30, 45, 90, 150, 220]
labels = ['mono', 's45', 's90', 's150', 'm220' ]

data_caba_final['m2_categories'] = pd.cut(data_caba_final.surface_covered_in_m2, bins, labels)
data_caba_final['m2_labels'] = pd.cut(x=data_caba_final.surface_covered_in_m2, bins=bins, labels=labels, right=False)


In [None]:
# Observamos la cantidad que quedó en cada bin
data_caba_final.m2_categories.dtype
print(data_caba_final.m2_categories.value_counts())
data_caba_final.sample(5)

In [None]:
# Busco el mean por barrio y por categoría de m2 a través de una pivot_table
pivot_caba = data_caba_final.pivot_table('price_per_m2', index='barrio', columns='m2_labels')
pivot_caba

In [None]:
# Probamos acceder a un dato de la tabla pivot
pivot_caba.loc['Colegiales', 'mono']

In [None]:
#Creamos una nueva mascara para obtener los nulos en price_per_m2

In [None]:
mask_price_null = data_caba_final.price_per_m2.isnull() & data_caba_final.barrio.notnull() & data_caba_final.m2_labels.notnull()

In [None]:
#Observamos la cantidad de nulos que cumplen con todas estas condiciones
mask_price_null.sum()

In [None]:
# Creamos una variable que contenga el dataframe con las condiciones
data_null = data_caba_final.loc[mask_price_null]
# data_null

In [None]:
# Creamos una función que busca en la tabla pivot y devuelve el valor de intersección
def search_in_pivot(x):
    return pivot_caba.loc[x.loc['barrio'], x.loc['m2_labels']]

In [None]:
# Asignamos los valores
data_caba_final.loc[mask_price_null, 'price_per_m2'] = data_null.apply(search_in_pivot, axis=1)

In [None]:
# Volvemos a calcular la cantidad de null
data_caba_final.price_per_m2.isnull().sum()

<a id="section_caba_imputacion_3"></a> 
<h3> 6.3 Tercera estrategia de imputación</h3>

[volver a TOC](#section_toc)

<h4>Tercera estrategia: por la media barrial y <strong>property_type</strong></h4>

In [None]:
# pivot_caba = data_caba_final.pivot_table('price_per_m2', index='barrio', columns='property_type')
# pivot_caba
# mask_price_null2 = data_caba_final.price_per_m2.isnull()
# data_null2 = data_caba_final.loc[mask_price_null2]
# def search_in_pivot2(x):
#     return pivot_caba.loc[x.loc['barrio'], x.loc['property_type']]

# data_caba_final.loc[mask_price_null, 'price_per_m2'] = data_null2.apply(search_in_pivot2, axis=1)

De los datos nulos que quedan en la tabla, sabemos que hay un porcentaje que no tienen el dato del barrio (ver [punto 3.1](#section_caba_place)).
El posible que el resto de los registros no tengan el dato de superficie, por lo que no se pudieron categorizar. En un análisis más detallado podría cruzarse esta variable con la de descripción y buscar cantidad de metros. 
La opción que queda es aplicar la media o mediana por barrio sin cruzar con otros datos, pero es arriesgado debido al comportamiento que hemos observado en los boxplots.

In [None]:
# data_caba_final.price_per_m2 = data_caba_final.price_per_m2.replace(precios_caba.groupby('barrio').price_per_m2.transform(lambda x: x.fillna(x.mean())))
# print(precios_caba.price_per_m2.replace(precios_caba.groupby('place_name').price_per_m2.transform(lambda x: x.fillna(x.mean()))))

# precios_caba.price_per_m2 = precios_caba.groupby('place_name').price_per_m2.transform(lambda x: x.fillna(x.mean()))
# precios_caba.isnull().sum()

<a id="section_caba_std"></a> 
<h3> 7. Comparación del desvío estándar una vez imputados los datos</h3>

[volver a TOC](#section_toc)

In [None]:
#Agrupamos nuevamente para actualizar los datos con lo imputado
barrio_group_final = data_caba_final.groupby('barrio')
caba_describe_final = barrio_group_final.price_per_m2.describe()
caba_describe_final

In [None]:
# Concatenamos las series de std provenientes de los describe()
difference_std = pd.concat([caba_describe_inicial['std'], caba_describe_final['std'], caba_describe_sin_outliers['std']], axis=1)

In [None]:
# Renombramos las columnas
difference_std.columns = ['std_inicial', 'std_final', 'std_outliers_clean']
difference_std

<a id="section_caba_description"></a> 
<h3> 8. Análisis del campo <strong>description</strong></h3>

[volver a TOC](#section_toc)

In [None]:
#Creamos una serie con la columna que queremos analizar
description_series = data_caba_final['description']
description_series.sample(10)

<a id="section_caba_description_amb"></a> 
<h4> 8.1 Cantidad de ambientes</h4>

[volver a TOC](#section_toc)

Intentaremos extraer la cantidad de ambientes a través de expresiones regulares.

In [None]:
# Se crea la expresion regular y se compila
# Se busca la expresion en la serie a traves de la funcion apply
# Se hace una mascara para ver las filas no nulas en el objeto match
# Usando loc, se aplica el grupo de la expresion regular que contiene el digito a las celdas indicadas, en una nueva columna

In [None]:
amb1_pattern = "((?P<numero_amb>\d)(\s)?(amb|AMB))"
amb1_pattern_regex = re.compile(amb1_pattern)

In [None]:
amb1_match = description_series.apply(lambda x: x if (x is np.NaN) | (x is None) else\
                                      amb1_pattern_regex.search(x))
mask_amb1_match_notnull = amb1_match.notnull()

# Aplicamos el grupo que encuentra el dígito de cantidad de ambientes, casteado como integer
data_caba_final.loc[mask_amb1_match_notnull, 'number_rooms'] = \
amb1_match.loc[mask_amb1_match_notnull].apply(lambda x: int(x.group("numero_amb")))

In [None]:
data_caba_final['number_rooms'].sample(15)

In [None]:
# Calculamos cantidad de datos que logramos extraer
data_caba_final['number_rooms'].notnull().sum()

In [None]:
dorm1_pattern = "((?P<numero_dorm>\d)(\s)?(dorm|DORM))"
dorm1_pattern_regex = re.compile(dorm1_pattern)

In [None]:
dorm1_match = description_series.apply(lambda x: x if (x is np.NaN) | (x is None) else dorm1_pattern_regex.search(x))

mask_dorm1_match_notnull = dorm1_match.notnull()

data_caba_final.loc[mask_dorm1_match_notnull, 'number_rooms'] = \
dorm1_match.loc[mask_dorm1_match_notnull].apply(lambda x: int(x.group("numero_dorm"))+1)

#se asume que el numero de ambientes es numero_dorm +1

In [None]:
data_caba_final['number_rooms'].notnull().sum()

Buscamos "monoambiente"

In [None]:
amb2_pattern = "(?P<mono>(mono|MONO)(\s)?(amb|AMB))"
amb2_pattern_regex = re.compile(amb2_pattern)

amb2_match = description_series.apply(lambda x: x if (x is np.NaN) | (x is None) else\
                                      amb2_pattern_regex.search(x))
mask_amb2_match_notnull = amb2_match.notnull()

mono_amb = 1
data_caba_final.loc[mask_amb2_match_notnull, 'number_rooms'] = mono_amb

In [None]:
data_caba_final['number_rooms'].notnull().sum()

In [None]:
# print(precios_caba.count() / precios_caba.shape[0]) 
print('Cantidad de valores completos en number_rooms:')
print(data_caba_final['number_rooms'].notnull().sum())

len_nr = len(data_caba_final['number_rooms'])
not_null_nr = data_caba_final['number_rooms'].notnull().sum()
             
print('Porcentaje de valores completos:')
print(f'{round(100 * not_null_nr/len_nr, 2)}')


In [None]:
#Faltaría encontrar expresiones como Ambiente unico, mono(\s)?ambiente, 1 y 1/2 amb / dos/tres/cuatro/cinco ([a-zA-Z]*)? dormitorios


<a id="section_caba_description_amenities"></a> 
<h4> 8.2 Amenities </h4>

[volver a TOC](#section_toc)

Trataremos de extraer expresiones como pileta/piscina, laundry/lavadero, cochera/garage, Gimnasio/gym

<h5> Pileta </h5>

In [None]:
pileta_pattern = "(?P<pileta>pileta|piscina|picina)"
pileta_pattern_regex = re.compile(pileta_pattern)

In [None]:
pileta_match = description_series.apply(lambda x: x if (x is np.NaN) | (x is None) else\
                                      pileta_pattern_regex.search(x))
mask_pileta_match_notnull = pileta_match.notnull()

data_caba_final.loc[mask_pileta_match_notnull, 'pileta'] = "pileta"

In [None]:
data_caba_final['pileta'].notnull().sum()

<h5> Laundry </h5>

In [None]:
laudry_pattern = "(?P<laundry>laundry|lavadero)"
laundry_pattern_regex = re.compile(laudry_pattern)

laundry_match = description_series.apply(lambda x: x if (x is np.NaN) | (x is None) else\
                                      laundry_pattern_regex.search(x))
mask_laundry_match_notnull = laundry_match.notnull()

data_caba_final.loc[mask_laundry_match_notnull, 'laundry'] = "laundry"

In [None]:
data_caba_final['laundry'].notnull().sum()

<h5> Parking </h5>

In [None]:
parking_pattern = "(?P<parking>parking|estacionamiento|garage|cochera)"
parking_pattern_regex = re.compile(parking_pattern)

parking_match = description_series.apply(lambda x: x if (x is np.NaN) | (x is None) else\
                                      parking_pattern_regex.search(x))
mask_parking_match_notnull = parking_match.notnull()

data_caba_final.loc[mask_parking_match_notnull, 'parking'] = "parking"

In [None]:
data_caba_final['parking'].sample(15)

In [None]:
data_caba_final['parking'].notnull().sum()

<h5> Gimnasio </h5>

In [None]:
gym_pattern = "(?P<gimnasio>gim|gym|gimnasio|fitness)"
gym_pattern_regex = re.compile(gym_pattern)

gym_match = description_series.apply(lambda x: x if (x is np.NaN) | (x is None) else\
                                      gym_pattern_regex.search(x))
mask_gim_match_notnull = gym_match.notnull()

data_caba_final.loc[mask_gim_match_notnull, 'gimnasio'] = "gimnasio"

In [None]:
data_caba_final['gimnasio'].sample(15)

In [None]:
data_caba_final['gimnasio'].notnull().sum()

<a id="section_caba_dummies"></a> 
<h3> 9. Obtenemos dummies sobre datos categóricos </h3>

[volver a TOC](#section_toc)

<h4> Obtención de dummies sobre el campo <strong>property_type</strong></h4>

In [None]:
# Usamos la función get_dummies con one-hot encoding (drop_first=True)
property_type_dummies = pd.get_dummies(data_caba_final['property_type'], drop_first = True, prefix='prop_type')
property_type_dummies

In [None]:
# Hacemos un join para concatenar las columnas al dataframe
data_caba_final.join(property_type_dummies)

Podríamos haber asignado variables dummies a las columnas de amenities, pero estas solo muestran ausencia/presencia y los datos pueden reemplazarse por 1/0.

<a id="section_caba_viz3"></a> 
<h3> 10. Visualización de datos geolocalizados y promedio de <strong>price_per_m2</strong> por barrio</h3>

[volver a TOC](#section_toc)

In [None]:
data_caba_clean = data_caba_final[data_caba_final['lat'].notna()]

<h4>Mapa de calor de <strong>price_per_m2</strong></h4>

In [None]:
from bokeh.models import ColumnDataSource, GMapOptions
from bokeh.plotting import gmap
from bokeh.transform import factor_cmap
from bokeh.palettes import Viridis5 as palette
from bokeh.models import LogColorMapper

palette = tuple(reversed(palette))
color_mapper = LogColorMapper(palette=palette)

map_options = GMapOptions(lat=-34.61, lng=-58.45, map_type="roadmap", zoom=12)

# For GMaps to function, Google requires you obtain and enable an API key:
#
#     https://developers.google.com/maps/documentation/javascript/get-api-key
#
# Replace the value below with your personal API key:
gis2 = gmap("AIzaSyA8_ydp6n54UUPJ26Rz3wE1PaBNwjN7-KM", map_options, title="Ciudad de Buenos Aires")

# data_caba_clean_dropna.head()

data_caba_clean.barrio.unique()

# colors = factor_cmap('ur', palette=mpl['Plasma'][66], factors=data_caba_clean.Barrio.unique()) 

source2 = ColumnDataSource(
    data=dict(lat=data_caba_clean['lat'],
              lon=data_caba_clean['lon'],
              size=data_caba_clean.price_per_m2) 
)


gis2.circle('lon', 'lat', source=source2,
             fill_color={'field': 'size', 'transform': color_mapper},
             fill_alpha=0.7, line_color="white", line_width=0.5)

show(gis2)

#Mientras mas azul el punto es mas carro el metro cuadrado.

<h4>Mapa de calor de <strong>price_per_m2</strong> y <strong>price_usd</strong></h4>

In [None]:
from bokeh.models import ColumnDataSource, GMapOptions, HoverTool, LogColorMapper
from bokeh.plotting import gmap
from bokeh.transform import factor_cmap
from bokeh.palettes import Viridis6 as palette


palette = tuple(reversed(palette))
color_mapper = LogColorMapper(palette=palette)

map_options = GMapOptions(lat=-34.61, lng=-58.45, map_type="roadmap", zoom=12)

# For GMaps to function, Google requires you obtain and enable an API key:
#
#     https://developers.google.com/maps/documentation/javascript/get-api-key
#
# Replace the value below with your personal API key:
gis2 = gmap("AIzaSyA8_ydp6n54UUPJ26Rz3wE1PaBNwjN7-KM", map_options, title="Ciudad de Buenos Aires")

# data_caba_clean_dropna.head()


data_caba_clean.barrio.unique()

# colors = factor_cmap('ur', palette=mpl['Plasma'][66], factors=data_caba_clean.Barrio.unique()) 

source2 = ColumnDataSource(
    data=dict(lat=data_caba_clean['lat'],
              lon=data_caba_clean['lon'],
              price=data_caba_clean.price_usd,
              price_m2=round(data_caba_clean.price_per_m2, 2),
              barrio=data_caba_clean.barrio))

TOOLTIPS = [
    ("Price x M2", "@price_m2"),
    ("Price USD", "@price"),
    ("Barrio", "@barrio")
]

gis2.add_tools( HoverTool(tooltips=TOOLTIPS))

gis2.circle('lon', 'lat', source=source2,
             fill_color={'field': 'price', 'transform': color_mapper},
             fill_alpha=0.5, line_color="white", line_width=0.9
           )

# gis2 = figure(tools=TOOLS, title=, x_axis_label='Pressure (mTorr)', y_axis_label='Roughness (nm)')

show(gis2)

#Idem pero el precio de la propiedad...

<h4>Visualización del promedio de <strong>price_per_m2</strong> por barrio</h4>