# Transform-info

1. **Desarrollo de datasets**

2. Análisis exploratorio
3. Ingeniería de características
4. Entrenamiento y prueba de modelo

Este script va ser el encargado de pre-procesar toda la información obtenida del mercado inmobiliario y el resto de la bibliografia con la bibliografía de generar los datasets a utilizar.

In [1]:
# Importo las librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# Seteo la visualizacion de todas las columnas
pd.pandas.set_option('display.max_columns', None)

Defino los datasets a utilizar:

In [2]:
# Descripción:
# Monto de préstamos hipotecarios en Unidades de Valor Adquisitivo (UVA). 
# Fuente BCRA.
# https://data.buenosaires.gob.ar/dataset/mercado-inmobiliario/resource/a5922b3c-4f64-4ad5-89eb-ea703f47480e

# load dataset
montos_chuva = pd.read_csv('data/montos-creditos-hipotecarios-uva.csv')

# rows and columns of the data
print(montos_chuva.shape)

# visualise the dataset
montos_chuva.head(2)

(60, 4)


Unnamed: 0,año_mes,Monto operado prestamos de UVA (en miles de pesos),Var. mensual (%),Var. Anual (%)
0,2016-05,2075,,
1,2016-06,14247,586.602409638554,


In [3]:
# Descripción:
# Precio promedio mensual (pesos) de departamentos en alquiler de 2 y 3 ambientes usados y a estrenar en la Ciudad. 
# Fuente DGEyC-GCBA en base sobre la base de datos de Argenprop.
# https://data.buenosaires.gob.ar/dataset/mercado-inmobiliario

# load dataset
precio_alq = pd.read_csv('data/precio-alquiler-deptos.csv')

# rows and columns of the data
print(precio_alq.shape)

# visualise the dataset
precio_alq.head(2)

(7104, 6)


Unnamed: 0,barrio,anio,mes,precio_prom,ambientes,comuna
0,AGRONOMIA,2013,Jul,,3 ambientes,15
1,AGRONOMIA,2013,Ago,,3 ambientes,15


In [4]:
# Descripción:
# Precio promedio del m2 (dólares) de departamentos en venta de 2 y 3 ambientes usados y a estrenar. 
# Fuente DGEyC-GCBA en base sobre la base de datos de Argenprop.
# https://data.buenosaires.gob.ar/dataset/mercado-inmobiliario

# load dataset
precio_venta = pd.read_csv('data/precio-venta-deptos.csv')
precio_venta2 = precio_venta

# rows and columns of the data
print(precio_venta.shape)

# visualise the dataset
precio_venta.head(2)

(7296, 7)


Unnamed: 0,barrio,año,trimestre,precio_prom,ambientes,estado,comuna
0,AGRONOMIA,2010,1,,2 ambientes,Usado,15
1,AGRONOMIA,2010,2,,2 ambientes,Usado,15


In [5]:
# Descripción:
# Superficie total (m2) de departamentos en alquiler de 1 a 5 ambientes (usados y a estrenar) por barrio. 
# Fuente DGEyC en base sobre la base de datos de Argenprop.
# https://data.buenosaires.gob.ar/dataset/mercado-inmobiliario

# load dataset
sup_deptos = pd.read_csv('data/superficie-deptos.csv')

# rows and columns of the data
print(sup_deptos.shape)

# visualise the dataset
sup_deptos.head(2)

(3552, 5)


Unnamed: 0,barrio,año,mes,superficie,comuna
0,AGRONOMIA,2013,Jul,574,15
1,AGRONOMIA,2013,Ago,320,15


In [6]:
# Descripción:
# Actos notariales de compra venta de inmuebles e hipotecas anotados en el Colegio de Escribanos de la Ciudad de Buenos Aires.
# Fuente DGEyC-GCBA sobre la base de datos del Colegio de Escribanos CABA.
# https://data.buenosaires.gob.ar/dataset/mercado-inmobiliario

# load dataset
actas_compra_venta = pd.read_csv('data/actas-notariales-compra-venta-inmuebles-hipotecas.csv')

# rows and columns of the data
print(actas_compra_venta.shape)

# visualise the dataset
actas_compra_venta.head(2)

(230, 4)


Unnamed: 0,año_mes,Actos notariales de compra venta de inmuebles anotados en el Colegio de Escribanos. CABA,Var. mensual (%),Var. Anual (%)
0,2002-01,1678.0,,
1,2002-02,1557.0,-7.210965,


In [7]:
# Descripción:
# Dataset de dolar.
# Fuente Gobierno Nacional
# https://datos.gob.ar/dataset/sspm-tipo-cambio--usd---futuro-dolar/archivo/sspm_168.1

# load dataset
dt_dolar = pd.read_csv('data/datos-tipo-cambio-usd-futuro-dolar-frecuencia-diaria.csv')

# rows and columns of the data
print(dt_dolar.shape)

# visualise the dataset
dt_dolar.head(2)

(7150, 18)


Unnamed: 0,indice_tiempo,tipo_cambio_bna_vendedor,tipo_cambio_a3500,tipo_cambio_mae,volumen_mae,tipo_cambio_implicito_en_adrs,futuro_rofex_usd1m,interes_abierto_1m,futuro_rofex_usd2m,interes_abierto_2m,futuro_rofex_usd3m,interes_abierto_3m,futuro_rofex_usd4m,interes_abierto_4m,futuro_rofex_usd5m,interes_abierto_5m,futuro_rofex_usd6m,interes_abierto_6m
0,2002-03-05,,1.9917,,,2.180124,,,,,,,,,,,,
1,2002-03-06,,2.0508,,,2.222222,,,,,,,,,,,,


In [8]:
# Descripción:
# Interes por mes
# Fuente Gobierno Nacional
# https://datos.gob.ar/dataset/sspm-principales-tasas-interes/archivo/sspm_89.2

# load dataset
dt_interes = pd.read_csv('data/principales-tasas-interes-diarias.csv')

# rows and columns of the data
print(dt_interes.shape)

# visualise the dataset
dt_interes.tail(2)

(6847, 4)


Unnamed: 0,indice_tiempo,tasas_interes_call,tasas_interes_badlar,tasas_interes_pm
6845,2021-09-29,31.99,34.1875,38.0
6846,2021-09-30,33.25,34.1875,38.0


In [9]:
# Descripción:
# Expectativa de devaluacion
# Fuente Gobierno Nacional
# https://datos.gob.ar/dataset/sspm-expectativas-inflacion/archivo/sspm_431.1

# load dataset
dt_inflacion = pd.read_csv('data/expectativas-inflacion-a-doce-mes.csv')

# rows and columns of the data
print(dt_inflacion.shape)

# visualise the dataset
dt_inflacion.tail(2)

(182, 3)


Unnamed: 0,indice_tiempo,expectativa_inflacion_mediana,expectativa_inflacion_promedio
180,2021-08-01,50.0,48.0
181,2021-09-01,50.0,48.6


Comienzo el pre-procesamiento.

In [10]:
# Lo defino
dataset = pd.DataFrame()

# Inicio por el dataset de compra/venta
# Posee caracteres basura en algunas filas. Filtro:
actas_compra_venta['año_mes'] = actas_compra_venta['año_mes'].str[:7]

# Lo joineo con el de montos UVA por año_mes
dataset = actas_compra_venta.merge(montos_chuva, how='left', on='año_mes')

# Realizo los rename requeridos
dataset = dataset.rename(columns={'Actos notariales de compra venta de inmuebles anotados en el Colegio de Escribanos. CABA ': 'actos_coleg_esc', 
                                  'Monto operado prestamos de UVA (en miles de pesos)': 'monto_cred_uva'})

# Realizo un copy con las columnas que quiero quedarme
dataset = dataset[['año_mes','actos_coleg_esc','monto_cred_uva']].copy()

# Defino un mapping por mes
mes_mapping = {
    'Ene': 1 ,
    'Feb': 2 ,
    'Mar': 3 ,
    'Abr': 4 ,
    'May': 5 ,
    'Jun': 6 ,
    'Jul': 7 ,
    'Ago': 8 ,
    'Sep': 9 ,
    'Oct': 10 ,
    'Nov': 11 ,
    'Dic': 12
}

# Realizo el mapeo en el dataset de superficie
sup_deptos['mes'] = sup_deptos['mes'].map(mes_mapping)

# Genero la columna año_mes requerida (usada para el join)
sup_deptos["año_mes"] = sup_deptos['año'].astype(str) + '-' + sup_deptos['mes'].astype(str).str.zfill(2)

# Agrupo por año_mes
sup_deptos = sup_deptos.groupby("año_mes")["superficie"].sum()

# Lo transformo en un df
sup_deptos = sup_deptos.to_frame()

# Realizo el merge con el dataset
dataset = dataset.merge(sup_deptos, how='left', on='año_mes')

# Realizo un copy con las columnas que quiero quedarme
dataset = dataset[['año_mes','actos_coleg_esc','monto_cred_uva','superficie']].copy()

# Defino un mapping por trimestre. Definimos tomar los meses intermedio para luego obtener con alguna otra funcion 
# los valores faltantes
trim_mapping = {
    1: 2 ,
    2: 5 ,
    3: 8 ,
    4: 11 
}

# Realizo el mapeo en el dataset de precio venta
precio_venta['trimestre'] = precio_venta['trimestre'].map(trim_mapping)

# Genero la columna año_mes requerida (usada para el join)
precio_venta["año_mes"] = precio_venta['año'].astype(str) + '-' + precio_venta['trimestre'].astype(str).str.zfill(2)

# Obtengo el promedio de precio de venta por m2 por año_mes
precio_venta = precio_venta.groupby("año_mes")["precio_prom"].mean()

# Lo transformo en un df
precio_venta = precio_venta.to_frame()

# Realizo el merge con el dataset
dataset = dataset.merge(precio_venta, how='left', on='año_mes')

# Genero la columna año_mes requerida para el dataset de inflacion
dt_inflacion['indice_tiempo'] = dt_inflacion['indice_tiempo'].str[:7]

# Calculo la mediana de inflacion por año_mes
dt_inflacion = dt_inflacion.groupby("indice_tiempo")["expectativa_inflacion_mediana"].mean()

# Reseteo index
dt_inflacion = dt_inflacion.to_frame().reset_index()

# Renombro para realizar el match
dt_inflacion = dt_inflacion.rename(columns={"indice_tiempo":"año_mes"})

# Realizo el merge con el dataset
dataset = dataset.merge(dt_inflacion, how='left', on='año_mes')

# Para el dataset de tasas de interes tengo la misma problematica
dt_interes['indice_tiempo'] = dt_interes['indice_tiempo'].str[:7]

# Calculo el interes promedio por año_mes
dt_interes = dt_interes.groupby("indice_tiempo")["tasas_interes_pm"].mean()

# Reset index
dt_interes = dt_interes.to_frame().reset_index()

# Renombro columnas
dt_interes = dt_interes.rename(columns={"indice_tiempo":"año_mes"})

# Realizo el merge
dataset = dataset.merge(dt_interes, how='left', on='año_mes')

# Para el dataset de valor de dolar tomo nuevamente los primeros 7 caracteres:
dt_dolar['indice_tiempo'] = dt_dolar['indice_tiempo'].str[:7]

# Realizo el group 
dt_dolar = dt_dolar.groupby("indice_tiempo")["tipo_cambio_implicito_en_adrs"].mean()

# Reset index
dt_dolar = dt_dolar.to_frame().reset_index()

# Renombro columnas
dt_dolar = dt_dolar.rename(columns={"indice_tiempo":"año_mes"})

# Realizo el merge
dataset = dataset.merge(dt_dolar, how='left', on='año_mes')

# Por ultimo, procesamos el dataset del precio de alquiler
precio_alq['mes'] = precio_alq['mes'].map(mes_mapping)

# Genero la columna año_mes requerida (usada para el join)
precio_alq["año_mes"] = precio_alq['anio'].astype(str) + '-' + precio_alq['mes'].astype(str).str.zfill(2)

# Realizo el groupby por promedio.
precio_alq = precio_alq.groupby("año_mes")["precio_prom"].mean()

# Transformo a df
precio_alq = precio_alq.to_frame()

# Renombro columnas
precio_alq = precio_alq.rename({"precio_prom":"alq_prom" })

# Realizo el merge
dataset = dataset.merge(precio_alq, how='left', on='año_mes')

In [11]:
# Lo guardo
dataset.to_csv("data/transform/dataset_ventas.csv")