# Transform-info
1 - Transform-info

Este script va ser el encargado de procesar toda la informacion obtenida del mercado inmobiliario con la finalidad de unificar el dataset

In [50]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# to display all the columns of the dataframe in the notebook
pd.pandas.set_option('display.max_columns', None)

In [51]:
# Descripcion:
# Monto de préstamos hipotecarios en Unidades de Valor Adquisitivo (UVA). 
# Fuente BCRA.

# load dataset
montos_chuva = pd.read_csv('data/montos-creditos-hipotecarios-uva.csv')

# rows and columns of the data
print(montos_chuva.shape)

# visualise the dataset
montos_chuva.head(2)

(60, 4)


Unnamed: 0,año_mes,Monto operado prestamos de UVA (en miles de pesos),Var. mensual (%),Var. Anual (%)
0,2016-05,2075,,
1,2016-06,14247,586.602409638554,


In [52]:
# Descripcion:
# Precio promedio mensual (pesos) de departamentos en alquiler de 2 y 3 ambientes usados y a estrenar en la Ciudad. 
# Fuente DGEyC-GCBA en base sobre la base de datos de Argenprop.

# load dataset
precio_alq = pd.read_csv('data/precio-alquiler-deptos.csv')

# rows and columns of the data
print(precio_alq.shape)

# visualise the dataset
precio_alq.head(2)

(7104, 6)


Unnamed: 0,barrio,anio,mes,precio_prom,ambientes,comuna
0,AGRONOMIA,2013,Jul,,3 ambientes,15
1,AGRONOMIA,2013,Ago,,3 ambientes,15


In [188]:
# Descripcion:
# Precio promedio del m2 (dólares) de departamentos en venta de 2 y 3 ambientes usados y a estrenar. 
# Fuente DGEyC-GCBA en base sobre la base de datos de Argenprop.

# load dataset
precio_venta = pd.read_csv('data/precio-venta-deptos.csv')

# rows and columns of the data
print(precio_venta.shape)

# visualise the dataset
precio_venta.head(2)

(7296, 7)


Unnamed: 0,barrio,año,trimestre,precio_prom,ambientes,estado,comuna
0,AGRONOMIA,2010,1,,2 ambientes,Usado,15
1,AGRONOMIA,2010,2,,2 ambientes,Usado,15


In [124]:
# Descripcion:
# Superficie total (m2) de departamentos en alquiler de 1 a 5 ambientes (usados y a estrenar) por barrio. 
# Fuente DGEyC en base sobre la base de datos de Argenprop.

# load dataset
sup_deptos = pd.read_csv('data/superficie-deptos.csv')

# rows and columns of the data
print(sup_deptos.shape)

# visualise the dataset
sup_deptos.head(2)

(3552, 5)


Unnamed: 0,barrio,año,mes,superficie,comuna
0,AGRONOMIA,2013,Jul,574,15
1,AGRONOMIA,2013,Ago,320,15


In [119]:
# Descripcion:
# Actos notariales de compra venta de inmuebles e hipotecas anotados en el Colegio de Escribanos de la Ciudad de Buenos Aires.
# Fuente DGEyC-GCBA sobre la base de datos del Colegio de Escribanos CABA.

# load dataset
actas_compra_venta = pd.read_csv('data/actas-notariales-compra-venta-inmuebles-hipotecas.csv')

# rows and columns of the data
print(actas_compra_venta.shape)

# visualise the dataset
actas_compra_venta.tail(50)


(230, 4)


Unnamed: 0,año_mes,Actos notariales de compra venta de inmuebles anotados en el Colegio de Escribanos. CABA,Var. mensual (%),Var. Anual (%)
180,2017-01,3426.0,-44.830918,80.220936
181,2017-02,3017.0,-11.93812,57.135417
182,2017-03,4513.0,49.585681,43.771902
183,2017-04,4035.0,-10.591624,20.555722
184,2017-05,5100.0,26.394052,39.802632
185,2017-06,5174.0,1.45098,41.986828
186,2017-07,5312.0,2.667182,48.75385
187,2017-08,6026.0,13.441265,42.660985
188,2017-09,6014.0,-0.199137,42.782526
189,2017-10,6154.0,2.327902,48.182037


In [56]:
# Descripcion:
# Dataset de Properati
# Fuente https://www.properati.com.ar/data/

# load dataset
dt_properati = pd.read_csv('data/ar_properties.csv')

# rows and columns of the data
print(dt_properati.shape)

# visualise the dataset
dt_properati.head(2)

(1000000, 25)


Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
0,DyVXfkpKygVBKuUk5olH+A==,Propiedad,2020-08-22,2020-09-03,2020-08-22,-34.407468,-58.957367,Argentina,Bs.As. G.B.A. Zona Norte,Pilar,,,,,,,133139.0,,,,Mensual,VENTA - Lote Industrial 130.000m2 - Parque Ind...,Lote (Nro.50) mide 133.139 m2\n<br>Valor: U$S ...,Lote,Venta
1,9naojilaMecJN4jlQiTkGg==,Propiedad,2020-08-22,2020-09-04,2020-08-22,-37.996039,-57.542509,Argentina,Buenos Aires Costa Atlántica,Mar del Plata,,,,8.0,,,687.0,687.0,,,Mensual,Casa - Santa Cecilia,Conjunto edilicio de casa y departamentos en b...,Otro,Venta


In [57]:
# Posee un año de informacion. Sin embargo, lo voy a utilizar como estimador.

print("Desde: "+dt_properati['created_on'].min())
print("Hasta: "+dt_properati['created_on'].max())

Desde: 2020-05-24
Hasta: 2021-06-17


In [58]:
# Filtro lo que me sirve:
dt_properati.l2.unique()

array(['Bs.As. G.B.A. Zona Norte', 'Buenos Aires Costa Atlántica',
       'Entre Ríos', 'Misiones', 'Santa Fe', 'Bs.As. G.B.A. Zona Oeste',
       'Tucumán', 'Chubut', 'Capital Federal', 'Córdoba',
       'Buenos Aires Interior', 'Bs.As. G.B.A. Zona Sur', 'Canelones',
       'San Luis', 'Neuquén', 'Colonia', 'Maldonado', 'Río Negro',
       'Montevideo', 'Mendoza', 'Corrientes', 'Salta', 'La Pampa',
       'Florida', 'Tierra Del Fuego', 'Chaco', 'Santa Cruz', 'Catamarca',
       'San Juan', 'Santiago Del Estero', 'Miami', 'Jujuy', 'Michigan',
       'São Paulo', 'La Rioja', 'Rocha', 'Santa Catarina', 'Pennsylvania',
       'Formosa', 'Rio Grande do Norte', 'Maryland', 'Rio de Janeiro',
       'California'], dtype=object)

In [59]:
dt_properati = dt_properati[(dt_properati['l2'] == 'Capital Federal')]

In [60]:
dt_properati.head(1)

Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
16,LrDZTDP9vyylLQ3SmazY1A==,Propiedad,2020-08-22,2020-09-04,2020-08-22,-34.633053,-58.419906,Argentina,Capital Federal,Boedo,,,,,,,,520.0,70000.0,ARS,Mensual,Depósito con Oficina en Boedo,Depósito con amplias y cómodas oficinas y c...,Oficina,Alquiler


In [61]:
# Filtro lo que me sirve:
dt_properati.property_type.unique()

array(['Oficina', 'Departamento', 'Local comercial', 'Lote', 'Cochera',
       'PH', 'Casa', 'Otro', 'Depósito', 'Casa de campo'], dtype=object)

In [62]:
dt_properati = dt_properati[( (dt_properati['property_type'] == 'Departamento') |
                              (dt_properati['property_type'] == 'Casa')         |
                              (dt_properati['property_type'] == 'PH') )]

In [63]:
dt_properati.operation_type.unique()

array(['Alquiler', 'Alquiler temporal', 'Venta'], dtype=object)

In [64]:
dt_properati = dt_properati[( (dt_properati['operation_type'] == 'Alquiler')  |
                              (dt_properati['operation_type'] == 'Venta') )]

In [65]:
dt_properati.shape[0]

203230

In [66]:
dt_properati_ventas = dt_properati[(dt_properati['operation_type'] == 'Venta')]
cant_publicaciones = dt_properati_ventas.shape[0]

In [67]:
# Porcentaje relativo de departamentos publicados por barrio para proyectar las ventas
df_ventas_relativo_barrio = ( dt_properati_ventas.groupby("l3")['id'].count() / cant_publicaciones ) * 100
df_ventas_relativo_barrio

l3
Abasto                   0.295457
Agronomía                0.211041
Almagro                  4.628824
Balvanera                2.416735
Barracas                 1.166479
Barrio Norte             2.914919
Belgrano                11.906528
Boca                     0.390745
Boedo                    1.371764
Caballito                6.531387
Catalinas                0.005116
Centro / Microcentro     0.246214
Chacarita                0.650389
Coghlan                  0.987414
Colegiales               2.159649
Congreso                 0.698353
Constitución             0.510974
Flores                   2.903407
Floresta                 1.341707
Las Cañitas              0.388826
Liniers                  1.183107
Mataderos                1.148573
Monserrat                0.915788
Monte Castro             0.415686
Nuñez                    3.014044
Once                     0.415047
Palermo                 14.516397
Parque Avellaneda        0.338305
Parque Centenario        0.332549
Parque Chac

In [68]:
# Relaciones de superficies en alquiler
dt_properati_alq = dt_properati[(dt_properati['operation_type'] == 'Alquiler')]

In [69]:
dt_properati_alq = dt_properati_alq[ (dt_properati_alq.rooms.notnull()) ]

In [70]:
cant_publicaciones = dt_properati_alq.shape[0]
cant_publicaciones

43701

In [71]:
dt_properati_alq['ambientes'] = dt_properati_alq['rooms'] + 1

In [72]:
dt_properati_alq.head(1)

Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type,ambientes
27,3xIPcyYT3dxzTQSJ0mVh8A==,Propiedad,2020-08-22,2020-09-04,2020-08-22,-34.61643,-58.414393,Argentina,Capital Federal,Almagro,,,,1.0,,1.0,42.0,28.0,20000.0,ARS,Mensual,Alquiler - Monoambiente con Patio. Súper Lumi...,Hermoso Monoambiente en Almagro! Muy bien ubic...,Departamento,Alquiler,2.0


In [73]:
cant_deptos_alq = dt_properati_alq.shape[0]

In [74]:
dt_properati_alq_2_3_amb = dt_properati_alq[( (dt_properati_alq['ambientes'] == 2)  |
                                              (dt_properati_alq['ambientes'] == 3) )]

In [75]:
cant_deptos_alq_2_3 = dt_properati_alq_2_3_amb.shape[0]

In [76]:
cant_deptos_alq_2_3 / cant_deptos_alq

0.6228461591267934

In [77]:
# Descripcion:
# Dataset de dolar.
# Fuente https://datos.gob.ar/dataset/sspm-tipo-cambio--usd---futuro-dolar/archivo/sspm_168.1

# load dataset
dt_dolar = pd.read_csv('data/datos-tipo-cambio-usd-futuro-dolar-frecuencia-diaria.csv')

# rows and columns of the data
print(dt_dolar.shape)

# visualise the dataset
dt_dolar.tail(2)

(7150, 18)


Unnamed: 0,indice_tiempo,tipo_cambio_bna_vendedor,tipo_cambio_a3500,tipo_cambio_mae,volumen_mae,tipo_cambio_implicito_en_adrs,futuro_rofex_usd1m,interes_abierto_1m,futuro_rofex_usd2m,interes_abierto_2m,futuro_rofex_usd3m,interes_abierto_3m,futuro_rofex_usd4m,interes_abierto_4m,futuro_rofex_usd5m,interes_abierto_5m,futuro_rofex_usd6m,interes_abierto_6m
7148,2021-09-29,103.75,98.705,98.72,195070.0,195.696721,98.74,933897.0,100.73,901606.0,103.55,733969.0,108.17,550545.0,114.2,247267.0,118.55,199575.0
7149,2021-09-30,104.0,98.735,98.74,339160.0,192.502483,98.74,933897.0,100.45,1257252.0,103.45,758081.0,108.03,534876.0,114.05,255425.0,118.42,212948.0


In [212]:
# Descripcion:
# Interes por mes
# Fuente https://datos.gob.ar/dataset/sspm-principales-tasas-interes/archivo/sspm_89.2

# load dataset
dt_interes = pd.read_csv('data/principales-tasas-interes-diarias.csv')

# rows and columns of the data
print(dt_interes.shape)

# visualise the dataset
dt_interes.tail(2)

(6847, 4)


Unnamed: 0,indice_tiempo,tasas_interes_call,tasas_interes_badlar,tasas_interes_pm
6845,2021-09-29,31.99,34.1875,38.0
6846,2021-09-30,33.25,34.1875,38.0


In [79]:
# Descripcion:
# Expectativa de devaluacion
# Fuente https://datos.gob.ar/dataset/sspm-expectativas-inflacion/archivo/sspm_431.1

# load dataset
dt_inflacion = pd.read_csv('data/expectativas-inflacion-a-doce-mes.csv')

# rows and columns of the data
print(dt_inflacion.shape)

# visualise the dataset
dt_inflacion.tail(2)

(182, 3)


Unnamed: 0,indice_tiempo,expectativa_inflacion_mediana,expectativa_inflacion_promedio
180,2021-08-01,50.0,48.0
181,2021-09-01,50.0,48.6


In [80]:
# Comienzo a concatenar y formar mi dataset
dataset = pd.DataFrame()

# Posee caracteres basura en algunas filas. Filtro:
actas_compra_venta['año_mes'] = actas_compra_venta['año_mes'].str[:7]

In [82]:
dataset = actas_compra_venta.merge(montos_chuva, how='left', on='año_mes')

In [83]:
dataset.drop(column="")

Unnamed: 0,año_mes,Actos notariales de compra venta de inmuebles anotados en el Colegio de Escribanos. CABA,Var. mensual (%)_x,Var. Anual (%),Monto operado prestamos de UVA (en miles de pesos),Var. mensual (%)_y,Var. Anual (%).1
0,2002-01,1678.0,,,,,
1,2002-02,1557.0,-7.210965,,,,
2,2002-03,3434.0,120.552344,,,,
3,2002-04,8035.0,133.983692,,,,
4,2002-05,8098.0,0.78407,,,,


In [85]:
dataset.columns

Index(['año_mes',
       'Actos notariales de compra venta de inmuebles anotados en el Colegio de Escribanos. CABA ',
       'Var. mensual (%)_x', 'Var. Anual (%) ',
       'Monto operado prestamos de UVA (en miles de pesos)',
       'Var. mensual (%)_y', 'Var. Anual (%)'],
      dtype='object')

In [98]:
dataset = dataset.rename(columns={'Actos notariales de compra venta de inmuebles anotados en el Colegio de Escribanos. CABA ': 'actos_coleg_esc', 
                                  'Monto operado prestamos de UVA (en miles de pesos)': 'monto_cred_uva'})

In [101]:
dataset = dataset[['año_mes','actos_coleg_esc','monto_cred_uva']].copy()

In [120]:
dataset.head(1)

Unnamed: 0,año_mes,actos_coleg_esc,monto_cred_uva
0,2002-01,1678.0,


In [125]:
# Agrego las superficie de los deptos
sup_deptos.head(1)

Unnamed: 0,barrio,año,mes,superficie,comuna
0,AGRONOMIA,2013,Jul,574,15


In [144]:
mes_mapping = {
    'Ene': 1 ,
    'Feb': 2 ,
    'Mar': 3 ,
    'Abr': 4 ,
    'May': 5 ,
    'Jun': 6 ,
    'Jul': 7 ,
    'Ago': 8 ,
    'Sep': 9 ,
    'Oct': 10 ,
    'Nov': 11 ,
    'Dic': 12
}

In [145]:
sup_deptos['mes'] = sup_deptos['mes'].map(mes_mapping)

In [146]:
sup_deptos.head(1)

Unnamed: 0,barrio,año,mes,superficie,comuna
0,AGRONOMIA,2013,7,574,15


In [156]:
sup_deptos["año_mes"] = sup_deptos['año'].astype(str) + '-' + sup_deptos['mes'].astype(str).str.zfill(2)

In [157]:
sup_deptos.head(1)

Unnamed: 0,barrio,año,mes,superficie,comuna,año_mes
0,AGRONOMIA,2013,7,574,15,2013-07


In [159]:
sup_deptos = sup_deptos.groupby("año_mes")["superficie"].sum()

In [166]:
sup_deptos = sup_deptos.to_frame()

In [167]:
# Merge
dataset = dataset.merge(sup_deptos, how='left', on='año_mes')

In [169]:
dataset = dataset[['año_mes','actos_coleg_esc','monto_cred_uva','superficie']].copy()

In [189]:
# Agrego los precios promedios

precio_venta.head(2)

Unnamed: 0,barrio,año,trimestre,precio_prom,ambientes,estado,comuna
0,AGRONOMIA,2010,1,,2 ambientes,Usado,15
1,AGRONOMIA,2010,2,,2 ambientes,Usado,15


In [190]:
precio_venta['trimestre'].unique()

array([1, 2, 3, 4], dtype=int64)

In [191]:
# Trimestre: Tres meses. Reemplazo por el mes central y luego voy a completar los faltantes con el promedio entre superior
# e inferior:
trim_mapping = {
    1: 2 ,
    2: 5 ,
    3: 8 ,
    4: 11 
}

In [192]:
precio_venta['trimestre'] = precio_venta['trimestre'].map(trim_mapping)

In [193]:
precio_venta["año_mes"] = precio_venta['año'].astype(str) + '-' + precio_venta['trimestre'].astype(str).str.zfill(2)

In [194]:
precio_venta.head(1)

Unnamed: 0,barrio,año,trimestre,precio_prom,ambientes,estado,comuna,año_mes
0,AGRONOMIA,2010,2,,2 ambientes,Usado,15,2010-02


In [196]:
# Obtengo el promedio de precio de venta por m2 por año_mes
precio_venta = precio_venta.groupby("año_mes")["precio_prom"].mean()

In [198]:
precio_venta = precio_venta.to_frame()

In [199]:
# Merge
dataset = dataset.merge(precio_venta, how='left', on='año_mes')

In [208]:
# Agrego inflacion:
dt_inflacion.tail(2)

Unnamed: 0,indice_tiempo,expectativa_inflacion_mediana,expectativa_inflacion_promedio
180,2021-08-01,50.0,48.0
181,2021-09-01,50.0,48.6


In [210]:
# Posee dia en las filas. Filtro:
dt_inflacion['indice_tiempo'] = dt_inflacion['indice_tiempo'].str[:7]

In [211]:
dt_inflacion.tail(2)

Unnamed: 0,indice_tiempo,expectativa_inflacion_mediana,expectativa_inflacion_promedio
180,2021-08,50.0,48.0
181,2021-09,50.0,48.6


In [221]:
dt_inflacion = dt_inflacion.groupby("indice_tiempo")["expectativa_inflacion_mediana"].mean()

In [222]:
dt_inflacion = dt_inflacion.to_frame().reset_index()

In [225]:
dt_inflacion = dt_inflacion.rename(columns={"indice_tiempo":"año_mes"})

In [226]:
# Merge
dataset = dataset.merge(dt_inflacion, how='left', on='año_mes')

In [229]:
dataset.tail(50)

Unnamed: 0,año_mes,actos_coleg_esc,monto_cred_uva,superficie,precio_prom,expectativa_inflacion_mediana
180,2017-01,3426.0,590482.0,63067.0,,25.0
181,2017-02,3017.0,743757.0,60630.0,2439.240602,25.0
182,2017-03,4513.0,1143646.0,65524.0,,25.0
183,2017-04,4035.0,1249687.0,70753.0,,20.0
184,2017-05,5100.0,1645988.0,73689.0,2485.716667,21.0
185,2017-06,5174.0,2628317.0,66752.0,,20.0
186,2017-07,5312.0,3991791.0,64244.0,,20.0
187,2017-08,6026.0,6068514.0,65655.0,2577.46087,20.0
188,2017-09,6014.0,7326432.0,53686.0,,20.0
189,2017-10,6154.0,8266415.0,49591.0,,20.0


In [230]:
# Agrego tasas de interes:

# visualise the dataset
dt_interes.tail(2)

Unnamed: 0,indice_tiempo,tasas_interes_call,tasas_interes_badlar,tasas_interes_pm
6845,2021-09-29,31.99,34.1875,38.0
6846,2021-09-30,33.25,34.1875,38.0


In [231]:
dt_interes['indice_tiempo'] = dt_interes['indice_tiempo'].str[:7]

In [232]:
dt_interes = dt_interes.groupby("indice_tiempo")["tasas_interes_pm"].mean()

In [234]:
dt_interes = dt_interes.to_frame().reset_index()
dt_interes = dt_interes.rename(columns={"indice_tiempo":"año_mes"})

In [237]:
# Merge
dataset = dataset.merge(dt_interes, how='left', on='año_mes')

In [239]:
dataset.tail(5)

Unnamed: 0,año_mes,actos_coleg_esc,monto_cred_uva,superficie,precio_prom,expectativa_inflacion_mediana_x,expectativa_inflacion_mediana_y,tasas_interes_pm
225,2020-10,,268427.0,,,45.0,45.0,37.0
226,2020-11,,311425.0,,,40.0,40.0,36.933333
227,2020-12,,264095.0,,,30.0,30.0,38.0
228,2021-01,,249395.0,,,45.0,45.0,38.0
229,2021-02,,131865.0,,,45.0,45.0,38.0


In [241]:
# Agrego valor del dolar:

dt_dolar['indice_tiempo'] = dt_dolar['indice_tiempo'].str[:7]

In [242]:
dt_dolar.head(1)

Unnamed: 0,indice_tiempo,tipo_cambio_bna_vendedor,tipo_cambio_a3500,tipo_cambio_mae,volumen_mae,tipo_cambio_implicito_en_adrs,futuro_rofex_usd1m,interes_abierto_1m,futuro_rofex_usd2m,interes_abierto_2m,futuro_rofex_usd3m,interes_abierto_3m,futuro_rofex_usd4m,interes_abierto_4m,futuro_rofex_usd5m,interes_abierto_5m,futuro_rofex_usd6m,interes_abierto_6m
0,2002-03,,1.9917,,,2.180124,,,,,,,,,,,,


In [243]:
dt_dolar = dt_dolar.groupby("indice_tiempo")["tipo_cambio_implicito_en_adrs"].mean()

In [244]:
dt_dolar = dt_dolar.to_frame().reset_index()
dt_dolar = dt_dolar.rename(columns={"indice_tiempo":"año_mes"})

In [245]:
# Merge
dataset = dataset.merge(dt_dolar, how='left', on='año_mes')

In [249]:
dataset.head(100)

Unnamed: 0,año_mes,actos_coleg_esc,monto_cred_uva,superficie,precio_prom,expectativa_inflacion_mediana_x,expectativa_inflacion_mediana_y,tasas_interes_pm,tipo_cambio_implicito_en_adrs
0,2002-01,1678.0,,,,,,,
1,2002-02,1557.0,,,,,,,
2,2002-03,3434.0,,,,,,,2.637099
3,2002-04,8035.0,,,,,,,2.996129
4,2002-05,8098.0,,,,,,,3.207032
...,...,...,...,...,...,...,...,...,...
95,2009-12,6758.0,,,,25.0,25.0,,3.757163
96,2010-01,3433.0,,,,20.0,20.0,,3.835480
97,2010-02,3331.0,,,1606.519481,25.0,25.0,,3.864431
98,2010-03,4958.0,,,,25.0,25.0,,3.899503


In [250]:
dataset.shape

(230, 9)

In [251]:
dataset.to_csv("data/dataset_v1.csv")