In [1]:
import json
import pandas as pd
import numpy as np
import re

In [2]:
pd.set_option('display.max_columns', None)

In [3]:
with open('../data/raw_houses_data.json', 'r', encoding='utf-8') as f:
    datos = json.load(f)
print(datos)

[{'location': 'Minuto de dios, Bogotá, Bogotá, d.c.', 'price': '$ 700.000.000', 'details': ['3', 'Casa', '¡Pregúntale!', '3', '216.00  m2', '200.00  m2', '16 a 30 años', '6'], 'comodities': ['Baño Auxiliar', 'Calentador', 'Canchas Deportivas', 'Cocina tipo Americano', 'Colegios / Universidades', 'Estudio', 'Garaje(s)', 'Jardín', 'Parques cercanos', 'Patio', 'Supermercados / C.Comerciales', 'Trans. Público cercano', 'Zona Comercial', 'Zona de lavandería', 'Zona Residencial', 'Zonas Verdes'], 'code': ['Código Fincaraíz: ', '192044144'], 'real_state_agent': ['Casa en  Venta es una Casa con 6 habitaciones, 3 baños y 216 m². Esta propiedad se encuentra disponible a la venta y fue ingresada por LUZ PATRICIA GONZALEZ el 19 de febrero de 2025. El precio de Venta es de $ 700.000.000']}, {'location': 'Alhambra, Bogotá, Bogotá, d.c.', 'price': '$ 650.000.000', 'details': ['5', 'Casa', '¡Pregúntale!', '3', '186.98  m2', '186.98  m2', '16 a 30 años', '3'], 'comodities': ['Baño Auxiliar', 'Calentado

In [4]:
df = pd.DataFrame(datos)
df.head()

Unnamed: 0,location,price,details,comodities,code,real_state_agent
0,"Minuto de dios, Bogotá, Bogotá, d.c.",$ 700.000.000,"[3, Casa, ¡Pregúntale!, 3, 216.00 m2, 200.00 ...","[Baño Auxiliar, Calentador, Canchas Deportivas...","[Código Fincaraíz: , 192044144]",[Casa en Venta es una Casa con 6 habitaciones...
1,"Alhambra, Bogotá, Bogotá, d.c.",$ 650.000.000,"[5, Casa, ¡Pregúntale!, 3, 186.98 m2, 186.98 ...","[Baño Auxiliar, Calentador, Canchas Deportivas...","[Código Fincaraíz: , 191482926]",[Casa en Venta es una Casa con 3 habitaciones...
2,"Engativá, Bogotá, Bogotá, d.c.",$ 1.100.000.000,"[4, Casa, Excelente estado, 4, 321.00 m2, 321...","[Cerca a sector comercial, Cerca centro comerc...","[Código Fincaraíz: , 192079025]",[Casa en Venta es una Casa con 7 habitaciones...
3,"Pinar de Suba, Bogotá, Bogotá, d.c.",$ 255.000.000,"[3, Casa, ¡Pregúntale!, 2, 60.00 m2, 58.00 m...","[Cocina Integral, Colegios / Universidades, En...","[Código Fincaraíz: , 192307407]","[Casa en Venta en Pinar de Suba, Bogotá es una..."
4,"Tunjuelito, Bogotá, Bogotá, d.c.",$ 550.000.000,"[2, Casa, ¡Pregúntale!, 3, 228.00 m2, ¡Pregún...","[Sobre vía principal, Zona Residencial]","[Código Fincaraíz: , 192313340]","[Casa en Venta es una Casa con 6 habitaciones,..."


In [5]:
def transform_location(raw_location):
    try:
        neighbourhood = raw_location.split(',')[0]
        return neighbourhood
    except:
        return np.nan

In [6]:
def transform_price(raw_price):
    try:
        price = raw_price.replace('$','').strip()
        price = int(price.replace('.',''))
        return price
    except:
        return np.nan

In [7]:
def transform_detail_to(raw_detail, loc):
    try:
        data = raw_detail[loc]
        if data == '¡Pregúntale!' or data == 'Sin Definir':
            return np.nan
        else:
            return data.strip()
    except:
        return np.nan

In [8]:
def transform_detail_to_area(raw_detail, loc):
    try:
        return float(raw_detail[loc].split(' ')[0])
    except:
        return np.nan

In [10]:
def transform_code(raw_code):
    try:
        return raw_code[1]
    except:
        return np.nan

In [11]:
def transform_agent(raw_agent):
    try:
        pattern = r"ingresada por(.*?) el"
        result = re.search(pattern, raw_agent[0])
        return result.group(1).strip().lower()
    except:
        return np.nan

In [12]:
def transform_date(raw_agent):
    try:
        pattern = r"el (.*?). El"
        result = re.search(pattern, raw_agent[0])
        string = result.group(1).strip().lower()
        format_string = string.replace('de','/').replace(' ','')
        if 'enero' in format_string:
            date =  format_string.replace('enero', '01')
        elif 'febrero' in format_string:
            date =  format_string.replace('febrero', '02')
        elif 'marzo' in format_string:
            date =  format_string.replace('marzo', '03')
        elif 'abril' in format_string:
            date =  format_string.replace('abril', '04')
        elif 'mayo' in format_string:
            date =  format_string.replace('mayo', '05')
        elif 'junio' in format_string:
            date =  format_string.replace('junio', '06')
        elif 'julio' in format_string:
            date =  format_string.replace('julio', '07')
        elif 'agosto' in format_string:
            date =  format_string.replace('agosto', '08')
        elif 'septiembre' in format_string:
            date =  format_string.replace('septiembre', '09')
        elif 'octubre' in format_string:
            date =  format_string.replace('octubre', '10')
        elif 'noviembre' in format_string:
            date =  format_string.replace('noviembre', '11')
        elif 'diciembre' in format_string:
            date =  format_string.replace('diciembre', '12')
        else:
            date = format_string
        return date[-10:]
    except:
        return np.nan

In [13]:
def dummies_comodities(df):
    # Separa los comodities y el ID en un nuevo dataframe y expande la lista de comodities en una unica fila de compinación id-comodity
    comodities = df[['comodities', 'id']].explode('comodities')
    # Genera el listado de variables dummies por todos los comodities 
    dummies = pd.get_dummies(comodities['comodities'])
    # Genera un df con los ids y las respectivas variables dummies, se une por el indice asi que no hay problema de que se corran los valores. Finalmente se agrupan por id.
    other_df = pd.concat([comodities['id'],dummies], axis=1).groupby('id').sum().reset_index().sort_values('id')
    # Se concatenan el df anterior y el original por ID
    final_df = df.merge(other_df, on='id', how='inner', sort='id')
    return final_df

In [24]:
def feature_columns(df):
    new_df = df.copy()
    new_df['id'] = new_df['code'].apply(transform_code)
    new_df['neighbourhood'] = new_df['location'].apply(transform_location)
    new_df['fixed_price'] = new_df['price'].apply(transform_price)
    new_df['stratum'] = new_df['details'].apply(lambda x: transform_detail_to(x, 0)).astype('float')
    new_df['type'] = new_df['details'].apply(lambda x: transform_detail_to(x, 1))
    new_df['status'] = new_df['details'].apply(lambda x: transform_detail_to(x, 2))
    new_df['bathrooms'] = new_df['details'].apply(lambda x: transform_detail_to(x, 3)).astype('float')
    new_df['built_area'] = new_df['details'].apply(lambda x: transform_detail_to_area(x,4))
    new_df['private_area'] = new_df['details'].apply(lambda x: transform_detail_to_area(x,5))
    new_df['age'] = new_df['details'].apply(lambda x: transform_detail_to(x, 6))
    new_df['rooms'] = new_df['details'].apply(lambda x: transform_detail_to(x, 7)).astype('float')
    new_df['rs_agent'] = new_df['real_state_agent'].apply(transform_agent)
    new_df['registered_date'] = pd.to_datetime(new_df['real_state_agent'].apply(transform_date), format='%d/%m/%Y', errors='coerce')
    new_df = dummies_comodities(new_df)
    new_df = new_df.drop(['location', 'price', 'details', 'real_state_agent', 'code', 'comodities'], axis=1)
    return new_df

In [25]:
df_cleaned = feature_columns(df)
df_cleaned.sample(3)

Unnamed: 0,id,neighbourhood,fixed_price,stratum,type,status,bathrooms,built_area,private_area,age,rooms,rs_agent,registered_date,Acceso Pavimentado,Aire Acondicionado,Alarma,Alarma Contra Incendio,Alcantarillado,Altura libre,Altura restringida,Amoblado,Asador,Ascensor,Ascensor(es) inteligente(s),Auditorio,Bahias de parqueo,Bahía exterior de parqueo,Balcón,Barra estilo americano,Baño Auxiliar,Baño Independiente,Baño compartido,Baño de Servicio,Baños Mixtos,Baños Públicos,Baños comunales,Bombas de gasolina,Bósque nativo,Cableado de Red,Caldera,Calentador,Cancha de Baloncesto,Cancha de Futbol,Cancha de Squash,Cancha de Tennis,Canchas Deportivas,Cerca a sector comercial,Cerca centro comercial,Cerca de Zona Urbana,Chimenea,Circuito cerrado de TV,Citófono,Closet,Cochera,Cocina Equipada,Cocina Integral,Cocina tipo Americano,Cocineta,Colegios / Universidades,Comedor,Comedor auxiliar,Con Vivienda,Con administrador,Con casa club,Con cerca eléctrica,Control térmico,Cuarto de Escoltas,Cuarto de Servicio,Cuarto de conductores,Cuarto de servicio,Cómodas vias de acceso,Depósito / Bodega,Despensa,Disponibilidad WiFi,Duplex,Edificio Inteligente,En casa,En centro Comercial,En condominio,En conjunto cerrado,En zona Comercial,En zona residencial,Escalera de Emergencia,Escaleras eléctricas,Esquinero,Estudio,Fuera de Centro Comercial,Garaje / Parqueadero(s),Garaje Cubierto,Garaje(s),Gimnasio,Hall de Alcobas,Instalación de gas,Invernadero,Jardines Exteriores,Jardín,Kiosko,Lic. De construccion,Local Exterior,Local Interior,Locales comerciales,Mezzanine,Oficina de negocios,Oficinas administrativas,Panorámica un lado,Parque industrial,Parqueadero Visitantes,Parqueadero a Nivel,Parqueadero interno,Parques cercanos,Patio,Patio Interno,Piscina,Piso de alta resistencia,Piso en Alfombra,Piso en Baldosa / Mármol,Piso en Madera,Piso en cemento,Planta Eléctrica,Portería / Recepción,Portería / Vigilancia,Pozo de agua natural,Puerta de seguridad,Restaurantes,Rio / Quebrada cercano(a),Sala de internet,Salón Comunal,Salón de Juegos,Salón de videoconferencias,Sauna / Turco / Jacuzzi,Seguridad,Senderos ecológicos,Sensor de movimiento,Servicio de Internet,Servicio de Lavandería,Servicios Públicos,Servicios independientes,Shut de basura,Sobre vía principal,Sobre vía secundaria,Soporte de grúas,Supermercados / C.Comerciales,Sístema de riego,Tanques de Agua,Tarjetas Magnéticas,Tarjetas inteligentes,Terraza,Todos los Servicios,Trans. Público cercano,Ventilación Natural,Vigilancia,Vigilancia 24x7,Vigilancia privada 24*7,Vista panorámica,Vivienda Bifamiliar,Vivienda Multifamiliar,Zona Campestre,Zona Comercial,Zona Industrial,Zona Infantil,Zona Residencial,Zona de BBQ,Zona de Camping,Zona de lavandería,Zonas Verdes,Árboles frutales,Área Urbana
531,191931678,Restrepo,1500000000.0,3.0,Casa,,10.0,400.0,126.0,16 a 30 años,11.0,inmobiliaria ruben quiroga,2025-01-28,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,1,0,1,0,0,0,0,1,0,0,0,1,0,0,1,0,0,1,1,0,0
965,7620436,Niza norte,1400000000.0,5.0,Casa,Buen estado,3.0,428.0,428.0,más de 30 años,4.0,home elegance,2022-09-22,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0,0,1,0,0,1,1,0,0
103,10689378,Las cruces,450000000.0,3.0,Casa,,1.0,352.0,352.0,más de 30 años,15.0,liliana gonzalez,2024-03-13,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [26]:
df_cleaned.to_feather("../data/clened_houses_data.feather")

In [17]:
cleande_data = pd.read_feather("../data/clened_houses_data.feather")