In [105]:
import pandas as pd

df = pd.read_csv("tmp/zonaprop_raw_extract_2024-11-26.csv")

In [106]:
# En "location" tenemos la ubicación y el barrio. Separamos los valores en dos columnas
df[['neighborhood', 'location']] = df['location'].str.split(",", expand=True)

In [107]:
# Vamos a limpiar el valor de las expensas para que nos quede únicamente un número
df['expenses'] = df['expenses'].str.extract(r'(\d{1,3}(?:\.\d{3})*)')

In [108]:
# Vamos a normalizar el precio a una única moneda (Pesos)
# Primero separaremos el valor en dos columnas, una para la moneda y otra para el valor
df[['price_currency', 'price']] = df['price'].str.split(" ", expand=True)

In [109]:
# Normalizamos a pesos
df = df.loc[df['price'].str.strip() != "precio"]

# Oficial Venta
VALOR_DOLAR = 1027.5
df.loc[df['price_currency'] == 'USD', 'price'] = df['price'].str.replace(".", "", regex=False).astype(float) * VALOR_DOLAR

# Drop de price_currency
df.drop(columns=['price_currency'], inplace=True)

In [116]:
# Extraemos las features y las separamos en distintas columnas

import numpy as np


total_area_pattern = r"(\d+)\s?m²"
rooms_pattern = r"(\d+)\s?amb\.?"
bedrooms_pattern = r"(\d+)\s?dorm\.?"
bathrooms_pattern = r"(\d+)\s?bañ(?:os|o)"
garages_pattern = r"(\d+)\s?coch\.?"

# Extract values into new columns
df["total_area"] = df["features"].str.extract(total_area_pattern, expand=True)
df["rooms"] = df["features"].str.extract(rooms_pattern, expand=True)
df["bedrooms"] = df["features"].str.extract(bedrooms_pattern, expand=True)
df["bathrooms"] = df["features"].str.extract(bathrooms_pattern, expand=True)
df["garages"] = df["features"].str.extract(garages_pattern, expand=True)


# Convert extracted columns to numeric types
df[["total_area", "rooms", "bedrooms", "bathrooms", "garages"]] = (
    df[["total_area", "rooms", "bedrooms", "bathrooms", "garages"]]
    .apply(pd.to_numeric)
)

df.drop(columns=['features'], inplace=True)

# Agregamos la columna antiguedad
df['antiquity'] = np.nan
df.head(20)

Unnamed: 0,zonaprop_code,updated_at,location,created_at,expenses,property_url,address,price,description,neighborhood,total_area,rooms,bedrooms,bathrooms,garages,antiquity
0,54830268,2024-11-26,Capital Federal,2024-11-26,600.0,https://www.zonaprop.com.ar/propiedades/clasif...,,3082500.0,"Piso en Avenida Alvear y Parera, cinco ambient...",Recoleta,180.0,5.0,3.0,2.0,,
1,54759611,2024-11-26,Capital Federal,2024-11-26,98.0,https://www.zonaprop.com.ar/propiedades/clasif...,,580.000,Alquiler Departamento 3 Ambientes - Av. Direct...,Caballito,47.0,3.0,2.0,1.0,,
2,54714841,2024-11-26,Capital Federal,2024-11-26,,https://www.zonaprop.com.ar/propiedades/clasif...,,637050.0,"Fray Justo Sta. María de Oro 2500, Buenos Aire...",Palermo,50.0,2.0,1.0,1.0,,
3,54642594,2024-11-26,Capital Federal,2024-11-26,98.0,https://www.zonaprop.com.ar/propiedades/clasif...,,390.000,Se trata de un monoambiente con balcón aterriz...,Belgrano,35.0,1.0,1.0,1.0,1.0,
4,54152410,2024-11-26,Capital Federal,2024-11-26,300.0,https://www.zonaprop.com.ar/propiedades/clasif...,,1849500.0,Excelente departamento tres ambientes totalmen...,Palermo,70.0,3.0,2.0,2.0,,
5,54705155,2024-11-26,Capital Federal,2024-11-26,100.0,https://www.zonaprop.com.ar/propiedades/clasif...,,360.000,"Amplio monoambiente en L, al frente con ventan...",Núñez,37.0,1.0,,1.0,,
6,54884194,2024-11-26,Capital Federal,2024-11-26,80.9,https://www.zonaprop.com.ar/propiedades/clasif...,,750.000,"Departamento de 2 ambientes en 63 m2, espectac...",Núñez,63.0,2.0,1.0,1.0,,
8,54868679,2024-11-26,Capital Federal,2024-11-26,150.0,https://www.zonaprop.com.ar/propiedades/clasif...,,1.200.000,Excelente 4 ambientes con dependencia y patio ...,Palermo,120.0,5.0,4.0,1.0,,
9,54884219,2024-11-26,Capital Federal,2024-11-26,90.0,https://www.zonaprop.com.ar/propiedades/clasif...,,570.000,Excelente Depto 3 Amb - villa lurofrente a Pla...,Villa Luro,59.0,3.0,2.0,1.0,,
10,42502153,2024-11-26,Capital Federal,2024-11-26,97.0,https://www.zonaprop.com.ar/propiedades/clasif...,,570.000,"Dpto. En duplex tipo loft de 2 ambientes, en R...",Flores,55.0,2.0,1.0,1.0,,


In [117]:
df.columns

Index(['zonaprop_code', 'updated_at', 'location', 'created_at', 'expenses',
       'property_url', 'address', 'price', 'description', 'neighborhood',
       'total_area', 'rooms', 'bedrooms', 'bathrooms', 'garages', 'antiquity'],
      dtype='object')