In [107]:
import pandas as pd
from pathlib import Path

municipios = ["guadalajara", "tlajomulco", "tlaquepaque", "tonala", "zapopan"]
dfs = []

for municipio in municipios:
    for archivo in Path(f"Data/{municipio}").iterdir():
        if archivo.suffix == ".csv":
            df_municipio = pd.read_csv(archivo.resolve(), encoding="utf-8")
            df_municipio["municipio"] = municipio
            dfs.append(df_municipio)

df = pd.concat(dfs, ignore_index=True)
df

Unnamed: 0,url,titulo,precio,direccion,m2_lote,m2_construccion,banos,medio_banos,estacionamientos,recamaras,antiguedad,municipio
0,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Fraccionamiento Jardines de S...,"ventaMN 24,400,000","San Pascual 4766. Santa Isabel. Zapopan Jal., ...",790²,260²,4.0,1.0,4.0,4.0,23.0,guadalajara
1,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Prados Providencia,"ventaMN 10,200,000","Prados de Providencia, Prados de Providencia,...",310²,310²,3.0,1.0,3.0,3.0,25.0,guadalajara
2,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Fraccionamiento Jardines de Los Histor...,"ventaMN 7,349,000","Casa EN Venta EN Jardines DE LA PAZ, Fraccion...",127²,423²,4.0,3.0,5.0,4.0,4.0,guadalajara
3,https://www.vivanuncios.com.mx/a-venta-casa/la...,"Casa en Venta Ladron de Guevara Guadalajara, J...","ventaMN 14,800,000","Hidalgo 2042, Ladrón de Guevara, Guadalajara",397²,464²,3.0,2.0,4.0,4.0,46.0,guadalajara
4,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Venta en Providencia - Jóse María Vigi...,"ventaMN 11,300,000","Jóse María Vigil 2807, Providencia, Guadalajara",329²,250²,3.0,2.0,3.0,4.0,44.0,guadalajara
...,...,...,...,...,...,...,...,...,...,...,...,...
6010,https://www.vivanuncios.com.mx/a-venta-casa/za...,"Casa en Venta en Tesistan, zapopan, Jalisco","ventaMN 1,600,000","HILO ROJO, Zapopan, Jalisco",12130²,12130²,2.0,,,4.0,,zapopan
6011,https://www.vivanuncios.com.mx/a-venta-casa/za...,Casa en Venta,"ventaMN 5,250,000","EN Venta DOS Casas EN Una, EN Fracc. Somos 1,...",246²,233²,4.0,3.0,4.0,7.0,5.0,zapopan
6012,https://www.vivanuncios.com.mx/a-venta-casa/ci...,Casa en Venta en Ciudad del Sol,"ventaMN 25,000,000","Av. Cuauhtémoc al 700, Ciudad Del Sol, Zapopan",800²,1100²,4.0,2.0,8.0,4.0,,zapopan
6013,https://www.vivanuncios.com.mx/a-venta-casa/pa...,"Casa, Remate Bancario, Paseos del Sol, Zapopan...","ventaMN 1,230,050","Naranjos, Paseos del Sol Zapopan Jalisco, Pas...",200²,200²,3.0,1.0,2.0,4.0,10.0,zapopan


In [108]:
# Eliminamos propiedades duplicadas
df = df.drop_duplicates(subset=["direccion"])

# Filtramos las variables de interés
df = df.dropna(subset=["titulo", "precio", "direccion", "m2_lote", "banos", "estacionamientos", "recamaras"])
df = df.drop(columns=["m2_construccion", "medio_banos", "antiguedad"])

# Convertimos el precio en variable numérica
df["precio"] = df["precio"].replace("ventaMN ", "", regex=True)
df["precio"] = df["precio"].replace(",", "", regex=True).astype(int)

# Convertimos el tamaño de lote en variable numérica
df["m2_lote"] = df["m2_lote"].replace("²", "", regex=True).astype(int)

df

Unnamed: 0,url,titulo,precio,direccion,m2_lote,banos,estacionamientos,recamaras,municipio
0,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Fraccionamiento Jardines de S...,24400000,"San Pascual 4766. Santa Isabel. Zapopan Jal., ...",790,4.0,4.0,4.0,guadalajara
1,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Prados Providencia,10200000,"Prados de Providencia, Prados de Providencia,...",310,3.0,3.0,3.0,guadalajara
2,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Fraccionamiento Jardines de Los Histor...,7349000,"Casa EN Venta EN Jardines DE LA PAZ, Fraccion...",127,4.0,5.0,4.0,guadalajara
3,https://www.vivanuncios.com.mx/a-venta-casa/la...,"Casa en Venta Ladron de Guevara Guadalajara, J...",14800000,"Hidalgo 2042, Ladrón de Guevara, Guadalajara",397,3.0,4.0,4.0,guadalajara
4,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Venta en Providencia - Jóse María Vigi...,11300000,"Jóse María Vigil 2807, Providencia, Guadalajara",329,3.0,3.0,4.0,guadalajara
...,...,...,...,...,...,...,...,...,...
6009,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Bugambilias Segunda Sección,11850000,"Casa en Venta en Bugambilias Segunda Sección, ...",450,5.0,3.0,4.0,zapopan
6011,https://www.vivanuncios.com.mx/a-venta-casa/za...,Casa en Venta,5250000,"EN Venta DOS Casas EN Una, EN Fracc. Somos 1,...",246,4.0,4.0,7.0,zapopan
6012,https://www.vivanuncios.com.mx/a-venta-casa/ci...,Casa en Venta en Ciudad del Sol,25000000,"Av. Cuauhtémoc al 700, Ciudad Del Sol, Zapopan",800,4.0,8.0,4.0,zapopan
6013,https://www.vivanuncios.com.mx/a-venta-casa/pa...,"Casa, Remate Bancario, Paseos del Sol, Zapopan...",1230050,"Naranjos, Paseos del Sol Zapopan Jalisco, Pas...",200,3.0,2.0,4.0,zapopan


In [109]:
dfs = []
for municipio in municipios:
    with open(f"Data/{municipio}/viviendas_con_jardin_{municipio}.txt", "r", encoding='utf-8') as f:
        df_municipio = pd.Series(f)
        dfs.append(df_municipio)

df_jardin = pd.concat(dfs, ignore_index=True, names=["url"])
df_jardin = df_jardin.str.replace('\n', '', regex=False)
df_jardin = df_jardin.drop_duplicates()
df_jardin

0       https://www.vivanuncios.com.mx/a-venta-casa/pr...
1       https://www.vivanuncios.com.mx/a-venta-casa/pr...
2       https://www.vivanuncios.com.mx/a-venta-casa/bo...
3       https://www.vivanuncios.com.mx/a-venta-casa/ar...
4       https://www.vivanuncios.com.mx/a-venta-casa/fr...
                              ...                        
1661    https://www.vivanuncios.com.mx/a-venta-casa/ar...
1662    https://www.vivanuncios.com.mx/a-venta-casa/fr...
1663    https://www.vivanuncios.com.mx/a-venta-casa/fr...
1664    https://www.vivanuncios.com.mx/a-venta-casa/lo...
1665    https://www.vivanuncios.com.mx/a-venta-casa/fr...
Length: 1666, dtype: object

In [110]:
df["jardin"] = df["url"].isin(df_jardin)
df

Unnamed: 0,url,titulo,precio,direccion,m2_lote,banos,estacionamientos,recamaras,municipio,jardin
0,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Fraccionamiento Jardines de S...,24400000,"San Pascual 4766. Santa Isabel. Zapopan Jal., ...",790,4.0,4.0,4.0,guadalajara,False
1,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Prados Providencia,10200000,"Prados de Providencia, Prados de Providencia,...",310,3.0,3.0,3.0,guadalajara,False
2,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Fraccionamiento Jardines de Los Histor...,7349000,"Casa EN Venta EN Jardines DE LA PAZ, Fraccion...",127,4.0,5.0,4.0,guadalajara,False
3,https://www.vivanuncios.com.mx/a-venta-casa/la...,"Casa en Venta Ladron de Guevara Guadalajara, J...",14800000,"Hidalgo 2042, Ladrón de Guevara, Guadalajara",397,3.0,4.0,4.0,guadalajara,False
4,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Venta en Providencia - Jóse María Vigi...,11300000,"Jóse María Vigil 2807, Providencia, Guadalajara",329,3.0,3.0,4.0,guadalajara,False
...,...,...,...,...,...,...,...,...,...,...
6009,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Bugambilias Segunda Sección,11850000,"Casa en Venta en Bugambilias Segunda Sección, ...",450,5.0,3.0,4.0,zapopan,False
6011,https://www.vivanuncios.com.mx/a-venta-casa/za...,Casa en Venta,5250000,"EN Venta DOS Casas EN Una, EN Fracc. Somos 1,...",246,4.0,4.0,7.0,zapopan,False
6012,https://www.vivanuncios.com.mx/a-venta-casa/ci...,Casa en Venta en Ciudad del Sol,25000000,"Av. Cuauhtémoc al 700, Ciudad Del Sol, Zapopan",800,4.0,8.0,4.0,zapopan,False
6013,https://www.vivanuncios.com.mx/a-venta-casa/pa...,"Casa, Remate Bancario, Paseos del Sol, Zapopan...",1230050,"Naranjos, Paseos del Sol Zapopan Jalisco, Pas...",200,3.0,2.0,4.0,zapopan,False


In [111]:
df.to_csv("Data/propiedades_jalisco.csv", index=False, encoding="utf-8")