In [21]:
import pandas as pd
from pathlib import Path

municipios = ["guadalajara", "tlajomulco", "tlaquepaque", "tonala", "zapopan"]
dfs = []

for municipio in municipios:
    for archivo in Path(f"Data/{municipio}").iterdir():
        if archivo.suffix == ".csv":
            df_municipio = pd.read_csv(archivo.resolve(), encoding="utf-8")
            df_municipio["municipio"] = municipio
            dfs.append(df_municipio)

df = pd.concat(dfs, ignore_index=True)
df

Unnamed: 0,url,titulo,precio,direccion,m2_lote,m2_construccion,banos,medio_banos,estacionamientos,recamaras,antiguedad,municipio
0,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Fraccionamiento Jardines de S...,"ventaMN 24,400,000","San Pascual 4766. Santa Isabel. Zapopan Jal., ...",790²,260²,4.0,1.0,4.0,4.0,23.0,guadalajara
1,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Prados Providencia,"ventaMN 10,200,000","Prados de Providencia, Prados de Providencia,...",310²,310²,3.0,1.0,3.0,3.0,25.0,guadalajara
2,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Fraccionamiento Jardines de Los Histor...,"ventaMN 7,349,000","Casa EN Venta EN Jardines DE LA PAZ, Fraccion...",127²,423²,4.0,3.0,5.0,4.0,4.0,guadalajara
3,https://www.vivanuncios.com.mx/a-venta-casa/la...,"Casa en Venta Ladron de Guevara Guadalajara, J...","ventaMN 14,800,000","Hidalgo 2042, Ladrón de Guevara, Guadalajara",397²,464²,3.0,2.0,4.0,4.0,46.0,guadalajara
4,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Venta en Providencia - Jóse María Vigi...,"ventaMN 11,300,000","Jóse María Vigil 2807, Providencia, Guadalajara",329²,250²,3.0,2.0,3.0,4.0,44.0,guadalajara
...,...,...,...,...,...,...,...,...,...,...,...,...
6010,https://www.vivanuncios.com.mx/a-venta-casa/za...,"Casa en Venta en Tesistan, zapopan, Jalisco","ventaMN 1,600,000","HILO ROJO, Zapopan, Jalisco",12130²,12130²,2.0,,,4.0,,zapopan
6011,https://www.vivanuncios.com.mx/a-venta-casa/za...,Casa en Venta,"ventaMN 5,250,000","EN Venta DOS Casas EN Una, EN Fracc. Somos 1,...",246²,233²,4.0,3.0,4.0,7.0,5.0,zapopan
6012,https://www.vivanuncios.com.mx/a-venta-casa/ci...,Casa en Venta en Ciudad del Sol,"ventaMN 25,000,000","Av. Cuauhtémoc al 700, Ciudad Del Sol, Zapopan",800²,1100²,4.0,2.0,8.0,4.0,,zapopan
6013,https://www.vivanuncios.com.mx/a-venta-casa/pa...,"Casa, Remate Bancario, Paseos del Sol, Zapopan...","ventaMN 1,230,050","Naranjos, Paseos del Sol Zapopan Jalisco, Pas...",200²,200²,3.0,1.0,2.0,4.0,10.0,zapopan


In [22]:
# Eliminamos propiedades duplicadas
df = df.drop_duplicates(subset=["direccion"])

# Filtramos las variables de interés
df = df.dropna(subset=["titulo", "precio", "direccion", "m2_lote", "banos", "estacionamientos", "recamaras"])
df = df.drop(columns=["m2_construccion", "medio_banos", "antiguedad"])

# Convertimos el precio en variable numérica
df["precio"] = df["precio"].replace("ventaMN ", "", regex=True)
df["precio"] = df["precio"].replace(",", "", regex=True).astype(int)

# Convertimos el tamaño de lote en variable numérica
df["m2_lote"] = df["m2_lote"].replace("²", "", regex=True).astype(int)

# Eliminar las direcciones sin número
df = df[df["direccion"].str.contains(r"\d")]

df

Unnamed: 0,url,titulo,precio,direccion,m2_lote,banos,estacionamientos,recamaras,municipio
0,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Fraccionamiento Jardines de S...,24400000,"San Pascual 4766. Santa Isabel. Zapopan Jal., ...",790,4.0,4.0,4.0,guadalajara
3,https://www.vivanuncios.com.mx/a-venta-casa/la...,"Casa en Venta Ladron de Guevara Guadalajara, J...",14800000,"Hidalgo 2042, Ladrón de Guevara, Guadalajara",397,3.0,4.0,4.0,guadalajara
4,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Venta en Providencia - Jóse María Vigi...,11300000,"Jóse María Vigil 2807, Providencia, Guadalajara",329,3.0,3.0,4.0,guadalajara
5,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Renta y Venta en Providencia Guadalaja...,43900000,"Hipodromo #2100, Colomos Providencia, Guadalaj...",1064,6.0,10.0,4.0,guadalajara
9,https://www.vivanuncios.com.mx/a-venta-casa/bo...,"Casa en Venta en Bosques de La Victoria, Guada...",14200000,"Calle Peninsula #2573, Bosques de La Victoria...",322,4.0,3.0,5.0,guadalajara
...,...,...,...,...,...,...,...,...,...
6001,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Coto Galarza Capital Norte Za...,4395000,"Coto Galarza 177, Fraccionamiento Valle Impe...",115,3.0,2.0,4.0,zapopan
6007,https://www.vivanuncios.com.mx/a-venta-casa/za...,"Casa en Venta en Jardín Real, Zapopan, jalisco",10490000,"34, Zapopan, Jalisco",277,4.0,2.0,5.0,zapopan
6011,https://www.vivanuncios.com.mx/a-venta-casa/za...,Casa en Venta,5250000,"EN Venta DOS Casas EN Una, EN Fracc. Somos 1,...",246,4.0,4.0,7.0,zapopan
6012,https://www.vivanuncios.com.mx/a-venta-casa/ci...,Casa en Venta en Ciudad del Sol,25000000,"Av. Cuauhtémoc al 700, Ciudad Del Sol, Zapopan",800,4.0,8.0,4.0,zapopan


In [4]:
dfs = []
for municipio in municipios:
    with open(f"Data/{municipio}/viviendas_con_jardin_{municipio}.txt", "r", encoding='utf-8') as f:
        df_municipio = pd.Series(f)
        dfs.append(df_municipio)

df_jardin = pd.concat(dfs, ignore_index=True, names=["url"])
df_jardin = df_jardin.str.replace('\n', '', regex=False)
df_jardin = df_jardin.drop_duplicates()
df_jardin

0       https://www.vivanuncios.com.mx/a-venta-casa/pr...
1       https://www.vivanuncios.com.mx/a-venta-casa/pr...
2       https://www.vivanuncios.com.mx/a-venta-casa/bo...
3       https://www.vivanuncios.com.mx/a-venta-casa/ar...
4       https://www.vivanuncios.com.mx/a-venta-casa/fr...
                              ...                        
1661    https://www.vivanuncios.com.mx/a-venta-casa/ar...
1662    https://www.vivanuncios.com.mx/a-venta-casa/fr...
1663    https://www.vivanuncios.com.mx/a-venta-casa/fr...
1664    https://www.vivanuncios.com.mx/a-venta-casa/lo...
1665    https://www.vivanuncios.com.mx/a-venta-casa/fr...
Length: 1666, dtype: object

In [23]:
df["jardin"] = df["url"].isin(df_jardin)
df

Unnamed: 0,url,titulo,precio,direccion,m2_lote,banos,estacionamientos,recamaras,municipio,jardin
0,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Fraccionamiento Jardines de S...,24400000,"San Pascual 4766. Santa Isabel. Zapopan Jal., ...",790,4.0,4.0,4.0,guadalajara,False
3,https://www.vivanuncios.com.mx/a-venta-casa/la...,"Casa en Venta Ladron de Guevara Guadalajara, J...",14800000,"Hidalgo 2042, Ladrón de Guevara, Guadalajara",397,3.0,4.0,4.0,guadalajara,False
4,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Venta en Providencia - Jóse María Vigi...,11300000,"Jóse María Vigil 2807, Providencia, Guadalajara",329,3.0,3.0,4.0,guadalajara,False
5,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Renta y Venta en Providencia Guadalaja...,43900000,"Hipodromo #2100, Colomos Providencia, Guadalaj...",1064,6.0,10.0,4.0,guadalajara,True
9,https://www.vivanuncios.com.mx/a-venta-casa/bo...,"Casa en Venta en Bosques de La Victoria, Guada...",14200000,"Calle Peninsula #2573, Bosques de La Victoria...",322,4.0,3.0,5.0,guadalajara,True
...,...,...,...,...,...,...,...,...,...,...
6001,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Coto Galarza Capital Norte Za...,4395000,"Coto Galarza 177, Fraccionamiento Valle Impe...",115,3.0,2.0,4.0,zapopan,False
6007,https://www.vivanuncios.com.mx/a-venta-casa/za...,"Casa en Venta en Jardín Real, Zapopan, jalisco",10490000,"34, Zapopan, Jalisco",277,4.0,2.0,5.0,zapopan,False
6011,https://www.vivanuncios.com.mx/a-venta-casa/za...,Casa en Venta,5250000,"EN Venta DOS Casas EN Una, EN Fracc. Somos 1,...",246,4.0,4.0,7.0,zapopan,False
6012,https://www.vivanuncios.com.mx/a-venta-casa/ci...,Casa en Venta en Ciudad del Sol,25000000,"Av. Cuauhtémoc al 700, Ciudad Del Sol, Zapopan",800,4.0,8.0,4.0,zapopan,False


In [26]:
import unicodedata

def quitar_acentos(texto):
    if isinstance(texto, str):
        return ''.join(
            c for c in unicodedata.normalize('NFKD', texto)
            if not unicodedata.combining(c)
        )
    return texto

df['direccion'] = df['direccion'].apply(quitar_acentos)

In [29]:
import pandas as pd

def filtrar_direcciones_con_numero(df, columna='direccion'):
    """
    Filtra un DataFrame conservando solo las filas cuya dirección
    (antes de la primera coma) contiene al menos un número.

    Parámetros:
        df: pandas.DataFrame
        columna: str, nombre de la columna de direcciones

    Retorna:
        pandas.DataFrame filtrado
    """
    if columna not in df.columns:
        raise ValueError(f"La columna '{columna}' no existe en el DataFrame.")

    # Crear columna auxiliar con el texto antes de la primera coma
    inicio = df[columna].str.split(',', n=1).str[0]

    # Crear máscara booleana: True si contiene un número
    mascara = inicio.str.contains(r'\d', na=False)

    # Aplicar filtro y devolver resultado
    return df[mascara].copy()

df = filtrar_direcciones_con_numero(df)
df

Unnamed: 0,url,titulo,precio,direccion,m2_lote,banos,estacionamientos,recamaras,municipio,jardin
0,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Fraccionamiento Jardines de S...,24400000,"San Pascual 4766. Santa Isabel. Zapopan Jal., ...",790,4.0,4.0,4.0,guadalajara,False
3,https://www.vivanuncios.com.mx/a-venta-casa/la...,"Casa en Venta Ladron de Guevara Guadalajara, J...",14800000,"Hidalgo 2042, Ladron de Guevara, Guadalajara",397,3.0,4.0,4.0,guadalajara,False
4,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Venta en Providencia - Jóse María Vigi...,11300000,"Jose Maria Vigil 2807, Providencia, Guadalajara",329,3.0,3.0,4.0,guadalajara,False
5,https://www.vivanuncios.com.mx/a-venta-casa/pr...,Casa en Renta y Venta en Providencia Guadalaja...,43900000,"Hipodromo #2100, Colomos Providencia, Guadalaj...",1064,6.0,10.0,4.0,guadalajara,True
9,https://www.vivanuncios.com.mx/a-venta-casa/bo...,"Casa en Venta en Bosques de La Victoria, Guada...",14200000,"Calle Peninsula #2573, Bosques de La Victoria...",322,4.0,3.0,5.0,guadalajara,True
...,...,...,...,...,...,...,...,...,...,...
5997,https://www.vivanuncios.com.mx/a-venta-casa/ja...,Duplex Parte Alta,1180000,"Valle de La Plata 2837-B, Jardines del Valle,...",80,1.0,1.0,2.0,zapopan,False
6001,https://www.vivanuncios.com.mx/a-venta-casa/fr...,Casa en Venta en Coto Galarza Capital Norte Za...,4395000,"Coto Galarza 177, Fraccionamiento Valle Impe...",115,3.0,2.0,4.0,zapopan,False
6007,https://www.vivanuncios.com.mx/a-venta-casa/za...,"Casa en Venta en Jardín Real, Zapopan, jalisco",10490000,"34, Zapopan, Jalisco",277,4.0,2.0,5.0,zapopan,False
6012,https://www.vivanuncios.com.mx/a-venta-casa/ci...,Casa en Venta en Ciudad del Sol,25000000,"Av. Cuauhtemoc al 700, Ciudad Del Sol, Zapopan",800,4.0,8.0,4.0,zapopan,False


In [30]:
df.to_csv("Data/propiedades_jalisco.csv", index=False, encoding="utf-8")