# Librerías

In [112]:
import pandas as pd
import numpy as np
from ast import literal_eval  # Para convertir str a una lista organizada
import re

# Lectura de base de datos

In [160]:
df_casas = pd.read_csv("casas_idealista.csv", encoding = "utf-16", sep=";")
df_casas.head()

Unnamed: 0,Titulo,Localización,precio,caracteristicas básicas,Equipamento
0,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"['Chalet pareado', '3 plantas', '254 m² constr...","['Jardín', 'Consumo: \n174 kWh/m² año', 'Emisi..."
1,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"['Chalet pareado', '3 plantas', '254 m² constr...","['Jardín', 'Consumo: \n174 kWh/m² año', 'Emisi..."
2,Casa de pueblo en venta en calle Nou,Sant Llorenç Savall,92000,"['Casa de pueblo', '4 plantas', '241 m² constr...","['Consumo: \n208 kWh/m² año', 'Emisiones: \n43..."
3,Casa o chalet independiente en venta en Avets,Sant Llorenç Savall,245000,"['Casa o chalet independiente', '2 plantas', '...","['Piscina', 'Jardín', 'Consumo: \n174 kWh/m² a..."
4,Casa o chalet independiente en venta en aveni...,Sant Llorenç Savall,360000,"['Casa o chalet independiente', '1 planta', '2...","['Piscina', 'Jardín', 'Consumo: \n99 kWh/m² añ..."


In [114]:
df_casas["caracteristicas básicas"][0]

"['Chalet pareado', '3 plantas', '254 m² construidos, 165 m² útiles', '5 habitaciones', '4 baños', 'Parcela de 268 m²', 'Terraza y balcón', 'Plaza de garaje incluida en el precio', 'Segunda mano/buen estado', 'Armarios empotrados', 'Trastero', 'Orientación sur, este', 'Construido en 1995', 'Calefacción individual']"

# Convertir str a una lista organizada
En nuestra base de datos tenemos que las columnas de "Caracteristicas básicas" y "Equipamento" tienen datos str pero que en realidad son listas, las tenemos que convertir de str a unas listas organizadas más faciles de manejar

In [161]:
df_casas = pd.read_csv("casas_idealista.csv", encoding = "utf-16", sep=";", converters={"caracteristicas básicas": literal_eval, "Equipamento": literal_eval})
df_casas.head()

Unnamed: 0,Titulo,Localización,precio,caracteristicas básicas,Equipamento
0,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:..."
1,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:..."
2,Casa de pueblo en venta en calle Nou,Sant Llorenç Savall,92000,"[Casa de pueblo, 4 plantas, 241 m² construidos...","[Consumo: \n208 kWh/m² año, Emisiones: \n43 kg..."
3,Casa o chalet independiente en venta en Avets,Sant Llorenç Savall,245000,"[Casa o chalet independiente, 2 plantas, 249 m...","[Piscina, Jardín, Consumo: \n174 kWh/m² año, E..."
4,Casa o chalet independiente en venta en aveni...,Sant Llorenç Savall,360000,"[Casa o chalet independiente, 1 planta, 241 m²...","[Piscina, Jardín, Consumo: \n99 kWh/m² año, Em..."


In [116]:
df_casas["caracteristicas básicas"][0]

['Chalet pareado',
 '3 plantas',
 '254 m² construidos, 165 m² útiles',
 '5 habitaciones',
 '4 baños',
 'Parcela de 268 m²',
 'Terraza y balcón',
 'Plaza de garaje incluida en el precio',
 'Segunda mano/buen estado',
 'Armarios empotrados',
 'Trastero',
 'Orientación sur, este',
 'Construido en 1995',
 'Calefacción individual']

# Definición de funciones

# 1. Match_property

In [117]:
'''property --> se refiere a la propiedad en la que quiero buscar alguna palabra, en este caso "con trastero"
   patterns --> se refiere a la palabra que quiero buscar dentro de la propeidad, en este caso "con" y será una lista '''

def match_property(property, patterns):
    for pat in patterns:
        match_prop = re.search(pat, property) # Buscar el patrón en el property que le estoy dando
        
        if match_prop:                        # "if match_prop": quiere decir, si match_prop es verdad entonces, dame un True, sino un False
            return True
    return False

In [118]:
'''Prueba de la función creada
   ¿Está "con" en "con trastero?" en caso de estar imprimir True, sino imprimir False'''

match_property("con trastero", ["con"])

True

Esta función será util ya que si le proporciono una lista con varios elementos le puedo decir, cuando encuentres la palabra "con" en esta lista, acá debes actuar

# 2. Check_property --> cumple la misma función que match_property pero me arroja 0 o 1

In [119]:
def check_property(property, patterns):
    for pat in patterns:
        check = re.search(pat, property) # Buscar el patrón en el property que le estoy dando
        
        if check:                        # "if check": quiere decir, si check es verdad entonces, dame un 1, sino un 0
            return 1
    return 0

In [120]:
'''Prueba de la función creada
   ¿Está "con" en "con trastero?" en caso de estar imprimir 1 si no imprimir 0'''

check_property("con trastero", ["con"])

1

# 3. Get_number --> Me busca los numeros en un str

In [121]:
def get_number(property):
    nums = re.findall(r"\d+", property)
    if len(nums) == 2:
        return int(nums[0]+nums[1])  # "40.000" -> "40" + "000" -> "40000" -> 40000
    else:
        return int(nums[0])

In [122]:
re.findall(r"\d+", "2 baños")

['2']

In [123]:
get_number("2 baños")

2

In [124]:
get_number("40.000 de precio")

40000

# 4. Get_ascensor

In [125]:
'''Features --> es la lista de caracteristica que le voy dar a mi función'''

def get_ascensor(features):
    for prop in features:
        
        '''.lower() --> lo hace todo minuscula
           .strip() --> le quita los espacios
           
           Primero estoy buscando donde aparece con ascensor, si aparece voy a activarlo y voy a buscar que tenga un "con", si lo tiene me
           pone un 1 y si no tiene con me aparece un 0 
           
           Resumen: Si el elemento prop en minus y sin espacios coincide con "ascensor" aplicar check_property'''
           
        if match_property(prop.lower().strip(), ["ascensor"]):   
            return(check_property(prop.lower().strip(), ["con"]))

In [126]:
'''Buscamos si aparece la palabra "ascensor" en minuscula y sin espacios, si aparece True, sino False'''
match_property("con ascensor".lower().strip(), ["ascensor"])

True

In [127]:
'''Luego Buscamos si aparece la palabra "con" en minuscula y sin espacios, si aparece 1, sino 0'''
check_property("con ascensor".lower().strip(), ["con"])

1

In [128]:
var_1 = get_ascensor(["con ascensor"])
var_2 = get_ascensor(["sin ascensor"])
print("con ascensor de dar " + str(var_1))
print("sin ascensor de dar " + str(var_2))

con ascensor de dar 1
sin ascensor de dar 0


# 5. Get_baños

Esta función nos sirve para lo mismo pero nos va a devolver el numero que esté en un str, entonces si el str es 2 baños, vamos a obtener el numero 2

In [129]:
def get_baños(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["baño"]):
            return(get_number(prop.lower().strip()))

In [130]:
get_baños(["3 baños"])

3

# 6. Get_año

In [131]:
df_casas["caracteristicas básicas"][34]

['Casa o chalet independiente',
 '1 planta',
 '240 m² construidos, 160 m² útiles',
 '3 habitaciones',
 '3 baños',
 'Plaza de garaje incluida en el precio',
 'Segunda mano/buen estado',
 'Armarios empotrados',
 'Trastero',
 'Construido en 2008',
 'Calefacción individual: Gas natural']

In [132]:
def get_año(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["construido en"]):
            return(int(get_number(prop.lower().strip())))

In [133]:
get_año(["Construido en 2008"])

2008

# 7. Get_trastero

In [134]:
def get_trastero(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["trastero"]):
            return 1
        return 0

In [135]:
def get_trastero(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["trastero"]):
            value += 1
    return (value)

In [136]:
get_trastero(["trastero"])

1

# 8. Get_orientación

In [137]:
df_casas["caracteristicas básicas"][26]

['Casa o chalet independiente',
 '3 plantas',
 '240 m² construidos, 165 m² útiles',
 '3 habitaciones',
 '3 baños',
 'Plaza de garaje incluida en el precio',
 'Segunda mano/buen estado',
 'Armarios empotrados',
 'Trastero',
 'Orientación sur, oeste',
 'Construido en 2008',
 'Calefacción individual: Gas propano/butano']

In [138]:
def get_orientación(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["orientación"]):
            return(prop.split(" ", maxsplit=1)[1].strip().split(", ")[0])

In [139]:
get_orientación(['Orientación sur, oeste'])

'sur'

In [140]:
'''Split por espacio, cuando tenga un str separado por espacio o una coma o lo que sea entonces me separa el str en una lista'''
one = "Orientación sur, oeste".split(" ", maxsplit=1)
print(one)

'''Seleccionar el segundo elemento'''
two = "Orientación sur, oeste".split(" ", maxsplit=1)[1]
print(two)

'''Corregir los espacios y separar las dos orientaciones separadas por comas en otra lista'''
three = "Orientación sur, oeste".split(" ", maxsplit=1)[1].strip().split(", ")
print(three)

'''Seleccionar el primer elemeto'''
four = "Orientación sur, oeste".split(" ", maxsplit=1)[1].strip().split(", ")[0]
print(four)

['Orientación', 'sur, oeste']
sur, oeste
['sur', 'oeste']
sur


# 9. Get_piso

In [141]:
def get_piso(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["bajo", "planta", "interior", "exterior"]):
            return(prop)

# 10. Get_habitaciones

In [142]:
def get_habitaciones(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["habitaciones"]):
            return(get_number(prop.lower().strip()))

In [143]:
def get_habitaciones(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["habitaciones"]):
            try:
                habitaciones = get_number(prop.lower().strip())
            except:
                habitaciones = prop
            return(habitaciones)

In [144]:
get_habitaciones(["9 habitaciones o más"])

9

# 11. Get_metros_reales

In [145]:
def get_metros_reales(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["m²"]):
            try:
                metros = get_number(prop.lower().strip().split(",")[0])
            except:
                metros = prop
            return(metros)

# 12. Get_condición

In [146]:
def get_condicion(features):
    for prop in features:
        if match_property(prop.lower().strip(), ["segunda mano", "promoción de obra nueva"]):
            return(prop)

# 13. Get_armario_empotrado

In [147]:
def get_armario_empotrado(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["armarios empotrados"]):
            value += 1
    return(value)

In [148]:
df_casas["caracteristicas básicas"][36]

['Chalet adosado',
 '1 planta',
 '169 m² construidos',
 '3 habitaciones',
 '3 baños',
 'Terraza',
 'Plaza de garaje incluida en el precio',
 'Segunda mano/buen estado',
 'Armarios empotrados',
 'Orientación norte, oeste',
 'Construido en 2008',
 'Calefacción individual: Gas propano/butano']

# 14. Get_terraza

In [149]:
def get_terraza(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["terraza"]):
            value += 1
    return(value)

# 15. Get_balcón

In [150]:
def get_balcón(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["balcón"]):
            value += 1
    return(value)

# 16. Get_jardín

In [151]:
def get_jardin(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["jardín"]):
            value += 1
    return(value)

# 17. Get_garaje

In [152]:
def get_garaje(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["garaje"]):
            value += 1
    return(value)

# 18. Get_calefacción

In [153]:
def get_calefaccion(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["calefacción"]):
            value += 1
    return(value)

# 19. Get_aire_acon

In [154]:
def get_aire_acon(features):
    value = 0
    for prop in features:
        if match_property(prop.lower().strip(), ["aire acondicionado"]):
            value += 1
    return(value)

# Actualizar el DataFrame

In [162]:
df_casas_1 = df_casas.copy()
df_casas_1

Unnamed: 0,Titulo,Localización,precio,caracteristicas básicas,Equipamento
0,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:..."
1,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:..."
2,Casa de pueblo en venta en calle Nou,Sant Llorenç Savall,92000,"[Casa de pueblo, 4 plantas, 241 m² construidos...","[Consumo: \n208 kWh/m² año, Emisiones: \n43 kg..."
3,Casa o chalet independiente en venta en Avets,Sant Llorenç Savall,245000,"[Casa o chalet independiente, 2 plantas, 249 m...","[Piscina, Jardín, Consumo: \n174 kWh/m² año, E..."
4,Casa o chalet independiente en venta en aveni...,Sant Llorenç Savall,360000,"[Casa o chalet independiente, 1 planta, 241 m²...","[Piscina, Jardín, Consumo: \n99 kWh/m² año, Em..."
...,...,...,...,...,...
64,"Casa de pueblo en venta en calle Barcelona, 9",Sant Llorenç Savall,260000,"[Casa de pueblo, 3 plantas, 160 m² construidos...","[Consumo: \n128,9 kWh/m² año, Emisiones: \n28 ..."
65,Finca rústica en venta en carretera de sant f...,Sant Llorenç Savall,400000,"[Finca rústica, 1 planta, 400 m² construidos, ...",[En trámite]
66,Estudio en venta en Sant Llorenç Savall,Vallès Occidental,78000,"[48 m² construidos, Sin habitación, 1 baño, Se...",[No indicado]
67,Casa o chalet en venta en carretera de Monistrol,Sant Llorenç Savall,176300,"[Casa o chalet, 329 m² construidos, 229 m² úti...",[Consumo:]


In [163]:
'''Vamos a aplicar las funciones creadas para las columnas correspondientes de mi DataFrame'''
df_casas_1["ascensor"] = df_casas_1["caracteristicas básicas"].apply(get_ascensor)
df_casas_1["baños"] = df_casas_1["caracteristicas básicas"].apply(get_baños)
df_casas_1["año"] = df_casas_1["caracteristicas básicas"].apply(get_año)
df_casas_1["trastero"] = df_casas_1["caracteristicas básicas"].apply(get_trastero)
df_casas_1["orientación"] = df_casas_1["caracteristicas básicas"].apply(get_orientación)
df_casas_1["piso"] = df_casas_1["caracteristicas básicas"].apply(get_piso)
df_casas_1["habitaciones"] = df_casas_1["caracteristicas básicas"].apply(get_habitaciones)
df_casas_1["metros reales"] = df_casas_1["caracteristicas básicas"].apply(get_metros_reales)
df_casas_1["condición"] = df_casas_1["caracteristicas básicas"].apply(get_condicion)
df_casas_1["armarios empotrados"] = df_casas_1["caracteristicas básicas"].apply(get_armario_empotrado)
df_casas_1["terraza"] = df_casas_1["caracteristicas básicas"].apply(get_terraza)
df_casas_1["balcón"] = df_casas_1["caracteristicas básicas"].apply(get_balcón)
df_casas_1["jardín"] = df_casas_1["caracteristicas básicas"].apply(get_jardin)
df_casas_1["garaje"] = df_casas_1["caracteristicas básicas"].apply(get_garaje)
df_casas_1["calefacción"] = df_casas_1["caracteristicas básicas"].apply(get_calefaccion)

'''Equipamento'''
df_casas_1["aire acondicionado"] = df_casas_1["Equipamento"].apply(get_aire_acon)


In [164]:
df_casas_1

Unnamed: 0,Titulo,Localización,precio,caracteristicas básicas,Equipamento,ascensor,baños,año,trastero,orientación,...,habitaciones,metros reales,condición,armarios empotrados,terraza,balcón,jardín,garaje,calefacción,aire acondicionado
0,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:...",,4,1995.0,1,sur,...,5.0,254,Segunda mano/buen estado,1,1,1,0,1,1,0
1,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:...",,4,1995.0,1,sur,...,5.0,254,Segunda mano/buen estado,1,1,1,0,1,1,0
2,Casa de pueblo en venta en calle Nou,Sant Llorenç Savall,92000,"[Casa de pueblo, 4 plantas, 241 m² construidos...","[Consumo: \n208 kWh/m² año, Emisiones: \n43 kg...",,1,,1,este,...,4.0,241,Segunda mano/para reformar,0,1,1,0,0,1,0
3,Casa o chalet independiente en venta en Avets,Sant Llorenç Savall,245000,"[Casa o chalet independiente, 2 plantas, 249 m...","[Piscina, Jardín, Consumo: \n174 kWh/m² año, E...",,3,1995.0,1,este,...,3.0,249,Segunda mano/buen estado,0,1,0,0,0,1,0
4,Casa o chalet independiente en venta en aveni...,Sant Llorenç Savall,360000,"[Casa o chalet independiente, 1 planta, 241 m²...","[Piscina, Jardín, Consumo: \n99 kWh/m² año, Em...",,5,1975.0,1,,...,4.0,241,Segunda mano/buen estado,1,1,1,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64,"Casa de pueblo en venta en calle Barcelona, 9",Sant Llorenç Savall,260000,"[Casa de pueblo, 3 plantas, 160 m² construidos...","[Consumo: \n128,9 kWh/m² año, Emisiones: \n28 ...",,2,,1,,...,2.0,160,Segunda mano/buen estado,0,1,1,0,0,1,0
65,Finca rústica en venta en carretera de sant f...,Sant Llorenç Savall,400000,"[Finca rústica, 1 planta, 400 m² construidos, ...",[En trámite],,3,,0,,...,5.0,400,Segunda mano/para reformar,0,1,0,0,0,0,0
66,Estudio en venta en Sant Llorenç Savall,Vallès Occidental,78000,"[48 m² construidos, Sin habitación, 1 baño, Se...",[No indicado],0.0,1,2007.0,0,,...,,48,Segunda mano/buen estado,0,0,0,0,0,1,0
67,Casa o chalet en venta en carretera de Monistrol,Sant Llorenç Savall,176300,"[Casa o chalet, 329 m² construidos, 229 m² úti...",[Consumo:],,2,1973.0,0,,...,4.0,329,Segunda mano/buen estado,0,0,0,0,0,0,0


In [165]:
df_casas_1.drop(columns = ["caracteristicas básicas", "Equipamento"], inplace = True)

In [166]:
df_casas_1

Unnamed: 0,Titulo,Localización,precio,ascensor,baños,año,trastero,orientación,piso,habitaciones,metros reales,condición,armarios empotrados,terraza,balcón,jardín,garaje,calefacción,aire acondicionado
0,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,,4,1995.0,1,sur,3 plantas,5.0,254,Segunda mano/buen estado,1,1,1,0,1,1,0
1,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,,4,1995.0,1,sur,3 plantas,5.0,254,Segunda mano/buen estado,1,1,1,0,1,1,0
2,Casa de pueblo en venta en calle Nou,Sant Llorenç Savall,92000,,1,,1,este,4 plantas,4.0,241,Segunda mano/para reformar,0,1,1,0,0,1,0
3,Casa o chalet independiente en venta en Avets,Sant Llorenç Savall,245000,,3,1995.0,1,este,2 plantas,3.0,249,Segunda mano/buen estado,0,1,0,0,0,1,0
4,Casa o chalet independiente en venta en aveni...,Sant Llorenç Savall,360000,,5,1975.0,1,,1 planta,4.0,241,Segunda mano/buen estado,1,1,1,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64,"Casa de pueblo en venta en calle Barcelona, 9",Sant Llorenç Savall,260000,,2,,1,,3 plantas,2.0,160,Segunda mano/buen estado,0,1,1,0,0,1,0
65,Finca rústica en venta en carretera de sant f...,Sant Llorenç Savall,400000,,3,,0,,1 planta,5.0,400,Segunda mano/para reformar,0,1,0,0,0,0,0
66,Estudio en venta en Sant Llorenç Savall,Vallès Occidental,78000,0.0,1,2007.0,0,,Bajo exterior,,48,Segunda mano/buen estado,0,0,0,0,0,1,0
67,Casa o chalet en venta en carretera de Monistrol,Sant Llorenç Savall,176300,,2,1973.0,0,,,4.0,329,Segunda mano/buen estado,0,0,0,0,0,0,0
