# Librerías

In [1]:
import pandas as pd
import numpy as np
from ast import literal_eval  # Para convertir str a una lista organizada
import re

# Lectura de base de datos

In [2]:
df_casas = pd.read_csv("casas_idealista.csv", encoding = "utf-16", sep=";")
df_casas.head()

Unnamed: 0,Titulo,Localización,precio,caracteristicas básicas,Equipamento
0,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"['Chalet pareado', '3 plantas', '254 m² constr...","['Jardín', 'Consumo: \n174 kWh/m² año', 'Emisi..."
1,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"['Chalet pareado', '3 plantas', '254 m² constr...","['Jardín', 'Consumo: \n174 kWh/m² año', 'Emisi..."
2,Casa de pueblo en venta en calle Nou,Sant Llorenç Savall,92000,"['Casa de pueblo', '4 plantas', '241 m² constr...","['Consumo: \n208 kWh/m² año', 'Emisiones: \n43..."
3,Casa o chalet independiente en venta en Avets,Sant Llorenç Savall,245000,"['Casa o chalet independiente', '2 plantas', '...","['Piscina', 'Jardín', 'Consumo: \n174 kWh/m² a..."
4,Casa o chalet independiente en venta en aveni...,Sant Llorenç Savall,360000,"['Casa o chalet independiente', '1 planta', '2...","['Piscina', 'Jardín', 'Consumo: \n99 kWh/m² añ..."


In [3]:
df_casas["caracteristicas básicas"][0]

"['Chalet pareado', '3 plantas', '254 m² construidos, 165 m² útiles', '5 habitaciones', '4 baños', 'Parcela de 268 m²', 'Terraza y balcón', 'Plaza de garaje incluida en el precio', 'Segunda mano/buen estado', 'Armarios empotrados', 'Trastero', 'Orientación sur, este', 'Construido en 1995', 'Calefacción individual']"

# Convertir str a una lista organizada
En nuestra base de datos tenemos que las columnas de "Caracteristicas básicas" y "Equipamento" tienen datos str pero que en realidad son listas, las tenemos que convertir de str a unas listas organizadas más faciles de manejar

In [4]:
df_casas = pd.read_csv("casas_idealista.csv", encoding = "utf-16", sep=";", converters={"caracteristicas básicas": literal_eval, "Equipamento": literal_eval})
df_casas.head()

Unnamed: 0,Titulo,Localización,precio,caracteristicas básicas,Equipamento
0,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:..."
1,Chalet pareado en venta en Josep Albages,Sant Llorenç Savall,269000,"[Chalet pareado, 3 plantas, 254 m² construidos...","[Jardín, Consumo: \n174 kWh/m² año, Emisiones:..."
2,Casa de pueblo en venta en calle Nou,Sant Llorenç Savall,92000,"[Casa de pueblo, 4 plantas, 241 m² construidos...","[Consumo: \n208 kWh/m² año, Emisiones: \n43 kg..."
3,Casa o chalet independiente en venta en Avets,Sant Llorenç Savall,245000,"[Casa o chalet independiente, 2 plantas, 249 m...","[Piscina, Jardín, Consumo: \n174 kWh/m² año, E..."
4,Casa o chalet independiente en venta en aveni...,Sant Llorenç Savall,360000,"[Casa o chalet independiente, 1 planta, 241 m²...","[Piscina, Jardín, Consumo: \n99 kWh/m² año, Em..."


In [5]:
df_casas["caracteristicas básicas"][0]

['Chalet pareado',
 '3 plantas',
 '254 m² construidos, 165 m² útiles',
 '5 habitaciones',
 '4 baños',
 'Parcela de 268 m²',
 'Terraza y balcón',
 'Plaza de garaje incluida en el precio',
 'Segunda mano/buen estado',
 'Armarios empotrados',
 'Trastero',
 'Orientación sur, este',
 'Construido en 1995',
 'Calefacción individual']

# Definición de funciones

# 1. Match_property

In [12]:
'''property --> se refiere a la propiedad en la que quiero buscar alguna palabra, en este caso "con trastero"
   patterns --> se refiere a la palabra que quiero buscar dentro de la propeidad, en este caso "con" y será una lista '''

def match_property(property, patterns):
    for pat in patterns:
        match_prop = re.search(pat, property) # Buscar el patrón en el property que le estoy dando
        
        if match_prop:                        # "if match_prop": quiere decir, si match_prop es verdad entonces, dame un True, sino un False
            return True
    return False

In [13]:
'''Prueba de la función creada
   ¿Está "con" en "con trastero?" en caso de estar imprimir True, sino imprimir False'''

match_property("con trastero", ["con"])

True

Esta función será util ya que si le proporciono una lista con varios elementos le puedo decir, cuando encuentres la palabra "con" en esta lista, acá debes actuar

# 2. Check_property --> cumple la misma función que match_property pero me arroja 0 o 1

In [16]:
def check_property(property, patterns):
    for pat in patterns:
        check = re.search(pat, property) # Buscar el patrón en el property que le estoy dando
        
        if check:                        # "if check": quiere decir, si check es verdad entonces, dame un 1, sino un 0
            return 1
    return 0

In [17]:
'''Prueba de la función creada
   ¿Está "con" en "con trastero?" en caso de estar imprimir 1 si no imprimir 0'''

check_property("con trastero", ["con"])

1

# 3. Get_number --> Me busca los numeros en un str

In [7]:
def get_number(property):
    nums = re.findall(r"\d+", property)
    if len(nums) == 2:
        return int(nums[0]+nums[1])  # "40.000" -> "40" + "000" -> "40000" -> 40000
    else:
        return int(nums[0])

In [8]:
re.findall(r"\d+", "2 baños")

['2']

In [9]:
get_number("2 baños")

2

In [10]:
get_number("40.000 de precio")

40000

# 4. Get_ascensor

In [20]:
'''Features --> es la lista de caracteristica que le voy dar a mi función'''

def get_ascensor(features):
    for prop in features:
        
        '''.lower() --> lo hace todo minuscula
           .strip() --> le quita los espacios
           
           Primero estoy buscando donde aparece con ascensor, si aparece voy a activarlo y voy a buscar que tenga un "con", si lo tiene me
           pone un 1 y si no tiene con me aparece un 0 
           
           Resumen: Si el elemento prop en minus y sin espacios coincide con "ascensor" aplicar check_property'''
           
        if match_property(prop.lower().strip(), ["ascensor"]):   
            return(check_property(prop.lower().strip(), ["con"]))

In [21]:
'''Buscamos si aparece la palabra "ascensor" en minuscula y sin espacios, si aparece True, sino False'''
match_property("con ascensor".lower().strip(), ["ascensor"])

True

In [22]:
'''Luego Buscamos si aparece la palabra "con" en minuscula y sin espacios, si aparece 1, sino 0'''
check_property("con ascensor".lower().strip(), ["con"])

1

In [28]:
var_1 = get_ascensor(["con ascensor"])
var_2 = get_ascensor(["sin ascensor"])
print("con ascensor de dar " + str(var_1))
print("sin ascensor de dar " + str(var_2))

con ascensor de dar 1
sin ascensor de dar 0


# 5. Get_baños

Esta función nos sirve para lo mismo pero nos va a devolver el numero que esté en un str, entonces si el str es 2 baños, vamos a obtener el numero 2

In [None]:
def get_baños(features):
    for pror in features:
        if match_property 