In [1860]:
# Principales
import pandas as pd
import numpy as np

# Modificaciones 
import re
from unidecode import unidecode
import unicodedata
import datetime
import os


# visuzalizaciones
import missingno as msno
import matplotlib as plt 
import plotly.express as px 

In [1861]:
pd.set_option("display.max_columns", None)
pd.set_option('display.max_rows',80)
pd.set_option('display.float_format', lambda x: '%.2f' % x)
pd.set_option('display.max_colwidth', None)
# Ajustar la configuración para mostrar más filas 
#pd.set_option('display.max_rows', 500)

#inicializo la lista to replace
to_replace=['Null','Nan','nan','NULL',None]

# Funciones

In [1862]:


# Función para normalizar texto
def normalize_text(text):
    # Reemplazar caracteres especiales y convertir a minúsculas para una comparación consistente
    text = text.replace("/", " ")  # Reemplazar la barra por espacio o eliminarla completamente
    text = text.replace("ñ", "n")  # Reemplazar la "ñ" por "n"
    return ''.join(
        c for c in unicodedata.normalize('NFD', text)
        if unicodedata.category(c) != 'Mn'
    ).lower()

In [1863]:
def normalizar(texto):
 return unidecode(texto).lower()

In [1864]:
def actualizar_valores(df, df1, clave, columna_a_actualizar):
    """
    Actualiza los valores de una columna en un dataframe utilizando los valores de otro dataframe.
    
    :param df: DataFrame a actualizar.
    :param df1: DataFrame que contiene los valores correctos.
    :param clave: Nombre de la columna que funciona como clave primaria para hacer la correspondencia.
    :param columna_a_actualizar: Nombre de la columna que será actualizada en df.
    :return: DataFrame actualizado.
    """
    # Crear un diccionario con los valores correctos del segundo dataframe
    valores_correctos = df1.set_index(clave)[columna_a_actualizar].to_dict()
    
    # Actualizar los valores en el dataframe principal
    df[columna_a_actualizar] = df[clave].map(valores_correctos).fillna(df[columna_a_actualizar])
    
    return df


In [1865]:
def actualizar_valores_conclave(df, df1, clave, columna_a_actualizar):
    """
    Actualiza los valores de una columna en un dataframe utilizando los valores de otro dataframe.
    
    :param df: DataFrame a actualizar.
    :param df1: DataFrame que contiene los valores correctos.
    :param clave: Nombre de la columna que funciona como clave primaria para hacer la correspondencia.
    :param columna_a_actualizar: Nombre de la columna que será actualizada en df.
    :return: DataFrame actualizado.
    """
    # Crear un diccionario con los valores correctos del segundo dataframe
    valores_correctos = df1.set_index(clave)[columna_a_actualizar].to_dict()
    
    # Actualizar los valores en el dataframe principal solo si coinciden las claves
    df[columna_a_actualizar] = df[clave].map(valores_correctos).combine_first(df[columna_a_actualizar])
    
    return df


In [1866]:
def obtener_valores_por_columna(df, columna, valor):
    """
    Devuelve los valores de las demás columnas de la fila donde la columna especificada tiene el valor dado.
    
    :param df: DataFrame de pandas
    :param columna: Nombre de la columna para buscar el valor
    :param valor: Valor único para buscar en la columna
    :return: Diccionario con los valores de las demás columnas
    """
    # Convertir los valores de la columna a cadenas de texto y eliminar espacios en blanco
    df[columna] = df[columna].astype(str).str.strip()
    valor = str(valor).strip()
    
    fila = df.loc[df[columna] == valor]
    if not fila.empty:
        return fila.iloc[0].to_dict()
    else:
        return {}


In [1867]:
def porcentaje_nulos(df, columnas):
    if isinstance(columnas, str):
        columnas = [columnas]  # Convertir a lista si es una sola columna
    resultados = {}
    for columna in columnas:
        if columna in df.columns:
            total_filas = len(df)
            nulos = df[columna].isnull().sum()
            porcentaje_nulos = (nulos / total_filas) * 100
            resultados[columna] = porcentaje_nulos
        else:
            resultados[columna] = 'Column not found'
    return resultados



In [1868]:
def obtener_valores_por_columnaold(df, columna, valor):
    """
    Devuelve los valores de las demás columnas de la fila donde la columna especificada tiene el valor dado.
    
    :param df: DataFrame de pandas
    :param columna: Nombre de la columna para buscar el valor
    :param valor: Valor único para buscar en la columna
    :return: Diccionario con los valores de las demás columnas
    """
    # Eliminar espacios en blanco de los valores en la columna y del valor de búsqueda
    df[columna] = df[columna].str.strip()
    valor = valor.strip()
    
    fila = df.loc[df[columna] == valor]
    if not fila.empty:
        return fila.iloc[0].to_dict()
    else:
        return {}


In [1869]:

# Función para clasificar el tipo de calefacción y asignar el nombre de la lista
def clasificar_calefaccion(calefaccion, listas):
    for tipo, lista in listas.items():
        if calefaccion in lista:
            return tipo
    return 'No clasif'

In [1870]:
def agrupar_cocinas(tipo):
    categorias = []
    if pd.isnull(tipo):
        categorias.append('sin_informacion')
    elif isinstance(tipo, str):
        if 'abierta' in tipo.lower() or 'abierto' in tipo.lower() or 'americana' in tipo.lower() or 'integrada' in tipo.lower():
            categorias.append('abierta')
        if 'independiente' in tipo.lower():
            categorias.append('independiente')
        if 'amplia' in tipo.lower():
            categorias.append('amplia')
        if 'isla' in tipo.lower():
            categorias.append('con isla')
        if 'amueblada' in tipo.lower():
            categorias.append('amueblada')
        if 'con electrodomesticos' in tipo.lower() or 'equipada' in tipo.lower() or 'con elec.' in tipo.lower():
            categorias.append('equipada')       
        if 'sin amueblar' in tipo.lower():
            categorias.append('no amueblada')
        if 'reformada' in tipo.lower():
            return 'reformada'
        elif 'a reformar' in tipo.lower() or 'necesita reforma' in tipo.lower():
            return 'Sin reforma'
        if not categorias:
            categorias.append('sin categoria')
        return ', '.join(categorias)
    else:
        return 'error tipo campo no texto'
    return ', '.join(categorias)


In [1871]:

def clasificar_consumo(valor):
    try:
        valor = float(valor)
        if valor < 10:
            return 'A'
        elif valor <= 20:
            return 'B'
        elif valor <= 35:
            return 'C'
        elif valor <= 55:
            return 'D'
        elif valor <= 75:
            return 'E'
        elif valor <= 100:
            return 'F'
        else:
            return 'G'
    except ValueError:
        return None



# Carga de datos

In [1872]:

print(os.getcwd())

c:\Users\extas\Documents\GitHub\precios-de-vivienda-madrid\codigo\01-preprocesamiento-de-datos\Revision_columnas


In [1873]:
df17= pd.read_csv('./data/dfpisosCompleto17012025.csv',index_col=False)

  df17= pd.read_csv('./data/dfpisosCompleto17012025.csv',index_col=False)


In [1874]:
dfbarrios= pd.read_excel('../02-datos-limpios/distr_barrios_codpostal.xlsx')

In [1875]:
dfadicionales= pd.read_csv('../02-datos-limpios/Datos_adicionales.csv',sep=";", index_col=False)

In [1876]:
dfbarrios.head(2)

Unnamed: 0,cod_distrito,distrito,cod_barrio,cod_barrio_2,barrio,codigo_Postal
0,1,Centro,11,1,Palacio,28013
1,1,Centro,12,2,Embajadores,28012


In [1877]:
df17 = df17.loc[:, ~df17.columns.str.contains('^Unnamed')]

In [1878]:
df17.shape

(10430, 110)

In [1879]:
df17.columns.tolist()

['title',
 'url',
 'precio',
 'precio_anterior',
 'descuento',
 'EUR/m2',
 'm2_constr',
 'distrito',
 'cod_distrito',
 'barrio',
 'cod_barrio',
 'zona',
 'calle',
 'detalle',
 'consumoce_ano',
 'letrace',
 'emisiones_co2',
 'tipologia',
 'propiedad_completa',
 'estado',
 'amueblado',
 'planta',
 'habitaciones',
 'dormitorios',
 'banos',
 'balcon',
 'terraza',
 'garaje',
 'trastero',
 'ascensor',
 'porteria',
 'calefaccion',
 'ano_construccion',
 'plantas_edificio',
 'aire_acondicionado',
 'jardin',
 'inmueble_ingresos',
 'alquiler_opcion_a_compra',
 'disponibilidad',
 'nuda_propiedad',
 'sup_comercial',
 'tipo_inmueble',
 'tiene_armario',
 'cancha_tenis',
 'carpinteria_exterior_doble_vidrio/pvc',
 'carpinteria_exterior_doble_vidrio/madera',
 'carpinteria_exterior_doble_vidrio/metal',
 'carpinteria_exterior_triple_vidrio/madera',
 'carpinteria_exterior_triple_vidrio/metal',
 'carpinteria_exterior_vidrio/pvc',
 'carpinteria_exterior_vidrio/madera',
 'carpinteria_exterior_vidrio/metal',
 

# **_Revision primeras 31 columnas Gilberto_**  

Codigo trasladado

In [1880]:
# Selecciono las primeras 31 columnas. De la 0 a la 30.
df_131=df17.iloc[:, :31]

In [1881]:
# Checo la forma de mi dataframe y que realmente tome 31 columnas.
df_131.shape
# Muestreo de las primeras 5 filas 
df_131.head()
#Muestreo de las ultimas 5 filas 
df_131.tail()
# Muestreo de 5 filas aleatorias 
df_131.sample(5)


Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria
1603,"Chalet 9 habitaciones, Recoletos, Madrid",https://www.indomio.es/anuncios/96561763/,1050000.00,,,2.5,420.0,Salamanca,4.0,Recoletos,41.0,recoletos,,Chalet 9 habitaciones,desconocido,,No indicado,Chalet,,,,1.0,5+,9.0,3+,,,,0.0,,
9325,"Piso de una habitación 180 m², Jerónimos, Madrid",https://www.indomio.es/anuncios/96952867/,1.050.000,,,5.83,180.0,Retiro,3.0,Jerónimos,35.0,Jerónimos,,,desconocido,,No indicado,Piso,,,,,1,1.0,1,,,,0.0,,
4560,Piso en venta en Palacio,https://www.pisos.com/comprar/piso-centro_palacio28013-45930952714_105100/,1220000.00,,,7393.0,165.0,Centro,1.0,Palacio,11.0,,,,,,,Piso,,,,,,2.0,3.0,0.0,0.0,,0.0,0.0,
9546,Piso en venta en San Diego Madrid,https://www.pisosmadrid.com.es/propiedad/3866835-piso-en-venta-en-san-diego-madrid,144900,,,,63.0,Puente de Vallecas,13.0,SanDiego,132.0,San Diego,,,,,,Piso,,,0.0,,,2.0,1,,,0.0,0.0,,
1639,"Piso de tres habitaciones 105 m², Colina, Madrid",https://www.indomio.es/anuncios/96564277/,885000.00,,,8.43,105.0,Ciudad Lineal,15.0,Colina,157.0,colina,,Piso de tres habitaciones 105 m²,desconocido,,No indicado,Piso,,,,1.0,3,3.0,2,,,,0.0,,


In [1882]:
# Chqueo de nulos en todas las columnas

df_131.isna().sum()
# Muestreo estadistico de las columnas

title                     0
url                       0
precio                    0
precio_anterior       10376
descuento             10376
EUR/m2                 2379
m2_constr                28
distrito                 22
cod_distrito             69
barrio                  411
cod_barrio              386
zona                   4805
calle                  9368
detalle                4506
consumoce_ano          7089
letrace                9039
emisiones_co2          6828
tipologia                 0
propiedad_completa    10319
estado                 4761
amueblado              7533
planta                 4645
habitaciones           7183
dormitorios             191
banos                   305
balcon                 4483
terraza                4359
garaje                 8374
trastero               1700
ascensor               2311
porteria              10278
dtype: int64

In [1883]:

df_131.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
precio_anterior,54.0,812929.63,977732.38,98100.0,197750.0,432000.0,949875.0,4900000.0
EUR/m2,8051.0,3628.73,4001.52,0.0,6.58,2846.0,6246.5,27708.0
m2_constr,10402.0,248.27,6465.93,0.0,67.0,97.0,150.0,656600.0
cod_distrito,10361.0,7.71,5.75,0.0,4.0,6.0,12.0,21.0
cod_barrio,10044.0,81.49,57.31,1.0,41.0,65.0,124.0,215.0
propiedad_completa,111.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
dormitorios,10239.0,2.81,1.43,0.0,2.0,3.0,3.0,24.0
terraza,6071.0,0.32,0.47,0.0,0.0,0.0,1.0,1.0
trastero,8730.0,0.16,0.36,0.0,0.0,0.0,0.0,1.0


In [1884]:
df_131.describe().T
# Muestreo de tipos de columnas y nulos 
df_131.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10430 entries, 0 to 10429
Data columns (total 31 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   title               10430 non-null  object 
 1   url                 10430 non-null  object 
 2   precio              10430 non-null  object 
 3   precio_anterior     54 non-null     float64
 4   descuento           54 non-null     object 
 5   EUR/m2              8051 non-null   float64
 6   m2_constr           10402 non-null  float64
 7   distrito            10408 non-null  object 
 8   cod_distrito        10361 non-null  float64
 9   barrio              10019 non-null  object 
 10  cod_barrio          10044 non-null  float64
 11  zona                5625 non-null   object 
 12  calle               1062 non-null   object 
 13  detalle             5924 non-null   object 
 14  consumoce_ano       3341 non-null   object 
 15  letrace             1391 non-null   object 
 16  emis

In [1885]:
# Chequeo de nulos en la columna title 
df_131["title"].isna().sum()
# Filtro para checar si las filas que no tienen valores en title tienen valores en otras columnas importantes
#filas_con_nulos= df_131[df_131["title"].isnull()]
#ilas_con_nulos

0

In [1886]:
df_131["title"].head(20)
df_131["title"].sample(20)

5427                                                                    Piso en venta en Goya
2931    Piso de dos habitaciones Calle Del Marqués De Santa Ana, Universidad-Malasaña, Madrid
3497                                               Casa unifamiliar en venta en Casa de Campo
6831                                                              Piso en venta en Castellana
5689                                                               Piso en venta en Jerónimos
8563             Piso en venta en VicálvaroAmbrozCentroValdebernardoValderribas Madrid Madrid
7785                                                                   Piso en venta en Zofío
1362                                   Ático muy buen estado, 80 m², Fuente del Berro, Madrid
1318                                  Piso de tres habitaciones tercera planta, Lista, Madrid
5525                                           Piso en venta en Calle de Motilla del Palancar
7607                                                        

In [1887]:
df_131["url"].sample(10)
df_131["url"].isna().sum()

0

In [1888]:
# Filtro de filas con valores pequeños que no podrian ser el coste de un inmueble
df_131[df_131["precio"] == 1]

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria
758,"Piso de una habitación planta baja, Sol, Madrid",https://www.indomio.es/anuncios/95899949/,1.0,,,,,Centro,1.0,Sol,16.0,Sol,,Piso de una habitación planta baja,desconocido,,No indicado,Piso,,,,Planta baja,1,1.0,1,0.0,,,1.0,1.0,


se revisa la url https://www.indomio.es/anuncios/95899949/ y en l web aparece con valor 1€, lo consideramos un error, elimino la linea del dataset

In [1889]:
df17.shape

(10430, 110)

In [1890]:
# Eliminar filas donde la columna 'precio' es igual a 1
df17 = df17[df17["precio"] != 1]


In [1891]:
df17.shape

(10429, 110)

In [1892]:

# Filtro de las filas con valores en precio anteior 
filas_sin_nulos= df_131[~df_131["precio_anterior"].isnull()]
filas_sin_nulos.head(4)
# Aqui filtre los links de los inmuebles con el precio anterior para checar algunos directamente y 
# ver si habia algo relevante del porque del cambio del precio.
filas_sin_nulos["url"]
# Chequeo de porcentaje de nulos en la columna precio_anterior
df_131["precio_anterior"].isna().mean()*100
df_131.shape
# Porcentaje de nulos 
df_131["descuento"].isna().mean()*100
#Porcentaje de nulos
df_131["EUR/m2"].isna().mean()*100
# Chequeo de nulos totales
df_131["EUR/m2"].isna().sum()
df_131["EUR/m2"].describe()
# Filtro de valores iguales a 0
filas_valor_eur= df_131[df_131["EUR/m2"] == 0]
filas_valor_eur

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria
1029,"Piso 656600 m², Recoletos, Madrid",https://www.indomio.es/anuncios/96246263/,124150.0,,,0.0,656600.0,Salamanca,4.0,Recoletos,41.0,Recoletos,,Piso 656600 m²,desconocido,G,No indicado,Piso,,,,,,,,,,,0.0,,


In [1893]:
# Filtro de valores 
filas_valor_eur_pequeños= df_131[df_131["EUR/m2"] <=100 ]
filas_valor_eur_pequeños.tail(5)
# Filtro para valores menores a 99 con un decimal. de esa forma los valores podran ser filtrados para no tener un precio mayor a 4 cifras por metro cuadrado
# que es lo que se ha notado donde predominan los valores.  Aqui cheque los valores con Data Wrangler y pude visualizar que los valores no son correctos. A algunos 
# les sirve solo colocarle 000 ceros extras al valor por metro cuadrado pero a otros no les sirve eso. 

filtered_df_131 = df_131[df_131['EUR/m2'].apply(lambda x: x < 99 and (x * 10).is_integer())]
filtered_df_131.head(5)
# Filtro por valores que parecen atipicos e irregulares para identificar vericidad
filas_valor_eur2= df_131[df_131["EUR/m2"] >= 20000]
filas_valor_eur2.head()
# Filtro del link por valores que parecen atipicos e irregulares para identificar vericidad
filas_valor_eur2= df_131[df_131["EUR/m2"] >= 20000]
filas_valor_eur2["url"]
# Porcentaje de nulos por columna
df_131.isna().mean()*100

title                 0.00
url                   0.00
precio                0.00
precio_anterior      99.48
descuento            99.48
EUR/m2               22.81
m2_constr             0.27
distrito              0.21
cod_distrito          0.66
barrio                3.94
cod_barrio            3.70
zona                 46.07
calle                89.82
detalle              43.20
consumoce_ano        67.97
letrace              86.66
emisiones_co2        65.47
tipologia             0.00
propiedad_completa   98.94
estado               45.65
amueblado            72.22
planta               44.53
habitaciones         68.87
dormitorios           1.83
banos                 2.92
balcon               42.98
terraza              41.79
garaje               80.29
trastero             16.30
ascensor             22.16
porteria             98.54
dtype: float64

## m2_constr

In [1894]:
# Analisis descriptivo de la columna m2/constr 
df17["m2_constr"].describe()

count    10402.00
mean       248.27
std       6465.93
min          0.00
25%         67.00
50%         97.00
75%        150.00
max     656600.00
Name: m2_constr, dtype: float64

In [1895]:

#Filtro de valores menores a 20 metros cuadrados. Se analizo con 10 tambien y siguen siendo mas de 200
df17[df17["m2_constr"] <= 10]['web'].unique()

array(['pisos.com', 'pisosmadrid'], dtype=object)

In [1896]:
df17.query("m2_constr<= 10 & web=='pisosmadrid'")

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria,calefaccion,ano_construccion,plantas_edificio,aire_acondicionado,jardin,inmueble_ingresos,alquiler_opcion_a_compra,disponibilidad,nuda_propiedad,sup_comercial,tipo_inmueble,tiene_armario,cancha_tenis,carpinteria_exterior_doble_vidrio/pvc,carpinteria_exterior_doble_vidrio/madera,carpinteria_exterior_doble_vidrio/metal,carpinteria_exterior_triple_vidrio/madera,carpinteria_exterior_triple_vidrio/metal,carpinteria_exterior_vidrio/pvc,carpinteria_exterior_vidrio/madera,carpinteria_exterior_vidrio/metal,chimenea,cocina,fibra_optica,instalacion_tv_centralizada,instalacion_tv_individual,exterior,interior,interior_y_exterior,tiene_piscina,porton_electrico,puerta_blindada,alarma,videoportero,lujosa,descripcion_extendida,€_comunidad_mes,acceso_minusvalido,orientacion,web,fecha_descarga,certificado_energetico,piscina,tiene_jardin,barrios,cod_bario,referencia,cantidad_visitas,fecha_publicacion,titular_anuncio,campo12,cantidad_armarios,consumo_energia,cal_energetica,agua_caliente,tipo_suelo,m2_utiles,vista_zona,gastos_comunidad,zonas_verdes,terrazas,puerta_seguridad,num_plantas,num_pisos,reservado,nombre_oficina,cod_barrio_2,codigo_Postal,tipo_fachada,cantidad_dormitorios,orientacion_este,orientacion_norte,"orientacion_norte,_sur",orientacion_oeste,orientacion_sur,"orientacion_sur,_este",sistema_alarma,n.visitas,grupo_cocina
9660,Piso en venta en Malasana Madrid,https://www.pisosmadrid.com.es/propiedad/3912876-piso-en-venta-en-malasana-madrid,550000,,,,0.0,Centro,1.0,Sol,16.0,Malasana,,,,,,Piso,,,0.0,,,3.0,2,,,0.0,0.0,,,1.0,,,0.0,0.0,,,,,,,,,,,,,,,,,0.0,,,,,,,,,,,0.0,0.0,,AVC INMOBILIARIO VENDE PISO Este magnifico piso abuhardillado esta ubicado en el efervescente Barrio de Malasana a tan solo unos pasos de la Gran Via Rodeado de boutiques restaurantes modernos y teatros se encuentra,,,,pisosmadrid,24/10/2024,,0.0,1.0,,,3912876,90.0,2024-06-21,,,,,,,,,,,,,,,,,,6.0,28013.0,,,,,,,,,,90.0,sin_informacion
10172,Piso en venta en Pueblo Nuevo Madrid,https://www.pisosmadrid.com.es/propiedad/4056165-piso-en-venta-en-pueblo-nuevo-madrid,212500,,,,0.0,Ciudad Lineal,15.0,PuebloNuevo,152.0,Pueblo Nuevo,,,,,,Piso,,,0.0,,,2.0,1,,,0.0,0.0,,,,,,0.0,0.0,,,,,,,,,,,,,,,,,0.0,,,,,,,,,,,0.0,0.0,,Piso 2 dormitorios 1 banos 0 garajes Para reformar en Madrid Madrid Ubicado en el barrio de Pueblo Nuevo Madrid Piso exterior que consta de 2 habitaciones 1 bano saloncomedor cocina y terraza La vivienda esta,,,,pisosmadrid,24/10/2024,,0.0,1.0,,,4056165,10.0,2024-10-07,,,,,,,,,,,,,,,,,,2.0,28017.0,,,,,,,,,,10.0,sin_informacion
10176,Apartamento en venta en Centro Madrid,https://www.pisosmadrid.com.es/propiedad/4056174-apartamento-en-venta-en-centro-madrid,250000,,,,0.0,Carabanchel,11.0,Opañel,112.0,Centro,,,,,,Apartamento,,,0.0,,,3.0,1,,,0.0,0.0,,,,,,0.0,0.0,,,,,,,,,,,,,,,,,0.0,,,,,,,,,,,0.0,0.0,,Apartamento 3 dormitorios 1 banos 0 garajes Para reformar en Madrid Madrid Ubicado en el barrio de Opanel Carabanchel Piso de 100 m2 construidos distribuido en saloncomedor cocina 3 habitaciones y 2 banos La,,,,pisosmadrid,24/10/2024,,0.0,1.0,,,4056174,10.0,2024-10-07,,,,,,,,,,,,,,,,,,2.0,28019.0,,,,,,,,,,10.0,sin_informacion
10181,Apartamento en venta en Ventas Madrid,https://www.pisosmadrid.com.es/propiedad/4056185-apartamento-en-venta-en-ventas-madrid,345200,,,,0.0,Ciudad Lineal,15.0,Ventas,151.0,ventas,,,,,,Apartamento,,,0.0,,,3.0,2,,,0.0,0.0,,,,,,0.0,0.0,,,,,,,,,,,,,,,,,0.0,,,,,,,,,,,0.0,0.0,,Apartamento 3 dormitorios 2 banos 0 garajes Para reformar en Madrid Madrid Ubicado en el Barrio de Ventas Madrid Piso recien reformado distribuido en saloncomedor con cocina abierta 3 habitaciones 2 banos y 2 t,,,,pisosmadrid,24/10/2024,,0.0,1.0,,,4056185,30.0,2024-10-07,,,,,,,,,,,,,,,,,,1.0,28027.0,,,,,,,,,,30.0,sin_informacion


# En el caso de pisos madrid se visita la web, no existe campo con el valor pero lo poner en la descripcion, se asigna el valor de 2 de los  pisos

In [1897]:
# Asignar valor específico si la URL coincide
df17.loc[df17["url"] == "https://www.pisosmadrid.com.es/propiedad/3912876-piso-en-venta-en-malasana-madrid", "m2_constr"] = 131

df17.loc[df17["url"] == "https://www.pisosmadrid.com.es/propiedad/4056174-apartamento-en-venta-en-centro-madrid", "m2_constr"] = 100



In [1898]:
df17.query("m2_constr<= 10 & web=='pisos.com'")

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria,calefaccion,ano_construccion,plantas_edificio,aire_acondicionado,jardin,inmueble_ingresos,alquiler_opcion_a_compra,disponibilidad,nuda_propiedad,sup_comercial,tipo_inmueble,tiene_armario,cancha_tenis,carpinteria_exterior_doble_vidrio/pvc,carpinteria_exterior_doble_vidrio/madera,carpinteria_exterior_doble_vidrio/metal,carpinteria_exterior_triple_vidrio/madera,carpinteria_exterior_triple_vidrio/metal,carpinteria_exterior_vidrio/pvc,carpinteria_exterior_vidrio/madera,carpinteria_exterior_vidrio/metal,chimenea,cocina,fibra_optica,instalacion_tv_centralizada,instalacion_tv_individual,exterior,interior,interior_y_exterior,tiene_piscina,porton_electrico,puerta_blindada,alarma,videoportero,lujosa,descripcion_extendida,€_comunidad_mes,acceso_minusvalido,orientacion,web,fecha_descarga,certificado_energetico,piscina,tiene_jardin,barrios,cod_bario,referencia,cantidad_visitas,fecha_publicacion,titular_anuncio,campo12,cantidad_armarios,consumo_energia,cal_energetica,agua_caliente,tipo_suelo,m2_utiles,vista_zona,gastos_comunidad,zonas_verdes,terrazas,puerta_seguridad,num_plantas,num_pisos,reservado,nombre_oficina,cod_barrio_2,codigo_Postal,tipo_fachada,cantidad_dormitorios,orientacion_este,orientacion_norte,"orientacion_norte,_sur",orientacion_oeste,orientacion_sur,"orientacion_sur,_este",sistema_alarma,n.visitas,grupo_cocina
3111,"Apartamento en venta en Calle de los Misterios, 16, cerca de Calle de la Virgen de Lluc",https://www.pisos.com/comprar/apartamento-ciudad_lineal_quintana-48353042971_100500/,220000.00,,,6875.00,2.00,Ciudad Lineal,15.00,Quintana,153.00,,,"Si estás buscando una vivienda para independizarte o para invertir , ¡Deja de buscar, esta es tu oportunidad!\n\nAsr home te presenta genial apartamento, con garaje y trastero en una de las mejores zonas de madrid. \n\nEste piso es especial porque: por la luz que tiene, la ubicación y por tener todo lo que necesitas.\n\nDistribucion: al ser un apartamento , todo esta a la mano, la cocina y salón todo junto y el baño independiente.\n\nEquipamiento y calidades: el piso se encuentra para entrar a vivir con calidades de construcción muy buenas y en condiciones muy aceptables.\n\nComunicaciones: se ubica cerca del metro ciudad lineal y múltiples paradas de autobuses que le llevaran a cualquier lugar del centro de madrid. \n\nComercio, servicios, ocio: en esta zona hay gran variedad de comercio, restauración, centros médicos y hospitales, \n\nCentros educativos: en el sector de la enseñanza la zona cuenta con una estupendas guarderías y escuela de primaria. Para los otros niveles hay colegios públicos y privados.\n\nIbi 414.39 €/año\nComunidad 114,17 €/mes\n\nTe financiamos hasta el 100% no dudes en consultarno.",,,,Apartamento,,,,6875.0,,1.00,32.0,0.00,0.00,,1.00,1.00,,Gas natural,Entre 10 y 20 años,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,Disponible,,,,153.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
3141,"Apartamento en venta en Calle del Teniente Coronel Noreña, 22",https://www.pisos.com/comprar/apartamento-legazpi_barrio28045-29263829710_109700/,410415.00,,,6728.00,1.00,Arganzuela,2.00,Legazpi,24.00,,,Apartamento en un edificio de obra nueva de 61 m2 de superficie construida y ubicado en la zona de Madrid Capital. Está distribuido en 1 habitación.,,,,Apartamento,,A estrenar,,61.0,,1.00,1.0,0.00,0.00,,0.00,0.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,24.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
3202,"Ático en venta en Calle de Durazno, 9",https://www.pisos.com/comprar/atico-carabanchel_buenavista28044-38404310160_109700/,412500.00,,,5221.00,2.00,Carabanchel,11.00,Buenavista,116.00,,,Ático en un edificio de obra nueva de 79 m2 de superficie construida y ubicado en la zona de Madrid Capital. Está distribuido en 2 habitaciones.,,,,Ático,,A estrenar,,79.0,,2.00,2.0,0.00,0.00,,0.00,0.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,116.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
3204,"Ático en venta en Calle de Durazno, 9",https://www.pisos.com/comprar/atico-carabanchel_buenavista28044-46678494025_109700/,354100.00,,,5221.00,2.00,Carabanchel,11.00,Buenavista,116.00,,,Ático en una finca de obra nueva de 86 m2 de superficie construida y emplazado en la zona de Madrid Capital. Está dispuesto en 2 habitaciones.,,,,Ático,,A estrenar,,79.0,,2.00,2.0,0.00,0.00,,0.00,0.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,116.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
3205,"Ático en venta en Calle Alfredo Aleix 26 y C/ Piña, 17",https://www.pisos.com/comprar/atico-carabanchel_buenavista28044-4871739623_109700/,334900.00,,,3452.00,1.00,Carabanchel,11.00,Buenavista,116.00,,,"P2 Ático A. Ático en una finca de obra nueva de 97 m2 de superficie construida y emplazado en la zona de Madrid Capital, posicionado en planta ático. Está dispuesto en 1 habitación, 1 baño completo y terraza de 33.61 m2. Cuenta como extras garaje y ascensor.",,,,Ático,,A estrenar,,97.0,,1.00,1.0,0.00,1.00,,0.00,1.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,116.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7762,"Piso en venta en Plaza Mayor de Villaverde, 8",https://www.pisos.com/comprar/piso-villaverde_san_andres28021-4885463236_109700/,348000.00,,,1.00,2.00,Villaverde,17.00,"VillaverdeAlto,CascoHistóricodeVillaverde",171.00,,,"VA40000199301. Piso en un edificio de obra nueva de 134 m2 de superficie construida y ubicado en la zona de Madrid, enclavado en planta 1. Está distribuido en 3 habitaciones, 2 baños completos y terraza de 6.30 m2. Incluye extras como ascensor, garaje y trastero.",,,,Piso,,A estrenar,,134.0,,3.00,3.0,0.00,1.00,,1.00,1.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,171.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
7763,"Piso en venta en Plaza Mayor de Villaverde, 8",https://www.pisos.com/comprar/piso-villaverde_san_andres28021-4888683269_109700/,236000.00,,,2987.00,1.00,Villaverde,17.00,"VillaverdeAlto,CascoHistóricodeVillaverde",171.00,,,"VA40000199296. Piso en una finca de obra nueva de 79 m2 de superficie construida y emplazado en la zona de Madrid, posicionado en planta baja. Está dispuesto en 1 habitación, 1 baño completo y terraza de 7.25 m2. Cuenta como extras ascensor, garaje y trastero.",,,,Piso,,A estrenar,,79.0,,1.00,1.0,0.00,1.00,,1.00,1.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,171.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
7764,"Piso en venta en Plaza Mayor de Villaverde, 8",https://www.pisos.com/comprar/piso-villaverde_san_andres28021-4891828236_109700/,250000.00,,,3333.00,1.00,Villaverde,17.00,"VillaverdeAlto,CascoHistóricodeVillaverde",171.00,,,"VA40000199300. Piso en un inmueble de obra nueva de 75 m2 de superficie construida y situado en la zona de Madrid, acomodado en planta baja. Está estructurado en 2 habitaciones y 1 baño completo. Aporta como extras ascensor, garaje y trastero.",,,,Piso,,A estrenar,,75.0,,2.00,2.0,0.00,0.00,,1.00,1.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,171.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion
7765,"Piso en venta en Plaza Mayor de Villaverde, 8",https://www.pisos.com/comprar/piso-villaverde_san_andres28021-4915060649_109700/,279000.00,,,2559.00,2.00,Villaverde,17.00,"VillaverdeAlto,CascoHistóricodeVillaverde",171.00,,,"VA40000199297. Piso en un inmueble de obra nueva de 109 m2 de superficie construida y situado en la zona de Madrid, acomodado en planta baja. Está estructurado en 3 habitaciones y 2 baños completos. Aporta como extras ascensor, garaje y trastero.",,,,Piso,,A estrenar,,109.0,,3.00,3.0,0.00,0.00,,1.00,1.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.00,0.00,,,,,,,,,,,,pisos.com,2024-10-19,En trámite,,,,171.00,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion


En pisos.com hay 198 filas con m2_contr erronea, se va al origen para ver que transformación se realizó

In [1899]:
#utilizo el fichero pisoscom_limpio que parece que aun tenia los valores de m2_constr
dfpcomlimpio= pd.read_csv('../02-datos-limpios/pisoscom_limpio.csv',index_col=False)

In [1900]:
dfpcomlimpio.columns

Index(['title', 'ubicacion', 'precio', 'habitaciones', 'banos', 'm2_constr',
       'planta', 'EUR/m2', 'estado', 'url', 'fecha_descarga', 'web',
       'distrito', 'barrio', 'cod_distrito', 'cod_barrio', 'tipologia'],
      dtype='object')

In [1901]:
dfpcomlimpio.query("url=='https://www.pisos.com/comprar/piso-villaverde_san_andres28021-4918181785_109700/'")[["m2_constr"]]

Unnamed: 0,m2_constr
910,88.0


In [1902]:
df17.m2_constr.info()

<class 'pandas.core.series.Series'>
Index: 10429 entries, 0 to 10429
Series name: m2_constr
Non-Null Count  Dtype  
--------------  -----  
10402 non-null  float64
dtypes: float64(1)
memory usage: 163.0 KB


In [1903]:
#convierto a float m2_constr en el dataframe de pisos
# Convertir la columna 'nombre_columna' a tipo float
dfpcomlimpio['m2_constr'] = dfpcomlimpio['m2_constr'].astype(float)


In [1904]:
#ahora ponemos el valor que tenemos en dfpcomlimpio cuando coincide la web
df17=actualizar_valores_conclave(df17, dfpcomlimpio, 'url', 'm2_constr')

In [1905]:
df17.query("m2_constr<= 10 & web=='pisos.com'")['url']

3319                     https://www.pisos.com/comprar/atico-latina_aluche28047-4826295847_109700/
3796    https://www.pisos.com/comprar/estudio-centro_embajadores_lavapies28012-42547139321_101800/
5873                      https://www.pisos.com/comprar/piso-latina_aluche28047-4505819831_109700/
5874                      https://www.pisos.com/comprar/piso-latina_aluche28047-4568954085_109700/
5888                      https://www.pisos.com/comprar/piso-latina_aluche28047-4696641924_109700/
5889                      https://www.pisos.com/comprar/piso-latina_aluche28047-4715872594_109700/
Name: url, dtype: object

#en la web ponen que tiene 10 m2, y por las fotos lo parece

In [1906]:
df17["m2_constr"].value_counts(dropna=False)

m2_constr
70.00       183
60.00       172
90.00       147
80.00       140
75.00       137
           ... 
1554.00       1
694.00        1
974.00        1
654.00        1
12054.00      1
Name: count, Length: 561, dtype: int64

In [1907]:
#voy a mirar los valores de m2_constr>1000
df17.query("m2_constr>= 5000")[['url','dormitorios','m2_constr']]

Unnamed: 0,url,dormitorios,m2_constr
1029,https://www.indomio.es/anuncios/96246263/,,656600.0
9607,https://www.pisosmadrid.com.es/propiedad/3891215-piso-en-venta-en-madrid,1.0,5275.0
9608,https://www.pisosmadrid.com.es/propiedad/3891216-piso-en-venta-en-madrid,1.0,5275.0
9969,https://www.pisosmadrid.com.es/propiedad/4018493-piso-en-venta-en-conde-orgaz-madrid,2.0,7995.0
10130,https://www.pisosmadrid.com.es/propiedad/4049211-piso-en-venta-en-simancas-madrid,3.0,10391.0
10157,https://www.pisosmadrid.com.es/propiedad/4054068-piso-en-venta-en-canillejas-madrid,2.0,5641.0
10159,https://www.pisosmadrid.com.es/propiedad/4055005-piso-en-venta-en-ciudad-lineal-madrid,2.0,5641.0
10199,https://www.pisosmadrid.com.es/propiedad/4058113-apartamento-en-venta-en-ciudad-lineal-madrid,2.0,5641.0
10362,https://www.pisosmadrid.com.es/propiedad/4073872-piso-en-venta-en-ensanche-de-vallecas-madrid,2.0,8844.0
10402,https://www.pisosmadrid.com.es/propiedad/4084004-atico-en-venta-en-san-isidro-madrid,1.0,10554.0


Se detecta un error en los datos de m2_constr de pisos madrid, al tener algunos valores los decimales con puntos, cargo el original de pisos madrid para arreglar este valor

In [1908]:
#como en el origen está bien, traigo los valores de pisos madrid
dfpmlimpio= pd.read_csv('../02-datos-limpios/dfpisosmadrid_paraunir.csv',index_col=False)

In [1909]:
dfpmlimpio['m2_constr'] = dfpmlimpio['m2_constr'].astype(float)

In [1910]:
#ahora ponemos el valor que tenemos en dfpcomlimpio cuando coincide la web
df17=actualizar_valores_conclave(df17, dfpmlimpio, 'url', 'm2_constr')

In [1911]:
df17.query("m2_constr>= 5000")[['url','dormitorios','m2_constr']]

Unnamed: 0,url,dormitorios,m2_constr
1029,https://www.indomio.es/anuncios/96246263/,,656600.0


En el scraping aparece con ese valor, pero entiendo que es un error

In [1912]:
# Eliminar la fila donde la columna 'url' es igual a la URL especificada
df17 = df17[df17["url"] != "https://www.indomio.es/anuncios/96246263/"]


In [1913]:
# Resetear el índice del DataFrame
df17.reset_index(drop=True, inplace=True)

In [1914]:
df17.query("m2_constr.isnull() ")[['url','m2_constr',"dormitorios","precio","cod_barrio","cod_distrito"]]

Unnamed: 0,url,m2_constr,dormitorios,precio,cod_barrio,cod_distrito
70,https://www.indomio.es/anuncios/91050501/,,,550000.0,12.0,1.0
336,https://www.indomio.es/anuncios/94926741/,,3.0,150500.0,,0.0
416,https://www.indomio.es/anuncios/95261315/,,5.0,1390299.0,83.0,8.0
2112,https://www.indomio.es/anuncios/96711263/,,5.0,530000.0,104.0,10.0
2732,https://www.indomio.es/anuncios/96850525/,,4.0,1195000.0,82.0,8.0
3578,https://www.pisos.com/comprar/chalet-moncloa_aravaca_aravaca28023-4672849479_109700/,,,4500000.0,97.0,9.0
3579,https://www.pisos.com/comprar/chalet-moncloa_aravaca_aravaca28023-4710772760_109700/,,,4500000.0,97.0,9.0
3580,https://www.pisos.com/comprar/chalet-moncloa_aravaca_aravaca28023-4716192434_109700/,,,4500000.0,97.0,9.0
3581,https://www.pisos.com/comprar/chalet-moncloa_aravaca_aravaca28023-4726633940_109700/,,,4500000.0,97.0,9.0
3582,https://www.pisos.com/comprar/chalet-moncloa_aravaca_aravaca28023-4747807608_109700/,,,4500000.0,97.0,9.0


In [1915]:
#en la informacion dela web https://www.pisos.com/comprar/chalet-moncloa_aravaca_aravaca28023-4710772760_109700/ se dice 800 m2

# Actualizar el valor de m2_contr para la fila cuya URL contiene la cadena proporcionada
url_especifica = 'https://www.pisos.com/comprar/chalet-moncloa_aravaca_aravaca28023-'
#dfEDA.loc[dfEDA['url'].str.contains(url_especifica), ['m2_constr','dormitorios','banos','tiene_piscina',"num_garajes","trastero","estado"] = [800,5,5,1,2,1,'Obra nueva']
df17.loc[df17['url'].str.contains(url_especifica), ['m2_constr', 'dormitorios', 'banos', 'tiene_piscina', 'num_garajes', 'trastero', 'estado']] = [800, 5, 5, 1, 2, 1, 'Obra nueva']
#Elimino https://www.indomio.es/anuncios/91050501/ por que es un edificio con 5 estudios, no tenemos metros
url_a_eliminar = 'https://www.indomio.es/anuncios/91050501/'
df17 = df17[df17['url'] != url_a_eliminar]
df17.loc[df17["m2_constr"] == "3 baños", "m2_constr"] = np.nan
df17["m2_constr"] = pd.to_numeric(df17["m2_constr"])

In [1916]:
#revisado anauncio https://www.redpiso.es/inmueble/piso-en-venta-en-hispanoamerica-chamartin-madrid-madrid-RP902024129170, esta en planta 1 y tiene 155 m2
url_especifica = 'https://www.redpiso.es/inmueble/piso-en-venta-en-hispanoamerica-chamartin-madrid-madrid-RP902024129170'
df17.loc[df17['url'].str.contains(url_especifica), ['m2_constr', 'planta']] = [155, 1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4010194-piso-en-venta-en-madrid'), ['m2_constr','distrito','cod_distrito','barrio','cod_barrio','inmueble_ingresps']] = [47,'Puente de Vallecas',13,'San Diego',132,1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4010211-piso-en-venta-en-madrid'), ['m2_constr']] = 47
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4056174-apartamento-en-venta-en-centro-madrid'), ['m2_constr']] = 100
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3908548-piso-en-venta-en-madrid'), ['m2_constr']] = 302
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3908547-piso-en-venta-en-madrid'), ['m2_constr']] = 316
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3908546-piso-en-venta-en-madrid'), ['m2_constr','planta']] = [185,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3908545-piso-en-venta-en-madrid'), ['m2_constr','planta']] = [311,3]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3908523-piso-en-venta-en-madrid'), ['m2_constr','ascensor']] = [348,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3908520-piso-en-venta-en-madrid'), ['m2_constr','terraza','trastero']] = [263,1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3908448-chalet-en-venta-en-madrid'), ['m2_constr']] = 1800
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3907116-piso-en-venta-en-madrid'), ['m2_constr','planta','ascensor']] = [60,2,1]
df17.loc[df17['url'].str.contains('https://www.indomio.es/anuncios/96517417/'), ['m2_constr']] = 397
df17.loc[df17['url'].str.contains('https://www.pisos.com/comprar/piso-villaverde_san_andres28021-4918181785_109700/'), ['m2_constr','planta','estado']] = [88,1,'obra nueva']
df17.loc[df17['url'].str.contains('https://www.pisos.com/comprar/piso-villaverde_san_andres28021-4915060649_109700/'), ['m2_constr','planta','estado']] = [109,0,'obra nueva']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3907141-piso-en-venta-en-madrid'), ['cod_barrio','barrio','cod_distrito','distrito','m2_constr','planta','estado','num_plantas','tiene_piscina','trastero','calefaccion']] = [74,'Almagro',7,'Chamberí',184,1,'reformado',7,1,1,'aerotermia suelo radiante']
df17.loc[df17['url'].str.contains('https://www.indomio.es/anuncios/94926741/'), ['cod_barrio','barrio','cod_distrito','distrito','m2_constr','planta','tiene_piscina','trastero','inmueble_ingresos']] = [101,'Los Cármenes',10,'Latina',80,1,0,0,1]
df17.loc[df17['url'].str.contains('https://www.indomio.es/anuncios/95261315/'), ['m2_constr','tiene_piscina','Lujo']] = [271,1,1]
df17.loc[df17['url'].str.contains('https://www.redpiso.es/inmueble/en-venta-en-calle-la-alegria-de-la-huerta-los-angeles-villaverde-madrid-madrid-RP332024131222'), ['m2_constr','tiene_piscina','nuda_propiedad']] = [90,0,1]
df17.loc[df17['url'].str.contains('https://www.redpiso.es/inmueble/piso-en-venta-en-madrid-madrid-RP352023120094'), ['m2_constr','tiene_piscina','terraza','trastero']] = [75,0,1,1]


urlsnuevo=['https://www.pisos.com/comprar/apartamento-adelfas28007-45835099732_101800/','https://www.pisos.com/comprar/apartamento-adelfas28007-45869202772_101800/',
'https://www.pisos.com/comprar/apartamento-adelfas28007-45912206979_101800/',
'https://www.pisos.com/comprar/apartamento-adelfas28007-45919489438_101800/',
'https://www.pisos.com/comprar/apartamento-adelfas28007-46667942689_101800/',
'https://www.pisos.com/comprar/apartamento-adelfas28007-46731956156_101800/']
#les asignamos una planta 5, los aticos son mas caros 
# Actualizar las filas correspondientes usando isin
df17.loc[df17['url'].isin(urlsnuevo), ['estado', 'trastero', 'tiene_piscina', 'garaje', 'planta']] = ['Obra nueva', 1, 1, 1, 5]

# se elimina la url https://www.pisos.com/comprar/piso-fontarron-47524209698_100600/ por que es un restaurante en venta






url_a_eliminar = ['https://www.pisosmadrid.com.es/propiedad/4002776-piso-en-venta-en-madrid',
'https://www.pisosmadrid.com.es/propiedad/3867155-piso-en-venta-en-carabanchel-madrid',
'https://www.pisosmadrid.com.es/propiedad/3964989-piso-en-venta-en-vicalvaro-madrid',
'https://www.pisosmadrid.com.es/propiedad/3937024-duplex-en-venta-en-usera-madrid',
'https://www.pisosmadrid.com.es/propiedad/3867144-piso-en-venta-en-vicalvaro-madrid',
'https://www.pisosmadrid.com.es/propiedad/4045767-piso-en-venta-en-puente-de-vallecas-madrid',
'https://www.pisosmadrid.com.es/propiedad/3932188-piso-en-venta-en-puente-de-vallecas-madrid',
'https://www.pisosmadrid.com.es/propiedad/3937690-duplex-en-venta-en-usera-madrid',
'https://www.pisosmadrid.com.es/propiedad/3867132-piso-en-venta-en-puente-de-vallecas-madrid',
'https://www.pisosmadrid.com.es/propiedad/4045772-piso-en-venta-en-usera-madrid','https://www.pisosmadrid.com.es/propiedad/4066464-piso-en-venta-en-madrid',
'https://www.pisosmadrid.com.es/propiedad/4033699-piso-en-venta-en-san-blas-madrid','https://www.pisosmadrid.com.es/propiedad/4024490-piso-en-venta-en-madrid',
'https://www.pisos.com/comprar/piso-fontarron-47524209698_100600/','https://www.pisosmadrid.com.es/propiedad/3907461-piso-en-venta-en-madrid',
"https://www.pisosmadrid.com.es/propiedad/3930386-piso-en-venta-en-madrid","https://www.pisosmadrid.com.es/propiedad/3967140-piso-en-venta-en-madrid","https://www.pisosmadrid.com.es/propiedad/3986133-piso-en-venta-en-madrid","https://www.pisosmadrid.com.es/propiedad/4010211-piso-en-venta-en-madrid"]
# Eliminar filas donde 'url' coincide con alguna en la lista 'url_a_eliminar'
df17 = df17[~df17['url'].isin(url_a_eliminar)]



In [1917]:
df17.reset_index(drop=True, inplace=True)

In [1918]:
df17.query("m2_constr.isnull()")

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria,calefaccion,ano_construccion,plantas_edificio,aire_acondicionado,jardin,inmueble_ingresos,alquiler_opcion_a_compra,disponibilidad,nuda_propiedad,sup_comercial,tipo_inmueble,tiene_armario,cancha_tenis,carpinteria_exterior_doble_vidrio/pvc,carpinteria_exterior_doble_vidrio/madera,carpinteria_exterior_doble_vidrio/metal,carpinteria_exterior_triple_vidrio/madera,carpinteria_exterior_triple_vidrio/metal,carpinteria_exterior_vidrio/pvc,carpinteria_exterior_vidrio/madera,carpinteria_exterior_vidrio/metal,chimenea,cocina,fibra_optica,instalacion_tv_centralizada,instalacion_tv_individual,exterior,interior,interior_y_exterior,tiene_piscina,porton_electrico,puerta_blindada,alarma,videoportero,lujosa,descripcion_extendida,€_comunidad_mes,acceso_minusvalido,orientacion,web,fecha_descarga,certificado_energetico,piscina,tiene_jardin,barrios,cod_bario,referencia,cantidad_visitas,fecha_publicacion,titular_anuncio,campo12,cantidad_armarios,consumo_energia,cal_energetica,agua_caliente,tipo_suelo,m2_utiles,vista_zona,gastos_comunidad,zonas_verdes,terrazas,puerta_seguridad,num_plantas,num_pisos,reservado,nombre_oficina,cod_barrio_2,codigo_Postal,tipo_fachada,cantidad_dormitorios,orientacion_este,orientacion_norte,"orientacion_norte,_sur",orientacion_oeste,orientacion_sur,"orientacion_sur,_este",sistema_alarma,n.visitas,grupo_cocina,num_garajes,inmueble_ingresps,Lujo
2111,"Piso Ocaña 120, Aluche, Madrid",https://www.indomio.es/anuncios/96711263/,530000.0,,,,,Latina,10.0,Aluche,104.0,aluche,,Piso Ocaña 120,desconocido,,No indicado,Piso,,,,6.0,5.0,5.0,2.0,1.0,1.0,,0.0,1.0,,,,,"Individual, frío/calor",Privado,,,,,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"viviendas sigloxxi vende en exclusiva precioso piso de 164m2 , hall de entrada amplio salón comedor con salida a una terraza y gran ventanal con preciosas vistas a madrid , la vivienda consta de 5 dormitorios , 2wc uno de ellos en suitte , aseo de cortesia , cocina con office y terraza tendedero , sala de estar , despensa , la vivienda dispone de una plaza de garaje incluida en el precio , la urbanización es cerrada con conserje , zona infantil y jardines ,la vivienda está muy bien comunicada parada de metro eugenia de montijo , y autobuses en la puerta el 17,34 , orientación este-oeste , mejor ver...precio:530.000€",,,,Indomio.com,2024-11-20,No indicado,-,1.0,,104.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion,,,
2731,"Piso de cuatro habitaciones tercera planta, Fuentelarreina, Madrid",https://www.indomio.es/anuncios/96850525/,1195000.0,,,,,Fuencarral-El Pardo,8.0,Fuentelarreina,82.0,fuentelarreina,,Piso de cuatro habitaciones tercera planta,desconocido,C,No indicado,Piso,,,,3.0,4.0,4.0,2.0,1.0,1.0,,1.0,1.0,,,,,,Privado,,,,,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"Descubre la oportunidad de vivir en una de las zonas más exclusivas de Madrid,en la emblemática urbanización de Puerta de Hierro. Este magnífico piso de 280 m² construidos es ideal para quienes buscan un hogar espacioso y confortable,con un salón grande con su chimenea4 amplios dormitorios,está diseñado para ofrecer el máximo confort y privacidad a toda la familia. Además, cuenta con 2 baños bien equipados,uno de ellos en suiteUno de los aspectos más destacados de esta propiedad es su luminosidad y su ubicación exterior en la tercera planta, lo que permite disfrutar de vistas despejadas al campo de golf. Una amplia terraza de 15 m² es el lugar perfecto para relajarse al aire libre, organizar reuniones con amigos o simplemente disfrutar de un tranquilo momento de lectura. La cocina office, moderna y funcional, ideal para preparar deliciosas comidas en un ambiente acogedor.Este piso no solo destaca por su tamaño y distribución, sino también por su excelente estado de conservación. Equipado con suelos de parquet que aportan calidez y elegancia, cada rincón está pensado para ofrecer un hogar acogedor y sofisticado. Además, el edificio cuenta con ascensor y portero,y una plaza de garaje de cortesía, lo que añade un nivel extra de comodidad y seguridad. La presencia de un trastero brinda espacio adicional para el almacenamiento, asegurando que todo esté en orden y a la mano.Disfruta de amplias zonas verdes con acceso al campo de golf, así como de una piscina comunitaria La calefacción central de gasoil, y el agua caliente centralizada garantizan un hogar cálido y acogedor durante los meses más fríos del añoPor último, los gastos de comunidad de 600 € al mes son una inversión que incluye una serie de servicios y mantenimiento que aseguran la calidad de vida en este privilegiado entorno. Con alta de suministros ya realizada. No dejes pasar esta excepcional oportunidad de adquirir un hogar en una de las zonas más deseadas de Madrid, donde el lujo y la comodidad se unen para brindarte una vida plena y satisfactoria.",,,,Indomio.com,2024-11-20,Disponible,-,1.0,,82.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion,,,
6408,Piso en venta en Calle de Ribadavia,https://www.pisos.com/comprar/piso-pilar28029-41728621605_106000/,357500.0,,,,,Fuencarral-El Pardo,8.0,ElPardo,81.0,,,,,,,Piso,,,,1.0,,4.0,2.0,0.0,0.0,,0.0,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,0.0,0.0,,,,,,,,,,,,pisos.com,2024-08-19,,,,,81.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,sin_informacion,,,


In [1919]:
#quedan tres viviendas sin m2_constr

#### distrito

In [1920]:
# Poner en mayúsculas la primera letra de cada palabra en la columna 'distrito'
df17['distrito'] = df17['distrito'].str.title()


In [1921]:
df17["distrito"].unique()

array([' Salamanca', ' Barajas', ' Arganzuela', ' Chamartín', ' Tetuán',
       ' Chamberí', 'Villaverde', ' Latina', ' Centro',
       ' Fuencarral-El Pardo', ' Villa De Vallecas',
       ' Puente De Vallecas', ' Retiro', ' San Blas-Canillejas',
       ' Ciudad Lineal', 'Hortaleza', ' Moncloa-Aravaca', ' Carabanchel',
       'Carabanchel', ' Hortaleza', ' Vicálvaro', ' Usera', 'Salamanca',
       'Puente De Vallecas', 'Ciudad Lineal', 'Fuencarral-El Pardo',
       'Latina', 'Barajas', ' Moratalaz', 'Tetuan', ' Villaverde',
       'Villa De Vallecas', 'Usera', 'Moratalaz', 'Chamberi', 'Centro',
       'San Blas-Canillejas', 'Vicálvaro', nan, 'Retiro', 'Vicalvaro',
       'Chamartin', 'Chamberí', 'Arganzuela', 'Moncloa-Aravaca'],
      dtype=object)

In [1922]:
# Definir el diccionario de reemplazos
reemplazos = {
    'Chamberi': 'Chamberí',
    'Chamartin': 'Chamartín',
    'Tetuan': 'Tetuán',
    'Vicalvaro': 'Vicálvaro',

}

# Reemplazar múltiples valores en la columna 'distrito'
df17['distrito'] = df17['distrito'].replace(reemplazos).str.strip()


In [1923]:


# Ajustar la configuración para mostrar más caracteres en las columnas
pd.set_option('display.max_colwidth', None)




In [1924]:
# se comprueba en datos
distritonan=['https://www.pisosmadrid.com.es/propiedad/4082845-piso-en-venta-en-madrid','https://www.pisosmadrid.com.es/propiedad/4066315-piso-en-venta-en-madrid','https://www.pisosmadrid.com.es/propiedad/4042093-piso-en-venta-en-madrid','https://www.pisosmadrid.com.es/propiedad/4040920-atico-en-venta-en-madrid','https://www.pisosmadrid.com.es/propiedad/3951179-chalet-en-venta-en-madrid',"https://www.pisosmadrid.com.es/propiedad/3872239-piso-en-venta-en-madrid","https://www.pisosmadrid.com.es/propiedad/3989144-piso-en-venta-en-arturo-soria-madrid"]

df17.loc[df17["url"] .isin(distritonan) , "distrito"] = np.nan


# nuda propiedad son imuebles sin posesion, se estan incluyendo inmuebles que se tiene la posesion pero no el uso y disfrute por que alguien tiene el usufructo, tabien se incluye inmuebles ocupados

In [1925]:
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3895829-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','nuda_propiedad']] = ['Puente de Vallecas',13,'Palomeras Bajas',133,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3890362-piso-en-venta-en-madrid'), ['cod_distrito','barrio','cod_barrio','nuda_propiedad']] = [7,'Almagro',74,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3895577-piso-en-venta-en-campo-de-las-naciones-madrid'), ['distrito','cod_distrito','barrio','cod_barrio']] = ['Barajas',21,'Corralejo',215]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3895829-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','nuda_propiedad']] = ['Puente de Vallecas',13,'San Diego',132,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3895852-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','nuda_propiedad','tiene_piscina']] = ['Fuencarral-El Pardo',8,'El Pardo',81,1,0]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3906133-piso-en-venta-en-madrid'), ['letrace','distrito','cod_distrito','barrio','cod_barrio','nuda_propiedad','tiene_piscina','garaje','trastero','estado']] = ['B','Tetuán',6,'Valdeacederas',65,0,1,1,1,'obra nueva']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3906149-piso-en-venta-en-madrid'), ['letrace','distrito','cod_distrito','barrio','cod_barrio','nuda_propiedad','tiene_piscina','garaje','trastero','estado','planta']] = ['B','Tetuán',6,'Valdeacederas',65,0,1,1,1,'obra nueva',1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3909307-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','gastos_comunidad','calefaccion']] = ['Puente de Vallecas',13,'Portazgo',135,50,'radiadores gas natural']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4086544-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta','ascensor','calefaccion','ano_construccion','garaje','trastero']] = ['Villa de Vallecas',18,'Ensanche de Vallecas',183, 3, 1,'radiadores gas natural',2007, 1, 1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3912746-adosado-en-venta-en-valdebebas-madrid'), ['distrito','cod_distrito','barrio','cod_barrio']] = ['Hortaleza',16,'Valdefuentes',167]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3913534-atico-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','terraza','porteria','tiene_piscina','garaje','trastero']] = ['San Blas-Canillejas',20,'Salvador',208,1,'todo el dia',1,1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3914118-adosado-en-venta-en-puerta-de-hierro-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','terraza','porteria','tiene_piscina','garaje']] = ['Moncloa-Aravaca',9,'Ciudad Universitaria',93,1,'todo el dia',1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3926465-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','balcon','cocina']] = ['Centro',1,'Palacio',11,1,'amueblada y equipada']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3941614-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','balcon','estado','garaje','precio','terraza']] = ['Centro',1,'Universidad',15,0,'reformado',0,295000,0]
#df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3930386-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','tiene_piscina','garaje','trastero','inmueble_ingresos','estado','ascensor']] = ['San Blas-Canillejas',20,'Simancas',201,0,0,0,1,'buen estado',1]

df17.loc[df17['url'].str.contains('3930386-piso-en-venta-en-madrid'), 
         ['distrito', 'cod_distrito', 'barrio', 'cod_barrio', 'tiene_piscina', 'garaje', 'trastero', 'inmueble_ingresos', 'estado', 'ascensor']] = ['San Blas-Canillejas', 20, 'Simancas', 201, 0, 0, 0, 1, 'buen estado', 1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3907116-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','ano_construccion','ascensor','calefaccion','gastos_comunidad']] = ['Puente de Vallecas',13,'San Diego',132,1997,1,'gas natural',55]


df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3952091-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','ano_construccion','estado','terraza']] = ['Villa de Vallecas',18,'Casco Histórico de Vallecas',181,1965,'para reformar',0]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3955423-piso-en-venta-en-gran-via-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado','terraza','portero','aire_acondicionado','planta','balcon','exterior','calefaccion','cocina']] = ['Centro',1,'Cortes',13,'reformado',0,1,'por splits',7,1,1,'central por gas','equipada e integrada']

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3980091-piso-en-venta-en-arturo-soria-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado','terraza','portero','garaje','trastero','aire_acondicionado','exterior','ascensor']] = ['Ciudad Lineal',13,'Quintana',153,'reformado',1,1,1,1,1,1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3984516-piso-en-venta-en-las-mercedes-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado']] = ['San Blas-Canillejas',20,'Rejas',206,'obra nueva']

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3984517-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta','ascensor','terraza']] = ['Villa de Vallecas',18,'Casco Histórico de Vallecas',181,7,1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3993106-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','porteria','armarios','ascensor','terraza','calefaccion','estado']] = ['Ciudad Lineal',15,'San Juan Bautista',156,1,1,1,1,1,'central','reformado']

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3999010-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','estado']] = ['Centro',1,'Universidad',15,0,'reformado']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4002199-piso-en-venta-en-puerta-de-hierro-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','terraza','planta','gastos_comunidad']] = ['Moncloa-Aravaca',9,'Ciudad Universitaria',93,1,1,211]
#pongo nuda_propiedad aunque es subasta
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4009926-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','nuda_propiedad']] = ['Puente de Vallecas',13,'Portazgo',135,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4061729-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','trastero','garaje','nuda_propiedad']] = ['Villa de Vallecas',18,'Ensanche de Vallecas',183,1,1,1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4018244-atico-en-venta-en-principe-pio-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','terraza','cocina']] = ['Moncloa-Aravaca',9,'Ciudad Universitaria',91,1,'independiente con zona office']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4019953-piso-en-venta-en-gran-via-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','terraza']] = ['Centro',1,'Cortes',13,1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4019754-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado','planta','plantas_edificio','trastero','videoportero','armarios','exterior']] = ['Chamberí',7,'Arapiles',72,'reformado',5,6,1,1,1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4021421-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','estado','lujo','balcon','exterior','trastero','cocina','orientacion_este']] = ['Centro',1,'Universidad',15,0,'reformado',1,1,1,1,'abierta',1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4022055-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado','terraza']] = ['Salamanca',4,'Goya',42,'obra nueva',1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4027823-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','estado','armarios','ascensor','interior','cocina']] = ['Centro',1,'Universidad',15,0,'reformado',1,1,1,'equipada']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4038755-apartamento-en-venta-en-valdebebas-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','inmueble_ingresos','amueblado']] = ['Hortaleza',16,'Valdefuentes',166,1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4045589-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta','exterior','orietacion_oeste','cocina','estado']] = ['Moncloa-Aravaca',9,'Arguelles',92,3,1,1,'independiente equipada','reformado']

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4049261-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta','estado','ano_construccion','orientacion_sur']] = ['Centro',1,'Universidad',15,4,'para reformar',1951,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4049262-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta','estado','ano_construccion','orientacion_sur','interior']] = ['Centro',1,'Universidad',15,3,'para reformar',1951,1,1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4049998-estudio-en-venta-en-valdebebas-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','amueblado','estado']] = ['Hortaleza',16,'Valdefuentes',166,1,1,'buen estado']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4055061-estudio-en-venta-en-lavapies-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta','cocina']] = ['Centro',1,'Embajadores',12,0,'americana']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4058252-piso-en-venta-en-ensanche-vallecas-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','trastero','garaje','cocina','calefaccion','aire_acondicionado','porteria']] = ['Villa de Vallecas',18,'Ensanche de Vallecas',183,1,1,1,'independiente','gas natural',1,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4060837-piso-en-venta-en-campo-de-las-naciones-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','trastero','garaje','cocina','calefaccion','aire_acondicionado','estado']] = ['Hortaleza',16,'Palomas',161,0,1,1,'independiente','gas natural',1,'buen estado']

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4061729-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','trastero','garaje']] = ['Villa de Vallecas',18,'Ensanche de Vallecas',183,1,1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4063624-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','inmueble_ingresos']] = ['Centro',1,'Universidad',15,1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4065057-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','amueblado','balcon','videoportero','calefaccion','aire_acondicionado']] = ['Centro',1,'Universidad',15,1,1,1,'aire',1]
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4070178-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','balcon','exterior','planta','gastos_comunidad','aire_acondicionado','porteria']] = ['Centro',1,'Universidad',15,1,1,1,85,'bomba frio calor','media jornada']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4086303-piso-en-venta-en-malasana-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado','precio','calefaccion']] = ['Centro',1,'Universidad',15,'para reformar',1250000,'central']


df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4063625-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','inmueble_ingresos']] = ['Latina',10,'Lucero',103,1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4068880-piso-en-venta-en-las-tablas-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','trastero','garaje','piscina','cocina']] = ['Fuencarral el pardo ',8,'Valverde',86,1,1,1,'independiente']


df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4074173-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta']] = ['Salamanca',4,'Guindalera',44,0]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4070179-atico-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','terraza','orientacion_sur','porteria','calefaccion']] = ['Chamberí',7,'Vallehermoso',76,1,1,1,'individual gas natural']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4077780-piso-en-venta-en-costillares-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','planta','exterior','armarios','cocina','garaje','trastero','piscina','porteria']] = ['Ciudad Lineal',15,'Costillares',159,8,1,1,'independiente equipada',2,1,1,1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4077645-apartamento-en-venta-en-san-blas-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','piscina','exterior','armarios','cocina','porteria']] = ['San Blas-Canillejas',20,'Rosas',205,1,1,1,'independiente equipada',1]

df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4079312-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado','ano_construccion','amueblado','cocina']] = ['Centro',1,'Cortes',13,'reformado',1890,1,'amueblada equipada']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4079795-adosado-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','estado','garaje','trastero','aire_ acondicionado']] = ['Villaverde',17,'Villaverde Alto',171,'reformado',1,1,1]


df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4085127-apartamento-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','tipologia','garaje','trastero','porteria','piscina','cocina']] = ['Arganzuela',2,'Acacias',22,'Estudio',1,1,1,1,'independiente']


df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4086493-piso-en-venta-en-madrid'), ['distrito','cod_distrito','barrio','cod_barrio','nuda_propiedad']] = ['San Blas-Canillejas',20,'Arcos',204,1]

In [1926]:
df17.query("cod_distrito.isnull()")[['distrito','url','cod_distrito','barrio','cod_barrio','m2_constr','planta','dormitorios','banos','precio','estado','tipologia','terraza']]

Unnamed: 0,distrito,url,cod_distrito,barrio,cod_barrio,m2_constr,planta,dormitorios,banos,precio,estado,tipologia,terraza
9557,,https://www.pisosmadrid.com.es/propiedad/3872239-piso-en-venta-en-madrid,,,,102.0,,3.0,2,195000,,Piso,
9754,,https://www.pisosmadrid.com.es/propiedad/3951179-chalet-en-venta-en-madrid,,,,370.0,,6.0,4,1550000,,Chalet,
9857,,https://www.pisosmadrid.com.es/propiedad/3989144-piso-en-venta-en-arturo-soria-madrid,,,,86.0,,3.0,1,440000,,Piso,
10033,,https://www.pisosmadrid.com.es/propiedad/4040920-atico-en-venta-en-madrid,,,,133.0,,2.0,2,490000,,Atico,
10043,,https://www.pisosmadrid.com.es/propiedad/4042093-piso-en-venta-en-madrid,,,,139.0,,3.0,2,426000,,Piso,
10260,,https://www.pisosmadrid.com.es/propiedad/4066315-piso-en-venta-en-madrid,,,,44.0,,2.0,1,169000,,Piso,
10298,Chamberí,https://www.pisosmadrid.com.es/propiedad/4068919-duplex-en-venta-en-san-blas-madrid,,,,91.0,,1.0,1,295000,,Duplex,
10373,,https://www.pisosmadrid.com.es/propiedad/4082845-piso-en-venta-en-madrid,,,,70.0,,2.0,1,285000,,Piso,


In [1927]:
df_fichero= pd.read_excel('./data/arreglar_barrios_distritos.xlsx')

In [1928]:


# Asegurar que las columnas necesarias existen en ambos DataFrames
columnas = ['url', 'distrito', 'cod_distrito', 'barrio', 'cod_barrio']
df_fichero = df_fichero[columnas].dropna(subset=['url'])  # Eliminar filas sin URL
n=0
# Recorrer el fichero y actualizar df17
for _, row in df_fichero.iterrows():
    url = row['url']
    print(url)
    # Verificar si la URL está en df17
    if url in df17['url'].values:
        n=n+1
        # Encontrar el índice de la fila correspondiente en df17
        index = df17[df17['url'] == url].index[0]
       # print(index)
        # Actualizar solo los valores no nulos en el fichero
        for col in columnas[1:]:  # Excluir 'url'
            if pd.notna(row[col]):  # Si en el fichero hay un valor válido
                df17.at[index, col] = row[col]
                
print(n)


https://www.redpiso.es/inmueble/piso-en-venta-en-calle-apostol-santiago-ventas-ciudad-lineal-madrid-madrid-RP702024130319
https://www.pisosmadrid.com.es/propiedad/4066366-piso-en-venta-en-madrid
https://www.redpiso.es/inmueble/estudio-en-venta-en-calle-rafael-bergamin-hortaleza-madrid-madrid-RP942024130889
https://www.redpiso.es/inmueble/duplex-en-venta-en-calle-jupiter-casco-historico-de-barajas-barajas-madrid-madrid-RP1352024129988
https://www.pisosmadrid.com.es/propiedad/3895839-piso-en-venta-en-san-blas-madrid
https://www.redpiso.es/inmueble/piso-en-venta-en-calle-gonzalez-arias-pradolongo-usera-madrid-madrid-RP2892024127620
https://www.redpiso.es/inmueble/loft-en-venta-en-avenida-aviacion-pau-de-carabanchel-carabanchel-madrid-madrid-RP362024130699
https://www.redpiso.es/inmueble/piso-en-venta-en-calle-hortaleza-justicia-centro-madrid-madrid-RP1332024130703
https://www.redpiso.es/inmueble/piso-en-venta-en-calle-rafael-bergamin-hortaleza-madrid-madrid-RP942024129851
https://www.redp

In [1929]:

# Reemplazar los valores 'na' por NaN
df17.replace('na', pd.NA, inplace=True)

# Convertir las columnas a enteros, ignorando los errores
df17['cod_distrito'] = pd.to_numeric(df17['cod_distrito']).astype('Int64')
df17['cod_barrio'] = pd.to_numeric(df17['cod_barrio']).astype('Int64')

In [1930]:

# Crear condiciones
condicion_1 = (df17['cod_distrito'] > 9) & (df17['cod_barrio'].astype(str).str[:2] != df17['cod_distrito'].astype(str)) 
condicion_2 = (df17['cod_distrito'] <= 9) & (df17['cod_barrio'].astype(str).str[:1] != df17['cod_distrito'].astype(str)) 
# Filtrar filas que cumplen con alguna de las condiciones
resultado = df17[condicion_1 | condicion_2]

# Mostrar el dataframe resultante

print(resultado[['url','distrito','cod_distrito','barrio','cod_barrio']].sample(70))


                                                                                                           url  \
9935                         https://www.pisosmadrid.com.es/propiedad/4015338-piso-en-venta-en-vallecas-madrid   
10201                           https://www.pisosmadrid.com.es/propiedad/4061401-piso-en-venta-en-usera-madrid   
10286                       https://www.pisosmadrid.com.es/propiedad/4068429-piso-en-venta-en-chamartin-madrid   
1296                                                                 https://www.indomio.es/anuncios/96442905/   
10029                        https://www.pisosmadrid.com.es/propiedad/4040755-piso-en-venta-en-chamberi-madrid   
10239                     https://www.pisosmadrid.com.es/propiedad/4064687-piso-en-venta-en-carabanchel-madrid   
10140                        https://www.pisosmadrid.com.es/propiedad/4055060-piso-en-venta-en-lavapies-madrid   
9961   https://www.pisosmadrid.com.es/propiedad/4019999-apartamento-planta-baja-en-venta

No tenemos forma de conocer la ubicacion de https://www.pisosmadrid.com.es/propiedad/3930386-piso-en-venta-en-madrid	, lo elimino del dataset

In [1931]:
df17.query("cod_barrio.isnull() & cod_distrito.notnull()")[['distrito','cod_distrito','barrio','cod_barrio','descripcion_extendida','url']]

Unnamed: 0,distrito,cod_distrito,barrio,cod_barrio,descripcion_extendida,url
134,Salamanca,0,,,"Se vende piso de particular a particular. Magnífico Piso ubicado en la mejor zona de Las Tablas de 1 habitación con baño en suite, salón, comedor, cocina independiente completamente equipada, tendedero cerrado, armarios empotrados, aire acondicionado (frio/calor) y puerta blindada. Incluye tanto garaje para coche grande como trastero. Urbanización con piscina y zonas comunes.",https://www.indomio.es/anuncios/92694593/
143,Villaverde,0,,,"Estupendo duplex con terraza, cinco habitaciones, tres baños, situado en ultima planta y con ascensor. Es una vivienda con gran potencial, por su amplitud y sus buenas vistas. Por su buena distribución puede resultar sencilla y económica de actualizar. Esta bien situada en una calle tranquila, por lo que es cómoda para el día a día, además cuenta con abundantes comercios en la zona, así como numerosos servicios, colegios, hospital, etc. También se encuentra bien comunicado, tiene a poca distancia Metro, Cercanías, y diferentes líneas de Bus.",https://www.indomio.es/anuncios/92969219/
144,Puente De Vallecas,0,,,"Estupendo duplex con terraza, cinco habitaciones, tres baños, situado en ultima planta y con ascensor. Es una vivienda con gran potencial, por su amplitud y sus buenas vistas. Por su buena distribución puede resultar sencilla y económica de actualizar. Esta bien situada en una calle tranquila, por lo que es cómoda para el día a día, además cuenta con abundantes comercios en la zona, así como numerosos servicios, colegios, hospital, etc. También se encuentra bien comunicado, tiene a poca distancia Metro, Cercanías, y diferentes líneas de Bus.",https://www.indomio.es/anuncios/92969219/
343,Carabanchel,0,,,"Agencia inmobiliaria de MADRID - zona Montecarmelo - Las Tablas - Sanchinarro - Oficina Tecnocasa VENDE:TECNOCASA 'Estudio Montecarmelo' pone a su disposición vivienda de 3 dormitorios, PARA ENTRAR A VIVIR, situada en primera planta con altura de segunda, salón-comedor, cocina REFORMADA independiente con tendedero, 2 baños completos REFORMADOS, uno de ellos en suite en la habitación principal.Cuenta con armarios empotrados. Ventanas en climalit y carpintería exterior de aluminio. Calefacción individual de gas natural. Aire acondicionado en toda la vivienda canalizado por conductos, incluyendo climatización por independiente por zonas (airzone). Incluye 2 plazas de aparcamiento MUY AMPLIAS, con acceso directo por el ascensor, así como de un trastero.Urbanización cerrada con zonas verdes, piscina, zona infantil, conserje y sistema CCTV. Muy bien comunicada en transporte público con metro (L10 Montecarmelo, L10 Tres Olivos y L9 Paco de Lucía) y varias líneas de la EMT (134, 178, N23), a escasos metros del portal. Próximo a Santa María la Blanca centro comercial de Montecarmelo.La zona cuenta con restaurantes, supermercados, gimnasios, centro comercial etc. Varios centros escolares como el Colegio Alemán y Santa María la Blanca, Infanta Leonor.. . Muy buenas comunicaciones desde M-40, carretera de Colmenar o Ventisquero de la Condesa'.Consulta las posibilidades de financiación con nuestro departamento financiero, Kíron. Asesoramiento gratuito y sin compromiso, no dude en consultarnos.TECNOCASA, 25 años a su servicio, ¡Gracias por su confianza!",https://www.indomio.es/anuncios/94950781/
346,Barajas,0,,,"Os damos la bienvenida a este funcional piso ubicado en Madrid. El inmueble se distribuye en tres habitaciones, salón-comedor, cocina y un baño. Ubicado en la 2a planta del edificio. En sus alrededores encontramos escuelas, supermercados, bancos, bibliotecas, farmacias, oficinas de correos, centros deportivos, la estación de metro Villaverde bajo-Cruce y la estación de tren Estación de tren Puente Alcocer. El inmueble está situado a 21 minutos en coche del centro de Madrid. En términos de accesibilidad, la propiedad dispone de múltiples conexiones y cuenta con fácil acceso a Autovía del Sur. En Aliseda Inmobiliaria tenemos la mayor oferta de inmuebles al mejor precio garantizado. Descubre nuestra amplia oferta inmobiliaria y no pierdas la oportunidad de encontrar la casa perfecta para ti. Oportunidad de inversión: inmueble procedente de ejecución hipotecaria sin posesión. Consulte con nuestro Agente Comercial la información adicional sobre el inmueble y las condiciones especiales de compraventa. El precio del inmueble ha sido fijado en atención a que el inmueble se adquiera por el comprador en estado de ocupado por lo que no aplicaría dicho precio si en el momento de formalización de la escritura pública el inmueble se encontrara libre de ocupantes. Imposibilidad de visita interior. Las fotografías pueden no corresponderse con el estado actual del inmueble.",https://www.indomio.es/anuncios/94963799/
...,...,...,...,...,...,...
10356,San Blas-Canillejas,16,,,EXCLUSIVO PISO EN HORTALEZA CON TERRAZA Y ZONAS COMUNES PISCINAS PISTA DE PADEL TENIS Y HUERTOESRIV Inmobiliaria pone a la venta este magnifico piso situado en una CUARTA PLANTA EXTERIOR y muy luminoso de 143 m2 co,https://www.pisosmadrid.com.es/propiedad/4077461-piso-en-venta-en-hortaleza-madrid
10357,Chamberí,4,,,El encanto del pasado tras una reforma integral es el sello de identidad de esta vivienda que presenta ABA Expertos Inmobiliarios Situado en el Barrio de Salamanca junto al Parque del Retiro este piso completamente rem,https://www.pisosmadrid.com.es/propiedad/4077570-piso-en-venta-en-salamanca-madrid
10367,Centro,4,,,Atico 2 dormitorios 2 banos 0 garajes Buen estado en Madrid Madrid OPORTUNIDAD DE INVERSION brbrNO SE PUEDE VISITAR brbrCompre este inmueble por debajo del precio de mercado por tiempo limitado ahor,https://www.pisosmadrid.com.es/propiedad/4079454-atico-en-venta-en-salamanca-madrid
10377,Villaverde,2,,,Te cuento sobre una propiedad que no te dejara indiferente Te presentamos una fantastica vivienda en primera planta con amplios miradores y ventanales que llenan cada rincon de luz natural gracias a su orientacion,https://www.pisosmadrid.com.es/propiedad/4083308-piso-en-venta-en-arganzuela-madrid


In [62]:
# Filtrar filas donde 'cod_barrio' no es nulo y 'cod_distrito' es nulo
filas = df17.query("cod_barrio.notnull() & cod_distrito.isnull()")

# Iterar sobre las filas filtradas
for idx, fila in filas.iterrows():
    bar = fila['cod_barrio']
    valores = obtener_valores_por_columna(dfbarrios, 'cod_barrio', bar)
    
    if valores:
        if pd.isna(df17.at[idx, 'barrio']): 
            df17.at[idx, 'barrio'] = valores.get('barrio')       
        if pd.isna(df17.at[idx, 'cod_barrio']): 
            df17.at[idx, 'cod_barrio'] = valores.get('cod_barrio')
        if pd.isna(df17.at[idx, 'cod_distrito']): 
            df17.at[idx, 'cod_distrito'] = valores.get('cod_distrito')
        if pd.isna(df17.at[idx, 'distrito']): 
            df17.at[idx, 'distrito'] = valores.get('distrito')
        df17.at[idx, 'zona'] = 'bar'



In [332]:
df17.query("cod_barrio.isnull() & cod_distrito.isnull()")[['url','distrito','cod_distrito','barrio','cod_barrio','descripcion_extendida']]

Unnamed: 0,url,distrito,cod_distrito,barrio,cod_barrio,descripcion_extendida
9557,https://www.pisosmadrid.com.es/propiedad/3872239-piso-en-venta-en-madrid,,,,,DP2020 vende piso en edificio residencial con ascensor ubicado en la localidad de MadridConsta de una superficie de 102m2 bien distribuida 3 dormitorios amplios 2 banos un amplio y luminoso saloncomedor con salida a
9754,https://www.pisosmadrid.com.es/propiedad/3951179-chalet-en-venta-en-madrid,,,,,Venta exclusiva con Housell De particular a particular LlAmanos y visita esta viviendabr \nbr \nGran casa de 370 mA2 de superficie y 337 mA2 de parcela en la que podrAs disfrutar de tiempo al aire libre en Mad
9857,https://www.pisosmadrid.com.es/propiedad/3989144-piso-en-venta-en-arturo-soria-madrid,,,,,WGI INMOBILIARIA vende este ESPECTACULAR Y LUMINOSO piso en una de las zonas mas exclusivas de MADRIDTe presentamos este inmueble de 86 m2 construidos actualmente en proceso de descalificacion Distribucion de la vi
10033,https://www.pisosmadrid.com.es/propiedad/4040920-atico-en-venta-en-madrid,,,,,EXCLUSIVO ATICO REFORMADO CON GRAN TERRAZA EN URBANIZACION PRIVADA Ubicado en una zona estrategica este atico ofrece una excelente conexion con transporte publico ya que se encuentra a pocos pasos del m
10043,https://www.pisosmadrid.com.es/propiedad/4042093-piso-en-venta-en-madrid,,,,,Inmobiliaria Eduardo Molet pone en exclusiva a la venta la NUDA PROPIEDAD de un precioso piso situado en una DECIMA PLANTA EXTERIOR con DOS TERRAZAS y VISTAS PANORAMICAS a la ciudad la actual propietaria de 82 anos se
10260,https://www.pisosmadrid.com.es/propiedad/4066315-piso-en-venta-en-madrid,,,,,LlAmanos y visita esta viviendabr \nbr \nPiso de 44 mA2 en Madrid RAo Madrid La vivienda por espacio y distribuciA3n es ideal para una pareja e inversoresbr \nbr \nSe encuentra en planta baja y cuenta con
10298,https://www.pisosmadrid.com.es/propiedad/4068919-duplex-en-venta-en-san-blas-madrid,Chamberí,,,,Codigo de llamada 108Luminoso Duplex de 91m2 en calle Julian CamarilloCaracteristicas destacadas Espacios amplios y luminosos Disfruta de un hogar lleno de luz natural gracias a su orientacion oeste Aire a
10373,https://www.pisosmadrid.com.es/propiedad/4082845-piso-en-venta-en-madrid,,,,,Inmobiliarias Encuentro Vende Piso listo para entrar a vivir de 70 m2 en una zona tranquila y en expansion La vivienda cuenta con dos habitaciones amplias y luminosas un cuarto de bano completo y moderno y un salonco


In [64]:
dfbarrios

Unnamed: 0,cod_distrito,distrito,cod_barrio,cod_barrio_2,barrio,codigo_Postal
0,1,Centro,11,1,Palacio,28013
1,1,Centro,12,2,Embajadores,28012
2,1,Centro,13,3,Cortes,28014
3,1,Centro,14,4,Justicia,28004
4,1,Centro,15,5,Universidad,28015
...,...,...,...,...,...,...
126,20,San Blas-Canillejas,208,8,Salvador,28037
127,21,Barajas,211,1,Alameda de Osuna,28042
128,21,Barajas,212,2,Aeropuerto,28042
129,21,Barajas,213,3,Corralejos,28042


In [65]:
#creo una columna en el dataframe dfbarrios para normalizar los distritos


# Eliminar acentos de la columna 'distrito'
dfbarrios['distrito_n'] = dfbarrios['distrito'].apply(lambda x: unidecode(x))
dfbarrios['barrio_n'] = dfbarrios['barrio'].apply(lambda x: unidecode(x))
dfbarrios['barrio_nn']=dfbarrios['barrio'].apply(lambda x: normalizar(x))


In [156]:
dfbarrios.query("distrito==' Vicálvaro'")

Unnamed: 0,cod_distrito,distrito,cod_barrio,cod_barrio_2,barrio,codigo_Postal
115,19,Vicálvaro,191,1,Casco Histórico de Vicálvaro,28032
116,19,Vicálvaro,192,2,Valdebernardo,28032
117,19,Vicálvaro,193,3,Valderrivas,28032
118,19,Vicálvaro,194,4,El Cañaveral,28032


In [67]:
# Reemplazar la palabra "De" por "de" en la columna 'distrito'
df17['distrito'] = df17['distrito'].str.replace(r'\bDe\b', 'de', regex=True)


In [68]:
# Filtrar filas donde 'cod_barrio' no es nulo y 'cod_distrito' es nulo
filas = df17.query("(cod_barrio.isnull() & cod_distrito.isnull()) | (cod_barrio.isnull() & cod_distrito == 0)")
#ahora tengo nombre distrito pero no codigo
# Iterar sobre las filas filtradas
for idx, fila in filas.iterrows():
   
    bar= unidecode(fila['distrito'])
   

    valores = obtener_valores_por_columna(dfbarrios, 'distrito_n', bar)
    
    if valores:
        #if pd.isna(df17.at[idx, 'barrio']): 
         #   df17.at[idx, 'barrio'] = valores.get('barrio')       
        #if pd.isna(df17.at[idx, 'cod_barrio']): 
         #   df17.at[idx, 'cod_barrio'] = valores.get('cod_barrio')
        if pd.isna(df17.at[idx, 'cod_distrito']): 
            df17.at[idx, 'cod_distrito'] = valores.get('cod_distrito')
        if pd.isna(df17.at[idx, 'distrito']): 
            df17.at[idx, 'distrito'] = valores.get('distrito')
        #df17.at[idx, 'zona'] = 'bar'

In [69]:


# Filtrar filas donde 'cod_barrio' no es nulo y 'cod_distrito' es nulo
filas = df17.query("cod_barrio.notnull() ")

# Iterar sobre las filas filtradas
for idx, fila in filas.iterrows():
    if pd.notna(fila['zona']):
        bar = unidecode(fila['zona'])
        #print (bar)
        valores = obtener_valores_por_columna(dfbarrios, 'distrito_n', bar)
        
        if valores:           
            #if pd.isna(df17.at[idx, 'cod_distrito']): 
                n= valores.get('cod_distrito')
                df17.at[idx, 'cod_distrito'] = valores.get('cod_distrito')
            #if pd.isna(df17.at[idx, 'distrito']): 
                df17.at[idx, 'distrito'] = valores.get('distrito')
           


In [70]:
# Eliminar espacios en blanco de la columna 'zona'
df17['zona'] = df17['zona'].str.strip()

In [71]:
# Eliminar todos los espacios en blanco de la columna 'zona'
df17['zona'] = df17['zona'].str.replace(' ', '')

In [None]:
dfbarrios.tail(50)

In [None]:
# Filtrar filas donde 'cod_barrio' no es nulo y 'cod_distrito' es nulo
filas = df17.query("cod_barrio.isnull() ")

# Iterar sobre las filas filtradas
for idx, fila in filas.iterrows():
    if pd.notna(fila['zona']):
        bar = unidecode(fila['zona'])
        if bar=='villaverdealto,cascohistoricodevillaverde':           
            bar='villaverde alto'
        if bar=='loscarmenes':
            bar='los carmenes'
        if bar=='angeles':
            bar='los angeles'
        if bar=='cascohistoricodevicalvaro':
            bar='casco historico de vicalvaro'
        if bar=='elsalvador':
            bar='salvador'
        if bar=='Malasana':
            bar='universidad'
        if bar=='Ventilla':
            bar='almenara'
        if bar=='Orense':
            bar='castillejos'
        if bar=='VillaverdeBajo':
            bar='los rosales'
        if bar=='LaLatina':
            bar='palacio'
       
       #print (fila['zona'])
        valores = obtener_valores_por_columna(dfbarrios, 'barrio_nn', bar)
        print(bar)    
        if valores:  
           # if bar=='valdefuentes':
            print(bar)         
            #if pd.isna(df17.at[idx, 'cod_distrito']): 
            n= valores.get('cod_distrito')
            df17.at[idx, 'cod_distrito'] = valores.get('cod_distrito')
            #if pd.isna(df17.at[idx, 'distrito']): 
            df17.at[idx, 'distrito'] = valores.get('distrito')
            #if pd.isna(df17.at[idx, 'barrio']): 
            df17.at[idx, 'barrio'] = valores.get('barrio')       
            #if pd.isna(df17.at[idx, 'cod_barrio']): 
            df17.at[idx, 'cod_barrio'] = valores.get('cod_barrio')

In [74]:
# Filtrar filas donde 'cod_barrio' no es nulo y 'cod_distrito' es nulo
filas = df17.query("cod_barrio.isnull() ")

# Iterar sobre las filas filtradas
for idx, fila in filas.iterrows():
    if pd.notna(fila['zona']):
        bar = unidecode(fila['zona'])
        if bar=='villaverdealto,cascohistoricodevillaverde':           
            bar='villaverde alto'
        if bar=='loscarmenes':
            bar='los carmenes'
        if bar=='angeles':
            bar='los angeles'
        if bar=='cascohistoricodevicalvaro':
            bar='casco historico de vicalvaro'
        if bar=='elsalvador':
            bar='salvador'
        if bar=='Malasana':
            bar='universidad'
        if bar=='Ventilla':
            bar='almenara'
      #print (fila['zona'])
        valores = obtener_valores_por_columna(dfbarrios, 'distrito_n', bar)
        print(bar)    
        if valores:  
           # if bar=='valdefuentes':
            print(bar)         
            #if pd.isna(df17.at[idx, 'cod_distrito']): 
            n= valores.get('cod_distrito')
            df17.at[idx, 'cod_distrito'] = valores.get('cod_distrito')
            #if pd.isna(df17.at[idx, 'distrito']): 
            df17.at[idx, 'distrito'] = valores.get('distrito')
           

Villaverde
Villaverde
Centro
Centro
PuentedeVallecas
CiudadLineal
Centro
Centro
Vicalvaro
Vicalvaro
Vicalvaro
Vicalvaro
Moratalaz
Moratalaz
CampodelasNaciones
Vallecas
Carabanchel
Carabanchel
PuentedeVallecas
Valdebebas
Salamanca
Salamanca
PuertadeHierro
Arganzuela
Arganzuela
Centro
Centro
Tetuan
Tetuan
Centro
Centro
Arganzuela
Arganzuela
Tetuan
Tetuan
Centro
Centro
CascoHistoricodeBarajas
CiudadLineal
PuentedeVallecas
Centro
Centro
CiudadLineal
Bernabeu
Arganzuela
Arganzuela
Salamanca
Salamanca
Centro
Centro
CiudadLineal
Bernabeu
Chueca
Madrid
PauCarabanchel
Salamanca
Salamanca
Centro
Centro
GranVia
Salamanca
Salamanca
Centro
Centro
Chamartin
Chamartin
Centro
Centro
Centro
Centro
ArturoSoria
Carabanchel
Carabanchel
Centro
Centro
LasMercedes
Madrid
ArturoSoria
Chamartin
Chamartin
Retiro
Retiro
CascoHistoricodeBarajas
LasMercedes
Moncloa
Bernabeu
Salamanca
Salamanca
ArturoSoria
Sanchinarro
Retiro
Retiro
Chamartin
Chamartin
Chamberi
Chamberi
Vallecas
Centro
Centro
Villaverde
Villaverde
P

In [None]:
df17.query("cod_barrio.isnull() ")[['url','zona','distrito','cod_distrito','barrio','cod_barrio','descripcion_extendida']]

In [76]:
#como en el origen está bien, traigo los valores de pisos madrid
dfInd1limpio= pd.read_csv('../02-datos-limpios/dUnionSilvia23122024.csv',index_col=False)

In [77]:
dfInd1limpio.query("cod_barrio.isnull()")[['distrito','cod_distrito','barrio','cod_barrio','read_all']]

Unnamed: 0,distrito,cod_distrito,barrio,cod_barrio,read_all


In [78]:
# filtro para encontrar los valores iguales a 0 
df17[df17["cod_distrito"]== 0]

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria,calefaccion,ano_construccion,plantas_edificio,aire_acondicionado,jardin,inmueble_ingresos,alquiler_opcion_a_compra,disponibilidad,nuda_propiedad,sup_comercial,tipo_inmueble,tiene_armario,cancha_tenis,carpinteria_exterior_doble_vidrio/pvc,carpinteria_exterior_doble_vidrio/madera,carpinteria_exterior_doble_vidrio/metal,carpinteria_exterior_triple_vidrio/madera,carpinteria_exterior_triple_vidrio/metal,carpinteria_exterior_vidrio/pvc,carpinteria_exterior_vidrio/madera,carpinteria_exterior_vidrio/metal,chimenea,cocina,fibra_optica,instalacion_tv_centralizada,instalacion_tv_individual,exterior,interior,interior_y_exterior,tiene_piscina,porton_electrico,puerta_blindada,alarma,videoportero,lujosa,descripcion_extendida,€_comunidad_mes,acceso_minusvalido,orientacion,web,fecha_descarga,certificado_energetico,piscina,tiene_jardin,barrios,cod_bario,referencia,cantidad_visitas,fecha_publicacion,titular_anuncio,campo12,cantidad_armarios,consumo_energia,cal_energetica,agua_caliente,tipo_suelo,m2_utiles,vista_zona,gastos_comunidad,zonas_verdes,terrazas,puerta_seguridad,num_plantas,num_pisos,reservado,nombre_oficina,cod_barrio_2,codigo_Postal,tipo_fachada,cantidad_dormitorios,orientacion_este,orientacion_norte,"orientacion_norte,_sur",orientacion_oeste,orientacion_sur,"orientacion_sur,_este",sistema_alarma,n.visitas,grupo_cocina


In [79]:
df17[df17["cod_barrio"]== 0]

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria,calefaccion,ano_construccion,plantas_edificio,aire_acondicionado,jardin,inmueble_ingresos,alquiler_opcion_a_compra,disponibilidad,nuda_propiedad,sup_comercial,tipo_inmueble,tiene_armario,cancha_tenis,carpinteria_exterior_doble_vidrio/pvc,carpinteria_exterior_doble_vidrio/madera,carpinteria_exterior_doble_vidrio/metal,carpinteria_exterior_triple_vidrio/madera,carpinteria_exterior_triple_vidrio/metal,carpinteria_exterior_vidrio/pvc,carpinteria_exterior_vidrio/madera,carpinteria_exterior_vidrio/metal,chimenea,cocina,fibra_optica,instalacion_tv_centralizada,instalacion_tv_individual,exterior,interior,interior_y_exterior,tiene_piscina,porton_electrico,puerta_blindada,alarma,videoportero,lujosa,descripcion_extendida,€_comunidad_mes,acceso_minusvalido,orientacion,web,fecha_descarga,certificado_energetico,piscina,tiene_jardin,barrios,cod_bario,referencia,cantidad_visitas,fecha_publicacion,titular_anuncio,campo12,cantidad_armarios,consumo_energia,cal_energetica,agua_caliente,tipo_suelo,m2_utiles,vista_zona,gastos_comunidad,zonas_verdes,terrazas,puerta_seguridad,num_plantas,num_pisos,reservado,nombre_oficina,cod_barrio_2,codigo_Postal,tipo_fachada,cantidad_dormitorios,orientacion_este,orientacion_norte,"orientacion_norte,_sur",orientacion_oeste,orientacion_sur,"orientacion_sur,_este",sistema_alarma,n.visitas,grupo_cocina


In [80]:

# Muestreo de valores unicos 
df17["zona"].unique()
# Muestreo de valores unicos 
df17["calle"].unique()


array(['calle de nunez de balboa 2', nan, 'plaza de italia',
       'calle de juan ramon jimenez 8',
       'avenida de alberto de alcocer 12', 'calle alberto alcocer 10',
       'calle orense', 'calle alcala', 'calle de villaviciosa 4',
       'calle principe de vergara', 'calle infantas',
       'calle de moralzarzal, madrid', 'calle velazquez',
       'calle general pardinas', 'calle san juan de la salle',
       'calle jose lazaro galdiano', 'avenida alberto alcocer',
       'calle alcantara', 'calle castello', 'calle antonio grilo',
       'calle hermosilla', 'calle felix boix', 'calle juan de austria',
       'calle colon', 'avenida burgos', 'calle pastora imperio',
       'calle academia', 'calle odonnell', 'calle de castello, 42',
       'calle pedro de valdivia', 'calle arenal de maudes',
       'calle santa engracia', 'calle ecija',
       'calle raimundo fernandez villaverde', 'calle mayor',
       'calle don ramon de la cruz', 'calle de dulce chacon',
       'calle jose aba

In [None]:
# Definir el diccionario de reemplazos
reemplazos = {
    'Chamberi': 'Chamberí',
    'Chamartin': 'Chamartín',
    'Tetuan': 'Tetuán',
    'Vicalvaro': 'Vicálvaro',

}

# Reemplazar múltiples valores en la columna 'distrito'
dfEDA['distrito'] = dfEDA['distrito'].replace(reemplazos).str.strip()



In [81]:

# Muestreo de valores totales por cada valor unico
df_131["consumoce_ano"].value_counts()
#  Muestreo de nulos totales 
df_131["consumoce_ano"].isna().sum()
# Muestreo de los valores unicos 
df_131 ["letrace"].unique()
# Muestreo de los valores unicos
df_131["emisiones_co2"].unique()
# Muestreo aleatorios de valores en dos columnas 
df_131[["letrace","emisiones_co2"]].sample(10)
#  Muestreo de valores unicos 
df_131["tipologia"].unique()
# Muestreo de valores unicos
df_131["propiedad_completa"].unique()
# Muestreo de valores unicos 
df_131["estado"].unique()
# Muestreo de valores unicos 
df_131["amueblado"].unique()
#  Seleccion de columnas y filtro por indice
filtro_planta= df_131[["planta","url"]]
filtro_planta["url"][7762]
# Muestreo de valores aleatorios
df_131["planta"].sample(10)
#  Muestreo de valores unicos 
df_131["habitaciones"].unique()
#  Muestreo de valores unicos
df_131["dormitorios"].unique()
#  Filtro de valores mayor o igual a 20  
dormitorios_filtro=df_131[df_131["dormitorios"]>=20]
dormitorios_filtro["url"]
#  Muestreo de valores unicos 
df_131["banos"].unique()
#  Filtro de valores igual a 397.0 ....Aqui se puede ver claramente que en la descripcion menciona 3 baños y en la columna de banos aparecen 397.0.
banos_filtro= df_131[df_131["banos"]=="397.0"] 
banos_filtro
# filtro por url
banos_filtro["url"]
#  Filtro directo al valor "278.0" . Entrando al link se puede apreciar que el valor en si mismo no hace referencia a la cantidad de banos sino al espacio
# total del inmueble o llamado el pagina como superficie construida.
banos_filtro= df_131[df_131["banos"]=="278.0"] 
banos_filtro
# Muestreo de valores unicos 
df_131["balcon"].unique()
# Muestreo de valores unicos
df_131["terraza"].unique()
# Muestreo de valores unicos
df_131["garaje"].unique()
# Muestreo de valores aleatorios en dos columnas
df_131[["garaje","url"]].sample(10)
# Muestreo de valores unicos
df_131["trastero"].unique()
# Muestreo de valores unicos
df_131["ascensor"].unique()
# Muestreo de valores unicos 
df_131["porteria"].unique()

array(['Portero media jornada', nan, 'Portero todo el día'], dtype=object)

In [82]:
df17['cantidad_visitas'] = np.where((df17['cantidad_visitas'].isnull()) | (df17['cantidad_visitas'] == 0), df17['n.visitas'], df17['cantidad_visitas'])


In [83]:
df17['cantidad_visitas'].value_counts(dropna=False)

cantidad_visitas
NaN        8078
30.00       153
40.00       139
20.00       130
50.00        98
           ... 
2279.00       1
322.00        1
144.00        1
756.00        1
3364.00       1
Name: count, Length: 1101, dtype: int64

In [84]:
# Guardar el DataFrame en un archivo CSV sin incluir el índice
#df.to_csv("dfpisosCompleto17012025.csv", index=False)


In [85]:
df17["porteria"].value_counts(dropna=False)

porteria
NaN                      10275
Portero todo el día        148
Portero media jornada        4
Name: count, dtype: int64

# revision columnas

## terrazas , terraza

In [88]:
df17['terrazas'].describe()

count                       44
unique                       2
top       Numero de terrazas 1
freq                        31
Name: terrazas, dtype: object

In [89]:
df17['terraza'].describe()

count   6071.00
mean       0.32
std        0.47
min        0.00
25%        0.00
50%        0.00
75%        1.00
max        1.00
Name: terraza, dtype: float64

In [90]:
df17['terrazas'].unique()

array([nan, 'Numero de terrazas 1', 'Numero de terrazas 2'], dtype=object)

In [91]:
df17['terraza'].unique()

array([ 1., nan,  0.])

In [92]:
df17["terraza"].value_counts(dropna=False)

terraza
NaN     4356
0.00    4122
1.00    1949
Name: count, dtype: int64

In [93]:
# Función personalizada para asignar valores a la columna 'terraza'
def asignar_terraza(fila):
    if fila['terrazas'] == 'Numero de terrazas 1':
        return 1
    elif fila['terrazas'] == 'Numero de terrazas 2':
        return 2
    else:
        return fila['terraza']

# Aplicar la función personalizada a la columna 'terraza'
df17['terraza'] = df17.apply(asignar_terraza, axis=1)


In [94]:
df17["terraza"].value_counts(dropna=False)

terraza
NaN     4312
0.00    4122
1.00    1980
2.00      13
Name: count, dtype: int64

In [95]:
df17['terraza'].unique()

array([ 1., nan,  0.,  2.])

In [96]:


# Supongamos que df17 es tu DataFrame
#df17['porteria'] = df17['porteria'].replace('0', np.nan)
df17['calefaccion'] = df17['calefaccion'].replace('0.0', np.nan)
df17['calefaccion'] = df17['calefaccion'].replace('Climatización', 'climatizacion')
df17['calefaccion'] = df17['calefaccion'].replace('Climatizaciòn', 'climatizacion')
df17['tiene_armario'] = df17['tiene_armario'].replace(0.0, np.nan)
df17.loc[df17['web'].isnull(), 'web'] = 'Indomio.com'
df17['tiene_piscina'] = df17['tiene_piscina'].replace(0, np.nan)


df17['porteria'] = df17['porteria'].replace('1', 'Portero todo el día')


## calefaccion

In [340]:
df17["calefaccion"].value_counts(dropna=False)

calefaccion
NaN                                                   6889
Central                                                917
Individual                                             622
1.0                                                    578
Gas natural                                            520
Calefaccion Gas Natural                                254
Calefaccion Electrica                                  126
Eléctrica                                              113
Calefaccion Individual                                 104
Calefaccion Central                                     87
Individual, alimentación eléctrica                      33
Individual, por radiadores, de gas                      28
Individual - gas natural                                18
Central, por radiadores, de gas                         16
Suelo radiante                                          11
Individual, por radiadores                              10
Gasoil                                      

In [None]:


# Palabras clave para clasificar
central_keywords = ["central", "comunitaria", "comunitario"]
individual_keywords = ["individual", "particular", "chimenea", "bomba", "termo", "climatizacion"]
electric_keywords = ["electrica", "bomba", "climatización", 'termo electrico','climatizacion']
gas_keywords = ["gas", "propano", "g n", "g/n"]  # Asegurarse de que 'g n' y 'g/n' estén bien escritos
gasoil_keywords = ["gasóil","gasoil",'gasoil',"Gasoil"]  # Añadir "gasoil" aquí
renovables_keywords = ["aerotermia", "geotermia", "chimenea"]
suelo_radiante_keywords=["suelo_radiante", "suelo"]
#radiadores_keywords=["radiadores"]
aire_keywords=["bomba","climatización",'climatizacion','conducto']
desconocido_keywords=['chimenea', 'termo electrico']
#lo mas extendido son los radiadores por eso despues de pasar , suelo radiante y aire pongo a todos radiadores salvo a chimenea y termo electrico que no lo se
radiadores_keywords=['radiadores','Gas natural', 'G/n', 'Gas particular', 'Central, alimentación eléctrica', 'Agua caliente y calefacción central con contador i', 'Comunitario', 'Individual con gas natural', 'Individual, de gasóil', 'Comunitaria', 'Calefaccion Propano', 'Calefaccion Gas Natural', 'Central, por aire, de gas', 'Gas natural y biomasa', 'Centralizada', 'Eléctrica', 'Calefaccion Individual', 'Calefaccion individual','Contadores individuales', '1.0', 'Individual, alimentación eléctrica', 'Aerotermia', 'Individual - gas natural', 'Individual', 'Calefaccion Aerotermia', 'Gasoil', 'Central individualizada', 'Individual, por aire, alimentación eléctrica', 'Geotermia y aerotermia', 'Calefaccion comunitaria', 'Calefaccion Central', 'Central, de gas', 'Calefaccion Electrica', 'Calefacción central individualizada', 'Central, de gasóil', 'Individual, de gas', 'Central']

# Inicializar conjuntos para valores únicos
central = set()
individual = set()
electrica = set()
gas = set()
gsoil = set()
renovables = set()
suelo_radiante = set()
radiadores = set()
aire = set()
sin_clasificar = set()
sin_clasificar_energia = set()
sin_clasificar_medio = set()
radiadores=set()
suelo_radiante=set()


# Clasificar categorías
for categoria in df17["calefaccion"]:
    categoria_normalized = normalize_text(str(categoria))  # Normalizar texto 
    
    # Clasificación por tipo (central o individual)
    if any(keyword in categoria_normalized for keyword in central_keywords):
        central.add(categoria)
    elif any(keyword in categoria_normalized for keyword in individual_keywords):
        individual.add(categoria)
    else:
        sin_clasificar.add(categoria)
    
    # Clasificación por energía (eléctrica, gas, gasoil)
    if any(keyword in categoria_normalized for keyword in electric_keywords):
        electrica.add(categoria)
    elif any(keyword in categoria_normalized for keyword in gasoil_keywords):
        gsoil.add(categoria)
    elif any(keyword in categoria_normalized for keyword in gas_keywords):
        gas.add(categoria)
      
   
    elif any(keyword in categoria_normalized for keyword in renovables_keywords):
        renovables.add(categoria)
    else:
        sin_clasificar_energia.add(categoria)

    # Clasificación por medio (suelo radiante, radiadores, aire)
    
   
    if any(keyword in categoria_normalized for keyword in aire_keywords):
        aire.add(categoria)    
    elif any(keyword in categoria_normalized for keyword in suelo_radiante_keywords):
        suelo_radiante.add(categoria)
    elif any(keyword in categoria_normalized for keyword in desconocido_keywords):
        sin_clasificar_medio.add(categoria)
  #  else: any(keyword in categoria_normalized for keyword in radiadores_keywords):
    else: 
        radiadores.add(categoria)
    

# Convertir los conjuntos a listas
central = list(central)
individual = list(individual)
sin_clasificar = list(sin_clasificar)
electrica = list(electrica)
gas = list(gas)
gasoil = list(gsoil)
renovables = list(renovables)
sin_clasificar_energia = list(sin_clasificar_energia)
aire=list(aire)
radiadores=list(radiadores)
suelo_radiante=list(suelo_radiante)
sin_clasificar_medio=list(sin_clasificar_medio)
# Imprimir resultados
print("Central:", central)
print("Individual:", individual)
print("No clasificado:", sin_clasificar)
print("Electrica:", electrica)
print("Gas:", gas)
print("Gasoil:", gasoil)
print("Renovables:", renovables)
print("No clasificado en energía:", sin_clasificar_energia)
print("Suelo Radiante:", suelo_radiante)
print("Radiadores:", radiadores)
print("Aire:", aire)
print("No clasificado en medio:", sin_clasificar_medio)


Central: ['Central', 'Comunitario', 'Central, por aire, de gas', 'Comunitaria', 'Central, suelo radiante, de gas', 'Central, por radiadores, de gas', 'Central, de gas', 'Central, por radiadores, de gasóil', 'Central, alimentación eléctrica', 'Calefaccion comunitaria', 'Central, por radiadores', 'Centralizada', 'Central, suelo radiante', 'Calefaccion Central', 'Central individualizada', 'Calefacción central individualizada', 'Central, de gasóil', 'Agua caliente y calefacción central con contador i']
Individual: ['Individual, por radiadores, de gas', 'Individual, de gas', 'Individual, por radiadores, de gasóil', 'Individual, por radiadores, alimentación eléctrica', 'Individual, suelo radiante, de gas', 'Individual - gas natural', 'Individual, por aire, alimentación eléctrica', 'Individual', 'climatizacion', 'Individual, de gasóil', 'Individual, suelo radiante', 'Chimenea', 'Individual, alimentación eléctrica', 'Por climatizacion', 'Bomba frio calor', 'Calefaccion individual', 'Climatizac

In [98]:
df17["ano_construccion"].value_counts(dropna=False)

ano_construccion
NaN                     6942
Más de 50 años          1018
Entre 30 y 50 años       205
 Mas de 50 anos          131
1900.0                   115
                        ... 
 Entre 10 y  15 Anos       1
 1949                      1
 1943                      1
 1928                      1
1944.0                     1
Name: count, Length: 188, dtype: int64

In [99]:
df17["plantas_edificio"].value_counts(dropna=False)

plantas_edificio
NaN      10211
4.00        40
6.00        40
3.00        32
7.00        25
5.00        24
8.00        16
2.00        13
10.00        9
9.00         8
1.00         5
12.00        2
23.00        1
11.00        1
Name: count, dtype: int64

In [100]:
df17.columns = df17.columns.str.strip()

In [101]:
df17["plantas_edificio"].value_counts(dropna=False)

plantas_edificio
NaN      10211
4.00        40
6.00        40
3.00        32
7.00        25
5.00        24
8.00        16
2.00        13
10.00        9
9.00         8
1.00         5
12.00        2
23.00        1
11.00        1
Name: count, dtype: int64

## aire acondicionado

In [347]:
df17["aire_acondicionado"].value_counts(dropna=False)

aire_acondicionado
NaN                                                   5920
0                                                     1036
0.0                                                    844
Individual                                             626
Frío                                                   477
1                                                      432
Individual, frío/calor                                 418
Frío y calor                                           319
Individual, frío                                       125
Splites repartidos                                      70
1.0                                                     37
Independiente                                           26
Frío/calor                                              20
Centralizada                                            16
Suelo refrigerante                                      10
Frío-calor                                               7
Preinstalación                       

In [348]:
df17["aire_acondicionado"].unique()


array([nan, 'Preinstalación', 'Individual, frío/calor',
       'Individual, frío', 'Individual', 'Frío/calor',
       'Centralizada, frío', 'Centralizada, frío/calor',
       'Centralizada, calor', 'Centralizada', 'Frío', 'Frío y calor',
       'Splites repartidos', 'Por conductos en toda la casa',
       'Aerotermia', 'Independiente', 'Con bomba de calor', 'A/a f/c',
       'Suelo refrigerante', 'Preinstalado', 'Frío-calor',
       'Suelo radiante refrescante', 'Sistema air zone',
       'Climatizacion por conductos frio y calor',
       'Frió/calor por conductos', 'Central', 'Suelo radiante',
       'Tiene la instalción hecha en toda la casa por cond',
       'Geotermia y aerotermia', 'En toda la casa, por conductos',
       'Aire frio/ calor por conductos/suelo refrescante',
       'No disponible', '1', '0', '0.0', '1.0'], dtype=object)

In [102]:
# Listas de valores para cada grupo
eficientes_val_columna = [
    'Aerotermia', 'Geotermia y aerotermia', 'Suelo radiante refrescante', 'Suelo refrigerante',
    'Sistema air zone', 'Climatizacion por conductos frio y calor', 'Frió/calor por conductos', 
    'Suelo radiante', 'Aire frio/ calor por conductos/suelo refrescante', 'Por conductos en toda la casa', 
    'Tiene la instalción hecha en toda la casa por cond', 'En toda la casa, por conductos'
]

normales_val_columna = [
    'Individual, frío/calor', 'Individual, frío', 'Individual', 'Frío/calor', 'Centralizada, frío', 
    'Centralizada, frío/calor', 'Centralizada, calor', 'Central', 'Frío', 'Frío y calor', 
    'Splites repartidos', 'Independiente', 'Con bomba de calor', 'A/a f/c', 
    'Aire frio/calor por conductos/suelo refrescante', '1', '1.0'
]

sin_aire_val_columna = ['Preinstalación', 'Preinstalado', 'No disponible', '0', '0.0']

# Función para clasificar los sistemas
def clasificar_sistema(valor):
    if valor in eficientes_val_columna:
        return 'Eficiente'
    elif valor in normales_val_columna:
        return 'Normal'
    elif valor in sin_aire_val_columna:
        return 'Sin Aire'
    else:
        return 'Desconocido'  # Si el valor no coincide con ninguno de los grupos




In [103]:
# Crear una nueva columna en el DataFrame
df17['clasificacion_aire'] = df17['aire_acondicionado'].apply(clasificar_sistema)


In [104]:
df17["jardin"].unique()

array([nan, 'Privado', 'Sin jardín', 'Comunitario', '0.0', '1.0'],
      dtype=object)

In [105]:
# Ejemplo de uso con una sola columna
porcentaje = porcentaje_nulos(df17, 'plantas_edificio')
print(f"Porcentaje de valores nulos en 'plantas_edificio': {porcentaje.get('plantas_edificio', 'Column not found'):.2f}%")


Porcentaje de valores nulos en 'plantas_edificio': 97.93%


In [106]:

# Ejemplo de uso
columnas = ["inmueble_ingresos", "alquiler_opcion_a_compra", "disponibilidad","nuda_propiedad","sup_comercial"]  # Reemplaza con las columnas de tu DataFrame
porcentaje_resultados = porcentaje_nulos(df17, columnas)

# Mostrar los resultados
for columna, porcentaje in porcentaje_resultados.items():
    print(f"Porcentaje de nulos en {columna}: {porcentaje:.2f}%")

Porcentaje de nulos en inmueble_ingresos: 99.93%
Porcentaje de nulos en alquiler_opcion_a_compra: 99.97%
Porcentaje de nulos en disponibilidad: 95.72%
Porcentaje de nulos en nuda_propiedad: 99.98%
Porcentaje de nulos en sup_comercial: 96.58%


In [354]:
df17["disponibilidad"].value_counts(dropna=False)

disponibilidad
NaN      9981
Libre     446
Name: count, dtype: int64

La columna disponibilidad no aporta nada

In [355]:
df17["alquiler_opcion_a_compra"].value_counts(dropna=False)

alquiler_opcion_a_compra
NaN     10424
1.00        3
Name: count, dtype: int64

In [356]:
df17.query("(inmueble_ingresos == 1) | (alquiler_opcion_a_compra == 1) | (nuda_propiedad == 1)").count()


title                    12
url                      12
precio                   12
precio_anterior           0
descuento                 0
                         ..
orientacion_sur,_este     0
sistema_alarma            2
n.visitas                 0
grupo_cocina             12
clasificacion_aire       12
Length: 111, dtype: int64

## sup_comercial

In [None]:
df17[df17['sup_comercial'].notnull()].head()

In [358]:
df17['tipo_inmueble'].value_counts(dropna=False)

tipo_inmueble
NaN          9863
económico     276
medio         171
señorial      117
Name: count, dtype: int64

In [359]:
df17['tiene_armario'].value_counts(dropna=False)

tiene_armario
NaN     9725
1.00     702
Name: count, dtype: int64

In [360]:
df17['cancha_tenis'].value_counts(dropna=False)

cancha_tenis
NaN     7088
0.00    3336
1.00       3
Name: count, dtype: int64

In [361]:
df17['chimenea'].value_counts(dropna=False)

chimenea
NaN     6207
0.00    4169
1.00      51
Name: count, dtype: int64

In [None]:
df17[df17['chimenea'] == 1][['calefaccion', 'chimenea']]

In [363]:
df17['fibra_optica'].value_counts(dropna=False)

fibra_optica
NaN     7088
0.00    3301
1.00      38
Name: count, dtype: int64

In [364]:
df17['tiene_piscina'].value_counts(dropna=False)

tiene_piscina
NaN     9338
1.00    1089
Name: count, dtype: int64

In [365]:
df17['carpinteria_exterior_doble_vidrio/pvc'].value_counts(dropna=False)

carpinteria_exterior_doble_vidrio/pvc
NaN     7088
0.00    3323
1.00      16
Name: count, dtype: int64

## cocina

In [366]:
df17['cocina'].value_counts(dropna=False)

cocina
NaN                                   8835
Cocina equipada                        590
Cocina independiente                   318
Cocina amueblada                       190
Independiente                          131
                                      ... 
Equipada con excelentes calidades        1
Con entrada independiente                1
Independiente amueblada y equipada       1
Independiente con despensa               1
Amueblada reformada                      1
Name: count, Length: 88, dtype: int64

In [367]:
df17['cocina'].unique()

array([nan, 'Cocina abierta', 'Cocina independiente',
       'Cocina abierta amueblada', 'Cocina independiente amueblada',
       'Cocina americana', 'Amueblada con electrodomésticos',
       'Cocina equipada', 'Americana', 'Independiente y equipada',
       'Amueblada sin electrodomésticos', 'Cocina amueblada',
       'Independiente', 'Amueblada, equipada', 'Individual',
       'Amueblada y en isla', 'Equipada', 'Amueblada',
       'Independiente con zona de servicio',
       'Independiente - amueblada con elec.', 'Independiente con office',
       'Amplia', 'Amueblada y equipada con electrodomésticos',
       'Pequeña cocina integrada', 'Americana, amueblada y equipada.',
       'Amueblada con electrodomésticos, caldera nueva',
       'Amueblada con electrodomesticos',
       '0ffice,habitacion ,baño y terraza',
       'Completamente equipada abierta al salón',
       'Independiente con office, dormi. Servic. Con baño',
       'En office amplia completamente equipada',
       'Co ofi

In [368]:
df17.query("amueblado=='Sólo cocina amueblada' and cocina.notnull()")[['amueblado','cocina']]

Unnamed: 0,amueblado,cocina
483,Sólo cocina amueblada,Cocina abierta amueblada
1249,Sólo cocina amueblada,Cocina independiente amueblada
1701,Sólo cocina amueblada,Cocina independiente amueblada
1751,Sólo cocina amueblada,Cocina independiente amueblada
2742,Sólo cocina amueblada,Cocina independiente amueblada
9458,Sólo cocina amueblada,Cocina independiente amueblada


In [None]:
#pongo el valor de cocina_1 en cocina y elimino el campo cocina_1
df17.loc[df17['cocina_1'].notnull(), 'cocina'] = df17['cocina_1']
#el campo cocina_equipada que aparece en redpiso lo integro en cocina y luebo elimino el campo
df17.loc[df17['cocina_equipada']==1, 'cocina'] = 'Cocina equipada'
df17.loc[df17['cocina']=='Francesa', 'cocina'] = 'independiente y amueblada'
df17.loc[(df17['amueblado'] == 'Sólo cocina amueblada') & (df17['cocina'].notnull()), 'cocina'] = df17['cocina'] + ' amueblada'
df17.loc[df17['cocina']=='Equipafda americana', 'cocina'] = 'Equipada americana'

df17.drop(columns=['cocina_1'], inplace=True)
df17.drop(columns=['cocina_equipada'], inplace=True)


In [109]:
# Aplica la función de agrupación
df17['grupo_cocina'] = df17['cocina'].apply(agrupar_cocinas)

print(df17[['cocina', 'grupo_cocina']])


               cocina     grupo_cocina
0                 NaN  sin_informacion
1      Cocina abierta          abierta
2                 NaN  sin_informacion
3                 NaN  sin_informacion
4                 NaN  sin_informacion
...               ...              ...
10422             NaN  sin_informacion
10423             NaN  sin_informacion
10424             NaN  sin_informacion
10425             NaN  sin_informacion
10426             NaN  sin_informacion

[10427 rows x 2 columns]


In [372]:
df17.query("cocina.notnull()")['cocina'].unique()

array(['Cocina abierta', 'Cocina independiente',
       'Cocina abierta amueblada amueblada',
       'Cocina independiente amueblada amueblada', 'Cocina americana',
       'Amueblada con electrodomésticos', 'Cocina equipada', 'Americana',
       'Independiente y equipada', 'Amueblada sin electrodomésticos',
       'Cocina amueblada', 'Independiente', 'Amueblada, equipada',
       'Individual', 'Amueblada y en isla', 'Equipada', 'Amueblada',
       'Independiente con zona de servicio',
       'Independiente - amueblada con elec.', 'Independiente con office',
       'Amplia', 'Amueblada y equipada con electrodomésticos',
       'Pequeña cocina integrada', 'Americana, amueblada y equipada.',
       'Amueblada con electrodomésticos, caldera nueva',
       'Amueblada con electrodomesticos',
       '0ffice,habitacion ,baño y terraza',
       'Completamente equipada abierta al salón',
       'Independiente con office, dormi. Servic. Con baño',
       'En office amplia completamente equipada',

In [373]:
df17.query("amueblado=='Sólo cocina amueblada'").count()

title                    71
url                      71
precio                   71
precio_anterior           0
descuento                 0
                         ..
orientacion_sur,_este     0
sistema_alarma            5
n.visitas                 0
grupo_cocina             71
clasificacion_aire       71
Length: 111, dtype: int64

In [374]:
df17['amueblado'].value_counts(dropna=False)

amueblado
NaN                       7531
0                         1467
0.0                        720
Sí                         293
No                         171
1.0                        161
Sólo cocina amueblada       71
Parcialmente amueblado      12
1                            1
Name: count, dtype: int64

In [375]:
## interior, exterior
df17['interior'].value_counts(dropna=False)

interior
0.00    7693
NaN     2641
1.00      93
Name: count, dtype: int64

In [376]:

df17['exterior'].value_counts(dropna=False)

exterior
0.00    7386
1.00    1807
NaN     1234
Name: count, dtype: int64

In [377]:
df17["vista_zona"].unique()

array([nan, 'Exterior'], dtype=object)

In [378]:
# Si el valor de la columna 'exterior' es nulo y la columna 'vista_zona' tiene el valor 'Exterior', poner en la columna 'exterior' un 1
df17.loc[df17['exterior'].isnull() & (df17['vista_zona'] == 'Exterior'), 'exterior'] = 1

# Eliminar la columna 'vista_zona'
df17.drop(columns=['vista_zona'], inplace=True)

In [379]:

df17['interior_y_exterior'].value_counts(dropna=False)

interior_y_exterior
NaN     7088
0.00    3330
1.00       9
Name: count, dtype: int64

In [380]:

df17.query("interior.isnull() & exterior.isnull() & interior_y_exterior.isnull()")["web"].unique()

array(['redpiso', 'pisosmadrid'], dtype=object)

## piscina

In [381]:


df17['tiene_piscina'].value_counts(dropna=False)

tiene_piscina
NaN     9338
1.00    1089
Name: count, dtype: int64

In [382]:
df17['piscina'].value_counts(dropna=False)

piscina
 NaN                                          4804
 -                                            3058
0.00                                          1804
 0                                             310
1.00                                           141
 Comunitaria                                   139
 0.0                                            89
 Propia                                         75
 1                                               4
 Con salorium                                    1
 1 piscina de adultos y 1 piscina de niños       1
 1.0                                             1
Name: count, dtype: int64

In [383]:

#asignamos el valor tiene_piscina sin indicar el tipo
df17.loc[(df17['piscina'] != 0.0) & (df17['piscina'] != 0) & (df17['piscina'] != '-') & (df17['piscina'].notnull()), 'tiene_piscina'] = 1

In [384]:
df17['tiene_piscina'].value_counts(dropna=False)

tiene_piscina
NaN     9249
1.00    1178
Name: count, dtype: int64

In [385]:

df17.query("tiene_piscina.notnull()")["web"].unique()

array(['Indomio.com', 'pisos.com', 'redpiso', 'pisosmadrid'], dtype=object)

## porton electrico, puerta blindada

In [386]:

## portn_electrico,puerta_blindad

columnas = ["porton_electrico", "puerta_blindada", "alarma","videoportero","lujosa","descripcion_extendida"]  
porcentaje_resultados = porcentaje_nulos(df17, columnas)


# Mostrar los resultados
for columna, porcentaje in porcentaje_resultados.items():
    print(f"Porcentaje de nulos en {columna}: {porcentaje:.2f}%")

Porcentaje de nulos en porton_electrico: 67.98%
Porcentaje de nulos en puerta_blindada: 67.98%
Porcentaje de nulos en alarma: 48.14%
Porcentaje de nulos en videoportero: 59.53%
Porcentaje de nulos en lujosa: 67.98%
Porcentaje de nulos en descripcion_extendida: 45.86%


In [387]:

df17['porton_electrico'].value_counts(dropna=False)

porton_electrico
NaN     7088
0.00    3323
1.00      16
Name: count, dtype: int64

In [388]:

df17['puerta_blindada'].value_counts(dropna=False)

puerta_blindada
NaN     7088
0.00    3243
1.00      96
Name: count, dtype: int64

In [389]:

df17['alarma'].value_counts(dropna=False)

alarma
0.00    5324
NaN     5020
1.00      83
Name: count, dtype: int64

In [390]:

df17.query("alarma==1 | puerta_blindada==1")[['precio','alarma','puerta_blindada']]

Unnamed: 0,precio,alarma,puerta_blindada
0,2000000.00,0.00,1.00
1,287000.00,0.00,1.00
17,450000.00,0.00,1.00
50,199990.00,0.00,1.00
76,176000.00,0.00,1.00
...,...,...,...
10320,1939000,1.00,
10367,800000,1.00,
10406,870000,1.00,
10407,515000,1.00,


In [391]:

df17['videoportero'].value_counts(dropna=False)

videoportero
NaN     6207
0.00    3874
1.00     346
Name: count, dtype: int64

In [392]:
## lujosa

In [393]:

df17['lujosa'].value_counts(dropna=False)

lujosa
NaN     7088
0.00    1833
1.00    1506
Name: count, dtype: int64

In [394]:

df17.query("videoportero==1").count()

title                    346
url                      346
precio                   346
precio_anterior            0
descuento                  0
                        ... 
orientacion_sur,_este      0
sistema_alarma             1
n.visitas                282
grupo_cocina             346
clasificacion_aire       346
Length: 110, dtype: int64

## descripcion_extendida

################ REVISAR #################

€_comunidad_mes

In [395]:
df17['€_comunidad_mes'].value_counts(dropna=False)

€_comunidad_mes
NaN                 9112
Más de 100 €         350
Entre 40 y 60 €      100
Entre 80 y 100 €      95
Entre 60 y 80 €       80
                    ... 
336                    1
175                    1
325                    1
525                    1
60 €.-                 1
Name: count, Length: 314, dtype: int64

In [396]:
df17['gastos_comunidad'].value_counts(dropna=False)

gastos_comunidad
NaN                10337
Comunidad 5000         9
€ 50/mes               5
€ 100/mes              5
Comunidad 4500         4
Comunidad 4000         3
€ 60/mes               3
€ 350/mes              3
€ 80/mes               3
€ 72/mes               2
€ 55/mes               2
€ 148/mes              2
€ 112/mes              2
€ 37/mes               2
€ 160/mes              2
Comunidad 3750         1
€ 26/mes               1
€ 125/mes              1
Comunidad 10000        1
Comunidad 18000        1
Comunidad 2000         1
€ 58/mes               1
€ 283/mes              1
€ 27/mes               1
€ 33/mes               1
€ 103/mes              1
€ 43/mes               1
€ 163/mes              1
Comunidad 9900         1
€ 30/mes               1
€ 180/mes              1
€ 280/mes              1
€ 404/mes              1
€ 109/mes              1
€ 45/mes               1
€ 230/mes              1
Comunidad 11000        1
Comunidad 23600        1
€ 95/mes               1
Comunida

In [397]:
df17.shape

(10427, 110)

In [398]:
df17.query("`€_comunidad_mes`.notnull() | gastos_comunidad.notnull()")[['web','gastos_comunidad','€_comunidad_mes']]

Unnamed: 0,web,gastos_comunidad,€_comunidad_mes
0,Indomio.com,,100
1,Indomio.com,,123
11,Indomio.com,,55
12,Indomio.com,,60
68,Indomio.com,,258
...,...,...,...
9515,Indomio.com,€ 100/mes,
9519,Indomio.com,€ 100/mes,
9520,Indomio.com,€ 140/mes,
9522,Indomio.com,€ 50/mes,


In [399]:
df17.query("`€_comunidad_mes`.notnull() and  gastos_comunidad.isnull() ")[['web','gastos_comunidad','€_comunidad_mes']]

Unnamed: 0,web,gastos_comunidad,€_comunidad_mes
0,Indomio.com,,100
1,Indomio.com,,123
11,Indomio.com,,55
12,Indomio.com,,60
68,Indomio.com,,258
...,...,...,...
7774,pisos.com,,Más de 100 €
7781,pisos.com,,Más de 100 €
7782,pisos.com,,38
7784,pisos.com,,Entre 20 y 40 €


In [400]:
df17.query(" gastos_comunidad.notnull() and `€_comunidad_mes`.isnull() ")[['web','url','gastos_comunidad','€_comunidad_mes']]

Unnamed: 0,web,url,gastos_comunidad,€_comunidad_mes
7800,redpiso,https://www.redpiso.es/inmueble/piso-en-venta-en-los-rosales-villaverde-madrid-madrid-RP2372023110992,Comunidad 7400,
7822,redpiso,https://www.redpiso.es/inmueble/piso-en-venta-en-villaverde-madrid-madrid-RP2372024127521,Comunidad 4000,
7884,redpiso,https://www.redpiso.es/inmueble/atico-en-venta-en-calle-san-clodoaldo-ventas-ciudad-lineal-madrid-madrid-RP162024125933,Comunidad 9900,
7938,redpiso,https://www.redpiso.es/inmueble/piso-en-venta-en-calle-godella-san-cristobal-villaverde-madrid-madrid-RP2842024125361,Comunidad 5000,
7945,redpiso,https://www.redpiso.es/inmueble/piso-en-venta-en-calle-almendrales-almendrales-usera-madrid-madrid-RP392024129914,Comunidad 2000,
...,...,...,...,...
9515,Indomio.com,https://www.indomio.es/anuncios/96986027/,€ 100/mes,
9519,Indomio.com,https://www.indomio.es/anuncios/96967621/,€ 100/mes,
9520,Indomio.com,https://www.indomio.es/anuncios/96979909/,€ 140/mes,
9522,Indomio.com,https://www.indomio.es/anuncios/96696025/,€ 50/mes,


In [401]:
#En redpiso los valores hay que dividirlos entre 100 al procesarlo se quito la coma que tenia en 20,00 ahora aparece con 2000
#pisos madrid y no tiene gastos de comunidad

In [402]:
df17.gastos_comunidad.unique()

array([nan, 'Comunidad 7400', 'Comunidad 4000', 'Comunidad 9900',
       'Comunidad 5000', 'Comunidad 2000', 'Comunidad 4500',
       'Comunidad 18000', 'Comunidad 10000', 'Comunidad 11000',
       'Comunidad 6500', 'Comunidad 3500', 'Comunidad 15000',
       'Comunidad 6900', 'Comunidad 3000', 'Comunidad 3750',
       'Comunidad 23600', 'Comunidad 6000', 'Comunidad 38000',
       '€ 175/mes', '€ 50/mes', '€ 37/mes', '€ 35/mes', '€ 112/mes',
       '€ 457/mes', '€ 95/mes', '€ 40/mes', '€ 111/mes', '€ 148/mes',
       '€ 160/mes', '€ 80/mes', '€ 138/mes', '€ 90/mes', '€ 120/mes',
       '€ 61/mes', '€ 451/mes', '€ 350/mes', '€ 43/mes', '€ 230/mes',
       '€ 125/mes', '€ 55/mes', '€ 100/mes', '€ 72/mes', '€ 58/mes',
       '€ 283/mes', '€ 27/mes', '€ 33/mes', '€ 26/mes', '€ 103/mes',
       '€ 163/mes', '€ 60/mes', '€ 30/mes', '€ 180/mes', '€ 280/mes',
       '€ 404/mes', '€ 109/mes', '€ 45/mes', '€ 140/mes'], dtype=object)

In [403]:
# Sustituir las palabras 'Comunidad', '€', y '/mes' por vacío en 'gastos_comunidad'
df17['gastos_comunidad'] = df17['gastos_comunidad'].str.replace('Comunidad', '')
df17['gastos_comunidad'] = df17['gastos_comunidad'].str.replace('€', '')
df17['gastos_comunidad'] = df17['gastos_comunidad'].str.replace('/mes', '')
# Eliminar espacios en blanco adicionales
df17['gastos_comunidad'] = df17['gastos_comunidad'].str.strip()
 #Convertir solo los valores no nulos de 'gastos_comunidad' a tipo float
df17.loc[df17['gastos_comunidad'].notnull(), 'gastos_comunidad'] = df17.loc[df17['gastos_comunidad'].notnull(), 'gastos_comunidad'].astype(float)
# Dividir el valor de 'gastos_comunidad' entre 100 cuando 'web' es igual a 'redpiso'
df17.loc[(df17['web'] == 'redpiso') & (df17['gastos_comunidad'].notnull()), 'gastos_comunidad'] /= 100

# Dividir el valor de 'gastos_comunidad' entre 100 cuando 'web' es igual a 'redpiso'
# Convertir la columna 'gastos_comunidad' a tipo float
#df17['gastos_comunidad'] = pd.to_numeric(df17['gastos_comunidad'], errors='coerce')
#df17.loc[df17['web'] == 'redpiso', 'gastos_comunidad'] /= 100

In [404]:
df17.gastos_comunidad.unique()

array([nan, 74.0, 40.0, 99.0, 50.0, 20.0, 45.0, 180.0, 100.0, 110.0, 65.0,
       35.0, 150.0, 69.0, 30.0, 37.5, 236.0, 60.0, 380.0, 175.0, 37.0,
       112.0, 457.0, 95.0, 111.0, 148.0, 160.0, 80.0, 138.0, 90.0, 120.0,
       61.0, 451.0, 350.0, 43.0, 230.0, 125.0, 55.0, 72.0, 58.0, 283.0,
       27.0, 33.0, 26.0, 103.0, 163.0, 280.0, 404.0, 109.0, 140.0],
      dtype=object)

In [405]:
# Obtener los valores únicos de la columna '€_comunidad_mes'
df17['€_comunidad_mes'].unique()


array(['100', '123', nan, '55', '60', '258', '50', '92', '27', '90',
       '132', '128', '113', '800', '180', '1.300', '65', '625', '34',
       '150', '308', '146', 'Ningún gasto de comunidad', '310', '350',
       '110', '96', '120', '210', '70', '1.000', '250', '84', '247', '3',
       '56', '450', '40', '200', '75', '190', '166', '15', '45', '228',
       '72', '9', '294', '30', '160', '430', '95', '104', '63', '13',
       '85', '119', '300', '168', '340', '99', '164', '130', '241', '167',
       '5', '33', '111', '420', '206', '500', '10', '14', '540', '750',
       '148', '147', '386', '17', '76', '230', '205', '46', '47', '400',
       '32', '12', '36', '82', '155', '303', '207', '486', '83', '80',
       '66', '98', '178', '140', '52', '64', '54', '42', '29', '88', '61',
       '1.600', '440', '170', '57', '105', '142', '255', '125', '600',
       '324', '67', '269', '285', '38', '39', '102', '270', '44', '103',
       '617', '552', '311', '457', '192', '327', '288', '316', '

In [406]:
# Usar comillas invertidas para nombres de columnas con caracteres especiales
df17.query("`€_comunidad_mes` == 'Comunidad: 320€ mensual  / ibi 1.040,96€ anual'")[["web"]]

Unnamed: 0,web
4773,pisos.com


#############revisar

#Tengo que ir al origen para separar los valores de gastos de comunidad y de ibi

In [407]:
# Reemplazar valores nulos en 'gastos_comunidad' con los valores de '€_comunidad_mes'
df17['gastos_comunidad'] = df17['gastos_comunidad'].fillna(df17['€_comunidad_mes'])
# Eliminar la columna '€_comunidad_mes'
df17.drop(columns=['€_comunidad_mes'], inplace=True)

In [408]:

# Reemplazar 'No tiene' y 'Ningún gasto de comunidad' por '0'
df17['gastos_comunidad'] = df17['gastos_comunidad'].replace({'No tiene': '0', 'Ningún gasto de comunidad': '0'})


In [409]:
df17['acceso_minusvalido'].value_counts(dropna=False)

acceso_minusvalido
 NaN    8710
 0      1054
0.00     582
1.00      59
 1        10
 Sí        7
 No        5
Name: count, dtype: int64

## acceso_minusvalidos

In [410]:
# Reemplazar 'Sí' por 1 y 'No' por 0 en la columna 'acceso_minusvalido'
df17['acceso_minusvalido'] = df17['acceso_minusvalido'].replace({'Sí': 1, 'No': 0})

# Renombrar la columna 'acceso_minusvalido' a 'acceso_discapacidad'
df17.rename(columns={'acceso_minusvalido': 'acceso_discapacidad'}, inplace=True)

## orientacion

In [411]:
df17["orientacion"].value_counts()

orientacion
Sur                                312
Este                               263
Orientacion Sur                    162
Orientacion Este                   152
Oeste                              148
Norte                              131
Orientacion Oeste                  125
Sureste                            105
Orientacion Norte                   80
Orientacion Sureste                 71
Orientacion Suroeste                59
Suroeste                            58
Orientacion Noroeste                53
Noreste                             52
Noroeste                            51
Orientacion Noreste                 51
Medio día                           10
-1                                   9
sur                                  8
este                                 7
norte                                4
oeste                                2
Nordeste                             2
A la montaña                         2
sur_este                             2
Este, noreste

In [412]:
# Eliminar 'Orientacion' y limpiar espacios adicionales
df17['orientacion'] = df17['orientacion'].str.replace('Orientacion', '').str.strip()

# Sustituir ',' y '-' por '_' y poner los valores en minúsculas en la columna 'orientacion'
df17['orientacion'] = df17['orientacion'].str.replace(',', '_').str.replace('/', '_').str.replace('|', '_').str.replace('y', '_').str.replace('-', '_').str.lower()

# Eliminar espacios adicionales entre palabras
df17['orientacion'] = df17['orientacion'].str.replace(r'\s+', '_', regex=True).str.strip()
df17['orientacion'] = df17['orientacion'].str.replace('__', '_')

# Reemplazar múltiples valores en la columna 'orientacion' por np.nan
df17['orientacion'] = df17['orientacion'].replace({
    '__':'_',
    '_1': np.nan,
    'medio_día': np.nan,
    'sur_en_la_terraza__dormitorios': np.nan,
    'vistas_al_palacio_de_parcent.': np.nan,
    'varias':np.nan
})

df17['orientacion'] = df17['orientacion'].str.replace('__', '_')



In [413]:
# Obtener los valores únicos de la columna 'orientacion' donde los valores no son nulos
df17.loc[df17['orientacion'].notnull(), 'orientacion'].unique()


array(['norte', 'sur_este', 'este', 'oeste', 'sur', 'norte_sur',
       'noroeste', 'sureste', 'suroeste', 'noreste', 'nordeste',
       'a_la_montaña', 'este_oeste', 'sur_este_norte',
       'este_noreste_suroeste', 'sur_oeste', 'oeste_este', 'norte_este',
       'este_oeste_norte', 'sudeste', 'sur_norte'], dtype=object)

In [414]:


# Procesar la columna 'orientacion'
for index, value in df17["orientacion"].items():
    # hasta los nan los convierte a string, recordar luego cambiar 'nan' por nan de nuevo
    value_str = str(value)
    if re.search(r'\bnorte\b', value_str):
        df17.at[index, "orientacion_norte"] = 1
    if re.search(r'\bsur\b', value_str):
        df17.at[index, "orientacion_sur"] = 1
    if re.search(r'\beste\b', value_str):
        df17.at[index, "orientacion_este"] = 1
    if re.search(r'\boeste\b', value_str):
        df17.at[index, "orientacion_oeste"] = 1
    if re.search(r'\bnoroeste\b', value_str):
        df17.at[index, "orientacion_norte"] = 1
        df17.at[index, "orientacion_oeste"] = 1

# Revisar las columnas orientacion_norte,_sur y orientacion_sur,_este
# y asegurarnos de que las combinaciones sean coherentes
if "orientacion_norte,_sur" in df17.columns:
    for index, value in df17["orientacion_norte,_sur"].items():
        if value == 1:
            df17.at[index, "orientacion_norte"] = 1
            df17.at[index, "orientacion_sur"] = 1

if "orientacion_sur,_este" in df17.columns:
    for index, value in df17["orientacion_sur,_este"].items():
        if value == 1:
            df17.at[index, "orientacion_sur"] = 1
            df17.at[index, "orientacion_este"] = 1


In [415]:
# Filtrar filas donde todas las columnas relevantes no sean nulas
filtered_df = df17[
    df17["orientacion"].notnull() |
    df17["orientacion_norte"].notnull() |
    df17["orientacion_sur"].notnull() |
    df17["orientacion_este"].notnull() |
    df17["orientacion_oeste"].notnull() |
    df17["orientacion_norte,_sur"].notnull() |
    df17["orientacion_sur,_este"].notnull()
]

# Mostrar las columnas deseadas
result = filtered_df[["orientacion", "orientacion_norte", "orientacion_sur", "orientacion_este", "orientacion_oeste"]]
print(result)


     orientacion  orientacion_norte  orientacion_sur  orientacion_este  \
90         norte               1.00              NaN               NaN   
171     sur_este                NaN              NaN               NaN   
224         este                NaN              NaN              1.00   
304     sur_este                NaN              NaN               NaN   
354        oeste                NaN              NaN               NaN   
...          ...                ...              ...               ...   
9530         NaN                NaN             0.00              0.00   
9531         NaN                NaN             0.00              0.00   
9532         NaN                NaN             0.00              0.00   
9533         NaN                NaN             0.00              0.00   
9534         NaN                NaN             0.00              0.00   

      orientacion_oeste  
90                  NaN  
171                 NaN  
224                 NaN  
304    

In [416]:
#eliminacion de las columnas orientacion,orientacion_sur,_este,orientacion_norte,_sur
df17.drop(columns=['orientacion'], inplace=True)
df17.drop(columns=['orientacion_sur,_este'], inplace=True)
df17.drop(columns=['orientacion_norte,_sur'], inplace=True)


In [417]:
df17.query("orientacion_norte!=1 and orientacion_sur!=1  and orientacion_este!=1  and orientacion_oeste!=1 ").count()

title                 8925
url                   8925
precio                8925
precio_anterior         54
descuento               54
                      ... 
orientacion_sur        277
sistema_alarma         277
n.visitas              881
grupo_cocina          8925
clasificacion_aire    8925
Length: 106, dtype: int64

In [418]:
# Poner NaN en las columnas si no cumplen con la condición
df17.loc[df17.query("orientacion_norte!=1 and orientacion_sur!=1 and orientacion_este!=1 and orientacion_oeste!=1").index, ["orientacion_norte", "orientacion_sur", "orientacion_este", "orientacion_oeste"]] = np.nan

# Asegurarse de que si alguna columna tiene valor 1, las demás sean 0
df17[["orientacion_norte", "orientacion_sur", "orientacion_este", "orientacion_oeste"]] = df17[["orientacion_norte", "orientacion_sur", "orientacion_este", "orientacion_oeste"]].fillna(0)

## web

In [419]:
df17["web"].value_counts(dropna=False)

web
pisos.com      4728
Indomio.com    3339
redpiso        1468
pisosmadrid     892
Name: count, dtype: int64

In [420]:
df17["fecha_descarga"].value_counts(dropna=False)

fecha_descarga
2024-11-20    3058
2024-10-19    2951
2024-08-19    1777
31/10/2024    1468
24/10/2024     892
NaN            281
Name: count, dtype: int64

In [421]:
# Sustituir NaN en la columna 'fecha_descarga' por '6 de enero de 2025'
df17["fecha_descarga"].fillna("06/01/2025", inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df17["fecha_descarga"].fillna("06/01/2025", inplace=True)


## certificado_energetico

In [422]:
df17["certificado_energetico"].value_counts(dropna=False)

certificado_energetico
NaN                       4286
No indicado               2134
Disponible                1986
En trámite                1492
Pendiente de completar     526
Exento                       3
Name: count, dtype: int64

In [423]:
df17.columns.tolist()

['title',
 'url',
 'precio',
 'precio_anterior',
 'descuento',
 'EUR/m2',
 'm2_constr',
 'distrito',
 'cod_distrito',
 'barrio',
 'cod_barrio',
 'zona',
 'calle',
 'detalle',
 'consumoce_ano',
 'letrace',
 'emisiones_co2',
 'tipologia',
 'propiedad_completa',
 'estado',
 'amueblado',
 'planta',
 'habitaciones',
 'dormitorios',
 'banos',
 'balcon',
 'terraza',
 'garaje',
 'trastero',
 'ascensor',
 'porteria',
 'calefaccion',
 'ano_construccion',
 'plantas_edificio',
 'aire_acondicionado',
 'jardin',
 'inmueble_ingresos',
 'alquiler_opcion_a_compra',
 'disponibilidad',
 'nuda_propiedad',
 'sup_comercial',
 'tipo_inmueble',
 'tiene_armario',
 'cancha_tenis',
 'carpinteria_exterior_doble_vidrio/pvc',
 'carpinteria_exterior_doble_vidrio/madera',
 'carpinteria_exterior_doble_vidrio/metal',
 'carpinteria_exterior_triple_vidrio/madera',
 'carpinteria_exterior_triple_vidrio/metal',
 'carpinteria_exterior_vidrio/pvc',
 'carpinteria_exterior_vidrio/madera',
 'carpinteria_exterior_vidrio/metal',
 

In [424]:
df17.query("consumoce_ano.notnull() | letrace.notnull() | emisiones_co2.notnull()" )[ ["certificado_energetico",'consumoce_ano','letrace','emisiones_co2']]

Unnamed: 0,certificado_energetico,consumoce_ano,letrace,emisiones_co2
0,Disponible,"≥ 3,51",F,D
1,No indicado,desconocido,,No indicado
2,No indicado,desconocido,,No indicado
3,No indicado,desconocido,,No indicado
4,Disponible,desconocido,E,No indicado
...,...,...,...,...
9530,No indicado,desconocido,,No indicado
9531,No indicado,desconocido,,No indicado
9532,No indicado,desconocido,,Inclasificable
9533,No indicado,desconocido,,No indicado


In [425]:
df17["emisiones_co2"].value_counts(dropna=False)

emisiones_co2
NaN                    6827
No indicado            2142
Inclasificable          334
E                       136
D                       102
                       ... 
34.3 kg CO₂/m² añoE       1
8 kg CO₂/m² añoB          1
79 kg CO₂/m² añoF         1
45 kg CO₂/m² añoG         1
83 kg CO₂/m² añoG         1
Name: count, Length: 325, dtype: int64

In [426]:
df17["consumoce_ano"].unique()

array(['≥ 3,51', 'desconocido', '90', '258.5', '129', '284', '207', '145',
       '170', '77', '138', '120', '231.1', '224', '191', '50', '194.2',
       '216', '121', '85', '123', '399', '999', '41.2', '294', '300',
       '173', '186', '193', '400', '170.3', '172.2', '444', '176',
       '209.7', '24', '74', '164', '163', '222', '2', '328', '242', '78',
       '89', '87', '382', '342', '441', '767', '111.1', '312', '199',
       '407', '336.3', '132', '266', '55', '248', '38', '463', '188',
       '126', '414', '155', '460', '301', '44', '354', '285', '178',
       '272', '260', '324', '221', '200.8', '35', '40', '47', '158',
       '262', '130', '114.1', '212', '192', '68.5', '214', '117', '186.9',
       '245', '299', '204', '137.9', '166', '55.5', '160', '255', '189',
       '195', '263', '244', '135', '180', '110', '321', '225', '313',
       '200', '149', nan, '112', '127', '323', '213'], dtype=object)

In [None]:
df17.query("consumoce_ano=='≥ 3,51'").head()

In [428]:
df17["letrace"].value_counts(dropna=False)

letrace
NaN    9037
E       606
D       259
F       179
G       144
C       111
A        51
B        40
Name: count, dtype: int64

In [None]:
#se encuentra un piso que han modificado los valores en la web
# debe tener https://www.indomio.es/anuncios/97003125/, Consumo de energia:57.9 kWh/m² año, letrace:B, e Emisiones de CO₂:11.08 kg CO₂/m² año B
# Asignar valores específicos si la URL coincide
for index, value in df17["url"].items():
    if value == "https://www.indomio.es/anuncios/97003125/":
        df17.at[index, "consumoce_ano"] = 57.9
        df17.at[index, "letrace"] = "B"
        df17.at[index, "emisiones_co2"] = "11.08 kg CO₂/m² año B"


revisar el codigo que trae el fichero scrapingindomio.csv , C:\Mas\Dataset_Proyecto\Ficheros_Ventas\Indomio del 12/12/2024 quiza estamos mirando solo mayusculas

#

In [None]:
df17.query("consumoce_ano=='≥ 3,51'")[['url','letrace','emisiones_co2','fecha_descarga']]

CONSUMO Y LETRA
A: Menos de 50 kWh/m²/año
B: 51-90 kWh/m²/año
C: 91-150 kWh/m²/año
D: 151-230 kWh/m²/año
E: 231-330 kWh/m²/año
F: 331-450 kWh/m²/año
G: Más de 450 kWh/m²/año

En el caso de las emisiones:
A: Menos de 10 kg CO2/m²/año
B: 10-20 kg CO2/m²/año
C: 20-35 kg CO2/m²/año
D: 35-55 kg CO2/m²/año
E: 55-75 kg CO2/m²/año
F: 75-100 kg CO2/m²/año
G: Más de 100 kg CO2/m²/año

In [431]:
df17.columns

Index(['title', 'url', 'precio', 'precio_anterior', 'descuento', 'EUR/m2',
       'm2_constr', 'distrito', 'cod_distrito', 'barrio',
       ...
       'tipo_fachada', 'cantidad_dormitorios', 'orientacion_este',
       'orientacion_norte', 'orientacion_oeste', 'orientacion_sur',
       'sistema_alarma', 'n.visitas', 'grupo_cocina', 'clasificacion_aire'],
      dtype='object', length=106)

In [432]:
#renombrar las columnas que hay de orientacion para integranlas con orientacion y sus valores

In [433]:
#Revisar que filas no tiene descripcion_extendida , deberian tenerlas todas
df17.query("descripcion_extendida.isnull()")['web'].unique()

array(['Indomio.com', 'pisos.com', 'redpiso'], dtype=object)

In [434]:

df17.query("descripcion_extendida.notnull()")['web'].unique()

array(['Indomio.com', 'redpiso', 'pisosmadrid'], dtype=object)

## dormitorios

In [435]:
df17.query("cantidad_dormitorios.isnull()")[['url','cantidad_dormitorios','dormitorios']]

Unnamed: 0,url,cantidad_dormitorios,dormitorios
0,https://www.indomio.es/anuncios/75404850/,,1.00
1,https://www.indomio.es/anuncios/79178265/,,2.00
2,https://www.indomio.es/anuncios/81008864/,,0.00
3,https://www.indomio.es/anuncios/82164729/,,1.00
4,https://www.indomio.es/anuncios/82164739/,,1.00
...,...,...,...
10422,https://www.pisosmadrid.com.es/propiedad/4086493-piso-en-venta-en-madrid,,2.00
10423,https://www.pisosmadrid.com.es/propiedad/4086495-piso-en-venta-en-los-angeles-madrid,,3.00
10424,https://www.pisosmadrid.com.es/propiedad/4086503-piso-en-venta-en-arganzuela-madrid,,4.00
10425,https://www.pisosmadrid.com.es/propiedad/4086544-piso-en-venta-en-madrid,,3.00


In [436]:
df17['zonas_verdes'].value_counts(dropna=False)

zonas_verdes
NaN     8959
0.00    1337
1.00     131
Name: count, dtype: int64

In [437]:
porcentaje_nulos(df17,['zonas_verdes','reservado','nombre_oficina'])

{'zonas_verdes': 85.9211662031265,
 'reservado': 85.9211662031265,
 'nombre_oficina': 85.9211662031265}

In [438]:
df17.query("dormitorios.isnull() & cantidad_dormitorios.notnull()")[['url','dormitorios','cantidad_dormitorios']]

Unnamed: 0,url,dormitorios,cantidad_dormitorios


In [439]:
df17.drop(columns=['cantidad_dormitorios'], inplace=True)

In [440]:
df17.drop(columns=['barrios'], inplace=True)
df17.drop(columns=['cod_bario'], inplace=True)


In [441]:
df17.drop(columns=['n.visitas'], inplace=True)
df17.drop(columns=['terrazas'], inplace=True)

In [442]:
df17.columns.tolist()

['title',
 'url',
 'precio',
 'precio_anterior',
 'descuento',
 'EUR/m2',
 'm2_constr',
 'distrito',
 'cod_distrito',
 'barrio',
 'cod_barrio',
 'zona',
 'calle',
 'detalle',
 'consumoce_ano',
 'letrace',
 'emisiones_co2',
 'tipologia',
 'propiedad_completa',
 'estado',
 'amueblado',
 'planta',
 'habitaciones',
 'dormitorios',
 'banos',
 'balcon',
 'terraza',
 'garaje',
 'trastero',
 'ascensor',
 'porteria',
 'calefaccion',
 'ano_construccion',
 'plantas_edificio',
 'aire_acondicionado',
 'jardin',
 'inmueble_ingresos',
 'alquiler_opcion_a_compra',
 'disponibilidad',
 'nuda_propiedad',
 'sup_comercial',
 'tipo_inmueble',
 'tiene_armario',
 'cancha_tenis',
 'carpinteria_exterior_doble_vidrio/pvc',
 'carpinteria_exterior_doble_vidrio/madera',
 'carpinteria_exterior_doble_vidrio/metal',
 'carpinteria_exterior_triple_vidrio/madera',
 'carpinteria_exterior_triple_vidrio/metal',
 'carpinteria_exterior_vidrio/pvc',
 'carpinteria_exterior_vidrio/madera',
 'carpinteria_exterior_vidrio/metal',
 

In [None]:
df17.columns.to_list()

In [None]:
df17.query("consumoce_ano.notnull() or letrace.notnull() or emisiones_co2.notnull()")[['url','consumoce_ano','letrace','emisiones_co2','certificado_energetico','cal_energetica','consumo_energia']]

In [None]:
df17.query(" cal_energetica.notnull() and consumo_energia.notnull() ")[['url','consumoce_ano','letrace','emisiones_co2','cal_energetica','consumo_energia']]

In [446]:
df17["consumo_energia"].value_counts(dropna=False)

consumo_energia
NaN                        10167
Consumo 346 KW hm2 ano        14
Consumo 222 KW hm2 ano         5
Consumo 257 KW hm2 ano         4
Consumo 204 KW hm2 ano         4
                           ...  
Consumo 309 KW hm2 ano         1
Consumo 130 KW hm2 ano         1
Consumo 261 KW hm2 ano         1
Consumo 1530 KW hm2 ano        1
Consumo 417 KW hm2 ano         1
Name: count, Length: 171, dtype: int64

In [447]:
# Función para extraer solo el número de la cadena de texto
def extraer_numero(texto):
    if isinstance(texto, str):
        match = re.search(r'\d+', texto)
        return match.group(0) if match else None
    return None

In [448]:
df17.loc[df17['consumoce_ano'].isnull(), 'consumoce_ano'] = df17.loc[df17['consumoce_ano'].isnull(), 'consumo_energia'].apply(lambda x: extraer_numero(x) if isinstance(x, str) else None)

In [449]:
columns_to_replace = ['consumoce_ano', 'letrace', 'emisiones_co2','cal_energetica']
df17[columns_to_replace] = df17[columns_to_replace].replace(['desconocido', 'No indicado', 'Inclasificable','Pendiente','Exento','Cal energetica','Cal energetica Exento '], np.nan)

In [None]:
df17.query("consumo_energia.notnull() ")[['url','consumoce_ano','letrace','emisiones_co2','consumo_energia','emisiones_co2','cal_energetica']]

In [451]:
df17["emisiones_co2"].value_counts(dropna=False)

emisiones_co2
NaN                    9330
E                       136
D                       102
F                        81
C                        53
                       ... 
34.3 kg CO₂/m² añoE       1
8 kg CO₂/m² añoB          1
79 kg CO₂/m² añoF         1
45 kg CO₂/m² añoG         1
83 kg CO₂/m² añoG         1
Name: count, Length: 321, dtype: int64

In [452]:
df17['emisiones_co2'] = df17['emisiones_co2'].str.replace('kg CO₂/m² año', '')

In [453]:
# Reemplazar 'NaN' con valores nulos de Pandas
df17['emisiones_co2'] = df17['emisiones_co2'].replace('NaN', np.nan)

# Extraer letra_emisiones y emisiones_ano
df17[['emisiones_ano', 'letra_emisiones']] = df17['emisiones_co2'].str.extract(r'(?:(\d+\.\d+|\d+)\s)?([A-Z])')

# Convertir emisiones_ano a float
df17['emisiones_ano'] = df17['emisiones_ano'].astype(float)

In [454]:
df17['emisiones_ano'].value_counts(dropna=False)

emisiones_ano
NaN      10043
44.00       11
42.00        9
56.00        8
36.00        8
         ...  
49.80        1
58.10        1
18.00        1
36.50        1
83.00        1
Name: count, Length: 181, dtype: int64

In [455]:
df17.query("consumoce_ano.notnull() and letrace.isnull()")[['url','consumoce_ano','letrace','emisiones_co2']]

Unnamed: 0,url,consumoce_ano,letrace,emisiones_co2
7788,https://www.redpiso.es/inmueble/piso-en-venta-en-buenavista-carabanchel-madrid-madrid-RP442024126007,111,,Emisiones 18 Kg CO2m2 ano
7789,https://www.redpiso.es/inmueble/piso-en-venta-en-buenavista-carabanchel-madrid-madrid-RP442024126427,145,,Emisiones 24 Kg CO2m2 ano
7792,https://www.redpiso.es/inmueble/piso-en-venta-en-buenavista-carabanchel-madrid-madrid-RP442024126442,104,,Emisiones 17 Kg CO2m2 ano
7798,https://www.redpiso.es/inmueble/piso-en-venta-en-buenavista-carabanchel-madrid-madrid-RP442024126423,88,,Emisiones 14 Kg CO2m2 ano
7799,https://www.redpiso.es/inmueble/piso-en-venta-en-calle-alejandro-sanchez-opanel-carabanchel-madrid-madrid-RP512023115395,600,,Emisiones 149 Kg CO2m2 ano
...,...,...,...,...
9211,https://www.redpiso.es/inmueble/piso-en-venta-en-calle-fresnedillas-fuentelarreina-fuencarral-el-pardo-madrid-madrid-RP722023118677,198,,Emisiones 41 Kg CO2m2 ano
9216,https://www.redpiso.es/inmueble/piso-en-venta-en-calle-general-pardinas-58-lista-salamanca-madrid-madrid-RP1432024124685,326,,Emisiones 68 Kg CO2m2 ano
9222,https://www.redpiso.es/inmueble/piso-en-venta-en-calle-orense-cuatro-caminos-tetuan-madrid-madrid-RP2332023114339,138,,Emisiones 34 Kg CO2m2 ano
9241,https://www.redpiso.es/inmueble/piso-en-venta-en-calle-casado-del-alisal-jeronimos-retiro-madrid-madrid-RP1792023115851,180,,Emisiones 45 Kg CO2m2 ano


In [456]:
df17.query("consumo_energia.notnull() or letrace.notnull() or emisiones_co2.notnull()")[['url','consumoce_ano','letrace','emisiones_co2','letra_emisiones','emisiones_ano']]

Unnamed: 0,url,consumoce_ano,letrace,emisiones_co2,letra_emisiones,emisiones_ano
0,https://www.indomio.es/anuncios/75404850/,"≥ 3,51",F,D,D,
4,https://www.indomio.es/anuncios/82164739/,,E,,,
11,https://www.indomio.es/anuncios/83875795/,"≥ 3,51",F,,,
12,https://www.indomio.es/anuncios/84201619/,"≥ 3,51",G,,,
15,https://www.indomio.es/anuncios/87473239/,,D,D,D,
...,...,...,...,...,...,...
9520,https://www.indomio.es/anuncios/96979909/,,C,C,C,
9522,https://www.indomio.es/anuncios/96696025/,,C,B,B,
9524,https://www.indomio.es/anuncios/96950227/,,G,,,
9527,https://www.indomio.es/anuncios/97011087/,,E,,,


In [457]:
pd.set_option('display.max_rows', None)

In [458]:
#eliminar las columnas consumo_energia,cal_energetica

In [459]:
df17 = df17.drop(columns=['consumo_energia', 'cal_energetica'])

In [460]:
df17.head(1)

Unnamed: 0,title,url,precio,precio_anterior,descuento,EUR/m2,m2_constr,distrito,cod_distrito,barrio,cod_barrio,zona,calle,detalle,consumoce_ano,letrace,emisiones_co2,tipologia,propiedad_completa,estado,amueblado,planta,habitaciones,dormitorios,banos,balcon,terraza,garaje,trastero,ascensor,porteria,calefaccion,ano_construccion,plantas_edificio,aire_acondicionado,jardin,inmueble_ingresos,alquiler_opcion_a_compra,disponibilidad,nuda_propiedad,sup_comercial,tipo_inmueble,tiene_armario,cancha_tenis,carpinteria_exterior_doble_vidrio/pvc,carpinteria_exterior_doble_vidrio/madera,carpinteria_exterior_doble_vidrio/metal,carpinteria_exterior_triple_vidrio/madera,carpinteria_exterior_triple_vidrio/metal,carpinteria_exterior_vidrio/pvc,carpinteria_exterior_vidrio/madera,carpinteria_exterior_vidrio/metal,chimenea,cocina,fibra_optica,instalacion_tv_centralizada,instalacion_tv_individual,exterior,interior,interior_y_exterior,tiene_piscina,porton_electrico,puerta_blindada,alarma,videoportero,lujosa,descripcion_extendida,acceso_discapacidad,web,fecha_descarga,certificado_energetico,piscina,tiene_jardin,referencia,cantidad_visitas,fecha_publicacion,titular_anuncio,campo12,cantidad_armarios,agua_caliente,tipo_suelo,m2_utiles,gastos_comunidad,zonas_verdes,puerta_seguridad,num_plantas,num_pisos,reservado,nombre_oficina,cod_barrio_2,codigo_Postal,tipo_fachada,orientacion_este,orientacion_norte,orientacion_oeste,orientacion_sur,sistema_alarma,grupo_cocina,clasificacion_aire,emisiones_ano,letra_emisiones
0,"Ático Calle de Núñez de Balboa 2, Recoletos, Madrid",https://www.indomio.es/anuncios/75404850/,2000000.0,,,20.0,100.0,Salamanca,4.0,Recoletos,41.0,Recoletos,calle de nunez de balboa 2,Ático Calle de Núñez de Balboa 2,"≥ 3,51",F,D,Ático,1.0,Para reformar,Sólo cocina amueblada,1,1,1.0,1,1.0,1.0,2 en garaje privado,1.0,1.0,Portero media jornada,Central,,,,,,,,,,,,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,1.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,-Atico test atico test atico test atico test atico test atico test atico test atico test atico test atico test atico test atico test,1.0,Indomio.com,2024-11-20,Disponible,-,,,,,,,,,,,100,,,,,,,,,,0.0,0.0,0.0,0.0,,sin_informacion,Desconocido,,D


In [461]:
# df17[['consumo_energia', 'cal_energetica','letrace','letra_emisiones']]

In [462]:
# df17.query("certificado_energetico.notnull() and certificado_energetico!='No indicado'")[['consumo_energia', 'consumoce_ano','emisiones_ano','letrace','letra_emisiones','certificado_energetico']]

In [463]:
# df17.query("certificado_energetico.notnull() and certificado_energetico!='No indicado'")[['consumo_energia', 'consumoce_ano','emisiones_ano','letrace','letra_emisiones','certificado_energetico']]

In [None]:
#df17.to_csv("pisoscompleto.csv",index='False')

# Lectura pisoscompleto

In [None]:
#df17 = pd.read_csv("pisoscompleto.csv", index_col=False)

  df17 = pd.read_csv("pisoscompleto.csv", index_col=False)


In [19]:


# Palabras clave para clasificar
central_keywords = ["central", "comunitaria", "comunitario"]
individual_keywords = ["individual", "particular", "chimenea", "bomba", "termo", "climatizacion"]
electric_keywords = ["electrica", "bomba", "climatización", 'termo electrico','climatizacion']
gas_keywords = ["gas", "propano", "g n", "g/n"]  # Asegurarse de que 'g n' y 'g/n' estén bien escritos
gasoil_keywords = ["gasóil","gasoil",'gasoil',"Gasoil"]  # Añadir "gasoil" aquí
renovables_keywords = ["aerotermia", "geotermia", "chimenea"]
suelo_radiante_keywords=["suelo_radiante", "suelo"]
#radiadores_keywords=["radiadores"]
aire_keywords=["bomba","climatización",'climatizacion','conducto']
desconocido_keywords=['chimenea', 'termo electrico']
#lo mas extendido son los radiadores por eso despues de pasar , suelo radiante y aire pongo a todos radiadores salvo a chimenea y termo electrico que no lo se
radiadores_keywords=['radiadores','Gas natural', 'G/n', 'Gas particular', 'Central, alimentación eléctrica', 'Agua caliente y calefacción central con contador i', 'Comunitario', 'Individual con gas natural', 'Individual, de gasóil', 'Comunitaria', 'Calefaccion Propano', 'Calefaccion Gas Natural', 'Central, por aire, de gas', 'Gas natural y biomasa', 'Centralizada', 'Eléctrica', 'Calefaccion Individual', 'Calefaccion individual','Contadores individuales', '1.0', 'Individual, alimentación eléctrica', 'Aerotermia', 'Individual - gas natural', 'Individual', 'Calefaccion Aerotermia', 'Gasoil', 'Central individualizada', 'Individual, por aire, alimentación eléctrica', 'Geotermia y aerotermia', 'Calefaccion comunitaria', 'Calefaccion Central', 'Central, de gas', 'Calefaccion Electrica', 'Calefacción central individualizada', 'Central, de gasóil', 'Individual, de gas', 'Central']

# Inicializar conjuntos para valores únicos
central = set()
individual = set()
electrica = set()
gas = set()
gsoil = set()
renovables = set()
suelo_radiante = set()
radiadores = set()
aire = set()
sin_clasificar = set()
sin_clasificar_energia = set()
sin_clasificar_medio = set()
radiadores=set()
suelo_radiante=set()


# Clasificar categorías
for categoria in df17["calefaccion"]:
    categoria_normalized = normalize_text(str(categoria))  # Normalizar texto
    
 
    
    # Clasificación por tipo (central o individual)
    if any(keyword in categoria_normalized for keyword in central_keywords):
        central.add(categoria)
    elif any(keyword in categoria_normalized for keyword in individual_keywords):
        individual.add(categoria)
    else:
        sin_clasificar.add(categoria)
    
    # Clasificación por energía (eléctrica, gas, gasoil)
    if any(keyword in categoria_normalized for keyword in electric_keywords):
        electrica.add(categoria)
    elif any(keyword in categoria_normalized for keyword in gasoil_keywords):
        gsoil.add(categoria)
    elif any(keyword in categoria_normalized for keyword in gas_keywords):
        gas.add(categoria)
      
   
    elif any(keyword in categoria_normalized for keyword in renovables_keywords):
        renovables.add(categoria)
    else:
        sin_clasificar_energia.add(categoria)

    # Clasificación por medio (suelo radiante, radiadores, aire)
    
   
    if any(keyword in categoria_normalized for keyword in aire_keywords):
        aire.add(categoria)    
    elif any(keyword in categoria_normalized for keyword in suelo_radiante_keywords):
        suelo_radiante.add(categoria)
    elif any(keyword in categoria_normalized for keyword in desconocido_keywords):
        sin_clasificar_medio.add(categoria)
  #  else: any(keyword in categoria_normalized for keyword in radiadores_keywords):
    else: 
        radiadores.add(categoria)
    

# Convertir los conjuntos a listas
central = list(central)
individual = list(individual)
sin_clasificar = list(sin_clasificar)
electrica = list(electrica)
gas = list(gas)
gasoil = list(gsoil)
renovables = list(renovables)
sin_clasificar_energia = list(sin_clasificar_energia)
aire=list(aire)
radiadores=list(radiadores)
suelo_radiante=list(suelo_radiante)
sin_clasificar_medio=list(sin_clasificar_medio)
# Imprimir resultados
print("Central:", central)
print("Individual:", individual)
print("No clasificado:", sin_clasificar)
print("Electrica:", electrica)
print("Gas:", gas)
print("Gasoil:", gasoil)
print("Renovables:", renovables)
print("No clasificado en energía:", sin_clasificar_energia)
print("Suelo Radiante:", suelo_radiante)
print("Radiadores:", radiadores)
print("Aire:", aire)
print("No clasificado en medio:", sin_clasificar_medio)


Central: ['Calefaccion comunitaria', 'Agua caliente y calefacción central con contador i', 'Central', 'Calefaccion Central', 'Calefacción central individualizada', 'Central, por radiadores, de gas', 'Comunitario', 'Central, por aire, de gas', 'Central, por radiadores', 'Comunitaria', 'Central individualizada', 'Central, de gas', 'Central, de gasóil', 'Centralizada', 'Central, por radiadores, de gasóil', 'Central, suelo radiante, de gas', 'Central, suelo radiante', 'Central, alimentación eléctrica']
Individual: ['Gas particular', 'Climatizacion', 'Individual, suelo radiante', 'Calefaccion individual', 'Contadores individuales', 'climatizacion', 'Individual, por radiadores', 'Individual, por radiadores, de gasóil', 'Chimenea', 'Individual, alimentación eléctrica', 'Bomba frio-calor', 'Termo electrico', 'Individual, por aire, por bomba de calor', 'Individual, por radiadores, de gas', 'Individual con gas natural', 'Individual, suelo radiante, de gas', 'Bomba de calor', 'Individual, por air

In [22]:
# Listas proporcionadas
listas = {
    'Central': ['Calefaccion comunitaria', 'Agua caliente y calefacción central con contador i', 'Central', 'Calefaccion Central', 'Calefacción central individualizada', 'Central, por radiadores, de gas', 'Comunitario', 'Central, por aire, de gas', 'Central, por radiadores', 'Comunitaria', 'Central individualizada', 'Central, de gas', 'Central, de gasóil', 'Centralizada', 'Central, por radiadores, de gasóil', 'Central, suelo radiante, de gas', 'Central, suelo radiante', 'Central, alimentación eléctrica'],
    'Individual': ['Gas particular', 'Climatizacion', 'Individual, suelo radiante', 'Calefaccion individual', 'Contadores individuales', 'climatizacion', 'Individual, por radiadores', 'Individual, por radiadores, de gasóil', 'Chimenea', 'Individual, alimentación eléctrica', 'Bomba frio-calor', 'Termo electrico', 'Individual, por aire, por bomba de calor', 'Individual, por radiadores, de gas', 'Individual con gas natural', 'Individual, suelo radiante, de gas', 'Bomba de calor', 'Individual, por aire, alimentación eléctrica', 'Bomba frio/calor', 'Individual - gas natural', 'Bomba frio calor', 'Individual, de gas', 'Calefaccion Individual', 'Individual, por radiadores, alimentación eléctrica', 'Por climatizacion', 'Individual', 'Individual, de gasóil'],
    'No clasificado': ['Calefaccion Propano', 'Calefaccion Electrica', 'Eléctrica', 'Suelo radiante agua', 'Conducto', 'Gasoil', 'Calefaccion Gas Natural', 'G/n', 'Geotermia y aerotermia', 'Calefaccion Aerotermia', '1.0', 'Calefaccion Suelo Radiante', 'Aerotermia', np.nan, 'Gas natural', 'Gas natural y biomasa', 'Suelo radiante'],
    'Electrica': ['Individual, por aire, por bomba de calor', 'Individual, por aire, alimentación eléctrica', 'Bomba frio calor', 'Calefaccion Electrica', 'Individual, por radiadores, alimentación eléctrica', 'Climatizacion', 'Eléctrica', 'Bomba frio/calor', 'Por climatizacion', 'climatizacion', 'Individual, alimentación eléctrica', 'Bomba de calor', 'Bomba frio-calor', 'Termo electrico', 'Central, alimentación eléctrica'],
    'Gas': ['Calefaccion Propano', 'Gas particular', 'Individual, por radiadores, de gas', 'Individual, de gas', 'Central, por radiadores, de gas', 'Individual con gas natural', 'Individual, suelo radiante, de gas', 'Central, por aire, de gas', 'Calefaccion Gas Natural', 'G/n', 'Individual - gas natural', 'Central, de gas', 'Central, suelo radiante, de gas', 'Gas natural', 'Gas natural y biomasa'],
    'Gasoil': ['Gasoil', 'Individual, por radiadores, de gasóil', 'Central, de gasóil', 'Central, por radiadores, de gasóil', 'Individual, de gasóil'],
    'Renovables': ['Calefaccion Aerotermia', 'Chimenea', 'Aerotermia', 'Geotermia y aerotermia'],
    'No clasificado en energía': ['Comunitario', 'Individual, suelo radiante', 'Calefaccion individual', 'Contadores individuales', 'Individual, por radiadores', 'Centralizada', 'Suelo radiante', 'Calefaccion Central', 'Calefacción central individualizada', 'Conducto', 'Central, suelo radiante', 'Agua caliente y calefacción central con contador i', 'Comunitaria', 'Central individualizada', 'Calefaccion Suelo Radiante', np.nan, 'Central, por radiadores', 'Calefaccion comunitaria', 'Central', 'Calefaccion Individual', 'Suelo radiante agua', '1.0', 'Individual'],
    'Suelo Radiante': ['Individual, suelo radiante, de gas', 'Suelo radiante agua', 'Individual, suelo radiante', 'Calefaccion Suelo Radiante', 'Central, suelo radiante, de gas', 'Central, suelo radiante', 'Suelo radiante'],
    'Radiadores': ['Gas particular', 'Calefaccion Electrica', 'Central, por radiadores, de gas', 'Comunitario', 'Central, por aire, de gas', 'Eléctrica', 'Gasoil', 'Geotermia y aerotermia', 'Calefaccion individual', 'Contadores individuales', 'Calefaccion Aerotermia', 'Individual, por radiadores', 'Individual, por radiadores, de gasóil', 'Centralizada', 'Individual, alimentación eléctrica', 'Calefaccion Central', 'Individual, por radiadores, de gas', 'Calefacción central individualizada', 'Individual con gas natural', 'G/n', 'Central, de gas', 'Central, de gasóil', 'Central, por radiadores, de gasóil', 'Agua caliente y calefacción central con contador i', 'Calefaccion Propano', 'Individual, por aire, alimentación eléctrica', 'Calefaccion Gas Natural', 'Comunitaria', 'Individual - gas natural', 'Central individualizada', np.nan, 'Central, por radiadores', 'Central, alimentación eléctrica', 'Calefaccion comunitaria', 'Central', 'Individual, de gas', 'Calefaccion Individual', 'Individual, por radiadores, alimentación eléctrica', '1.0', 'Individual', 'Aerotermia', 'Gas natural', 'Gas natural y biomasa', 'Individual, de gasóil'],
    'Aire': ['Individual, por aire, por bomba de calor', 'Bomba frio calor', 'Climatizacion', 'Conducto', 'Bomba frio/calor', 'Por climatizacion', 'climatizacion', 'Bomba de calor', 'Bomba frio-calor'],
    'No clasificado en medio': ['Termo electrico', 'Chimenea']
}

In [23]:
# Definir las listas específicas para cada columna nueva
listas_tipo_1 = {k: listas[k] for k in ['Central', 'Individual']}
listas_tipo_2 = {k: listas[k] for k in ['Electrica', 'Gas', 'Gasoil','Renovables','No clasificado en energía']}
listas_tipo_3 = {k: listas[k] for k in ['Suelo Radiante', 'Radiadores', 'Aire', 'No clasificado en medio']}

# Aplicar la función a la columna calefaccion y crear tres nuevas columnas
df17['tipo_calefaccion'] = df17['calefaccion'].apply(lambda x: clasificar_calefaccion(x, listas_tipo_1))
df17['energia_calefaccion'] = df17['calefaccion'].apply(lambda x: clasificar_calefaccion(x, listas_tipo_2))
df17['instalacion_calefaccion'] = df17['calefaccion'].apply(lambda x: clasificar_calefaccion(x, listas_tipo_3))



In [32]:
df17["amueblado"].value_counts(dropna=False)

amueblado
NaN                       7531
0                         1467
0.0                        720
Sí                         293
No                         171
1.0                        161
Sólo cocina amueblada       71
Parcialmente amueblado      12
1                            1
Name: count, dtype: int64

In [None]:
df17.columns.tolist()

In [33]:
df17.isna().sum()

Unnamed: 0                     0
title                          0
url                            0
precio                         0
precio_anterior            10373
                           ...  
emisiones_ano              10043
letra_emisiones             9330
tipo_calefaccion               0
energia_calefaccion            0
instalacion_calefaccion        0
Length: 105, dtype: int64

In [471]:
df17.isna().mean()*100

precio                                       0.00
m2_constr                                    0.26
cod_distrito                                 0.02
cod_barrio                                   2.28
consumoce_ano                               95.20
letrace                                     86.67
tipologia                                    0.00
estado                                      45.63
amueblado                                   72.23
planta                                      44.53
dormitorios                                  1.82
banos                                        2.92
garaje                                      80.29
trastero                                    16.30
ascensor                                    22.14
porteria                                    98.54
calefaccion                                 66.07
ano_construccion                            66.58
aire_acondicionado                          56.78
jardin                                      79.02


In [472]:
# Chequeo de valores en columna 
df17["sistema_alarma"].value_counts()

sistema_alarma
0.00    276
1.00      5
Name: count, dtype: int64

In [473]:
df17["orientacion_sur"].value_counts()

orientacion_sur
0.00    9943
1.00     484
Name: count, dtype: int64

In [474]:
df17["orientacion_oeste"].value_counts()

orientacion_oeste
0.00    10048
1.00      379
Name: count, dtype: int64

In [475]:
df17["orientacion_norte"].value_counts()

orientacion_norte
0.00    10108
1.00      319
Name: count, dtype: int64

In [476]:
df17["orientacion_este"].value_counts()

orientacion_este
0.00    10003
1.00      424
Name: count, dtype: int64

In [477]:
df17["puerta_seguridad"].value_counts()

puerta_seguridad
0.00    1450
1.00      18
Name: count, dtype: int64

In [478]:
df17["zonas_verdes"].value_counts()

zonas_verdes
0.00    1337
1.00     131
Name: count, dtype: int64

In [479]:
df17["codigo_Postal"].unique()

array([   nan, 28021., 28041., 28025., 28029., 28037., 28019., 28045.,
       28018., 28017., 28044., 28015., 28010., 28027., 28030., 28011.,
       28024., 28033., 28007., 28047., 28032., 28028., 28034., 28031.,
       28016., 28002., 28012., 28005., 28003., 28001., 28004., 28039.,
       28038., 28026., 28053., 28020., 28035., 28055., 28046., 28023.,
       28009., 28042., 28006., 28043., 28048., 28049., 28013., 28014.,
       28040., 28008.])

In [None]:
#df17.to_csv("pisoscompleto.csv",index='False')

# Lectura pisoscompleto

In [None]:
#df17 = pd.read_csv("pisoscompleto.csv", index_col=False)

  df17 = pd.read_csv("pisoscompleto.csv", index_col=False)


In [25]:
dfadicionales= pd.read_csv('../02-datos-limpios/Datos_adicionales.csv',sep=";", index_col=False)

In [19]:
dfadicionales.columns

Index(['cod_municipio', 'municipio', 'cod_distrito', 'distrito', 'cod_barrio',
       'barrio', 'codigo_Postal', 'num_personas', 'num_personas_hombres',
       'num_personas_mujeres', 'total_transacciones',
       'viv_nuevas_transacciones', 'viv_usadas_transacciones', 'lineas_metro',
       'salidas_metro', 'estaciones_metroligero', 'estaciones_cercanias',
       'estacion_bus_urbano', 'num_lineas_buses',
       'Renta neta media por persona', 'Renta neta media por hogar',
       'Mediana de la renta por unidad de consumo',
       'Renta bruta media por persona', 'Renta bruta media por hogar',
       'Habitantes', 'Hogares', 'Tamaño medio del hogar',
       'Tamaño del hogar (Nº de personas en la vivienda)', 'hog_con_1',
       'hog_con_2', 'hog_con_3', 'hog_con_4', 'hog_con_5', 'hog_con_6',
       'hog_con_7', 'hog_con_8', 'hog_con_9', 'hog_con_10', 'hog_con_11',
       'hog_con_12', 'hog_con_13', 'hog_con_14', 'hog_con_15 y más'],
      dtype='object')

In [None]:
#uno los datos adicionales a nivel de barrio para las columnas  codigo_Postal,	num_personas,	num_personas_hombres	,num_personas_mujeres	,total_transacciones,	viv_nuevas_transacciones,	viv_usadas_transacciones
# uno a nivel de distrito lineas_metro	salidas_metro	estaciones_metroligero	estaciones_cercanias	estacion_bus_urbano	num_lineas_buses	Renta neta media por persona	Renta neta media por hogar	Mediana de la renta por unidad de consumo	Renta bruta media por persona	Renta bruta media por hogar	Habitantes	Hogares	Tamaño medio del hogar	Tamaño del hogar (Nº de personas en la vivienda)	hog_con_1	hog_con_2	hog_con_3	hog_con_4	hog_con_5	hog_con_6	hog_con_7	hog_con_8	hog_con_9	hog_con_10	hog_con_11	hog_con_12	hog_con_13	hog_con_14	hog_con_15 y más


In [None]:
df17.query("cod_barrio<11")

In [20]:
df17.loc[df17['url'].str.contains('calle-narvaez'), ['cod_barrio', 'barrio']] = [34, 'Ibiza']
df17.loc[df17['url'].str.contains('calle-claudio-coello'), ['cod_barrio', 'barrio']] = [41, 'Recoletos']
df17.loc[df17['url'].str.contains('calle-maria-de-molina'), ['cod_barrio', 'barrio']] = [51, 'El Viso']
df17.loc[df17['url'].str.contains('calle-eloy-gonzalo'), ['cod_barrio', 'barrio']] = [73, 'Trafalgar']

df17['titular_anuncio'] = df17['descripcion_extendida'].fillna('')
df17.loc[df17['titular_anuncio'].str.contains('Ibiza'), ['cod_barrio', 'barrio']] = [34, 'Ibiza']


# Reemplazar valores NaN en 'descripcion_extendida' con una cadena vacía
df17['descripcion_extendida'] = df17['descripcion_extendida'].fillna('')
df17.loc[df17['descripcion_extendida'].str.contains('Calle Mariano Benlliure'), ['cod_barrio', 'barrio','cod_distrito','distrito']] = [74, 'Almagro',7,'Chamberí']
df17.loc[df17['descripcion_extendida'].str.contains('Calle Moquetas 11'), ['cod_barrio', 'barrio','cod_distrito','distrito','estado']] = [74, 'Almagro',7,'Chamberí','Obra nueva']
df17.loc[df17['descripcion_extendida'].str.contains('calle de Castello'), ['cod_barrio', 'barrio']] = [74, 'Almagro']
df17.loc[df17['descripcion_extendida'].str.contains('IBIZA'), ['cod_barrio', 'barrio']] = [34, 'Ibiza']

In [23]:
df17["m2_utiles"].value_counts(dropna=False)

m2_utiles
NaN      8961
 60        45
 55        37
 90        37
 70        36
         ... 
 245        1
 194        1
 383        1
 244        1
 317        1
Name: count, Length: 191, dtype: int64

In [22]:
df17["m2_utiles"]=df17["m2_utiles"].str.replace("Metros","")

In [None]:
df17.drop_duplicates(subset=['url'], keep='first', inplace=True)


In [None]:
df17['url'].nunique() == len(df17)

Elimino la columna codigo porstal por que la voy a traer al hacer el merge con dfadicionales

In [38]:
df17 = df17.drop(columns="codigo_Postal")

In [None]:
# Eliminar los puntos de la columna 'precio' y convertirla a float
df17.loc[(df17['fecha_descarga'] == '06/01/2025') & (df17['web'] == 'Indomio.com'), 'precio'] = df17.loc[(df17['fecha_descarga'] == '06/01/2025') & (df17['web'] == 'Indomio.com'), 'precio'].astype(str).apply(lambda x: x.replace('.', '')).astype(float)

df17.loc[df17['web'] == 'Indomio.com', 'precio'] = df17.loc[df17['web'] == 'Indomio.com', 'precio'].astype(float)
# Filtrar las filas donde 'web' es igual a 'redpiso' y luego convertir la columna 'precio' a float
df17.loc[df17['web'] == 'redpiso', 'precio'] = df17.loc[df17['web'] == 'redpiso', 'precio'].astype(float)
df17.loc[df17['web'] == 'pisosmadrid', 'precio'] = df17.loc[df17['web'] == 'pisosmadrid', 'precio'].astype(float)
df17.loc[df17['web'] == 'pisos.com', 'precio'] = df17.loc[df17['web'] == 'pisos.com', 'precio'].astype(float)

# Mostrar las primeras filas del dataframe actualizado
print(df17[['web', 'precio']].sample(20))

In [None]:
# Eliminar el símbolo '%' y convertir a tipo numérico
df17['descuento'] = df17['descuento'].str.replace('%', '')
df17['descuento'] = pd.to_numeric(df17['descuento'].str.replace(',', '.'))
df17["alarma"] = df17["alarma"].fillna(df17["sistema_alarma"])
#puerta de seguridad y puerta_blindada en una columna
df17["puerta_seguridad"] = df17["puerta_seguridad"].fillna(df17["puerta_blindada"])

In [None]:
# Aplicar la función a la columna consumo_ce solo cuando letrace es nulo y consumo_ce no es nulo
df17['letrace'] = df17.apply(lambda row: clasificar_consumo(row['consumoce_ano']) if pd.isnull(row['letrace']) and not pd.isnull(row['consumoce_ano']) else row['letrace'], axis=1)

In [None]:

dfimetros = pd.read_excel("indomiosolometros.xlsx")
actualizar_valores(df17, dfimetros, "url", "m2_constr")

In [None]:
# Actualizar las filas donde 'cantidad_armarios' no es nulo y 'tiene_armario' es 0 o nulo
df17.loc[df17['cantidad_armarios'].notnull() & (df17['tiene_armario'].isnull() | df17['tiene_armario'] == 0), 'tiene_armario'] = 1

In [None]:
df17= df17[df17['tipologia'] != 'Negocio']
df17['tipologia'] = df17['tipologia'].replace('Venta', 'Piso')
# Actualizar los valores de 'distrito' y 'barrio' cuando 'cod_barrio' es 195
df17.loc[df17['cod_barrio'] == 195.00, ['distrito', 'barrio']] = ['Vicalvaro', 'Los Berrocales']

In [None]:
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/3863841-piso-en-venta-en-madrid'), ['cod_distrito','distrito','cod_barrio','barrio']] =[13,'Puente de Vallecas',133,'Palomeras Bajas']
df17.loc[df17['url'].str.contains('https://www.pisosmadrid.com.es/propiedad/4086493-piso-en-venta-en-madrid'), ['cod_distrito','distrito','cod_barrio','barrio']] =[17,'Villaverde',171,'Villaverde Alto']

In [None]:
#df17.to_csv("pisoscompleto.csv",index='False')
#df17 = pd.read_csv("pisoscompleto.csv", index_col=False)

In [None]:
#df17 = pd.read_csv("pisoscompleto.csv", index_col=False)

  df17 = pd.read_csv("pisoscompleto.csv", index_col=False)


In [26]:


# Seleccionar solo las columnas que quieres añadir
columns_to_add = ['cod_barrio', 'codigo_Postal', 'num_personas', 'num_personas_hombres', 'num_personas_mujeres', 'total_transacciones', 'viv_nuevas_transacciones', 'viv_usadas_transacciones']
columns_to_add_d = ['cod_distrito', 'codigo_Postal', 'num_personas', 'num_personas_hombres', 'num_personas_mujeres', 'total_transacciones', 'viv_nuevas_transacciones', 'viv_usadas_transacciones']

# Filtrar el DataFrame adicional para mantener solo las columnas seleccionadas
df_adicional_filtered = dfadicionales[columns_to_add]
#df_adicional_filtered_d = dfadicionales[columns_to_add_d]
df_adicional_filtered_d = dfadicionales[dfadicionales['cod_barrio'].isna()][columns_to_add_d]

# Filtrar filas en df17 donde cod_barrio no es nulo y hacer el primer merge
df17_filtered = df17.dropna(subset=['cod_barrio'])
df_merged_barrio = pd.merge(df17_filtered, df_adicional_filtered, on='cod_barrio', how='left')

# Filtrar filas en df17 donde cod_barrio es nulo
df17_na = df17[df17['cod_barrio'].isna()]

# Realizar el merge con las filas filtradas usando cod_distrito
df_merged_na = pd.merge(df17_na, df_adicional_filtered_d, on='cod_distrito', how='left')

# Combinar los dos DataFrames resultantes en uno final
df_final = pd.concat([df_merged_barrio, df_merged_na], ignore_index=True)




In [27]:
df_final.columns.tolist()

['Unnamed: 0.4',
 'Unnamed: 0.3',
 'Unnamed: 0.2',
 'Unnamed: 0.1',
 'Unnamed: 0',
 'title',
 'url',
 'precio',
 'precio_anterior',
 'descuento',
 'EUR/m2',
 'm2_constr',
 'distrito',
 'cod_distrito',
 'barrio',
 'cod_barrio',
 'zona',
 'calle',
 'detalle',
 'consumoce_ano',
 'letrace',
 'emisiones_co2',
 'tipologia',
 'propiedad_completa',
 'estado',
 'amueblado',
 'planta',
 'habitaciones',
 'dormitorios',
 'banos',
 'balcon',
 'terraza',
 'garaje',
 'trastero',
 'ascensor',
 'porteria',
 'calefaccion',
 'ano_construccion',
 'plantas_edificio',
 'aire_acondicionado',
 'jardin',
 'inmueble_ingresos',
 'alquiler_opcion_a_compra',
 'disponibilidad',
 'nuda_propiedad',
 'sup_comercial',
 'tipo_inmueble',
 'tiene_armario',
 'cancha_tenis',
 'carpinteria_exterior_doble_vidrio/pvc',
 'carpinteria_exterior_doble_vidrio/madera',
 'carpinteria_exterior_doble_vidrio/metal',
 'carpinteria_exterior_triple_vidrio/madera',
 'carpinteria_exterior_triple_vidrio/metal',
 'carpinteria_exterior_vidrio/p

In [28]:
df17["cod_barrio"].isnull().sum()

237

In [141]:
df17.shape,df_merge.shape,df_merged_na.shape, df17_na.shape,df_adicional_filtered_d.shape,df_final.shape

((10427, 107), (10190, 113), (237, 114), (237, 107), (21, 8), (10427, 114))

In [None]:
#ahora hago lo mismo para las que voy a hacer merge por distrito

In [29]:
#ahora añado las columnas que estan a nivel de distrito
#lineas_metro	salidas_metro	estaciones_metroligero	estaciones_cercanias	estacion_bus_urbano	num_lineas_buses	Renta neta media por persona	Renta neta media por hogar	Mediana de la renta por unidad de consumo	Renta bruta media por persona	Renta bruta media por hogar	Habitantes	Hogares	Tamaño medio del hogar	Tamaño del hogar (Nº de personas en la vivienda)	hog_con_1	hog_con_2	hog_con_3	hog_con_4	hog_con_5	hog_con_6	hog_con_7	hog_con_8	hog_con_9	hog_con_10	hog_con_11	hog_con_12	hog_con_13	hog_con_14	hog_con_15 y más
columns_to_add_d = ['cod_distrito','lineas_metro',	'salidas_metro',	'estaciones_metroligero',	'estaciones_cercanias',	'estacion_bus_urbano',	'num_lineas_buses',	'Renta neta media por persona',	'Renta neta media por hogar','Mediana de la renta por unidad de consumo','Renta bruta media por persona','Renta bruta media por hogar','Habitantes','Hogares','Tamaño medio del hogar','Tamaño del hogar (Nº de personas en la vivienda)','hog_con_1','hog_con_2','hog_con_3'	,'hog_con_4','hog_con_5','hog_con_6','hog_con_7','hog_con_8','hog_con_9','hog_con_10','hog_con_11',	'hog_con_12','hog_con_13','hog_con_14','hog_con_15 y más']

df_adicional_filtered_d = dfadicionales[dfadicionales['cod_barrio'].isna()][columns_to_add_d]

# Unir los DataFrames por 'cod_barrio'
df_final = pd.merge(df_final, df_adicional_filtered_d, on='cod_distrito', how='left')

In [10]:
df_final.shape

(10421, 145)

In [30]:
# Filtrar las filas que no se pueden convertir a float sin modificar la columna 'precio'
df_final[~df_final['precio'].astype(str).str.replace(',', '').str.replace(' ', '').str.isnumeric()][["title","url","precio"]]



Unnamed: 0,title,url,precio
0,"Ático Calle de Núñez de Balboa 2, Recoletos, Madrid",https://www.indomio.es/anuncios/75404850/,2000000.00
1,"Piso de dos habitaciones buen estado, entreplanta, Casco Histórico de Barajas, Madrid",https://www.indomio.es/anuncios/79178265/,287000.00
2,"Casa plurifamiliar Plaza de Italia, Legazpi, Madrid",https://www.indomio.es/anuncios/81008864/,200000.00
3,"Piso de una habitación Calle de Juan Ramón Jiménez 8, Hispanoamérica, Madrid",https://www.indomio.es/anuncios/82164729/,650000.00
4,"Piso de una habitación Calle de Juan Ramón Jiménez 8, Hispanoamérica, Madrid",https://www.indomio.es/anuncios/82164739/,650000.00
...,...,...,...
9524,"Piso de dos habitaciones Calle Antillon, Puerta del Ángel, Madrid",https://www.indomio.es/anuncios/96974257/,249.900
9525,"Piso de dos habitaciones 127 m², Peñagrande, Madrid",https://www.indomio.es/anuncios/96635079/,690.000
9526,"Piso de una habitación Calle Del Monasterio De Las Batuecas, Mirasierra, Madrid",https://www.indomio.es/anuncios/96931857/,375.000
9527,"Piso Calle de Joaquín Lorenzo, Peñagrande, Madrid",https://www.indomio.es/anuncios/97013237/,165.000


In [62]:
df_final["web"].value_counts(dropna=False)

web
pisos.com      4728
Indomio.com    3334
redpiso        1467
pisosmadrid     892
Name: count, dtype: int64

In [69]:
df_final["fecha_descarga"].value_counts(dropna=False)

fecha_descarga
2024-11-20    3055
2024-10-19    2951
2024-08-19    1777
31/10/2024    1467
24/10/2024     892
06/01/2025     279
Name: count, dtype: int64

In [35]:
df_final.drop(columns=['Unnamed: 0', 'Unnamed: 0.1', 'Unnamed: 0.2', 'Unnamed: 0.3', 'Unnamed: 0.4'], inplace=True)


In [38]:
df_final.columns.tolist()

['title',
 'url',
 'precio',
 'precio_anterior',
 'descuento',
 'EUR/m2',
 'm2_constr',
 'distrito',
 'cod_distrito',
 'barrio',
 'cod_barrio',
 'zona',
 'calle',
 'detalle',
 'consumoce_ano',
 'letrace',
 'emisiones_co2',
 'tipologia',
 'propiedad_completa',
 'estado',
 'amueblado',
 'planta',
 'habitaciones',
 'dormitorios',
 'banos',
 'balcon',
 'terraza',
 'garaje',
 'trastero',
 'ascensor',
 'porteria',
 'calefaccion',
 'ano_construccion',
 'plantas_edificio',
 'aire_acondicionado',
 'jardin',
 'inmueble_ingresos',
 'alquiler_opcion_a_compra',
 'disponibilidad',
 'nuda_propiedad',
 'sup_comercial',
 'tipo_inmueble',
 'tiene_armario',
 'cancha_tenis',
 'carpinteria_exterior_doble_vidrio/pvc',
 'carpinteria_exterior_doble_vidrio/madera',
 'carpinteria_exterior_doble_vidrio/metal',
 'carpinteria_exterior_triple_vidrio/madera',
 'carpinteria_exterior_triple_vidrio/metal',
 'carpinteria_exterior_vidrio/pvc',
 'carpinteria_exterior_vidrio/madera',
 'carpinteria_exterior_vidrio/metal',
 

In [31]:
#compruebo si tengo valores en la columna consumoce_ano que no tengal en letrace, A: Menos de 10 kg CO2/m²/año,B: 10-20 kg CO2/m²/año,C: 20-35 kg CO2/m²/año,D: 35-55 kg CO2/m²/año
#E: 55-75 kg CO2/m²/año,F: 75-100 kg CO2/m²/año,G: Más de 100 kg CO2/m²/año
df_final.query("consumoce_ano.notnull() and letrace.isnull()")[["url","consumoce_ano"]]

Unnamed: 0,url,consumoce_ano


In [None]:
#df_final.to_csv("pisoscompletofinal.csv",index='False')

In [11]:
df_final.query("tipologia=='Venta'")[["url","web"]]

Unnamed: 0,url,web
7990,https://www.redpiso.es/inmueble/en-venta-en-calle-bravo-murillo-vallehermoso-chamberi-madrid-madrid-RP1812023119620,redpiso
8017,https://www.redpiso.es/inmueble/en-venta-en-calle-la-alegria-de-la-huerta-los-angeles-villaverde-madrid-madrid-RP332024131222,redpiso
9205,https://www.redpiso.es/inmueble/en-venta-en-plaza-pena-horcajo-penagrande-fuencarral-el-pardo-madrid-madrid-RP722023118896,redpiso


In [None]:
df_final.query("cod_barrio.isnull()")[["url","distrito","cod_distrito","barrio","cod_barrio","descripcion_extendida"]]

In [4]:

df_final = pd.read_csv("pisoscompletofinal.csv", index_col=False)

  df_final = pd.read_csv("pisoscompletofinal.csv", index_col=False)


# creacion dataframe EDA

In [7]:
df_final.columns

Index(['Unnamed: 0.4', 'Unnamed: 0.3', 'Unnamed: 0.2', 'Unnamed: 0.1',
       'Unnamed: 0', 'title', 'url', 'precio', 'precio_anterior', 'descuento',
       ...
       'hog_con_6', 'hog_con_7', 'hog_con_8', 'hog_con_9', 'hog_con_10',
       'hog_con_11', 'hog_con_12', 'hog_con_13', 'hog_con_14',
       'hog_con_15 y más'],
      dtype='object', length=145)

In [14]:
columnas_eliminar=["Unnamed: 0.4","Unnamed: 0.3", "Unnamed: 0.2","Unnamed: 0.1","Unnamed: 0",'title','precio_anterior','EUR/m2','zona','calle','detalle','emisiones_co2','propiedad_completa','habitaciones','balcon',"plantas_edificio",
"inmueble_ingresos","alquiler_opcion_a_compra","disponibilidad","nuda_propiedad",
'sup_comercial',"tipo_inmueble",'fibra_optica','instalacion_tv_centralizada',
'instalacion_tv_individual',"lujosa",'descripcion_extendida',"web","fecha_descarga","piscina",
'referencia',"fecha_publicacion","titular_anuncio","num_plantas","num_pisos","reservado",
"nombre_oficina","cod_barrio_2","aire_acondicionado","calefaccion",'campo12','sistema_alarma','puerta_blindada','descuento','consumoce_ano','cantidad_armarios',"cocina"]



dfEDA = df_final.drop(columns=columnas_eliminar)

# Ruta relativa del archivo
ruta_guardado_relativa = '../../02-EDA-y-feature-engineering/data/pisosEDA.csv'

# Crear el directorio de destino si no existe
directorio_destino = os.path.dirname(ruta_guardado_relativa)
os.makedirs(directorio_destino, exist_ok=True)

# Guardar el DataFrame dfEDA en la ruta relativa especificada
dfEDA.to_csv(ruta_guardado_relativa, index=False)

In [79]:
dfEDA.shape

(10421, 102)

In [47]:
dfEDA.columns.tolist()

['url',
 'precio',
 'descuento',
 'm2_constr',
 'cod_distrito',
 'cod_barrio',
 'consumoce_ano',
 'letrace',
 'tipologia',
 'estado',
 'amueblado',
 'planta',
 'dormitorios',
 'banos',
 'garaje',
 'trastero',
 'ascensor',
 'porteria',
 'ano_construccion',
 'jardin',
 'cancha_tenis',
 'carpinteria_exterior_doble_vidrio/pvc',
 'carpinteria_exterior_doble_vidrio/madera',
 'carpinteria_exterior_doble_vidrio/metal',
 'carpinteria_exterior_triple_vidrio/madera',
 'carpinteria_exterior_triple_vidrio/metal',
 'carpinteria_exterior_vidrio/pvc',
 'carpinteria_exterior_vidrio/madera',
 'carpinteria_exterior_vidrio/metal',
 'chimenea',
 'cocina',
 'exterior',
 'interior',
 'interior_y_exterior',
 'tiene_piscina',
 'porton_electrico',
 'puerta_blindada',
 'alarma',
 'videoportero',
 'acceso_discapacidad',
 'certificado_energetico',
 'tiene_jardin',
 'cantidad_visitas',
 'campo12',
 'cantidad_armarios',
 'agua_caliente',
 'tipo_suelo',
 'm2_utiles',
 'gastos_comunidad',
 'zonas_verdes',
 'puerta_seg

In [32]:
dfEDA.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10427 entries, 0 to 10426
Columns: 102 entries, url to hog_con_15 y más
dtypes: float64(72), object(30)
memory usage: 8.1+ MB
