In [None]:
import pandas as pd
import numpy as np

In [None]:
data = pd.read_csv('Datos Madrid/Datos Madrid.csv')

### Eliminación de registros sin información

En caso de presentar valores desconocidos en los campos Comentario, Mas detalles e Info. Será imposible
trabajar con esos registros, ya que no hay forma de obtener información de ellos.
Estos registros suelen corresponder a anuncios retirados que ya no disponían de información
a la hora de relaizar el raspado.

In [None]:
# Comprobamos los datos que cumplen esta condición

condición_incompleto = ((data['Comentario'] == 'Desconocido') & (data['Mas detalles'] == 'Desconocido') 
& (data['Info'] == 'Desconocido'))

data_incompleto = data[condición_incompleto]

In [None]:
print(data_incompleto.sample(8),'\n\n') # Comprobamos que están incompletos los campos

print('Cantidad de datos inservibles: ',len(data_incompleto)) # Visualizamos el total de datos incompletos

             ID       Precio Planta o Tipo N Habitaciones           m2  \
3757   89236127  Desconocido   Desconocido    Desconocido  Desconocido   
18911  97228076  Desconocido   Desconocido    Desconocido  Desconocido   
17419  96839304  Desconocido   Desconocido    Desconocido  Desconocido   
18     96573519  Desconocido   Desconocido    Desconocido  Desconocido   
12549  97093088  Desconocido   Desconocido    Desconocido  Desconocido   
19645  97047614  Desconocido   Desconocido    Desconocido  Desconocido   
9996   97245951  Desconocido   Desconocido    Desconocido  Desconocido   
17466  97191480  Desconocido   Desconocido    Desconocido  Desconocido   

        Comentario                 Zona               Subzona         Info  \
3757   Desconocido            Chamartin               El Viso  Desconocido   
18911  Desconocido           Villaverde           Los Rosales  Desconocido   
17419  Desconocido            Moratalaz             Vinateros  Desconocido   
18     Desconocido   

In [None]:
# Guardamos los valores completos en data2

data2 = data[~(condición_incompleto)]

In [None]:
len(data2)

19351

In [None]:
# Reseteamos el índice para mantener el orden lógico de los registros en el dataset creado

data2.reset_index(drop=True, inplace=True)

In [None]:
data2.sample(10)

Unnamed: 0,ID,Precio,Planta o Tipo,N Habitaciones,m2,Comentario,Zona,Subzona,Info,Mas detalles
18978,88840095,437.000,4,4,127,[La Inmobiliaria Eduardo Molet vende este magn...,Hortaleza,Pinar del Rey,127 m² 4 hab. Planta 4ª interior con asc...,"[127 m² construidos, 1 m² útiles, 4 habitacion..."
10628,96470007,308.995,Bajo,2,74,"[Extraordinaria vivienda-loft, completamente r...",Chamberi,Nuevos Ministerios-Ríos Rosas,74 m² 2 hab. Bajo exterior con ascensor,"[74 m² construidos, 2 habitaciones, 1 baño, Se..."
9071,96940891,800.000,4,2,90,"[""Pied-a-Terre pone a tu disposición un piso p...",Barrio de Salamanca,Castellana,90 m² 2 hab. Planta 4ª exterior con asce...,"[90 m² construidos, 2 habitaciones, 2 baños, B..."
328,97330427,99.500,4,Desconocido,20,[Buhardilla estudio Buhardilla estudio en el ...,Centro,Malasaña-Universidad,20 m² Planta 4ª exterior sin ascensor,"[20 m² construidos, Sin habitación, 1 baño, Se..."
9479,96602881,1.650.000,3,4,249,[Edificio representativo años 50 con buen port...,Barrio de Salamanca,Lista,249 m² 4 hab. Planta 3ª exterior con asc...,"[249 m² construidos, 4 habitaciones, 2 baños, ..."
2951,85613716,660.000,Desconocido,3,100,[Estupenda CASITA en planta baja en buenas con...,Fuencarral,Peñagrande,100 m² 3 hab.,"[ Casa o chalet independiente, 1 planta, 100 m..."
5026,90486639,425.000,1,3,88,[Gibraltar 25 es la nueva promoción de Emerige...,Ciudad Lineal,Quintana,Obra nueva 88 m² 3 hab. Planta 1ª ex...,"[88 m² construidos, 3 habitaciones, 2 baños, P..."
139,96036621,859.000,Desconocido,5,166,[Urbanissimo Real Estate vende piso con reform...,Centro,Malasaña-Universidad,166 m² 5 hab. exterior con ascensor ...,"[166 m² construidos, 129 m² útiles, 5 habitaci..."
1975,89216163,1.080.000,1,5,179,[Ana Gómez de la Serna de GV | CENTRO comercia...,Centro,Chueca-Justicia,179 m² 5 hab. Planta 1ª exterior con asc...,"[179 m² construidos, 5 habitaciones, 5 baños, ..."
10384,96656985,750.000,2,3,92,[Alko Real Estate pone en venta magnifico piso...,Chamberi,Trafalgar,92 m² 3 hab. Planta 2ª exterior con asce...,"[92 m² construidos, 89 m² útiles, 3 habitacion..."


### Tratamiento de campo Planta o Tipo

In [None]:
# Comprobamos cuántos valores desconocidos hay en esta columna

len(data2[data2['Planta o Tipo'] == 'Desconocido'])

2555

In [None]:
# Comprobamos, entre los inmuebles de tipo o planta desconocido, si en el campo de comentario 
# o en el de Mas detalles, aparece la palabra chalet

val =[]

for i in range(len(data2)):
    val.append('chalet' in data2['Comentario'].iloc[i].lower() or 
               'chalet' in data2['Mas detalles'].iloc[i].lower())

In [None]:
# Visualizamos los valores comentados antes

condicion_chalet = val & (data2['Planta o Tipo'] == 'Desconocido')

data_chalet = data2[condicion_chalet]

len(data_chalet)

1051

In [None]:
# Los inmuebles que contengan la palabra chalet en Mas detalles, serán chalets, en este campo se indican
# este tipo de características y si se cubre este campo es porque es este tipo de vivienda

val_chalet = []

for i in range(len(data_chalet)):
    val_chalet.append('chalet' in data_chalet['Mas detalles'].iloc[i].lower())

In [None]:
# Vemos que de los valores observados antes, todos ellos vienen descritos como chalet

len(val_chalet)

1051

In [None]:
# Creamos un dataset data3 que contenga los valores modificados para los chalets

data3 = data2.copy()

data3.loc[data_chalet.index, 'Planta o Tipo'] = 'Chalet'

In [None]:
#Comprobamos cuántos valores desconocidos nos quedan ahora

sum(data3['Planta o Tipo'] == 'Desconocido')

1504

In [None]:
# Visualizamos el resto de valores desconocidos para ver qué tipo de vivienda puede ser

data3[data3['Planta o Tipo'] == 'Desconocido']

Unnamed: 0,ID,Precio,Planta o Tipo,N Habitaciones,m2,Comentario,Zona,Subzona,Info,Mas detalles
18,97273705,287.000,Desconocido,1,51,[Piso en venta en finca clásica de Malasaña PI...,Centro,Malasaña-Universidad,51 m² 1 hab. interior sin ascensor,"[51 m² construidos, 1 habitación, 1 baño, Segu..."
29,96644278,459.000,Desconocido,2,52,[Piso exterior reformado y amueblado en Malasa...,Centro,Malasaña-Universidad,52 m² 2 hab. exterior sin ascensor,"[52 m² construidos, 41 m² útiles, 2 habitacion..."
50,89993638,203.000,Desconocido,1,34,[Bonito apartamento reformado en Malasaña Enge...,Centro,Malasaña-Universidad,34 m² 1 hab. exterior sin ascensor,"[34 m² construidos, 1 habitación, 1 baño, Segu..."
84,85449897,579.000,Desconocido,5,131,[Vivienda2 os brinda la oportunidad de inverti...,Centro,Malasaña-Universidad,131 m² 5 hab. exterior con ascensor,"[131 m² construidos, 117 m² útiles, 5 habitaci..."
106,96800449,150.000,Desconocido,1,25,[Luminosa buhardilla en Malasaña En pleno cora...,Centro,Malasaña-Universidad,25 m² 1 hab. exterior sin ascensor,"[25 m² construidos, 1 habitación, 1 baño, Segu..."
...,...,...,...,...,...,...,...,...,...,...
19302,95939399,407.200,Desconocido,3,108,[Piso en venta en el barrio madrileño de Virge...,Hortaleza,Virgen del Cortijo - Manoteras,108 m² 3 hab.,"[108 m² construidos, 3 habitaciones, 2 baños, ..."
19311,96383768,340.000,Desconocido,4,100,[REDPISO APÓSTOL SANTIAGO VENDE PISO CONSULTAR...,Hortaleza,Apóstol Santiago,100 m² 4 hab. exterior con ascensor G...,"[100 m² construidos, 82 m² útiles, 4 habitacio..."
19315,96734227,280.000,Desconocido,4,111,[REDPISO APÓSTOL SANTIAGO pone en venta excele...,Hortaleza,Apóstol Santiago,111 m² 4 hab. exterior con ascensor,"[111 m² construidos, 98 m² útiles, 4 habitacio..."
19339,91148458,250.000,Desconocido,Desconocido,50,[Estudio/Apartamento entreplanta completamente...,Hortaleza,Apóstol Santiago,50 m² Entreplanta exterior con ascensor,"[50 m² construidos, 45 m² útiles, Sin habitaci..."


In [None]:
# Vemos que hay muchos registros que no contienen el tipo de inmueble en el campo Mas detalles
# pero sí incluyen la palabra piso o vivienda o apartamento en su descripción. Los tomaremos como piso
# siguiendo un proceso parecido al anterior.

val_piso =[]

for i in range(len(data3)):
    val_piso.append('piso' in data3['Comentario'].iloc[i].lower() or 
               'vivienda' in data3['Comentario'].iloc[i].lower() or
              'apartamento' in data3['Comentario'].iloc[i].lower())

In [None]:
condicion_piso = val_piso & (data3['Planta o Tipo'] == 'Desconocido')

In [None]:
data3[condicion_piso]['Mas detalles'].iloc[84]

'[23 m² construidos, 21 m² útiles, 1 habitación, 1 baño, Segunda mano/buen estado, No indicado]'

In [None]:
data3[condicion_piso]

Unnamed: 0,ID,Precio,Planta o Tipo,N Habitaciones,m2,Comentario,Zona,Subzona,Info,Mas detalles
18,97273705,287.000,Desconocido,1,51,[Piso en venta en finca clásica de Malasaña PI...,Centro,Malasaña-Universidad,51 m² 1 hab. interior sin ascensor,"[51 m² construidos, 1 habitación, 1 baño, Segu..."
29,96644278,459.000,Desconocido,2,52,[Piso exterior reformado y amueblado en Malasa...,Centro,Malasaña-Universidad,52 m² 2 hab. exterior sin ascensor,"[52 m² construidos, 41 m² útiles, 2 habitacion..."
50,89993638,203.000,Desconocido,1,34,[Bonito apartamento reformado en Malasaña Enge...,Centro,Malasaña-Universidad,34 m² 1 hab. exterior sin ascensor,"[34 m² construidos, 1 habitación, 1 baño, Segu..."
84,85449897,579.000,Desconocido,5,131,[Vivienda2 os brinda la oportunidad de inverti...,Centro,Malasaña-Universidad,131 m² 5 hab. exterior con ascensor,"[131 m² construidos, 117 m² útiles, 5 habitaci..."
106,96800449,150.000,Desconocido,1,25,[Luminosa buhardilla en Malasaña En pleno cora...,Centro,Malasaña-Universidad,25 m² 1 hab. exterior sin ascensor,"[25 m² construidos, 1 habitación, 1 baño, Segu..."
...,...,...,...,...,...,...,...,...,...,...
19302,95939399,407.200,Desconocido,3,108,[Piso en venta en el barrio madrileño de Virge...,Hortaleza,Virgen del Cortijo - Manoteras,108 m² 3 hab.,"[108 m² construidos, 3 habitaciones, 2 baños, ..."
19311,96383768,340.000,Desconocido,4,100,[REDPISO APÓSTOL SANTIAGO VENDE PISO CONSULTAR...,Hortaleza,Apóstol Santiago,100 m² 4 hab. exterior con ascensor G...,"[100 m² construidos, 82 m² útiles, 4 habitacio..."
19315,96734227,280.000,Desconocido,4,111,[REDPISO APÓSTOL SANTIAGO pone en venta excele...,Hortaleza,Apóstol Santiago,111 m² 4 hab. exterior con ascensor,"[111 m² construidos, 98 m² útiles, 4 habitacio..."
19339,91148458,250.000,Desconocido,Desconocido,50,[Estudio/Apartamento entreplanta completamente...,Hortaleza,Apóstol Santiago,50 m² Entreplanta exterior con ascensor,"[50 m² construidos, 45 m² útiles, Sin habitaci..."


In [None]:
data2.iloc[2628]['Mas detalles']

'[ Chalet pareado, 4 plantas, 390 m² construidos, 363 m² útiles, 5 habitaciones, 3 baños, Parcela de 165 m², Terraza, Plaza de garaje incluida en el precio, Segunda mano/para reformar, Trastero, Orientación norte, sur, este, oeste, Construido en 1983, Calefacción individual, Aire acondicionado, Jardín, Consumo: ]'

In [None]:
# Vemos que hay muchos registros que no contienen el tipo de inmueble en el campo Mas detalles
# pero sí incluyen la palabra atico, azotea o buhardilla en su descripción. Los tomaremos como atico
# siguiendo un proceso parecido al anterior.

val_atico =[]

for i in range(len(data3)):
    val_atico.append('buhardilla' in data3['Comentario'].iloc[i].lower() or 
               'atico' in data3['Comentario'].iloc[i].lower() or
               'ático' in data3['Comentario'].iloc[i].lower() or
               'azotea' in data3['Comentario'].iloc[i].lower())

In [None]:
condicion_atico = val_atico & (data3['Planta o Tipo'] == 'Desconocido')

data3[condicion_atico]

Unnamed: 0,ID,Precio,Planta o Tipo,N Habitaciones,m2,Comentario,Zona,Subzona,Info,Mas detalles
106,96800449,150.000,Desconocido,1,25,[Luminosa buhardilla en Malasaña En pleno cora...,Centro,Malasaña-Universidad,25 m² 1 hab. exterior sin ascensor,"[25 m² construidos, 1 habitación, 1 baño, Segu..."
399,96838641,165.000,Desconocido,1,37,"[HousinGo presenta, en el barrio de Justicia, ...",Centro,Malasaña-Universidad,37 m² 1 hab. exterior sin ascensor,"[37 m² construidos, 31 m² útiles, 1 habitación..."
499,97182765,649.000,Desconocido,3,105,[Espectacular piso exterior en la preciosa y t...,Centro,Malasaña-Universidad,105 m² 3 hab. Entreplanta exterior con a...,"[105 m² construidos, 3 habitaciones, 1 baño, B..."
613,89296104,270.000,Desconocido,2,65,[&lt;div&gt;Preciosa vivienda de techos abuhar...,Centro,Malasaña-Universidad,65 m² 2 hab.,"[65 m² construidos, 2 habitaciones, 1 baño, Se..."
773,91928794,315.000,Desconocido,2,65,[Acogedor apartamento en el corazón del Rastro...,Centro,Lavapiés-Embajadores,65 m² 2 hab. exterior con ascensor,"[65 m² construidos, 2 habitaciones, 1 baño, Se..."
...,...,...,...,...,...,...,...,...,...,...
18795,92485626,1.790.000,Desconocido,5,530,"[Piso de lujo en venta en Conde Orgaz, Madrid ...",Hortaleza,Conde Orgaz-Piovera,530 m² 5 hab. exterior con ascensor G...,"[530 m² construidos, 5 habitaciones, 5 baños, ..."
18821,84443799,4.320.000,Desconocido,4,486,"[Terraza de 194,29 m2. 4 plazas de garaje in...",Hortaleza,Conde Orgaz-Piovera,Obra nueva 486 m² 4 hab. exterior c...,"[486 m² construidos, 4 habitaciones, 6 baños, ..."
19061,96416298,271.000,Desconocido,2,77,[Vivienda2 pone a la venta en exclusiva piso u...,Hortaleza,Canillas,77 m² 2 hab. exterior con ascensor Ga...,"[77 m² construidos, 2 habitaciones, 1 baño, Pl..."
19072,97225903,2.800.000,Desconocido,6,523,[En ciertas ocasiones tardo una barbaridad en ...,Hortaleza,Canillas,523 m² 6 hab. sin ascensor Garaje inc...,"[523 m² construidos, 6 habitaciones, 5 baños, ..."


In [None]:
data3.iloc[19072]['Comentario']

'[En ciertas ocasiones tardo una barbaridad en escoger cuál podría ser la portada de la vivienda en cuestion, hoy en concreto no sabía por donde empezar, he visto tantos rincones y detalles de la casa que me han llamado la atencion que no sé por cual empezar. Es una propiedad muy especial y a la vez singular que trasmite mucha frescura y amplitud, tiene un encanto cautivador, la madera, tanto por dentro como por el revestimiento que tiene por fuera genera mucha calidez. La amplitud que tiene la casa te da infinitas posibilidades. Además, también el espacio cuenta con un despacho profesional con licencia de oficina y se accede de manera independiente, ideal tanto para un proyecto personal como para alquilar a un negocio externo.  La casa tiene una superficie de 523 m2 y una parcela rectangular de 420 m2. La casa se divide en tres plantas de 159m2, 147, 80 m2 y 132,10 m2 comunicados por una amplia escalera y un semisotano de 48,80 m2. La verdad es que la vivienda lo tiene todo, el jardín

In [None]:
import spacy
nlp = spacy.load('es_core_news_md')

text = data2.iloc[2628]['Comentario']
doc = nlp(text) # Crea un objeto de spacy tipo nlp
tokens = [t.orth_ for t in doc] # Crea una lista con las palabras del texto

In [None]:
from collections import Counter

Counter(tokens).most_common()

[(',', 17),
 ('de', 15),
 ('.', 9),
 (':', 6),
 ('con', 6),
 ('en', 5),
 ('la', 3),
 ('al', 3),
 ('por', 3),
 (' ', 3),
 ('PLANTA', 3),
 ('A', 3),
 ('pareado', 2),
 ('una', 2),
 ('las', 2),
 ('zonas', 2),
 ('y', 2),
 ('que', 2),
 ('m2', 2),
 ('4', 2),
 ('salón', 2),
 ('porche', 2),
 ('zona', 2),
 ('terraza', 2),
 ('persianas', 2),
 ('motorizadas', 2),
 ('/', 2),
 ('[', 1),
 ('QUARTIERS', 1),
 ('Expertos', 1),
 ('Inmobiliarios', 1),
 ('Agents', 1),
 ('Immobiliers', 1),
 ('Français', 1),
 ('Real', 1),
 ('Estate', 1),
 ('Services', 1),
 ('  ', 1),
 ('Quartiers', 1),
 ('les', 1),
 ('presenta', 1),
 ('este', 1),
 ('fantástico', 1),
 ('chalet', 1),
 ('mejores', 1),
 ('Alameda', 1),
 ('Osuna', 1),
 ('rodeado', 1),
 ('verdes', 1),
 ('próximo', 1),
 ('Parque', 1),
 ('Juan', 1),
 ('Carlos', 1),
 ('I.', 1),
 ('Se', 1),
 ('trata', 1),
 ('vivienda', 1),
 ('amplia', 1),
 ('aunque', 1),
 ('necesita', 1),
 ('actualización', 1),
 ('dispone', 1),
 ('metros', 1),
 ('suficientes', 1),
 ('(', 1),
 ('363', 