In [1]:
import pandas as pd
import numpy as np
import re
import unicodedata

In [2]:
data = pd.read_csv('Datos Madrid/Datos Madrid.csv')

### Eliminación de registros sin información

En caso de presentar valores desconocidos en los campos Comentario, Mas detalles e Info. Será imposible
trabajar con esos registros, ya que no hay forma de obtener información de ellos.
Estos registros suelen corresponder a anuncios retirados que ya no disponían de información
a la hora de relaizar el raspado.

In [3]:
# Comprobamos los datos que cumplen esta condición

columns_to_study = ['Comentario', 'Mas detalles', 'Info']

incomplete_condition = (data[columns_to_study] == 'Desconocido').all(axis = 1)
data_incomplete = data[incomplete_condition]

In [4]:
print(data_incomplete.sample(8),'\n\n') # Comprobamos que están incompletos los campos

print('Cantidad de datos inservibles: ',len(data_incomplete)) # Visualizamos el total de datos incompletos

             ID       Precio Planta o Tipo N Habitaciones           m2  \
837    97326228  Desconocido   Desconocido    Desconocido  Desconocido   
10679  97372963  Desconocido   Desconocido    Desconocido  Desconocido   
9642   96163209  Desconocido   Desconocido    Desconocido  Desconocido   
1966   97362051  Desconocido   Desconocido    Desconocido  Desconocido   
18027  97329818  Desconocido   Desconocido    Desconocido  Desconocido   
14490  96844586  Desconocido   Desconocido    Desconocido  Desconocido   
17390  97377107  Desconocido   Desconocido    Desconocido  Desconocido   
14624  96800769  Desconocido   Desconocido    Desconocido  Desconocido   

        Comentario                 Zona               Subzona         Info  \
837    Desconocido               Centro  Lavapiés-Embajadores  Desconocido   
10679  Desconocido             Chamberi             Trafalgar  Desconocido   
9642   Desconocido  Barrio de Salamanca                 Lista  Desconocido   
1966   Desconocido   

In [5]:
# Guardamos los valores completos en data2

data = data[~(incomplete_condition)]

In [6]:
len(data)

19351

In [7]:
data = data.reset_index(drop=True)

### Tratamiento de campo Planta o Tipo

In [8]:
# Comprobamos cuántos valores desconocidos hay en esta columna

sum(data['Planta o Tipo'] == 'Desconocido')

2555

In [9]:
def standard_words(sentence):
    return str(unicodedata.normalize('NFKD', sentence.lower()).encode('ASCII', 'ignore'))

def search_words(sentence, words_searched : list):
    return any([word in sentence for word in words_searched])

def search_words_in_df(df : pd.DataFrame, columns_to_study : list, words_searched : list):
    return df[columns_to_study].applymap(lambda x: search_words(x,words_searched)).any(axis = 1)

def is_any_value_filled(df : pd.DataFrame, list_filled : list, column_compare, value_null):
    return sum(list_filled & (df[column_compare] == value_null))

In [10]:
def apply_conditions(data, condition_list, name_fill, column_compare = 'Planta o Tipo', value_null = 'Desconocido'):
    condition_under = np.array(condition_list).reshape((len(condition_list),-1)).any(axis=0)
    values_filled = is_any_value_filled(data, condition_under, column_compare, value_null)
    print(f'Cantidad de valores rellenados con valor {name_fill}: {values_filled}')
    data.loc[condition_under, column_compare] = name_fill
    return data

In [11]:
data[['Comentario_lower', 'Mas detalles_lower', 'Info_lower']] = data[['Comentario', 'Mas detalles', 'Info']].applymap(lambda x: standard_words(x))

In [12]:
condition_list = []
words_searched = ['chalet', 'finca', 'casa rural']

condition_list.append(search_words_in_df(data, ['Comentario_lower', 'Mas detalles_lower', 'Info_lower'], words_searched))

data = apply_conditions(data, condition_list, 'Chalet')

Cantidad de valores rellenados con valor Chalet: 1415


In [13]:
# Comprobamos cuántos valores desconocidos nos quedan ahora

sum(data['Planta o Tipo'] == 'Desconocido')

1140

In [14]:
np.unique(data['Planta o Tipo'], return_counts=True)

# Vemos que hay valores con -, quiere decir que no cargó el valor numérico de Info al presentar un guión de por medio

(array(['-', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'Bajo', 'Chalet',
        'Desconocido'], dtype=object),
 array([  15, 2883, 2252, 1744, 1387,  721,  448,  240,  151,   78, 1965,
        6327, 1140], dtype=int64))

In [15]:
# Corregimos -
data.loc[data['Planta o Tipo'] == '-', 'Planta o Tipo'] = data[data['Planta o Tipo'] == '-']['Info_lower'].apply(lambda x: re.search('planta -(\d)', x)[1])
np.unique(data['Planta o Tipo'], return_counts=True)

(array(['1', '2', '3', '4', '5', '6', '7', '8', '9', 'Bajo', 'Chalet',
        'Desconocido'], dtype=object),
 array([2898, 2252, 1744, 1387,  721,  448,  240,  151,   78, 1965, 6327,
        1140], dtype=int64))

In [16]:
# Otro tipo de inmueble habitual y característico serían las entreplantas, observando  el campo Info
# y Mas detalles, se aprecia que, para este tipo de propiedades, se suele detallar en estos campos
# Siguiendo un proceso similar a los anteriores:
condition_list = []
words_searched = ['este local comercial', 'de uso comercial', 'es local comercial', 'no acondicionado', 
                  'para acondicionar', 'a acondicionar', 'de oficinas', 'uso industrial', 'local industrial']

condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))


words_searched = ['Local comercial']
condition_list.append(search_words_in_df(data, ['Comentario'], words_searched))

data = apply_conditions(data, condition_list, 'Uso comercial')

Cantidad de valores rellenados con valor Uso comercial: 10


In [17]:
condition_list = []
words_searched = ['luminosa buhardilla', 'preciosa buhardilla', 'bonita buhardilla', 'luminoso atico', 
                  'bonito atico', 'precioso atico', 'luminosa azotea', 'preciosa azotea', 'excepcional atico', 
                  'excepcional atico', 'bonita azotea', 'azotea en venta', 'azotea a la venta', 'se vende azotea', 
                  'atico en venta', 'atico a la venta', 'se vende atico', 'buhardilla en venta', 'buhardilla a la venta', 
                  'se vende buhardilla', 'venta de atico', 'venta de azotea', 'piso azotea', 'piso atico', 
                  'venta de buhardilla']

condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))

words_searched = ['Atico', 'Azotea', 'Buhardilla', 'Ultima planta']
condition_list.append(search_words_in_df(data, ['Comentario'], words_searched))

words_searched = ['azotea', 'atico']
condition_list.append(search_words_in_df(data, ['Info_lower'], words_searched))

data = apply_conditions(data, condition_list, 'Atico')

Cantidad de valores rellenados con valor Atico: 7


In [18]:
# Otro tipo de inmueble habitual y característico serían las entreplantas, observando  el campo Info
# y Mas detalles, se aprecia que, para este tipo de propiedades, se suele detallar en estos campos
# Siguiendo un proceso similar a los anteriores:
condition_list = []
words_searched = ['en entreplanta', 'en la entreplanta', 'esta entreplanta', 'piso en entreplanta', 'inmueble en entreplanta',
                 'se trata de una entreplanta', 'en una entreplanta']

condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))


words_searched = ['entreplanta']
condition_list.append(search_words_in_df(data, ['Info_lower', 'Mas detalles_lower'], words_searched))

data = apply_conditions(data, condition_list, 'Entreplanta')

Cantidad de valores rellenados con valor Entreplanta: 204


In [19]:
condition_list = []
words_searched = ['vende sotano', 'vende semisotano', 'es un sotano', 'es un bajo', 'es el bajo', 'se trata de un bajo', 
                'es un semisotano', 'vende un semisotano', 'vende un sotano', 'es una planta baja', 'es la planta baja', 
                'es planta baja', 'en planta baja', 'es sotano', 'es semisotano', 'es el sotano', 'es el semisotano',
                'en el sotano', 'en el semisotano', 'en la planta baja', 'semisotano a la venta', 'semisotano en venta', 
                 'sotano a la venta', 'sotano en venta', 'semisotano exterior', 'sotano exterior', 'planta baja exterior', 
                'bonito sotano', 'estupendo sotano', 'precioso sotano', 'magnifico sotano', 'en un semisotano', 
                'en planta sotano', 'semi sotano', 'en un sotano', 'en una planta baja', 'en planta semisotano', 
                'en la planta sotano', 'en la planta semisotano', 'piso en planta baja', 'vivienda en planta baja', 
                'inmueble en sotano', 'piso en sotano', 'vivenda en sotano', 'inmueble en semisotano', 'piso en semisotano', 
                'vivenda en semisotano', 'inmueble en semi sotano', 'piso en semi sotano', 'vivenda en semi sotano', 
                'inmueble en semi-sotano', 'piso en semi-sotano', 'vivenda en semi-sotano']

condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))


words_searched = ['Bajo', 'Planta baja', 'Sotano', 'Semisotano', 'Semi-sotano', 'esta en la planta baja', 
                  'Ubicada en la planta baja']
condition_list.append(search_words_in_df(data, ['Comentario'], words_searched))

words_searched = ['semisotano', 'semi sotano', 'semi-sotano']
condition_list.append(search_words_in_df(data, ['Info_lower', 'Mas detalles_lower'], words_searched))

data = apply_conditions(data, condition_list, 'Bajo') 

Cantidad de valores rellenados con valor Bajo: 213


In [20]:
condition_list = []
words_searched = ['apartamento', 'estudio', 'piso en venta', 'piso a la venta', 'vende piso', 
                'estupendo piso', 'precioso piso', 'espacioso piso', 'esplendido piso', 'luminoso piso', 
                'fantastico piso', 'excelente piso', 'magnifico piso', 'fabuloso piso', 'comodo piso', 
                'amplio piso', 'piso estupendo', 'piso precioso', 'piso espacioso', 'piso esplendido', 
                'piso luminoso ', 'piso fantastico ', 'piso perfecto ', 'piso excelente', 'piso magnifico', 
                'fabuloso piso', 'piso comodo', 'piso amplio', 'piso maravilloso ', 'piso exterior', 'piso interior', 
                'piso reformado', 'piso con reforma', 'piso a reformar', 'loft', 'duplex', 'triplex', 'piso de', 
                'piso ubicado', 'piso situado', 'lujoso piso', 'piso totalmente', 'piso en ', 'piso piloto', 'piso muy', 
                'piso con', 'piso situado', 'piso reformado', 'piso sin reformar', 'piso a reformar', 'piso para reformar', 
                'piso a falta de reformar', 'piso bastante']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))

data = apply_conditions(data, condition_list, 'Piso') 


Cantidad de valores rellenados con valor Piso: 505


In [21]:
condition_list = []
words_searched = ['viviendas', 'complejo residencial', 'inmuebles', 'pisos', 'apartamentos']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))

words_searched = ['estudio']
condition_list.append(search_words_in_df(data, ['Info_lower', 'Mas detalles_lower'], words_searched))
data = apply_conditions(data, condition_list, 'Residencial') 

Cantidad de valores rellenados con valor Residencial: 86


In [22]:
condition_list = []
words_searched = ['primera planta', 'segunda planta', 'tercera planta', 'cuarta planta', 
                 'quinta planta', 'sexta planta', 'septima planta', 'octava planta', 
                 'novena planta', 'decima planta', 'planta primera', 'planta segunda', 
                 'planta tercera', 'planta cuarta', 'planta quinta', 'planta sexta', 
                 'planta septima', 'planta octava', 'primer piso', 'segundo piso', 'tercer piso', 
                 'cuarto piso', 'quinto piso', 'sexto piso', 'septimo piso', 'octavo piso', 
                 'noveno piso', 'decimo piso', 'con ascensor', 'de ascensor']

condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))

words_searched = ['ascensor']

condition_list.append(search_words_in_df(data, ['Mas detalles_lower'], words_searched))

data = apply_conditions(data, condition_list, 'Piso') 

Cantidad de valores rellenados con valor Piso: 107


In [23]:
# Comprobamos que ya no quedan valores desconocidos

data[data['Planta o Tipo'] == 'Desconocido']

Unnamed: 0,ID,Precio,Planta o Tipo,N Habitaciones,m2,Comentario,Zona,Subzona,Info,Mas detalles,Comentario_lower,Mas detalles_lower,Info_lower
3303,94618811,885.300,Desconocido,4,204,"[Vivienda ubicada en Mirasierra, zona exclusiv...",Fuencarral,Mirasierra,Obra nueva 204 m² 4 hab.,"[204 m² construidos, 159 m² útiles, 4 habitaci...","b'[vivienda ubicada en mirasierra, zona exclus...","b'[204 m2 construidos, 159 m2 utiles, 4 habita...",b' obra nueva 204 m2 4 hab. '
3334,97267269,1.790.000,Desconocido,6,690,[Vivienda unifamiliar aislada. El inmueble se ...,Fuencarral,Mirasierra,690 m² 6 hab.,"[690 m² construidos, 546 m² útiles, 6 habitaci...",b'[vivienda unifamiliar aislada. el inmueble s...,"b'[690 m2 construidos, 546 m2 utiles, 6 habita...",b' 690 m2 6 hab. '
9763,91232758,278.000,Desconocido,3,89,"[Vivienda de 88,77 metros cuadrados, ubicada e...",Barrio de Salamanca,Guindalera,89 m² 3 hab.,"[89 m² construidos, 78 m² útiles, 3 habitacion...","b'[vivienda de 88,77 metros cuadrados, ubicada...","b'[89 m2 construidos, 78 m2 utiles, 3 habitaci...",b' 89 m2 3 hab. '
12053,94964414,115.000,Desconocido,3,40,[. Oportunidad de inversión: pendiente de Pose...,Latina,Puerta del Ángel,40 m² 3 hab.,"[40 m² construidos, 36 m² útiles, 3 habitacion...",b'[. oportunidad de inversion: pendiente de po...,"b'[40 m2 construidos, 36 m2 utiles, 3 habitaci...",b' 40 m2 3 hab. '
15441,97236354,135.000,Desconocido,3,57,[Dispone de una superficie de 57 m² distribuid...,Puente de Vallecas,San Diego,57 m² 3 hab.,"[57 m² construidos, 3 habitaciones, 1 baño, Se...",b'[dispone de una superficie de 57 m2 distribu...,"b'[57 m2 construidos, 3 habitaciones, 1 bano, ...",b' 57 m2 3 hab. '
15473,96924113,154.500,Desconocido,2,72,[¿Quieres vivir en una zona consolidada con pa...,Puente de Vallecas,San Diego,72 m² 2 hab.,"[72 m² construidos, 2 habitaciones, 1 baño, Se...",b'[quieres vivir en una zona consolidada con p...,"b'[72 m2 construidos, 2 habitaciones, 1 bano, ...",b' 72 m2 2 hab. '
16353,94347647,121.000,Desconocido,2,47,[Vivienda de 2 dormitorios en edificio sin asc...,Puente de Vallecas,Portazgo,47 m² 2 hab.,"[47 m² construidos, 41 m² útiles, 2 habitacion...",b'[vivienda de 2 dormitorios en edificio sin a...,"b'[47 m2 construidos, 41 m2 utiles, 2 habitaci...",b' 47 m2 2 hab. '
17141,97306679,104.617,Desconocido,3,48,"[, Vivienda situada en edificio residencial de...",Vicalvaro,Casco Histórico de Vicálvaro,48 m² 3 hab.,"[48 m² construidos, 3 habitaciones, 1 baño, Se...","b'[, vivienda situada en edificio residencial ...","b'[48 m2 construidos, 3 habitaciones, 1 bano, ...",b' 48 m2 3 hab. '


## Tratamiento de plantas con nuevo campo piso

Creamos un nuevo campo Planta para detallar la altura de la planta del piso en oferta, dejaremos el campo Planta o Tipo como Tipo

In [24]:
# Creamos un nuevo dataset llamado df y renombramos la columna Planta o Tipo por solamente Tipo

data.rename(columns={'Planta o Tipo': 'Tipo'}, inplace=True)

In [25]:
# Creamos la nueva columna Piso con valores cero por defecto

lista_numericos = ['1','2','3','4','5','6','7','8','9']
data['Planta'] = data['Tipo'].apply(lambda x: x if x in lista_numericos else "0")
data['Tipo'] = data['Tipo'].apply(lambda x: "Piso" if x in lista_numericos else x)

In [33]:
###### INICIO PROPUESTA A MANTENER CON POSIBLES CAMBIOS

df = data.copy()

# Localizamos los valores que sean Piso en tipo

index_piso = df[df['Tipo'] == 'Piso'].index

planta = []
index = []

# Sustituimos de nuevo con el siguiente valor a Planta, lo hacemos para todos, hay valores que en el scrapeo se tomó un dígito
# (el primero) y eran 2

for i in index_piso:
        
        try:
            
            info_actual = df.loc[i,'Info'].lower()
            info_actual = unicodedata.normalize('NFKD', info_actual).encode('ASCII', 'ignore')
            
            itera = len(df.loc[i,'Info'].split())
            
            for j in range(itera):
                
                if df.loc[i,'Info'].split()[j] == 'Planta':
                    planta.append(df.iloc[i]['Info'].split()[j+1])
                    index.append(i)
                                 

        except:
            
            next

In [34]:
# Guardamos un listado con el valor numérico explusivamente

planta_def = []

for valor in planta:
    valor = valor.replace('ª','')
    valor = valor.replace('-','')
    planta_def.append(valor)
    
# Modificamos esos valores con los del piso

df2 = df.copy()

df2.loc[index, 'Planta'] = planta_def 

In [35]:
no_data_planta = df2[(df2['Planta'] == '0') & (df2['Tipo'] == 'Piso')]

In [37]:
len(no_data_planta)

##### AQUÍ SIGUE COMO ANTES 

In [38]:
condition_list = []
words_searched = ['primera planta', '1a planta', 'planta 1 ', 'piso 1 ', '1er piso', 'primer piso', 'planta primera', 
                  'piso primero', 'un primer', 'un primero', 'el primer', 'el primer', 'una primera', 'la primera', 
                  '1a', '1o', 'un primero']

condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '1', 'Planta', '0')


condition_list = []
words_searched = ['segunda planta' , '2a planta', '2o piso', 'planta 2 ', 'piso 2 ' , 'segundo piso', 'planta segunda', 'piso segundo', 'un segundo', 'el segundo', 'una segunda', 'la segunda', '2o', '2a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '2', 'Planta', '0')

condition_list = []
words_searched = ['tercera planta', '3a planta', '3o piso', 'planta 3 ', 'piso 3 ', 'tercer piso', 'planta tercera', 'piso tercero', 'un tercer', 'el tercer', 'el tercero', 'una tercera', 'la tercera', '3o', '3a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '3', 'Planta', '0')

condition_list = []
words_searched = ['cuarta planta' , '4a planta', '4o piso', 'planta 4 ', 'piso 4 ' , 'cuarto piso', 'planta cuarta', 'piso cuarto', 'un cuarto', 'el cuarto', 'una cuarta', 'la cuarta', '4o', '4a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '4', 'Planta', '0')

condition_list = []
words_searched = ['quinta planta' , '5a planta', '5o piso', 'planta 5 ', 'piso 5 ' , 'quinto piso', 'planta quinta', 'piso quinto', 'un quinto', 'el quinto', 'una quinta', 'la quinta', '5o', '5a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '5', 'Planta', '0')

condition_list = []
words_searched = ['sexta planta' , '6a planta', '6o piso' , 'sexto piso', 'planta sexta', 'piso sexto', 'un sexto', 'el sexto', 'una sexta', 'la sexta', '6o', '6a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '6', 'Planta', '0')

condition_list = []
words_searched = ['septima planta' , '7a planta', '7o piso', 'planta 7 ', 'piso 7 ', 'septimo piso', 'planta septima', 'piso septimo', 'un septimo', 'el septimo', 'una septima', 'la septima', '7o', '7a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '7', 'Planta', '0')

condition_list = []
words_searched = ['octava planta' , '8a planta', '8o piso', 'planta 8 ', 'piso 8 ' , 'octavo piso', 'planta octava', 'piso octavo', 'un octavo', 'el octavo', 'una octava', 'la octava', '8o', '8a' ]
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '8', 'Planta', '0')

condition_list = []
words_searched = ['novena planta' , '9a planta', '9o piso', 'planta 9 ', 'piso 9 ', 'noveno piso', 'planta novena', 'piso noveno', 'un noveno', 'el noveno', 'una novena', 'la novena', '9o', '9a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '9', 'Planta', '0')

condition_list = []
words_searched = ['decima planta' , '10a planta', '10 piso', 'planta 10 ', 'piso 10 ' , 'decimo piso', 'planta decima', 'piso decimo', 'un decimo', 'el decimo', 'una decima', 'la decima', '10o', '10a']
condition_list.append(search_words_in_df(data, ['Comentario_lower'], words_searched))
data = apply_conditions(data, condition_list, '10', 'Planta', '0')

Cantidad de valores rellenados con valor 1: 854
Cantidad de valores rellenados con valor 2: 234
Cantidad de valores rellenados con valor 3: 80
Cantidad de valores rellenados con valor 4: 172
Cantidad de valores rellenados con valor 5: 30
Cantidad de valores rellenados con valor 6: 6
Cantidad de valores rellenados con valor 7: 6
Cantidad de valores rellenados con valor 8: 3
Cantidad de valores rellenados con valor 9: 0
Cantidad de valores rellenados con valor 10: 3


In [39]:
val_nplanta = []

for i in range(len(data_noplanta)):
    # Convertimos todo a minúsculas
    comentario_actual = data_noplanta['Comentario'].iloc[i].lower()
    comentario_crudo = data_noplanta['Comentario'].iloc[i]
    # Ignoramos tildes, ñ y ç
    comentario_actual = unicodedata.normalize('NFKD', comentario_actual).encode('ASCII', 'ignore')
    
    # Frases habituales de venta de este tipo de vivienda
    cond_primero = ('primera planta' in str(comentario_actual) or 
                    '1a planta' in str(comentario_actual) or
                    'planta 1 ' in str(comentario_actual) or
                    'piso 1 ' in str(comentario_actual) or
                    '1er piso' in str(comentario_actual) or
                    'primer piso' in str(comentario_actual) or
                    'planta primera' in str(comentario_actual) or
                    'piso primero' in str(comentario_actual) or
                    'un primer' in str(comentario_actual) or
                    'un primero' in str(comentario_actual) or
                    'el primer' in str(comentario_actual) or
                    'el primer' in str(comentario_actual) or
                    'una primera' in str(comentario_actual) or
                    'la primera' in str(comentario_actual) or
                    '1º' in str(comentario_crudo) or
                    '1ª' in str(comentario_crudo) or
                    'un primero' in str(comentario_actual))
    
    cond_segundo = ('segunda planta' in str(comentario_actual) or 
                    '2a planta' in str(comentario_actual) or
                    '2o piso' in str(comentario_actual) or
                    'planta 2 ' in str(comentario_actual) or
                    'piso 2 ' in str(comentario_actual) or 
                    'segundo piso' in str(comentario_actual) or
                    'planta segunda' in str(comentario_actual) or
                    'piso segundo' in str(comentario_actual) or
                    'un segundo' in str(comentario_actual) or
                    'el segundo' in str(comentario_actual) or
                    'una segunda' in str(comentario_actual) or
                    'la segunda' in str(comentario_actual) or
                    '2º' in str(comentario_crudo) or
                    '2ª' in str(comentario_crudo))
    
    cond_tercero = ('tercera planta' in str(comentario_actual) or
                    '3a planta' in str(comentario_actual) or
                    '3o piso' in str(comentario_actual) or
                    'planta 3 ' in str(comentario_actual) or
                    'piso 3 ' in str(comentario_actual) or
                    'tercer piso' in str(comentario_actual) or
                    'planta tercera' in str(comentario_actual) or
                    'piso tercero' in str(comentario_actual) or
                    'un tercer' in str(comentario_actual) or
                    'el tercer' in str(comentario_actual) or
                    'el tercero' in str(comentario_actual) or
                    'una tercera' in str(comentario_actual) or
                    'la tercera' in str(comentario_actual) or
                    '3º' in str(comentario_crudo) or
                    '3ª' in str(comentario_crudo))
    
    cond_cuarto = ('cuarta planta' in str(comentario_actual) or 
                    '4a planta' in str(comentario_actual) or
                    '4o piso' in str(comentario_actual) or
                    'planta 4 ' in str(comentario_actual) or
                    'piso 4 ' in str(comentario_actual) or 
                    'cuarto piso' in str(comentario_actual) or
                    'planta cuarta' in str(comentario_actual) or
                    'piso cuarto' in str(comentario_actual) or
                    'un cuarto' in str(comentario_actual) or
                    'el cuarto' in str(comentario_actual) or
                    'una cuarta' in str(comentario_actual) or
                    'la cuarta' in str(comentario_actual) or
                    '4º' in str(comentario_crudo) or
                    '4ª' in str(comentario_crudo))
    
    cond_quinto = ('quinta planta' in str(comentario_actual) or 
                    '5a planta' in str(comentario_actual) or
                    '5o piso' in str(comentario_actual) or
                    'planta 5 ' in str(comentario_actual) or
                    'piso 5 ' in str(comentario_actual) or 
                    'quinto piso' in str(comentario_actual) or
                    'planta quinta' in str(comentario_actual) or
                    'piso quinto' in str(comentario_actual) or
                    'un quinto' in str(comentario_actual) or
                    'el quinto' in str(comentario_actual) or
                    'una quinta' in str(comentario_actual) or
                    'la quinta' in str(comentario_actual) or
                    '5º' in str(comentario_crudo) or
                    '5ª' in str(comentario_crudo))
    
    cond_sexto = ('sexta planta' in str(comentario_actual) or 
                    '6a planta' in str(comentario_actual) or
                    '6o piso' in str(comentario_actual) or 
                    'sexto piso' in str(comentario_actual) or
                    'planta sexta' in str(comentario_actual) or
                    'piso sexto' in str(comentario_actual) or
                    'un sexto' in str(comentario_actual) or
                    'el sexto' in str(comentario_actual) or
                    'una sexta' in str(comentario_actual) or
                    'la sexta' in str(comentario_actual) or
                    '6º' in str(comentario_crudo) or
                    '6ª' in str(comentario_crudo))
    
    cond_septimo = ('septima planta' in str(comentario_actual) or 
                    '7a planta' in str(comentario_actual) or
                    '7o piso' in str(comentario_actual) or
                    'planta 7 ' in str(comentario_actual) or
                    'piso 7 ' in str(comentario_actual) or
                    'septimo piso' in str(comentario_actual) or
                    'planta septima' in str(comentario_actual) or
                    'piso septimo' in str(comentario_actual) or
                    'un septimo' in str(comentario_actual) or
                    'el septimo' in str(comentario_actual) or
                    'una septima' in str(comentario_actual) or
                    'la septima' in str(comentario_actual) or
                    '7º' in str(comentario_crudo) or
                    '7ª' in str(comentario_crudo))
    
    cond_octavo = ('octava planta' in str(comentario_actual) or 
                    '8a planta' in str(comentario_actual) or
                    '8o piso' in str(comentario_actual) or
                    'planta 8 ' in str(comentario_actual) or
                    'piso 8 ' in str(comentario_actual) or 
                    'octavo piso' in str(comentario_actual) or
                    'planta octava' in str(comentario_actual) or
                    'piso octavo' in str(comentario_actual) or
                    'un octavo' in str(comentario_actual) or
                    'el octavo' in str(comentario_actual) or
                    'una octava' in str(comentario_actual) or
                    'la octava' in str(comentario_actual) or
                    '8º' in str(comentario_crudo) or
                    '8ª' in str(comentario_crudo)) 
    
    cond_noveno = ('novena planta' in str(comentario_actual) or 
                    '9a planta' in str(comentario_actual) or
                    '9o piso' in str(comentario_actual) or
                    'planta 9 ' in str(comentario_actual) or
                    'piso 9 ' in str(comentario_actual) or
                    'noveno piso' in str(comentario_actual) or
                    'planta novena' in str(comentario_actual) or
                    'piso noveno' in str(comentario_actual) or
                    'un noveno' in str(comentario_actual) or
                    'el noveno' in str(comentario_actual) or
                    'una novena' in str(comentario_actual) or
                    'la novena' in str(comentario_actual) or
                    '9º' in str(comentario_crudo) or
                    '9ª' in str(comentario_crudo))
    
    cond_decimo = ('decima planta' in str(comentario_actual) or 
                    '10a planta' in str(comentario_actual) or
                    '10 piso' in str(comentario_actual) or
                    'planta 10 ' in str(comentario_actual) or
                    'piso 10 ' in str(comentario_actual) or 
                    'decimo piso' in str(comentario_actual) or
                    'planta decima' in str(comentario_actual) or
                    'piso decimo' in str(comentario_actual) or
                    'un decimo' in str(comentario_actual) or
                    'el decimo' in str(comentario_actual) or
                    'una decima' in str(comentario_actual) or
                    'la decima' in str(comentario_actual) or
                    '10º' in str(comentario_crudo) or
                    '10ª' in str(comentario_crudo))

    if cond_primero == True:
        val_nplanta.append(1)
        cond_primero = False
        
    elif cond_segundo == True:
        val_nplanta.append(2)
        cond_primero = False
        
    elif cond_tercero == True:
        val_nplanta.append(3) 
        cond_primero = False
        
    elif cond_cuarto == True:
        val_nplanta.append(4)
        cond_cuarto = False
        
    elif cond_quinto == True:
        val_nplanta.append(5)
        cond_quinto = False
        
    elif cond_sexto == True:
        val_nplanta.append(6)
        cond_sexto = False
    
    elif cond_septimo == True:
        val_nplanta.append(7) 
        cond_septimo = False
        
    elif cond_octavo == True:
        val_nplanta.append(8)
        cond_cuarto = False
        
    elif cond_noveno == True:
        val_nplanta.append(9)
        cond_noveno = False
        
    elif cond_decimo == True:
        val_nplanta.append(10)
        cond_decimo = False  
    else:
        val_nplanta.append(0)

NameError: name 'data_noplanta' is not defined

In [None]:
val_resto = [] # Valores que no se podrían rellenar todavía dentro de los vistos antes que llevan planta
val_bien = [] # Valores que habría que rellenar todavía dentro de los vistos antes que llevan planta

for i in val_nplanta:
    if i!=0:
        val_resto.append(False)
        val_bien.append(True)
    else:
        val_resto.append(True)
        val_bien.append(False)
        
# Total para rellenar de los que quedan        
print('Valores que se pueden cubrir: ',sum(val_bien),'\nValores que no se pueden cubrir: ',sum(val_resto))  

Valores que se pueden cubrir:  232 
Valores que no se pueden cubrir:  46


In [None]:
# Los valores de este resto no parecen presentar datos del número de la planta en que se encuentran, por lo que podremos
# cubrir los faltantes con el resto:

df3 = df2.copy()

for i,index in enumerate(data_noplanta.index):
    df3.loc[index, 'Planta'] = val_nplanta[i]

In [None]:
# Quedarían 494 valores sin indicar planta y 14651 con ella
df3[(df3['Planta'] == '0') & (df3['Tipo'] == 'Piso')] 

Unnamed: 0,ID,Precio,Tipo,N Habitaciones,m2,Comentario,Zona,Subzona,Info,Mas detalles,Planta
50,89993638,203.000,Piso,1,34,[Bonito apartamento reformado en Malasaña Enge...,Centro,Malasaña-Universidad,34 m² 1 hab. exterior sin ascensor,"[34 m² construidos, 1 habitación, 1 baño, Segu...",0
84,85449897,579.000,Piso,5,131,[Vivienda2 os brinda la oportunidad de inverti...,Centro,Malasaña-Universidad,131 m² 5 hab. exterior con ascensor,"[131 m² construidos, 117 m² útiles, 5 habitaci...",0
111,97322351,109.900,Piso,Desconocido,27,[Redpiso pone a la venta Estudio ACONDICIONADO...,Centro,Malasaña-Universidad,27 m² exterior sin ascensor,"[27 m² construidos, Sin habitación, 1 baño, Se...",0
153,97286762,156.000,Piso,1,29,"[Redpiso San Bernardo, vende acogedor apartame...",Centro,Malasaña-Universidad,29 m² 1 hab. sin ascensor,"[29 m² construidos, 1 habitación, 1 baño, Segu...",0
245,95895760,685.000,Piso,3,103,[Piso reformado a estrenar Engel&amp;Voelkers ...,Centro,Malasaña-Universidad,103 m² 3 hab. exterior sin ascensor,"[103 m² construidos, 93 m² útiles, 3 habitacio...",0
...,...,...,...,...,...,...,...,...,...,...,...
19286,94211075,497.000,Piso,2,100,"[Fabuloso piso de obra nueva en Madrid, perfec...",Hortaleza,Virgen del Cortijo - Manoteras,Obra nueva 100 m² 2 hab.,"[100 m² construidos, 85 m² útiles, 2 habitacio...",0
19295,95613429,450.000,Piso,2,180,[Colibree presenta asombroso loft reformado in...,Hortaleza,Virgen del Cortijo - Manoteras,180 m² 2 hab. exterior sin ascensor G...,"[180 m² construidos, 2 habitaciones, 2 baños, ...",0
19297,96590527,504.000,Piso,2,88,"[Maravilloso piso de obra nueva en Madrid, per...",Hortaleza,Virgen del Cortijo - Manoteras,Obra nueva 88 m² 2 hab.,"[88 m² construidos, 78 m² útiles, 2 habitacion...",0
19298,94480921,410.000,Piso,2,87,"[Estupendo piso de obra nueva en Madrid, idóne...",Hortaleza,Virgen del Cortijo - Manoteras,Obra nueva 87 m² 2 hab.,"[87 m² construidos, 76 m² útiles, 2 habitacion...",0


## Creación de campo número de plantas

Alguno de los pisos que se ofertan poseen en el campo Comentario indicaciones de que se trata de un duplex o triplex en algún caso, guardaremos este dato y lo añadiremos en un campo Cantidad de plantas. Este campo será 1 para todos los pisos excepto aquellos que posean más.

In [None]:
data_piso = df3[(df3['Tipo'] == 'Piso') & ]

In [None]:
# Buscamos pisos de nuevo, la mayoría de restantes serán de este tipo
# si incluyen el número de planta en el comentario, debería de tratarse de un piso

val_mas_plantas = []

for i in range(len(df3)):
    # Convertimos todo a minúsculas
    comentario_actual = df3['Comentario'].iloc[i].lower()
    mas_detalles_actual = df3['Mas detalles'].iloc[i].lower()
    # Ignoramos tildes, ñ y ç
    comentario_actual = unicodedata.normalize('NFKD', comentario_actual).encode('ASCII', 'ignore')
    mas_detalles_actual = unicodedata.normalize('NFKD', mas_detalles_actual).encode('ASCII', 'ignore')
    
    # Frases habituales de venta de este tipo de viviendas
    cond_duplex = ('duplex' in str(comentario_actual) or
                      'vivienda de dos plantas' in str(comentario_actual) or
                      'se compone de dos plantas' in str(comentario_actual) or
                      'vivienda de dos pisos' in str(comentario_actual) or
                      'se compone de dos pisos' in str(comentario_actual) or
                      'chalé de dos pisos' in str(comentario_actual) or
                      'finca de dos pisos' in str(comentario_actual) or
                      'chalé de dos plantas' in str(comentario_actual) or
                      'finca de dos plantas' in str(comentario_actual))
    
    cond_triplex = ('triplex' in str(comentario_actual) or
                      'vivienda de tres plantas' in str(comentario_actual) or
                      'se compone de tres plantas' in str(comentario_actual) or
                      'vivienda de tres pisos' in str(comentario_actual) or
                      'se compone de tres pisos' in str(comentario_actual) or
                      'chalé de tres pisos' in str(comentario_actual) or
                      'finca de tres pisos' in str(comentario_actual) or
                      'chalé de tres plantas' in str(comentario_actual) or
                      'finca de tres plantas' in str(comentario_actual))
    
    
    
    if cond_duplex == True:
        val_mas_plantas.append(2)
        cond_duplex = False
        
    elif cond_triplex == True:
        val_mas_plantas.append(3)
        cond_triplex = False
        
    else:
        val_mas_plantas.append(1)    
   

In [None]:
# Los valores de este resto no parecen presentar datos del número de la planta en que se encuentran, por lo que podremos
# cubrir los faltantes con el resto:

df4 = df3.copy()

df4['Cantidad de plantas'] = val_mas_plantas

In [None]:
df4[df4['Cantidad de plantas']!=1]

Unnamed: 0,ID,Precio,Tipo,N Habitaciones,m2,Comentario,Zona,Subzona,Info,Mas detalles,Planta,Cantidad de plantas
52,92409370,968.198,Piso,2,125,[Piso de dos dormitorios exterior en edificio ...,Centro,Malasaña-Universidad,125 m² 2 hab. Planta 3ª exterior con asc...,"[125 m² construidos, 2 habitaciones, 2 baños, ...",3,2
129,1850833,315.000,Piso,2,52,[Se vende piso dúplex abuhardillado en una de ...,Centro,Malasaña-Universidad,52 m² 2 hab. Planta 5ª interior con asce...,"[52 m² construidos, 46 m² útiles, 2 habitacion...",5,2
133,96335949,2.990.000,Piso,3,383,"[GLOBAL REAL ESTATE, le ofrece en zona centro ...",Centro,Malasaña-Universidad,383 m² 3 hab. Planta 10ª exterior con as...,"[383 m² construidos, 3 habitaciones, 4 baños, ...",10,2
175,96385204,168.000,Piso,1,30,[Ático Duplex. Muy luminoso. Ubicado en el cen...,Centro,Malasaña-Universidad,30 m² 1 hab. Planta 4ª interior sin asce...,"[30 m² construidos, 28 m² útiles, 1 habitación...",4,2
249,97053425,315.000,Piso,2,52,[Fantástico dúplex abuhardillado de 2 habitaci...,Centro,Malasaña-Universidad,52 m² 2 hab. Planta 5ª interior con asce...,"[52 m² construidos, 46 m² útiles, 2 habitacion...",5,2
...,...,...,...,...,...,...,...,...,...,...,...,...
19314,95869877,599.000,Piso,4,172,"[Pinar de Chamartín, piso dúplex, 4 dormitorio...",Hortaleza,Apóstol Santiago,172 m² 4 hab. Planta 2ª exterior con asc...,"[172 m² construidos, 127 m² útiles, 4 habitaci...",2,2
19322,96862805,350.000,Bajo,1,93,[Exclusivo duplex en urbanización privada junt...,Hortaleza,Apóstol Santiago,93 m² 1 hab. Bajo exterior con ascensor,"[93 m² construidos, 75 m² útiles, 1 habitación...",0,2
19324,93551334,350.000,Bajo,1,93,[Exclusivo duplex en urbanización privada junt...,Hortaleza,Apóstol Santiago,93 m² 1 hab. Bajo exterior con ascensor,"[93 m² construidos, 1 habitación, 2 baños, Seg...",0,2
19328,96519541,199.000,Piso,2,73,[DUPLEX 2 DORMITORIOS. Vivienda de 2 dormitori...,Hortaleza,Apóstol Santiago,73 m² 2 hab. Planta 1ª exterior sin asce...,"[73 m² construidos, 64 m² útiles, 2 habitacion...",1,2
