In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import numpy as np
import pandas as pd
pd.set_option('display.float_format', '{:.2f}'.format)


# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer
from sklearn.ensemble import RandomForestRegressor

import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns',100)


In [2]:
df = pd.read_csv("../../datos/02_api_rent_limpieza_cols.csv")
df.sample()

Unnamed: 0,propertyType,status,price,size,rooms,bathrooms,floor,neighborhood,address,district,province,municipality,exterior,hasLift,hasPlan,has3DTour,has360,distance
268,flat,good,730.0,161.0,4,1,3,,Calle de la Cruz,Nuevo Aranjuez-Ciudad de las Artes,Madrid,Aranjuez,True,False,True,False,True,44159


# Gestión de Valores erróneos
Vamos a revisarlos en:
- Precio
- pricebyarea
- size
- rooms
- bathrooms


In [3]:
df["province"].unique()

array(['Toledo', 'Madrid', 'Guadalajara', 'Segovia', 'Ávila'],
      dtype=object)

### Modelo 7 Eliminar casas ajenas a "Madrid" 

In [4]:
df = df[df["province"] == "Madrid"]
df.reset_index(drop=True,inplace=True)
df.shape

(353, 18)

In [5]:
df["price"].unique()

array([750., 400., 590., 684., 600., 550., 700., 695., 650., 675., 680.,
       747., 640., 625., 720., 699., 620., 500., 595., 725., 666., 630.,
       635., 690., 730., 624., 633., 645., 735., 705., 710., 610., 580.,
       560., 740., 670., 723., 450., 660., 692., 609., 718., 694., 658.,
       728., 715., 475., 749., 667., 525., 733., 745.])

No se ven anómalos

### size

In [6]:
df["size"].nlargest(5)

18    206.00
248   180.00
195   168.00
225   161.00
191   155.00
Name: size, dtype: float64

In [7]:
df["size"].nsmallest(5)

280   20.00
137   23.00
236   23.00
27    25.00
108   25.00
Name: size, dtype: float64

No parece erróneos

### rooms

In [8]:
df["rooms"].unique()

array([1, 2, 3, 0, 4])

0 es que son estudios

### bathrooms

In [9]:
df["bathrooms"].unique()

array([1, 2, 3])

No se ven valores erróneos

# Corregir "floor"
- Vamos a pasar todo a texto para que sea una categórica

In [10]:
df["floor"].unique()

array(['3', 'bj', '2', nan, '1', '5', 'en', '4', 'st', '8', '7', '6',
       '14', 'ss'], dtype=object)

### Generamos un diccionario para aplicar los cambios

In [11]:
diccionario_pisos = {
    "1": "primero",
    "2": "segundo",
    "3": "tercero",
    "4": "cuarto",
    "5": "quinto",
    "6": "sexto",
    "7": "septimo",
    "8": "octavo",
    "14": "decimo cuarto",
    "bj": "bajo",
    "en": "entreplanta",
    "ss": "sotano",
    "st": "sotano",
}

df["floor"] = df["floor"].map(diccionario_pisos)
df["floor"].unique()


array(['tercero', 'bajo', 'segundo', nan, 'primero', 'quinto',
       'entreplanta', 'cuarto', 'sotano', 'octavo', 'septimo', 'sexto',
       'decimo cuarto'], dtype=object)

# Corregir Bathrooms
- Vamos a pasar todo a texto para que sea una categórica

In [12]:
df["bathrooms"].unique()

array([1, 2, 3])

In [13]:
df.loc[df["bathrooms"] == 1, "bathrooms"] = "1 aseo"
df.loc[df["bathrooms"] == 2, "bathrooms"] = "2 aseos"
df.loc[df["bathrooms"] == 3, "bathrooms"] = "3 aseos"

In [14]:
df["bathrooms"].unique()

array(['1 aseo', '2 aseos', '3 aseos'], dtype=object)

# Corregir rooms
- Vamos a pasar todo a texto para que sea una categórica

In [15]:
df["rooms"].unique()

array([1, 2, 3, 0, 4])

In [16]:
df.loc[df["rooms"] == 0, "rooms"] = "sin habitaciones"
df.loc[df["rooms"] == 1, "rooms"] = "1 habitacion"
df.loc[df["rooms"] == 2, "rooms"] = "2 habitaciones"
df.loc[df["rooms"] == 3, "rooms"] = "3 habitaciones"
df.loc[df["rooms"] == 4, "rooms"] = "4 habitaciones"
df.loc[df["rooms"] == 6, "rooms"] = "6 habitaciones"

In [17]:
df["rooms"].unique()

array(['1 habitacion', '2 habitaciones', '3 habitaciones',
       'sin habitaciones', '4 habitaciones'], dtype=object)

# Reducción / Simplificación de columnas
- Vamos a quitarnos todo lo que:
    - Especifique demasiado para el precio
- Vamos a simplificar todo lo que:
    - Especifique demasiado, pero al generalizarlo, aporte valor

In [18]:
df.sample()

Unnamed: 0,propertyType,status,price,size,rooms,bathrooms,floor,neighborhood,address,district,province,municipality,exterior,hasLift,hasPlan,has3DTour,has360,distance
59,flat,good,700.0,45.0,1 habitacion,1 aseo,tercero,Casco Histórico de Barajas,barrio Casco Histórico de Barajas,Barajas,Madrid,Madrid,True,False,False,False,False,12321


### Dropeamos
- address: No se puede generalizar

In [19]:
df.drop(columns="address",inplace=True)

### Generalizamos
- distance: Lo haremos por rangos de distancia al centro

In [20]:
df["distance"].nlargest()

3      56596
2      55041
188    53247
186    53238
289    49280
Name: distance, dtype: int64

In [21]:
df["distance"].nsmallest()

108    183
126    470
27     533
136    625
317    691
Name: distance, dtype: int64

In [22]:
df["distancia_centro"] = "unknown"
df.loc[df["distance"].between(0,1000,inclusive="left"), "distancia_centro"] = "Menos de 1 km"
df.loc[df["distance"].between(1000,5000,inclusive="left"), "distancia_centro"] = "Entre 1 y 5 km"
df.loc[df["distance"].between(5000,10000,inclusive="left"), "distancia_centro"] =  "Entre 5 y 10 km"
df.loc[df["distance"].between(10000,20000,inclusive="left"), "distancia_centro"] = "Entre 10 y 20 km"
df.loc[df["distance"].between(20000,30000,inclusive="left"), "distancia_centro"] = "Entre 20 y 30 km"
df.loc[df["distance"].between(30000,40000,inclusive="left"), "distancia_centro"] = "Entre 30 y 40 km"
df.loc[df["distance"].between(40000,50000,inclusive="both"), "distancia_centro"] = "Entre 40 y 50 km"
df.loc[df["distance"] > 50000, "distancia_centro"] = "Mas de 50 km"

In [23]:
df["distancia_centro"].value_counts()

distancia_centro
Entre 5 y 10 km     82
Entre 20 y 30 km    74
Entre 10 y 20 km    65
Entre 1 y 5 km      62
Entre 40 y 50 km    30
Entre 30 y 40 km    24
Menos de 1 km       12
Mas de 50 km         4
Name: count, dtype: int64

# Dropeamos distance

In [24]:
df.drop(columns="distance",inplace=True)

# Gestionar nulos variables categóricas
- Las booleanas las volvemos categóricas
- Los nans los pondremos en desconocido

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 353 entries, 0 to 352
Data columns (total 17 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   propertyType      353 non-null    object 
 1   status            339 non-null    object 
 2   price             353 non-null    float64
 3   size              353 non-null    float64
 4   rooms             353 non-null    object 
 5   bathrooms         353 non-null    object 
 6   floor             290 non-null    object 
 7   neighborhood      174 non-null    object 
 8   district          301 non-null    object 
 9   province          353 non-null    object 
 10  municipality      353 non-null    object 
 11  exterior          353 non-null    bool   
 12  hasLift           335 non-null    object 
 13  hasPlan           339 non-null    object 
 14  has3DTour         339 non-null    object 
 15  has360            339 non-null    object 
 16  distancia_centro  353 non-null    object 
dt

### propertyType

In [26]:
df["propertyType"].isnull().sum()

np.int64(0)

### status

In [27]:
df["status"].isnull().sum()

np.int64(14)

In [28]:
df["status"]= df["status"].fillna("desconocido")
df["status"].unique()

array(['good', 'desconocido', 'newdevelopment', 'renew'], dtype=object)

In [29]:
df["status"].isnull().sum()

np.int64(0)

### floor

In [30]:
df["floor"].isnull().sum()

np.int64(63)

In [31]:
df["floor"]= df["floor"].fillna("desconocido")
df["floor"].unique()

array(['tercero', 'bajo', 'segundo', 'desconocido', 'primero', 'quinto',
       'entreplanta', 'cuarto', 'sotano', 'octavo', 'septimo', 'sexto',
       'decimo cuarto'], dtype=object)

In [32]:
df["floor"].isnull().sum()

np.int64(0)

### neighborhood (Dropear Columna)
- Demasiados nulos, no tiene sentido

In [33]:
df["neighborhood"].isnull().sum()

np.int64(179)

In [34]:
df.drop(columns="neighborhood",inplace=True)

### district
- Tal vez especifique demasiado

In [35]:
df["district"].isnull().sum()

np.int64(52)

In [36]:
df["district"]= df["district"].fillna("desconocido")
df["district"].isnull().sum()

np.int64(0)

### province

In [37]:
df["province"].isnull().sum()

np.int64(0)

### municipality

In [38]:
df["municipality"].isnull().sum()

np.int64(0)

###  exterior
- Cambiamos de booleano a categorica

In [39]:
df["exterior"].isnull().sum()

np.int64(0)

In [40]:
df["exterior"].unique()

array([ True, False])

In [41]:
df.loc[df["exterior"] == True, "exterior"] = "vista exterior"
df.loc[df["exterior"] == False, "exterior"] = "vista interior"
df["exterior"].unique()

array(['vista exterior', 'vista interior'], dtype=object)

### hasLift 
- Cambiamos de booleano a categorica

In [42]:
df["hasLift"].isnull().sum()

np.int64(18)

In [43]:
df["hasLift"].unique()

array([True, False, nan], dtype=object)

In [44]:
df.loc[df["hasLift"] == True, "hasLift"] = "tiene ascensor"
df.loc[df["hasLift"] == False, "hasLift"] = "no tiene ascensor"
df["hasLift"] = df["hasLift"].fillna("desconocido")
df["hasLift"].unique()

array(['tiene ascensor', 'no tiene ascensor', 'desconocido'], dtype=object)

In [45]:
df["hasLift"].isnull().sum()

np.int64(0)

### hasPlan
- Cambiamos de booleano a categorica


In [46]:
df["hasPlan"].isnull().sum()

np.int64(14)

In [47]:
df.loc[df["hasPlan"] == True, "hasPlan"] = "tiene planos"
df.loc[df["hasPlan"] == False, "hasPlan"] = "no tiene planos"
df["hasPlan"] = df["hasPlan"].fillna("desconocido")
df["hasPlan"].unique()

array(['no tiene planos', 'tiene planos', 'desconocido'], dtype=object)

In [48]:
df["hasPlan"].isnull().sum()

np.int64(0)

### has3DTour
- Cambiamos de booleano a categorica


In [49]:
df["has3DTour"].isnull().sum()

np.int64(14)

In [50]:
df.loc[df["has3DTour"] == True, "has3DTour"] = "tiene tour 3D"
df.loc[df["has3DTour"] == False, "has3DTour"] = "no tiene tour 3D"
df["has3DTour"] = df["has3DTour"].fillna("desconocido")
df["has3DTour"].unique()

array(['no tiene tour 3D', 'desconocido', 'tiene tour 3D'], dtype=object)

In [51]:
df["has3DTour"].isnull().sum()

np.int64(0)

### has360
- Cambiamos de booleano a categorica

In [52]:
df["has360"].isnull().sum()

np.int64(14)

In [53]:
c = df["has360"].isnull() == True
df[c]


Unnamed: 0,propertyType,status,price,size,rooms,bathrooms,floor,district,province,municipality,exterior,hasLift,hasPlan,has3DTour,has360,distancia_centro
4,studio,desconocido,684.0,45.0,sin habitaciones,1 aseo,desconocido,desconocido,Madrid,Madrid,vista exterior,desconocido,desconocido,desconocido,,Entre 10 y 20 km
51,flat,desconocido,700.0,50.0,1 habitacion,2 aseos,desconocido,desconocido,Madrid,Camarma de Esteruelas,vista exterior,desconocido,desconocido,desconocido,,Entre 30 y 40 km
52,duplex,desconocido,750.0,35.0,1 habitacion,1 aseo,desconocido,desconocido,Madrid,Madrid,vista exterior,desconocido,desconocido,desconocido,,Entre 1 y 5 km
106,flat,desconocido,600.0,55.0,1 habitacion,1 aseo,desconocido,desconocido,Madrid,Daganzo de Arriba,vista exterior,desconocido,desconocido,desconocido,,Entre 20 y 30 km
121,flat,desconocido,630.0,54.0,1 habitacion,2 aseos,desconocido,desconocido,Madrid,El Álamo,vista exterior,desconocido,desconocido,desconocido,,Entre 30 y 40 km
137,studio,desconocido,700.0,23.0,sin habitaciones,1 aseo,desconocido,desconocido,Madrid,Madrid,vista exterior,desconocido,desconocido,desconocido,,Entre 1 y 5 km
147,duplex,desconocido,600.0,80.0,1 habitacion,1 aseo,desconocido,desconocido,Madrid,Madrid,vista interior,desconocido,desconocido,desconocido,,Entre 5 y 10 km
148,duplex,desconocido,600.0,80.0,1 habitacion,1 aseo,desconocido,desconocido,Madrid,Madrid,vista interior,desconocido,desconocido,desconocido,,Entre 5 y 10 km
176,flat,desconocido,675.0,35.0,1 habitacion,1 aseo,desconocido,desconocido,Madrid,Madrid,vista interior,desconocido,desconocido,desconocido,,Entre 1 y 5 km
183,flat,desconocido,750.0,67.0,3 habitaciones,1 aseo,desconocido,desconocido,Madrid,Getafe,vista exterior,desconocido,desconocido,desconocido,,Entre 10 y 20 km


#### Habrá que ver si estos datos merece la pena tenerlos, hay muchas cosas desconocidas

In [54]:
df.loc[df["has360"] == True, "has360"] = "tiene fotos 360"
df.loc[df["has360"] == False, "has360"] = "no tiene fotos 360"
df["has360"] = df["has360"].fillna("desconocido")
df["has360"].unique()

array(['no tiene fotos 360', 'tiene fotos 360', 'desconocido'],
      dtype=object)

In [55]:
df["has360"].isnull().sum()

np.int64(0)

### distancia_centro

In [56]:
df["distancia_centro"].isnull().sum()

np.int64(0)

# Gestión nulos numéricas
- Sin tocar la VR (Precio).
- Rellenaremos con IterativeImputer y RandomForest
    - Las relaciones son complejas

In [57]:
df.isnull().sum()

propertyType        0
status              0
price               0
size                0
rooms               0
bathrooms           0
floor               0
district            0
province            0
municipality        0
exterior            0
hasLift             0
hasPlan             0
has3DTour           0
has360              0
distancia_centro    0
dtype: int64

# Modelo 7 eliminar province

In [58]:
df.drop(columns="province",inplace=True)

# Modelo 8 Eliminar district y has3DTour

In [59]:
df.drop(columns=["district","has3DTour"],inplace=True)

# Guardamos

In [60]:
df.to_csv("../../datos/03_api_rent_sin_nulos.csv",index=False)