## Ejercicio - Regresión Viviendas Barcelona

- Utilizando el dataset de publicaciones de venta de viviendas en Barcelona _**viviendas_barcelona.parquet**_, entrena un modelo de regresión lineal múltiple que sea capaz de calcular el precio de venta:

    - Antes de crear el modelo y entrenarlo, haz un **EDA** de los datos.
        - ¿Qué columnas pueden ser las más importantes?
        - ¿Como se distribuyen los precios?
        - ¿Qué columnas sería factible limpiar?
        - ¿Qué significan los **np.nan**?
     
    - Cuando entiendas bien los datos con los que estás tratando, puedes proceder a realizar un preprocesamiento:
        - Elimina duplicados.
        - Elimina columnas innecesarias
        - Trata los valores perdidos **np.nan**.
        - Maneja los outliers como consideres.
        - Realiza transformaciones a los datos que consideres necesarias.
        - Codifica los datos categóricos para que el modelo los entienda (pásalos a números).
        - Considera normalizar los datos antes de utilizarlos para el entreno.
        
    - Entrena el modelo con un subconjunto de 70-80% del dataset.
      
    - Utiliza los datos restantes para comprobar cómo de bueno es el modelo:
        - Calcula **R2**, **MAE** y **MSE**.
        
- Importa las librerías que vayas a necesitar.

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Modelo
from sklearn.linear_model import LinearRegression

# Herramientas de preprocesamiento
from sklearn.preprocessing import MinMaxScaler, LabelEncoder, TargetEncoder, OneHotEncoder

# Split
from sklearn.model_selection import train_test_split

# Métricas
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error



In [14]:
df = pd.read_parquet("viviendas_barcelona.parquet")
df.head()


Unnamed: 0,price,title,province,location,lat,lng,agency,updated,timestamp,id_1,...,Consumo,Habitaciones,Referencia,Antigüedad,Garaje,Terraza,Se aceptan mascotas,Ascensor,Tipo de casa,Superficie útil
0,52000.0,"Piso en venta en Avenida Casetes, nº 33",barcelona,"Avenida Casetes, nº 33. Centre Vila (Vilafranc...",41.34835,1.70197,Inmuebles de Aliseda Inmobiliaria,1672874000.0,1697761000000000.0,34241677924,...,A B C D E F G,3,ASR1-SRB0000036956,,,,,,,
1,315000.0,Casa adosada en venta en Vilafranca del Penedes,barcelona,Castellet i la Gornal,41.276503,1.652229,Inmuebles de Engel & Völkers Barcelona,1672701000.0,1697761000000000.0,23357117200,...,,4,IF76306-I-00VJM3-W-02OAMJ,,1.0,Terraza,,,Adosada,
2,650000.0,Casa unifamiliar en venta en Sant Sadurní d'Anoia,barcelona,Sant Sadurní d'Anoia,41.426682,1.79263,Inmuebles de SAFTI ESPAÑA,1674861000.0,169776100000000.0,32584643160,...,,5,SA3541-REF_11510,,2.0,Terraza,,,Unifamiliar,220 m²
3,315000.0,Casa en venta en Carrer de Sant Pere Molanta,barcelona,Carrer de Sant Pere Molanta. Olèrdola,41.318658,1.754891,Inmuebles de ALARCON PROPIEDADES,1673997000.0,1697761000000000.0,19202422630,...,,3,4017-4751,Entre 30 y 50 años,1.0,Terraza,Se aceptan mascotas,,,100 m²
4,209900.0,"Chalet en venta en Calle Carrer Serral Llarg, ...",barcelona,"Calle Carrer Serral Llarg, nº 107. Olesa de Bo...",41.3697,1.87677,Inmuebles de FINCAS MARINA,1674256000.0,1697761000000000.0,35859429926,...,,3,SA3007-08353,,,Terraza,,,,398 m²


In [4]:
df["agency"].nunique()

1329

In [13]:
df.describe(include='all').T


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
price,26969.0,,,,425521.191071,569359.251647,15500.0,178000.0,270500.0,450000.0,19000000.0
title,27129.0,12706.0,Piso en venta en Centre,483.0,,,,,,,
province,27479.0,1.0,barcelona,27479.0,,,,,,,
location,26873.0,8467.0,Castellar del Vallès,292.0,,,,,,,
lat,26873.0,,,,41.501189,0.299589,0.0,41.387962,41.494441,41.576186,42.283257
lng,26873.0,,,,2.122537,0.223253,0.0,2.018452,2.130845,2.218178,3.81478
agency,27129.0,1329.0,Inmuebles de Engel & Völkers Barcelona,2187.0,,,,,,,
updated,27129.0,,,,1673576703.102952,3085560.077187,1579389000.0,1673392200.0,1673996700.0,1674169800.0,1675120080.0
timestamp,27479.0,,,,1547226005864556.5,458334075217094.8,169789023054.0,1697790317799740.0,1697840050993678.0,1697888434903166.0,1697946906943147.0
id_1,27479.0,27479.0,34195182232,1.0,,,,,,,


In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27479 entries, 0 to 27478
Data columns (total 25 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   price                  26969 non-null  float64
 1   title                  27129 non-null  object 
 2   province               27479 non-null  object 
 3   location               26873 non-null  object 
 4   lat                    26873 non-null  float64
 5   lng                    26873 non-null  float64
 6   agency                 27129 non-null  object 
 7   updated                27129 non-null  float64
 8   timestamp              27479 non-null  float64
 9   id_1                   27479 non-null  object 
 10  id_2                   27479 non-null  object 
 11  Superficie construida  26978 non-null  object 
 12  Emisiones              16335 non-null  object 
 13  Clasificación          27129 non-null  object 
 14  Baños                  26185 non-null  object 
 15  Co

In [None]:
# Posibles columnas a descartar:
df.drop[['id_1', 'id_2', 'updated', 'timestamp', 'province', 'Referencia', 'location', ]]