In [1]:
import sklearn
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing

### Reto 1

- Usa un conjunto de datos de precios de casas, como el dataset "California Housing" de scikit-learn.



In [2]:
dataset = fetch_california_housing()
X, y = dataset.data, dataset.target

In [3]:
y

array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894])


- Divide el conjunto de datos en entrenamiento y prueba.


In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)


- Explora las características y decide cuáles incluir en tu modelo.


In [5]:
#Calculamos correlaciones y almacenamos

df_inicial = pd.DataFrame(data=X, columns=dataset.feature_names)
df_inicial['y']=y

correlaciones=[]
for feature in dataset.feature_names:
    correlaciones.append(abs(df_inicial['y'].corr(df_inicial[feature], method='pearson')))
        
    
#Vemos qué features tienen mas correlacion
    
df_correlaciones = pd.DataFrame({'Feat': dataset['feature_names'], 'Corr': correlaciones})
df_correlaciones['Elegir']=df_correlaciones['Corr'] > 0.1

df_correlaciones

Unnamed: 0,Feat,Corr,Elegir
0,MedInc,0.688075,True
1,HouseAge,0.105623,True
2,AveRooms,0.151948,True
3,AveBedrms,0.046701,False
4,Population,0.02465,False
5,AveOccup,0.023737,False
6,Latitude,0.14416,True
7,Longitude,0.045967,False


In [6]:
z = abs(df_inicial.corr()['y'])>0.1

In [7]:
z[z==True].index[:-1]

Index(['MedInc', 'HouseAge', 'AveRooms', 'Latitude'], dtype='object')

In [8]:
#Hacemos los pasos anteriores con las features elegidas

X = dataset.data[:, [0, 1, 2, 6]]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)


- Construye un modelo de regresión lineal múltiple usando scikit-learn.


In [9]:
from sklearn.linear_model import LinearRegression

#Entrenamos el modelo

model = LinearRegression()
model.fit(X_train, y_train)

#Calculamos predicciones
y_test_pred = model.predict(X_test)
y_train_pred = model.predict(X_train)


- Evalúa el modelo en el conjunto de prueba. ¿Que metricas has escogido?


In [10]:
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error, max_error

In [11]:
print(f'Coeficiente de determinacion: {r2_score(y_test, y_test_pred)}\nEl coef. calcula la proporcion de varianza de Y que es explicada por las variables')

Coeficiente de determinacion: 0.518755633484318
El coef. calcula la proporcion de varianza de Y que es explicada por las variables


In [12]:
print(f'Error medio absoluto: {mean_absolute_error(y_test, y_test_pred)}\nDiferencia absoluta promedio del error')

Error medio absoluto: 0.58913772681824
Diferencia absoluta promedio del error


In [13]:
print(f'Error cuadrático medio: {mean_squared_error(y_test, y_test_pred)}\nPromedio de los errores al cuadrado')

Error cuadrático medio: 0.6209903322540167
Promedio de los errores al cuadrado


In [14]:
print(f'Error maximo: {max_error(y_test, y_test_pred)}\nMaximo error en el modelo')

Error maximo: 4.0457651209288565
Maximo error en el modelo



- Si mides el MAE, ¿que otro dato necesitas para saber si ese error es alto o bajo?



In [15]:
from sklearn.metrics import mean_absolute_percentage_error

print(f'Error maximo: {mean_absolute_percentage_error(y_test, y_test_pred)}\nExpresa el MAE relativo')

Error maximo: 0.36007482875675656
Expresa el MAE relativo



Extra: cuando hayas resuelto la parte de no-supervisado puedes volver aqui para hacer lo siguiente. Una vez tengas el modelo entrenado, haz un PCA (o TSNE) de dimensión 2, y un scatterplot de todas las instancias de test. Depues pon el tamaño d ecada punto proporcional al precio de la casa.

### Reto 2

Resuelve este reto de kaggle e intenta subir la prediccion (veremos como se hace en clase):

https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques

In [16]:
#Abrimos dataset
df_train = pd.read_csv("train.csv")
df_test = pd.read_csv("test.csv")

In [17]:
df_train['SalePrice']

0       208500
1       181500
2       223500
3       140000
4       250000
         ...  
1455    175000
1456    210000
1457    266500
1458    142125
1459    147500
Name: SalePrice, Length: 1460, dtype: int64

In [18]:
#Convertimos todas las columnas a numeros

df_train_encoded = pd.get_dummies(df_train, dtype=int)
df_test_encoded = pd.get_dummies(df_test, dtype=int)
df_train

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [19]:
#Vemos qué features tienen mas correlacion
    
z = abs(df_train_encoded.corr()['SalePrice'])>0.6
features_corr = z[z==True].index[:-1]
features_corr

Index(['OverallQual', 'TotalBsmtSF', '1stFlrSF', 'GrLivArea', 'GarageCars',
       'GarageArea'],
      dtype='object')

In [20]:
#Generamos X e Y 
df_train_encoded_corr = df_train_encoded.loc[:, list(features_corr)+['SalePrice']]
x_train = df_train_encoded.loc[:, list(features_corr)]
y_train = df_train_encoded_corr['SalePrice']

x_test = df_test_encoded.loc[:, list(features_corr)]
x_test = x_test.dropna()

In [21]:
#Elegimos el Random Forest Regressor

from sklearn.ensemble import RandomForestRegressor

#Entrenamos

regr = RandomForestRegressor(max_depth=2)
regr.fit(x_train, y_train)


In [22]:
#Obtenemos resultados 

y_test = regr.predict(x_test)
y_test

array([132526.96220722, 138691.66364407, 152897.91057154, ...,
       134698.42693933, 132526.96220722, 215277.56025019])