## Ejercicio 01: Regresión Múltiple

Supongamos que tenemos los siguientes datos: precio de vivienda según metros, habitaciones y distancia al centro. 

[Fuente de Ejercicio](https://haydeeperuyero.github.io/MultivariateStatisticalAnalysis/regresi%C3%B3n-m%C3%BAltiple.html)

## 0. Importar Librerías

In [1]:
import pandas as pd
import numpy as np

from itertools import combinations

from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import root_mean_squared_error , r2_score

from copy import deepcopy

## 1. Ajuste de Modelos

In [2]:
# Carga de los datos

data = [
    (200,220,250,275,300,180,210,260,280,320,190,240,230,305),
    (80,90,100,110,120,70,85,105,115,130,75,95,92,125),
    (2,3,3,4,4,2,3,3,4,5,2,3,3,4),
    (5,4,6,3,2,8,6,3,2,1,7,5,4,2)
]

Data = np.array(data).T

Columns = [
    'precio',
    'metros',
    'habitaciones',
    'distancia_centro',
]

Casas = pd.DataFrame(Data,columns=Columns)

Casas

Unnamed: 0,precio,metros,habitaciones,distancia_centro
0,200,80,2,5
1,220,90,3,4
2,250,100,3,6
3,275,110,4,3
4,300,120,4,2
5,180,70,2,8
6,210,85,3,6
7,260,105,3,3
8,280,115,4,2
9,320,130,5,1


In [3]:
# Separación de los atributos en features y label

y_label = Casas.columns[0]
features = Casas.columns[1:]

In [4]:
# Ajuste del Modelo de Regresión a diferentes features

RegressionModels = {}
ResultModels = {}

LenSample = Casas.shape[0]
for num_features in range(1,4):
    for features_model in combinations(features,num_features):
        
        data_X = Casas[[*features_model]]
        data_y = Casas[y_label]


        Model = Pipeline(
            [
                ('Model',LinearRegression(n_jobs=-1))
            ]
        )
        Model.fit(data_X,data_y)

        predict_y = Model.predict(data_X)
        rmse = root_mean_squared_error(data_y,predict_y) 
        r2 = r2_score(data_y,predict_y)
        adj_r2 = 1 - ((1-r2)**2*(LenSample-1))/(LenSample-len(features_model)-1)

        print('\n',' '.join(features_model).center(50,'-'))
        print(f'RMSE: {rmse}',f'R^2 : {r2}',f'Adjusted R^2 : {adj_r2}',sep='\n')

        RegressionModels[features_model] = deepcopy(Model)
        ResultModels[features_model] = [rmse,r2,adj_r2]


 ----------------------metros----------------------
RMSE: 2.71008935345126
R^2 : 0.9960354213067386
Adjusted R^2 : 0.9999829722921003

 -------------------habitaciones-------------------
RMSE: 14.364193303526786
R^2 : 0.8886238235880682
Adjusted R^2 : 0.9865616262718464

 -----------------distancia_centro-----------------
RMSE: 18.155899014481367
R^2 : 0.8220633788798873
Adjusted R^2 : 0.9657001054363873

 ---------------metros habitaciones----------------
RMSE: 2.7024308474883894
R^2 : 0.9960577968406787
Adjusted R^2 : 0.9999816334041144

 -------------metros distancia_centro--------------
RMSE: 2.470706649453863
R^2 : 0.9967048727509212
Adjusted R^2 : 0.9999871679793965

 ----------habitaciones distancia_centro-----------
RMSE: 12.433290328577469
R^2 : 0.916554682331697
Adjusted R^2 : 0.9917708569518243

 -------metros habitaciones distancia_centro-------
RMSE: 2.4667113559455593
R^2 : 0.9967155210050787
Adjusted R^2 : 0.9999859758570515


## 2. Comparativa entre $R^2$, $R^2$ Ajustada y $\sigma$ ($RMSE$)

Tanto $R^2$ como $RMSE$ describen el comportamiento del modelo bajo la misma perspectiva, es decir, que tan bien se ajusta el modelo a los datos; con ello, se tiene que al considerar los tres atributos se alcanza el mayor y menor valor de las métricas, respectivamente. Y aún más, se tiene que al considerar únicamente el atributo `metros` se obtienen los mejores modelos ($R^2 > 0.99$), por lo que éste atributo tiene un peso importante al momento de predicir o determinar el `precio` de un casa. 

In [5]:
# Creación de los dataframes con los resultados obtenidos de los modelos

ResultModels_DataFrame = pd.DataFrame(ResultModels).T

ResultModels_DataFrame.rename_axis('Atributos',axis=1,inplace=True)

RenamingColumns = dict(enumerate(['RMSE','R^2','Adjusted R^2']))
ResultModels_DataFrame.rename(columns=RenamingColumns,inplace=True)

ResultModels_DataFrame

Unnamed: 0,Unnamed: 1,Atributos,RMSE,R^2,Adjusted R^2
metros,,,2.710089,0.996035,0.999983
habitaciones,,,14.364193,0.888624,0.986562
distancia_centro,,,18.155899,0.822063,0.9657
metros,habitaciones,,2.702431,0.996058,0.999982
metros,distancia_centro,,2.470707,0.996705,0.999987
habitaciones,distancia_centro,,12.43329,0.916555,0.991771
metros,habitaciones,distancia_centro,2.466711,0.996716,0.999986
