# Regresión Lineal con  y sin Escalado  de los Predictores
## 1. Introducción
En este notebook, analizaremos el comportamiento de la Regresión Lineal con y sin escalando las variables Predictoras. Aplicaremos 4 escalados distintos disponibles en la biblioteca Sklearn:
* StandardScaler
* MinMaxScaler
* RobustScaler
* MaxAbsScaler

Haremos una regresión con el conjunto de datos de vivienda (housing.csv). Primero veremos los resultados sin escalamiento de características y luego compararemos los resultados aplicando escalamiento de características.
### 1.1 Acerca del conjunto de datos
Housing.csv es un conjunto de datos de viviendas de California que contiene varias características de la casa, como su ubicación, antiguedad, número de habitaciones, valor de la casa, etc. El planteamiento del problema es predecir el valor de la casa dadas las características independientes en el conjunto de datos. Contiene 20433 filas y 9 columnas.

Importación de bibliotecas necesarias.

In [None]:
# cargamos todas las bibliotecas necesarias para nuestros ejemplo
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler,MinMaxScaler,MaxAbsScaler,RobustScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import preprocessing

In [None]:
# Conectar Drive a Colab
from google.colab import drive
import os

# Montar drive
drive.mount("/content/drive/")
# Cambiar directorio
os.chdir('/content/drive/MyDrive/Ciencia de datos - Grupo 4/')


Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


### 1.2 Cargando conjunto de datos
A continuación, cargamos el conjunto de datos.

In [None]:
df=pd.read_csv("housing.csv")
df.head(5)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


In [None]:
# Borrado de nulos
df.dropna(inplace=True)

In [None]:
# eliminamos la característica no numérica ocean_proximity.
df.drop(['ocean_proximity'],axis=1,inplace=True)
df.head(10)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,261100.0


\\¿De que tipo son los datos de los predictores? ¿Hay valores nulos?

**Los 8 predictores son numéricos y el tag de salida es categórico categórico. observamos que hay 207 valores nulos en uno de los predictores (total_bedrooms)**

Apliquemos una Regresión Lineal con todos los Predictores sin escalar.  
## 2. Regresión Lineal con todos los Predictores sin escalado
Primero dividimos los datos en las características de entrada y el target de salida.

In [None]:
X=df.iloc[:,:-1]  # todas las filas y todas las columnas sacando la última (target)
y=df.iloc[:,[8]]  # todas las filas y la columnas 9 (target)

In [None]:
# División del conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [None]:
# Verifica las dimensiones de los conjuntos divididos
print("Dimensiones del conjunto de entrenamiento (X):", X_train.shape)
print("Dimensiones del conjunto de prueba (X):", X_test.shape)
print("Dimensiones del conjunto de entrenamiento (y):", y_train.shape)
print("Dimensiones del conjunto de prueba (y):", y_test.shape)

Dimensiones del conjunto de entrenamiento (X): (13690, 8)
Dimensiones del conjunto de prueba (X): (6743, 8)
Dimensiones del conjunto de entrenamiento (y): (13690, 1)
Dimensiones del conjunto de prueba (y): (6743, 1)


* Dividir el conjunto de datos en entrenamiento y prueba (test_size=0.33)
* Instanciamos el modelo de Regresión Lineal y calculamos el error del modelo:

Finalmente:

In [None]:
# Creando un modelo de Regresión Lineal
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
score=lin_reg.score(X_test,y_test)
score

0.6473837161332721

Con todos los datos sin escalar, el modelo de Regresión Lineal logró un 63 % de precisión.
## 3. Regresión Lineal aplicando StandardScaler a todo los predictores Pre Procesados
Partimos los datos Pre Procesados (sin datos categóricos ni datos faltantes):

In [None]:
# Aplicamos StandardScaler a todo los datos de entrada
scaler = preprocessing.StandardScaler()
X_total_StandarScaler = scaler.fit_transform(X)
X_total_StandarScaler

array([[-1.32731375,  1.05171726,  0.98216331, ..., -0.97331952,
        -0.97683327,  2.34516291],
       [-1.32232256,  1.04235526, -0.60621017, ...,  0.86133924,
         1.67037262,  2.33263161],
       [-1.33230494,  1.03767426,  1.85576873, ..., -0.81976943,
        -0.84342665,  1.78293943],
       ...,
       [-0.82320322,  1.77727236, -0.92388486, ..., -0.36882637,
        -0.17377773, -1.14317103],
       [-0.87311515,  1.77727236, -0.84446619, ..., -0.60356386,
        -0.39350628, -1.05513604],
       [-0.83318561,  1.74918635, -1.00330353, ..., -0.03348711,
         0.07995643, -0.78060586]])

In [None]:
# Creando un modelo de Regresión Lineal
lin_reg = LinearRegression()
lin_reg.fit(X_train_scaler, y_train)
score=lin_reg.score(X_total_StandarScaler,y)
score

0.6367399189342584

In [None]:
#Creando StandardScaler Objeto
scaler = preprocessing.StandardScaler()
X_train_scaler = scaler.fit_transform(X_train)
X_test_scaler = scaler.transform(X_test)
X_train_scaler  #Ver los valores escalados de X_train

array([[ 0.64576381, -0.8969319 , -0.60199272, ...,  0.23983529,
         0.45742575, -0.91356422],
       [ 1.50449198, -0.93908113, -1.47489202, ..., -1.07865253,
        -1.11367118,  1.25336204],
       [-0.04321576,  0.54550838, -1.95101891, ..., -0.69684768,
        -0.78526463,  0.55744937],
       ...,
       [ 0.58085994, -0.76580096,  1.06445139, ..., -0.40984176,
        -0.35702249, -0.40969618],
       [-1.22646329,  0.90143521, -1.31618305, ...,  1.75053012,
         1.46891792,  0.73821885],
       [-1.42117491,  0.97636717,  1.85799621, ...,  0.73644252,
         0.39174444,  0.00690746]])

In [None]:
scaler = preprocessing.StandardScaler()
X_total_StandarScaler = scaler.fit_transform(X)
X_total_StandarScaler

array([[-1.32731375,  1.05171726,  0.98216331, ..., -0.97331952,
        -0.97683327,  2.34516291],
       [-1.32232256,  1.04235526, -0.60621017, ...,  0.86133924,
         1.67037262,  2.33263161],
       [-1.33230494,  1.03767426,  1.85576873, ..., -0.81976943,
        -0.84342665,  1.78293943],
       ...,
       [-0.82320322,  1.77727236, -0.92388486, ..., -0.36882637,
        -0.17377773, -1.14317103],
       [-0.87311515,  1.77727236, -0.84446619, ..., -0.60356386,
        -0.39350628, -1.05513604],
       [-0.83318561,  1.74918635, -1.00330353, ..., -0.03348711,
         0.07995643, -0.78060586]])

In [None]:
# Creando un modelo de Regresión Lineal
lin_reg = LinearRegression()
lin_reg.fit(X_total_StandarScaler, y)
score=lin_reg.score(X_total_StandarScaler,y)
score

0.6369116857335635

**Conclusión**:
## 4. Regresión Lineal aplicando MinMaxScaler a todo los predictores Pre Procesados
Partimos los datos Pre Procesados (sin datos categóricos ni datos faltantes):

In [None]:
#Creating MinMax Object
minmax = preprocessing.MinMaxScaler()
X_new_minmax = minmax.fit_transform(X)

In [None]:
# Creando un modelo de Regresión Lineal
lin_reg = LinearRegression()
lin_reg.fit(X_new_minmax, y)
score=lin_reg.score(X_new_minmax,y)
score

0.6369116857335635

**Conclusión**:
## 5. Regresión Lineal aplicando RobustScaler a todo los predictores Pre Procesados
Partimos los datos Pre Procesados (sin datos categóricos ni datos faltantes):

In [None]:
#Creating MinMax Object
minmax = preprocessing.RobustScaler()
X_new_minmax = minmax.fit_transform(X)

In [None]:
# Creando un modelo de Regresión Lineal
lin_reg = LinearRegression()
lin_reg.fit(X_train_scaler, y_train)
score=lin_reg.score(X_test_scaler,y_test)
score

El escalado RobustScaler() no mejora la precisión en una Regresión Lineal.
## 6. Regresión Lineal aplicando MaxAbsScaler a todo los predictores Pre Procesados
Partimos los datos Pre Procesados (sin datos categóricos ni datos faltantes):

In [None]:
# Creando un modelo de Regresión Lineal
lin_reg = LinearRegression()
lin_reg.fit(X_train_mab, y_train)
score=lin_reg.score(X_test_mab,y_test)
score

**Conclusión**:
# Conclusión Final: