# **Regresion**

La regresion es un tipo de técnica estadística utilizada para modelar la relacion entre variables y predecir valores numéricos continuos. Es decir, la regresión se utiliza cuando queremos predecir un resultado numérico basado en la relación entre un conjunto de variables independientes (características o atributos) y un variable dependiente o de respuesta. En la regresión, el objetivo es encontrar una función que pueda mapear las variables independientes a la variable dependiente de manera óptima, de modo que cuando se le proporcionen nuevo valores de características, pueda predecir el velor correspondiente de la variable objetivo.

Dentro de las principales técnicas de regresión se tiene:

1. Regresión Lineal Simple
2. Regresión Lineal Multiple
3. Regresión Polinomial
4. Regresión de Vecino más Cercano (K-NN)
5. Regresión de Maquina de Soporte Vectorial
6. Árboles de Regresión
7. Bosques Aleatorios (Random Forest)
8. Regresión mediante Redes Neuronales
9. Regresión Ridge (L2)
10. Regresión LASSO (L1)
11. Regresión Elastic Net

Entre otros

## **Importación de librerias**

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import classification_report

# Librerias para metricas
from sklearn import metrics

# Regresion lineal
from sklearn.linear_model import LinearRegression

# Regresion logistica
from sklearn.linear_model import LogisticRegression

# Arbol de decision
from sklearn.tree import DecisionTreeRegressor

# Red neuronal perceptron multicapa
from sklearn.neural_network import MLPRegressor

# Knn para regresion
from sklearn.neighbors import KNeighborsRegressor

# Maquina de vector de soporte
from sklearn.svm import SVR

## **Importación de datos**

In [7]:
dataset = pd.read_csv('./regresion_valor_casa.csv', sep=',', header=0)
dataset.head()

Unnamed: 0,price,lotSize,age,landValue,livingArea,pctCollege,bedrooms,fireplaces,bathrooms,rooms,heating,fuel,sewer,waterfront,newConstruction,centralAir
0,132500,0.09,42,50000,906,35,2,1,1.0,5,electric,electric,septic,No,No,No
1,181115,0.92,0,22300,1953,51,3,0,2.5,6,hot water/steam,gas,septic,No,No,No
2,109000,0.19,133,7300,1944,51,4,1,1.0,8,hot water/steam,gas,public/commercial,No,No,No
3,155000,0.41,13,18700,1944,51,3,1,1.5,5,hot air,gas,septic,No,No,No
4,86060,0.11,0,15000,840,51,2,0,1.0,3,hot air,gas,public/commercial,No,Yes,Yes


## **Conversión de datos categoricos a numéricos**

In [9]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   price            1728 non-null   int64  
 1   lotSize          1728 non-null   float64
 2   age              1728 non-null   int64  
 3   landValue        1728 non-null   int64  
 4   livingArea       1728 non-null   int64  
 5   pctCollege       1728 non-null   int64  
 6   bedrooms         1728 non-null   int64  
 7   fireplaces       1728 non-null   int64  
 8   bathrooms        1728 non-null   float64
 9   rooms            1728 non-null   int64  
 10  heating          1728 non-null   object 
 11  fuel             1728 non-null   object 
 12  sewer            1728 non-null   object 
 13  waterfront       1728 non-null   object 
 14  newConstruction  1728 non-null   object 
 15  centralAir       1728 non-null   object 
dtypes: float64(2), int64(8), object(6)
memory usage: 216.1+ KB


In [8]:
dataset.heating.unique()

array(['electric', 'hot water/steam', 'hot air'], dtype=object)

In [10]:
dataset.fuel.unique()

array(['electric', 'gas', 'oil'], dtype=object)

In [12]:
dataset.heating.astype('category').cat.codes

0       0
1       2
2       2
3       1
4       1
       ..
1723    2
1724    2
1725    1
1726    1
1727    1
Length: 1728, dtype: int8

In [13]:
def Categorico_a_numerico(atributo):
    # Convertir el atributo al tipo categorico
    atributo = atributo.astype('category')
    # Convertir el atributo categorico a numerico
    return atributo.astype('category').cat.codes

In [14]:
# convertir los categóricos a numéricos
dataset['heating'] = Categorico_a_numerico(dataset['heating'])
dataset['fuel'] = Categorico_a_numerico(dataset['fuel'])
dataset['sewer'] = Categorico_a_numerico(dataset['sewer'])
dataset['waterfront'] = Categorico_a_numerico(dataset['waterfront'])
dataset['newConstruction'] = Categorico_a_numerico(dataset['newConstruction'])
dataset['centralAir'] = Categorico_a_numerico(dataset['centralAir'])

In [15]:
dataset.head()

Unnamed: 0,price,lotSize,age,landValue,livingArea,pctCollege,bedrooms,fireplaces,bathrooms,rooms,heating,fuel,sewer,waterfront,newConstruction,centralAir
0,132500,0.09,42,50000,906,35,2,1,1.0,5,0,0,2,0,0,0
1,181115,0.92,0,22300,1953,51,3,0,2.5,6,2,1,2,0,0,0
2,109000,0.19,133,7300,1944,51,4,1,1.0,8,2,1,1,0,0,0
3,155000,0.41,13,18700,1944,51,3,1,1.5,5,1,1,2,0,0,0
4,86060,0.11,0,15000,840,51,2,0,1.0,3,1,1,1,0,1,1


## **Separación de datos para entrenamiento y test**

In [16]:
X = dataset.drop(['price'], axis=1)
y = dataset['price']

# Separacion de datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=5, test_size=0.3)

## **1. Modelo de regresión lineal multiple**

El modelo de Regresión Lineal Múltiple es una extesión del modelo de Regresion Lineal. La ecuación general del Modelo de Regresión Lineal Múltiple se representa como: $y = a_1x_1 + a_2x_2 + ... +a_nx_n + b$

In [17]:
# Creación de modelo
modelo = LinearRegression()

# Training
modelo.fit(X_train, y_train)

## **Métrica R2**

El coeficiente de determinación, comúnmente conocido como R2 (pronunciado como R cuadrado), es una métrica utilizada en la regresión para evaluar el rendimiento de un modelo de regresión. R2 es una medida estadística que indica qué proporción de la variabilidad de la variable dependiente puede ser explicada por las variables independientes incluidas en el modelo.

In [18]:
# Determinar R^2
# R^2 = 1 - (sumatoria (yi - pi)^2 / sumatoria(yi - yprom)^2)
# donde:
#       yi : son los valores que toma la variable objetivo
#       pi : son los valores de la predicción
#       yprom : es el valor medio de los valores que toma la variable objetivo

# oscila: -infinito < --- > 1
# Un valor de R2 menor a 0 => Muy baja de capacidad explicativa de la recta
# Un valor de R2 cercano a 0 => Baja capacidad explicativa de la recta
# Un valor de R2 proximo a 1 => Alta capacidad explicativa de la recta

y_pred = modelo.predict(X_test)
metrics.r2_score(y_test, y_pred)

0.658960037343802

## **Coeficientes de regresión lineal**

In [19]:
# Coeficientes de la ecuacion de regresion
modelo.intercept_, modelo.coef_

(20625.353885923338,
 array([ 5.77981591e+03, -1.58865964e+02,  9.58373119e-01,  6.97276884e+01,
        -1.76040134e+02, -6.69616174e+03, -5.93235409e+02,  2.36468383e+04,
         2.59509102e+03, -1.97960199e+03,  9.32706116e+03, -3.28872701e+03,
         1.09764597e+05, -4.53988954e+04,  1.11926064e+04]))

## **Nueva Predicción**

In [20]:
nuevo = [[0.1, 44, 50000, 900, 35,	1, 0, 1.0, 4, 1, 2, 2, 1, 0, 0]]
pred = modelo.predict(nuevo)
pred



array([265918.10784815])

## **2. Modelo de regresión con árbol de decisión**

La regresión con árbol de decisión es una técnia de aprendizaje automático utilizada para realizar predicciones de lvalorres numpericos continuos. A diferencia de la regresión lineal, que utiliza una función lineal para modelar la relación entre variables, los árboles de decisión deividen el espaicon de características en regiones más pequeñas y contruyen un árbol para tomar decisiones basadas en reglas lógicas.

El árbol de decisión se contruye dividiendo recursivamente el conjunto de datos en subconjuntos más pequeños y homogéneos, donde cada división se realiza en función de una característica específica y un umbral. Cada hoja de árbol representa una región del espacio o característica y tiene asociado un valor numérico que representa la predicción para los datos que caen en esa región.

Durante la construcción del árbol, se busca la división que minimice el error de predicción en cada subconjunto. El algoritmo del árbol de decisión utiliza diversas métricas para evaluar la calidad de una divis<arianza.

Una vez que el árbol de decisión está construido, se puede utliziar para realizar predicciones de nuevos datos al seguir las reglas definidas en cada nodo interno del árbol, desde la raiz hasta una hoja correspondiente a la region donde caen los datos.


In [21]:
# Entrenamiento del modelo
modelo = DecisionTreeRegressor(max_depth=15)
modelo.fit(X_train, y_train)

In [22]:
# Test y score del modelo
y_pred = modelo.predict(X_test)
print(metrics.r2_score(y_test, y_pred))

0.2140862860485908


## **Nueva predicción**

In [23]:
# predicción del modelo
nuevo = [[0.1, 44, 50000, 900, 35,	1, 0, 1.0, 4, 1, 2, 2, 1, 0, 0]]
pred = modelo.predict(nuevo)
pred



array([325000.])

## **3. Modelo de regresión con Multi Layer Perceptrón (MLP)**

La regresión con Multi Layer Perceptrón (MLP) es una técnica de aprendizaje automático que utiliza redes neuronales para realizar predicciones de valores numéricos continuos, a diferencia de los modelos de regresión lineal a los árboles de decisión, que tilizan ecuaciones o reglas lógicas para realizar predicciones, los MLP son modelos más complejos y flexibles qeu pueden aprender relaciones no lineales en los datos.

Un MLP consta de múltiples capas de neuronas interconectadas. La primera capa, conocida como la capa de entrada, recibe las características del conjunto de datos. Las capas intemedias, llamadas capas oculatas, relaizan transformaciones no lineales de las entradas para extraer características más complejas y abstractas. La última capa, conocida como capa de salida, proporciona la predicción final del modelo.

In [24]:
# configuracion y entrenamiento de la red neuronal
modelo = MLPRegressor(hidden_layer_sizes=(100, 60, 30, 10))
modelo.fit(X_train, y_train)

In [25]:
# test y score del modelo
y_pred = modelo.predict(X_test)
print(metrics.r2_score(y_test, y_pred))

0.592634318170218


## **Nueva predicción**

In [26]:
# Prediccion del modelo
nuevo = [[0.1, 44, 50000, 900, 35,	1, 0, 1.0, 4, 1, 2, 2, 1, 0, 0]]
pred = modelo.predict(nuevo)
pred



array([132132.37918461])

## **4. Modelo de regresión con red neuronal densa - Keras**

Esta arquitectura está compuesta por multiples capas ocultas entre la capa de entrada y la capa de salida, lo que permite aprender relaciones no linelales y representaciones complejas de los datos.

In [27]:
# Regresión con redes neuronales profundas
from pandas import read_csv
from keras.models import Sequential
from keras.layers import Dense
# from keras.wrappers.scikit_learn import KerasRegressor
from scikeras.wrappers import KerasRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

In [68]:
def modelo():
    # Creacmos el modelo
    model = Sequential()
    model.add(Dense(15, input_dim=15, kernel_initializer='normal', activation='relu'))
    model.add(Dense(1, kernel_initializer='normal'))
    # Compilamos el modelo
    model.compile(loss='mean_squared_error', optimizer='adam')
    return model

In [69]:
dataframe = read_csv('./regresion_valor_casa.csv', sep=',', header=0)

In [70]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   price            1728 non-null   int64  
 1   lotSize          1728 non-null   float64
 2   age              1728 non-null   int64  
 3   landValue        1728 non-null   int64  
 4   livingArea       1728 non-null   int64  
 5   pctCollege       1728 non-null   int64  
 6   bedrooms         1728 non-null   int64  
 7   fireplaces       1728 non-null   int64  
 8   bathrooms        1728 non-null   float64
 9   rooms            1728 non-null   int64  
 10  heating          1728 non-null   object 
 11  fuel             1728 non-null   object 
 12  sewer            1728 non-null   object 
 13  waterfront       1728 non-null   object 
 14  newConstruction  1728 non-null   object 
 15  centralAir       1728 non-null   object 
dtypes: float64(2), int64(8), object(6)
memory usage: 216.1+ KB


In [71]:
# convertir los categóricos a numéricos
dataframe['heating'] = Categorico_a_numerico(dataframe['heating'])
dataframe['fuel'] = Categorico_a_numerico(dataframe['fuel'])
dataframe['sewer'] = Categorico_a_numerico(dataframe['sewer'])
dataframe['waterfront'] = Categorico_a_numerico(dataframe['waterfront'])
dataframe['newConstruction'] = Categorico_a_numerico(dataframe['newConstruction'])
dataframe['centralAir'] = Categorico_a_numerico(dataframe['centralAir'])

In [72]:
ds = dataframe.values
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   price            1728 non-null   int64  
 1   lotSize          1728 non-null   float64
 2   age              1728 non-null   int64  
 3   landValue        1728 non-null   int64  
 4   livingArea       1728 non-null   int64  
 5   pctCollege       1728 non-null   int64  
 6   bedrooms         1728 non-null   int64  
 7   fireplaces       1728 non-null   int64  
 8   bathrooms        1728 non-null   float64
 9   rooms            1728 non-null   int64  
 10  heating          1728 non-null   int8   
 11  fuel             1728 non-null   int8   
 12  sewer            1728 non-null   int8   
 13  waterfront       1728 non-null   int8   
 14  newConstruction  1728 non-null   int8   
 15  centralAir       1728 non-null   int8   
dtypes: float64(2), int64(8), int8(6)
memory usage: 145.2 KB


In [73]:
# Entrenar utilizando validación cruzada k=10
estimador = KerasRegressor(build_fn=modelo, epochs=10, batch_size=5, verbose=0)
kfold = KFold(n_splits=10)

# Separacion de variales predictoras y variables objetivo
X = ds[:,1:16]
Y = ds[:,15]

X = X.astype('float32')
Y = Y.astype('float32')

resultado = cross_val_score(estimator=estimador, X=X, y=Y, cv=kfold)
print("MSE: %.2f +/- (%.2f)" % (resultado.mean(), resultado.std()))

  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)
  X, y = self._initialize(X, y)


MSE: -5.54 +/- (11.73)


## **Nueva prediccion**

In [74]:
# Predicción del modelo
nuevo = [[0.1, 44, 50000, 900, 35,	1, 0, 1.0, 4, 1, 2, 2, 1, 0, 0]]
pred = modelo().predict(nuevo)
pred



array([[-178.42166]], dtype=float32)

## **5. Modelo de regresión con K vecinos más cercanos**

La regresión con el algoritmo de Vecinos más cercanos (KNN, por sus siglas en inglés "K-Nearst Neighbors") es una técnica de aprendizaje automático utilizada para predecir valores numéricos continuos. Aunque K-NN es más conocido par su uso en problemas de clasificación también puede aplicarse a tareas de regresión. A nivel de algoritmo, la principal diferencia entre K-NN para clasificación y K-NN para regresión está en cómo se realiza la predicción y cómo se calcula en valor resultante.

***K-NN para Clasificación***

1. **Predicción**: En el caso de K-NN para clasificación, la predicción se realiza asignando una etiqueta a la clase al punto de interés basándose en la mayoría de las clases entre sus K vecinos más cercanos. El punto de interés se clasifica en la clase que es más frencuente en los K vecinos.

2. **Cálculo de la prediccioón** Para calcular la predicción, se utiliza la moda (la clase más común entre los K vecinos más cercanos al punto de interés)

***K-NN para Regresión***


1. **Predicción** En K-NN para regresión, la predicción se realiza calculando un valor numérico para el punto de interés basándose en los valores de la variable objetivo de sus K vecinos más cercanos. El punto de interés se predice como un valor numérico continuo.

2. **Cálculo de la predicción** Para calcular la predicción, se toma el promedio (o la mediana) de los valores de la variable objetivo de los k vecinos más cercanos al punto de interés. Esta media (o mediana) se toma como el valor de predicción para el punto de interés.

In [75]:
# Entrenamiento del modelo
modelo = KNeighborsRegressor(n_neighbors=6)
modelo.fit(X_train, y_train)

In [76]:
# test y score del modelo
y_pred = modelo.predict(X_test)
print(metrics.r2_score(y_test, y_pred))

0.48271695146489


## **Nueva predicción**

In [78]:
# Predicción del modelo
nuevo = [[0.1, 44, 50000, 900, 35,	1, 0, 1.0, 4, 1, 2, 2, 1, 0, 0]]
pred = modelo.predict(nuevo)
pred



array([150114.])

## **Modelo de regresión con máquina de vector de soporte**

La regresión con Máquina de Soporte Vectorial (SVM, por sus siglas en inglés "Support Vector Machine") es una técnica de aprendizaje automático que se utiliza tanto para la clasificacion como para regresión. En el contexto de la regresión, se denomina SVM de Regresión (SVR)

En SVR, se busca encontrar una función f(x) que cumpla con las siguientes condiciones:

1. Los puntos de datos de entrenamiento deben estar dentro de una banda (epsilon) alrededor de la función f(x). Esta banda se llama margen y se define por el parámetro epsilón.

2. Se busca minimizar la cantidad de putno de datos que violan el margen. Estos puntos reciben el nombre de vectores de soporte y son los que más influyen en la definición de la función f(x).

3. El objetivo final es encontrar una función f(x) que minimize el error de predicción y cumpla con las condiciones anteriores.

In [79]:
# Entrenamiento del modelo
modelo = SVR(kernel='sigmoid', C=1)
modelo.fit(X_train, y_train)

In [80]:
# Test y score del modelo
y_pred = modelo.predict(X_test)
print(metrics.r2_score(y_test, y_pred))

-0.04644537109671987


## **Nueva predicción**

In [81]:
# Predicción del modelo
nuevo = [[0.1, 44, 50000, 900, 35,	1, 0, 1.0, 4, 1, 2, 2, 1, 0, 0]]
pred = modelo.predict(nuevo)
pred



array([191029.3121937])