<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Regresión

Programa creado para mostrar ejemplos prácticos de los visto durante la clase<br>
v1.1

### Objetivos: 
*   Introducción a regresiones.
*   Conocer como funciona la regresión lineal.
*   Evaluar el resultado de una regresión lineal.
*   Comprender como funciona la regresión polinomial.
*   Evaluar el resultado de una regresión polinomial considerando el grado y el error mínimo.
*   Conocer como funciona la regresión con gradiente descendente.


# Machine Learning supervisado - Regresión

## 1 - Datos

In [None]:
#Librerias a implementar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# df DataFrame creado a partir de pd.DataFrame, cuyas columnas son; x, y
df = pd.DataFrame({
      "x": [1, 5, 10, 15, 20, 25, 30],
      "y": [5, 12, 11, 23, 19, 28, 36]}
      )
df

In [None]:
# Separar los datos "X" e y
# Se utiliza .values para acceder solo a los valores de las columnas.
X = df['x'].values
y = df['y'].values

In [None]:
# Se graficar los valores de X e y en un scatterplot (Gráfico de dispersión)
# Se crea el espacio para dibujar con fig = plt.figure()
# Se crea el espacio para el gráfico ax = fig.add_subplot()
# sns, alias Seaborn
# Método que representa el gráfico de dispersión
# Necesita los valores de X, y 
# label es la etiqueta que representa el significado de la línea del gráfico.
# ax=ax, es el eje base preexistentes para la representación gráfica horizontal.
# ax.legend(), para ver la leyenda
# ax.grid('dashed'), para ver la grilla indicando el tipo.
# Muestra la figura

fig = plt.figure()
ax = fig.add_subplot()
sns.scatterplot(x=X, y=y, label='datos', ax=ax, color='blue')
ax.legend()
ax.grid('dashed')
plt.show()

## 2 - Modelo Base (promediador)

In [None]:
# Creamos una función base promediador
# Recibe todos los valores de X
# Divide y con cada X y de los resultados calcula el promedio en W
# La función retorna el resultado de multiplicar cada valor de X por el promedio
# y la variable W que a su vez representa la pendiente.

def predecir(X):
   W = np.mean(y / X)
   return (X * W), W

In [None]:
# Se invoca a la función y pasandole los valore de X
# creando las dos variables que van a capturar los valores de y_hat_base y la pendiente
y_hat_base, pendiente = predecir(X)
print(y_hat_base)
print(f'Pendiente: {pendiente:.2f}')

In [None]:
# Graficar los datos y la recta del promediador
# variable "pendiente" almacena el valor de la pendiente obtenido de la función
# Variable X con los valores de X
# Punto de donde parte la recta desde el eje y
# recta_promediador calcula todos los puntos de la recta promediador
# a través de la ecuación de la recta=m.x+b
recta_promediador =  pendiente * X + 0

fig = plt.figure()
ax = fig.add_subplot()
# Código para el gráfico de dispersión
sns.scatterplot(x=X, y=y, label='datos', ax=ax, color='blue')

# Código para el gráfico de la recta del promediador
sns.lineplot(x=X, y=recta_promediador, label='promediador', color='darkviolet', ax=ax)
ax.legend()
ax.grid('dashed')
plt.show()

## 3 - Algoritmo de Regresión lineal (y = m*x + b)

In [None]:
# Se importa la herramienta de sklearn.linear_model como LinearRegression
from sklearn.linear_model import LinearRegression

# Se crea el objeto lr a partir que significa Regresión lineal a partir de la clase LinearRegression()
lr = LinearRegression()

# Del objeto lr se puede acceder al método fit con la notación del punto
# Necesita los valores de X haciendole un ajuste con reshape para que haga el entrenamiento junto a los 
# valores de y
lr.fit(X.reshape(-1, 1), y)

# Luego del objeto lr se puede acceder al método predict() que se encarga de hacer las precciones para cada
# valor de X
y_hat= lr.predict(X.reshape(-1, 1))

# Del objeto lr se puede acceder a los métodos coef_[0] (pendiente) y intercept(corte en el eje y) 
print(f"Pendiente (W1): {lr.coef_[0]:.2f}")
print(f"Ordenada al origen (W0): {lr.intercept_:.2f}")

In [None]:
# Graficar la recta de la regresión lineal y el promediador
# Variable "pendiente" almacena  el valor de la pendiente obtenido de la función
# Variable X con los valores de X
# Punto de donde parte la recta desde el eje y
# recta_promediador calcula todos los puntos de la recta promediador
# a través de la ecuación de la recta=m.x+b
recta_promediador =  pendiente * X + 0

ly2 = X * lr.coef_ + lr.intercept_

fig = plt.figure()
ax = fig.add_subplot()

# Código para el gráfico de dispersión
sns.scatterplot(x=X, y=y, label='datos', ax=ax, color='blue')

# Código para los gráficos de línea (uno para promediador, el otro para regresión)
sns.lineplot(x=X, y=recta_promediador, label='promediador', ax=ax, color='darkviolet')
sns.lineplot(x=X, y=ly2, label='regresion', color='y', ax=ax)
ax.legend()
ax.grid('dashed')
plt.show()

## 4 - Métricas para la regresión

In [None]:
# Es un coeficiente de determinación, determina la capacidad de un modelo para predecir futuros resultados. 
# El mejor resultado posible es 1.0
# Fuente: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html
# Se importa la herramienta de sklearn.metrics como r2_score
from sklearn.metrics import r2_score

# r2_score necesita los valore a comparar los reales por un lado y los de la predicción por otro 
# Se comparan ambos resultados
lr_r2 = r2_score(y, y_hat)
base_r2 = r2_score(y, y_hat_base)

print(f"Promediador: coeficiente de determinación: {base_r2:.2f}")
print(f"Regresión: coeficiente de deterinación: {lr_r2:.2f}")

## 5 - Regresión polinomial

In [None]:
def coseno(X):
    return np.cos(1.5 * np.pi * X)

In [None]:
# Los valores X_train, y_train, X_test e y_test estarán contenidos por valores artificiales

# Número de valores que tendrá X_train e y_train 
n_samples = 30

# Se arma una matriz ordenada con números aleatorios hasta el 30
X_train = np.sort(np.random.rand(n_samples))

# Los valores de y_train se obtendrán a través de la función coseno más el resultado de 
# multiplicar X_train * 0.1
y_train = coseno(X_train) + X_train * 0.1

# Se arman los valores para X_test e y_test
# X_test almacena una array con 100 valores en el rango de a a 1 
X_test = np.linspace(0, 1, 100)

# Los valores y_test serán 100 valores producto de aplicar la función coseno
y_test = coseno(X_test)

### La regresión polinomial busca la curva que mejor se ajusta a los datos. 

Una vez conseguido, los datos se ajustan y se puede aplicar una regresión lineal.

In [None]:
# Se importa el algoritmo de sklearn.preprocessing  como PolynomialFeatures
# Se importa la métrica de sklearn.metrics como mean_squared_error(MSE)
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Se tendrán dos variables con listas vacías que almacenarán
# Una mse_list, los errores
# grados_list, almacenará los grados del polinomio de cada entrenamiento 
mse_list = []
grados_list = []

# El bucle iterará 9 veces, para degree 1,2,3,4,5,6,7,8,9
for degree in range(1, 10):

    # Se crea el objeto polynomial_features a partir de la clase  PolynomialFeatures()
    # y se indica la variable degree    
    poly = PolynomialFeatures(degree=degree)
    
    # Se aplica el método fit_transform indicando los X para entrenar y evaluar
    # haciendo un ajuste con reshape
    X_train_poly = poly.fit_transform(X_train.reshape(-1, 1))
    X_test_poly = poly.fit_transform(X_test.reshape(-1, 1))

    # Se aplica una regresión lineal una vez conseguido los valores para X_train y X_test del polinomio 
    # Se crea el objeto de regresión lineal
    # Se aplica el método fin con los X del polinomio
    # Luego se hace el predict
    lr = LinearRegression()
    lr.fit(X_train_poly, y_train)
    y_hat = lr.predict(X_test_poly)

    # Se calcula el error (MSE)
    mse = mean_squared_error(y_test, y_hat)

    # El error en cada iteración se va guardando en la lista mse_list
    mse_list.append(mse)

    # Al igual que el grado del polinomio
    grados_list.append(degree)

    # Asi como también, en cada iteración se hace un print del grado y error.
    print(f"Gradio de polinomio {degree}, error: {mse}") # print del error

In [None]:
# Representación gráfica de linea
# De los grados con respecto al error
plt.title("Nivel óptimo de complejidad del modelo")
plt.plot(grados_list, mse_list, label="test")

# Identificación del eje y 
plt.ylabel("Error")
plt.show()

# Print de error más bajo y el grado que corresponde a ese error
print('Error mínimo:', min(mse_list))
print('Nivel óptimo:', mse_list.index(min(mse_list))+1)

In [None]:
# Se importa el algoritmo de  sklearn.preprocessing  como PolynomialFeatures
# Se importa el normalizador como MinMaxScaler de sklearn.preprocessing
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# Se crea el objeto poly
poly = PolynomialFeatures(degree=8)

# Se aplica fit_transform con el grado con menor error
X_train_poly = poly.fit_transform(X_train.reshape(-1, 1))
X_test_poly = poly.fit_transform(X_test.reshape(-1, 1))

# Una vez que se tienen los valores de X del polinomio identificado 
# Se aplica una regresiín lineal con los nuevos valore de X
lr = LinearRegression()
lr.fit(X_train_poly, y_train)
y_hat = lr.predict(X_test_poly)

## 6 - Regresión con gradiente descendente
Nota: Se hablará y explicará más sobre el gradiente descendente en la clase en redes neuronales

In [None]:
# Se importa el algoritmo de sklearn.linear_model  como SGDRegressor
# Se importa el normalizador como MinMaxScaler de sklearn.preprocessing
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import SGDRegressor

# Se crea el objeto scaler
scaler = MinMaxScaler()

# Se aplica el método fit para los valores de X ajustados con un reshape(1,-1)
scaler.fit(X.reshape(-1, 1))

# Se aplica el método transform para los valores de X ajustados con un reshape(1,-1)
X_norm = scaler.transform(X.reshape(-1, 1))

# Se crea el objeto a partir de la clase SGDRegressor indicando el max_iter(Máximo de iteraciones)
#  tol=0.01, criterio para detenerse y obterner el siguiente valor
reg = SGDRegressor(max_iter=1000, tol=0.01)

# Se entrena con fit y los valores X_norm, y
reg.fit(X_norm, y)

# Y se aplica el predict para obtener las predicciones de X_norm
y_hat = reg.predict(X_norm)

# Se muestra la pendiente 
# Y el punto donde la recta pasa por el eje y

print(f"Pendiente (W1): {reg.coef_[0]:.2f}")
print(f"Ordenada al origen (W0):", reg.intercept_)
print("Ojo! Los coeficientes fueron afectados por la normalización, no es conveniente utilizarlos")

In [None]:
# Se representa graficamente la recta del gradiente, los puntos correctamente estimados y los datos

# Para ello se crea un array de valores para aplicar la normalización y posteriomente el predict
lx3 = np.array([0, X.max()])
lx3_norm = scaler.transform(lx3.reshape(-1, 1))
ly3 = reg.predict(lx3_norm)

fig = plt.figure()
ax = fig.add_subplot()
sns.scatterplot(x=X, y=y, label='datos', ax=ax, color='darkcyan')
sns.scatterplot(x=X, y=y_hat, color='r', ax=ax, label='puntos predicción')
sns.lineplot(x=lx3, y=ly3, label='recta gradiente', color='b', ax=ax)
ax.legend()
ax.grid('dashed')
plt.show()

In [None]:
# Es un coeficiente de determinación, determina la capacidad de un modelo para predecir futuros resultados. 
# El mejor resultado posible es 1.0
from sklearn.metrics import r2_score
reg_r2 = r2_score(y, y_hat)
print(f"Gradiente: coeficiente de deterinación: {reg_r2:.2f}")