# Regresión Lineal

<li>La regresión lineal es un modelo utilizado para predecir un valor numérico continuo basado en una o más variables independientes.</li>
<li>El objetivo es encontrar la línea que mejor ajuste los datos, minimizando el error.</li>

# Fórmula Matemática:

<li>La fórmula de la regresión lineal para una variable independiente es:</li>

<img src="Modelo_Matematico_Linear_Regression.png" alt="Modelo Matematico" width="400" />


# Suposiciones

<ul>
<li>Relación lineal</li>
<li>Datos de Entradas no Correlacionadas</li>
<li>Sin Outliers</li>
</ul>

# Importacion de Librerias

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Importacion de Datos

In [None]:
datos = pd.read_csv("ingreso.csv", delimiter=';')
print(datos)

# Grafico de los datos

In [None]:
plt.ylabel("Ingreso ($)")
plt.xlabel("Promedio de horas semanales trabajadas")
plt.scatter(datos["horas"], datos["ingreso"], color="pink")
plt.grid(True)
plt.show()

# Creación del Modelo de Regresión Lineal

# Importación de la librería scikit-learn:

<li>Se importa el módulo linear_model de sklearn, que contiene algoritmos para regresión lineal</li>

In [None]:
from sklearn import linear_model

# Creación del modelo de regresión lineal:
<li>Se crea una instancia del modelo de regresión lineal llamado regresion</li>

In [None]:
regresion = linear_model.LinearRegression()

# Transformación de los datos:

<li>Se extrae la columna "horas" del DataFrame datos</li>
<li>Se transforma en un arreglo 2D con reshape((-1, 1))</li>
<li>Donde: </li>
<ul>"-1" significa que se ajustará automáticamente el número de filas<br>
    "1" indica que hay una sola columna de características (horas trabajadas)</ul>

In [None]:
horas = datos["horas"].values.reshape((-1, 1))

# Entrenamiento del modelo:

<li>El entrenamiento del modelo de regresión lineal implica encontrar los coeficientes 𝑤 que minimicen el <b>error cuadrático medio (MSE)</b>:</li>

<img src="Ecuacion_Error_Linear_Regression.png" alt="Modelo Matematico" width="200" />

<li>La formula para actualizar los pesos <b>w</b> y los sesgos <b>b</b> es mediante el calculo de la derivada parcial de la funcion de costo: <br> </li>

<img src="Gradiente_Descendente_Linear_Regression.png" alt="Gradiente Descendente" width="200"/>

<li>El calculo del valor de las derivadas parciales de la funcion de costo se calculan de la siguiente forma:</li>

<img src="Derivadas_Parciales_Linear_Regression.png" alt="Derivadas Parciales" width="400"/>

<li>La ejecucion de todo el algoritmo presentado se encarga el metodo <b>fit</b> en base modelo creado con el metodo <b>LinearRegression</b></li>

<li>Se entrena el modelo de regresión lineal utilizando los datos de horas trabajadas como entrada (X) y los ingresos como salida (Y)</li>

In [None]:
modelo = regresion.fit(horas, datos["ingreso"])

# Impresión de la intersección y la pendiente:

<li>Considerando el caso de regresion lineal simple (una entrada y una salida), con el anterior algoritmo de entrenamiento obtenemos la pendiente y la interseccion</li>

In [None]:
print("Intersección (b)", modelo.intercept_)
print("Pendiente (m)", modelo.coef_)

# Predicciones:

In [None]:
entrada = [[35], [48], [30], [50]]
modelo.predict(entrada)

# Gráficas de resultados:

In [None]:
plt.scatter(entrada, modelo.predict(entrada), color="red")
plt.plot(entrada, modelo.predict(entrada), color="black")

plt.ylabel("Ingreso ($)")
plt.xlabel("Promedio de horas semanales trabajadas")
plt.scatter(datos["horas"], datos["ingreso"], color="pink", alpha=0.55)
plt.grid(True)
plt.show()