___
<img style="float: right; margin: 0px 0px 15px 15px;" src="https://static.wixstatic.com/media/aa08c3_4431b1d1a196452bb094eb2f08d4c4eb.png/v1/fit/w_620%2Ch_277%2Cal_c/file.png" width="350px" height="480px" />


# <font color= #8A0829> Laboratorio de Modelado de Datos </font>
#### <font color= #2E9AFE> `Martes y Viernes (Videoconferencia) de 13:00 - 15:00 hrs`</font>
- <Strong> Sara Eugenia Rodr√≠guez </Strong>
- <Strong> A√±o </Strong>: 2025
- 
- <Strong> Email: </Strong>  <font color="blue"> `cd682324@iteso.mx` </font>
___

<p style="text-align:right;"> Imagen recuperada de: https://static.wixstatic.com/media/aa08c3_4431b1d1a196452bb094eb2f08d4c4eb.png/v1/fit/w_620%2Ch_277%2Cal_c/file.png</p>

### <font color= #2E9AFE> Tema: Regresi√≥n Lineal</font>

La regresi√≥n lineal es un m√©todo matem√°tico simple que se utiliza para comprender la relaci√≥n lineal entre una variable dependiente (lo que desea predecir) y una variable individual o un grupo de variables independientes (los factores que cree que afectan el valor de la variable dependiente).



**¬øQu√© es la regresi√≥n?**

La regresi√≥n muestra una l√≠nea o curva que pasa por todos los puntos de datos en un gr√°fico de tal manera que la distancia vertical entre los puntos de datos y la l√≠nea de regresi√≥n es la m√≠nima. 

Se usa principalmente para predicci√≥n pero tambi√©n es muy usada para determinar la relaci√≥n causa-efecto de las variables. 

Si hay una sola variable de entrada (x), dicha regresi√≥n lineal se denomina *regresi√≥n lineal simple*. Y si hay m√°s de una variable de entrada, dicha regresi√≥n lineal se denomina *regresi√≥n lineal m√∫ltiple*.

## Cu√°ndo se recomienda usar la regresi√≥n lineal?

1. Cuando la relaci√≥n entre las variables independientes  y la variable dependiente es aproximadamente lineal
2. Cuando la distribuci√≥n de las variables de entrada siguen una distribuci√≥n normal
3. Cuando los datos cumplen algunos supuestos
    - Linealidad
    - No Multicolinealidad
    - Homoscedasticidad
    - Normalidad en los residuales
4. Incluso si los modelos m√°s complejos pudieran ajustarse un poco mejor, la regresi√≥n lineal es ideal cuando el conjunto de datos es ‚Äúexplicable‚Äù y las partes interesadas necesitan coeficientes para comprender la influencia de cada variable.
5. Cuando no tienes muchos outliers

# Regresi√≥n Lineal M√∫ltiple

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import root_mean_squared_error
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

In [None]:
data = pd.read_csv('Advertising.csv',index_col='Unnamed: 0')

Este dataset contiene informaci√≥n sobre el n√∫mero de anuncios que se hizo por diferentes medios (TV, Radio, Newspaper, Sales) y el total de ventas que hubo. 

In [None]:
#Vistazo a los datos
data.head()

In [None]:
data.info()

In [None]:
data.describe()

In [None]:
sns.pairplot(data)

## Supuestos de la regresi√≥n lineal

Cuando se cumplen las siguientes suposiciones, nos podemos asegurar que los resultados son confiables

1. Linealidad
2. No Multicolinealidad
3. Homoscedasticidad
4. Normalidad en los residuales

### Linealidad

In [None]:
# Observar la relacion entre las variables independientes y la dependiente
p = sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales', height=7, aspect=0.7)

**Conclusion:**

Ahora el resto de los supuestos requieren que realicemos la regresi√≥n antes de que podamos verificarlos. As√≠ que realicemos una regresi√≥n....

In [None]:
#Ajustamos un modelo lineal
x = data.drop(["Sales"],axis=1)
y = data.Sales

In [None]:
#Dividimos en entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(x, y,random_state = 0,test_size=0.25)

In [None]:
#Escalamos los datos los datos
#Qu√© hacemos? normalizamos o estandarizamos?



In [None]:
#Entrenamos el modelo

#Inicializamos el modelo
reg = LinearRegression()

#Entrenamos el modelo con los datos de entrenamiento
reg.fit(X_train_scaled,y_train)

#Predecimos con el modelo entrenado en el test
y_pred = reg.predict(X_test_scaled)

#Predecimos con el modelo entrenado en el train
y_pred_train = reg.predict(X_train_scaled)

In [None]:
#graficamos las prediccions vs los valores reales
plt.scatter(y_test, y_pred)
plt.xlabel("Valores Reales")
plt.ylabel("Predicciones")
plt.title("Reales vs. Predicciones")
plt.show()

### Homoscedasticidad

In [None]:
#buscamos patrones en los residuales. Si no hay patrones y est√°n de forma aleatoria graficados entonces es bueno
residuales = y_test - y_pred
p = sns.scatterplot(x=y_pred, y=residuales)
plt.xlabel('Predicciones')
plt.ylabel('Residuales')
plt.ylim(-10,10)
plt.xlim(0,26)
p = sns.lineplot(x=[0,26],y=[0,0],color='blue')
p = plt.title('Residuales vs Predicciones - revisando homoscedasticidad')


### Normalidad de los residuales


In [None]:
import statsmodels.api as sm
import scipy.stats as stats
sm.qqplot(residuales, line='45')
plt.title("Q-Q Plot")
plt.show()

# Alternativamente, usamos un histograma
sns.histplot(residuales, kde=True)
plt.title("Histograma de Residuales")
plt.show()

# Shapiro-Wilk test para la normalidad
shapiro_test = stats.shapiro(residuales)
print(f'Shapiro-Wilk Test p-value: {shapiro_test.pvalue}')


Se utiliza una prueba de Shapiro-Wilk para evaluar la normalidad de un conjunto de datos. La hip√≥tesis nula (ùêª0) para la prueba de Shapiro-Wilk es que los datos se distribuyen normalmente.

La hip√≥tesis alternativa (ùêª1) es que los datos no se distribuyen normalmente.

Este valor tan peque√±o obtenido nos dice que se rechaza la hip√≥tesis nula, por lo tanto los residuales no est√°n distribuidos normalmente. 

### No multicolinealidad

En regresi√≥n, la multicolinealidad se refiere al grado en que las variables independientes est√°n correlacionadas. 

La multicolinealidad afecta los coeficientes y los p-values, pero no influye en las predicciones, la precisi√≥n de las predicciones. 

**NOTA**: Si tu objetivo principal es hacer predicciones y no necesitas interpretar o entender el papel de cada variable independiente, no necesitas reducir la multicolinealidad severa.

In [None]:
plt.figure(figsize=(20,20))
p=sns.heatmap(X_train.corr(), annot=True,cmap='RdYlGn',square=True)

La correlaci√≥n dentro de las variables dependientes es lo que debemos buscar y evitar. 

Conclusion:


En caso de que hubiera alguna, intentar√≠amos eliminar una de las variables correlacionadas dependiendo de cu√°l fuera m√°s importante para nuestro modelo de regresi√≥n.

### Qu√© tan preocupado deber√≠a estar si mi modelo no es perfecto, si mis residuales se ven un poquito mal?

La respuesta es... Tu decides.

Si est√°s publicando tu tesis en f√≠sica de part√≠culas, probablemente quieres asegurarse de que tu modelo sea lo m√°s preciso posible. Si est√°s tratando de realizar un an√°lisis r√°pido y sucio de las ventas del puesto de limonada de tu sobrino, un modelo no perfecto podr√≠a ser lo suficientemente bueno para responder cualquier pregunta que tengas (por ejemplo, si la "temperatura" parece afectar los "ingresos").

La mayor√≠a de las veces, un modelo decente es mejor que ninguno. As√≠ que toma el modelo, intenta mejorarlo y luego decide si la precisi√≥n es lo suficientemente buena como para ser √∫til para tus prop√≥sitos.


Aqu√≠ te dejo un poco de documentaci√≥n si quieres indagar en formas de c√≥mo mejorar los resultados de una regresi√≥n lineal:
https://www.qualtrics.com/support/stats-iq/analyses/regression-guides/interpreting-residual-plots-improve-regression/

### Evaluando el modelo


In [None]:
print(f"R^2 test: {r2_score(y_test, y_pred)}")
print(f"R^2 train: {r2_score(y_train, y_pred_train)}")

print(f"RMSE test: {root_mean_squared_error(y_test, y_pred)}")
print(f"RMSE train: {root_mean_squared_error(y_train, y_pred_train)}")

print(f"MAE test: {mean_absolute_error(y_test, y_pred)}")
print(f"MAE train: {mean_absolute_error(y_train, y_pred_train)}")

### Cross Validation

In [None]:
from sklearn.model_selection import cross_val_score, KFold
from sklearn.pipeline import Pipeline

# KFold para regresion
kf = KFold(n_splits=10, shuffle=True, random_state=42)


#creamos un pipeline donde estandarizamos los datos de entrenamiento y luego aplicamos el modelo
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])
scores = cross_val_score(pipeline, x, y, cv=kf, scoring='neg_root_mean_squared_error')
print(f"  MSE scores: {scores*-1}")
print(f"  Mean MSE: {(scores).mean()*-1:.4f}\n")

### Curva de aprendizaje

In [None]:
from sklearn.model_selection import learning_curve

# curva de aprendizaje
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])

train_sizes, train_scores, val_scores = learning_curve(
    estimator=pipeline,
    X=x,
    y=y,
    cv=kf,
    scoring='neg_root_mean_squared_error',
    train_sizes=np.linspace(0.1, 1.0, 10),
    n_jobs=-1,
    shuffle=True,
    random_state=42
)

train_mean = train_scores.mean(axis=1)
train_std = train_scores.std(axis=1)
val_mean = val_scores.mean(axis=1)
val_std = val_scores.std(axis=1)

# Plot
plt.figure(figsize=(10, 6))
plt.plot(train_sizes, train_mean, 'o-', label='Training score')
plt.plot(train_sizes, val_mean, 'o-', label='Validation score')
plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, alpha=0.1)
plt.fill_between(train_sizes, val_mean - val_std, val_mean + val_std, alpha=0.1)
plt.title('Curva de aprendizaje')
plt.xlabel('Set Size')
plt.ylabel('Error')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()