<a href="https://colab.research.google.com/github/ednavivianasegura/ERAP_CursoPython/blob/main/Modulo2_Fundamentos_AI/.ipynb_checkpoints/RegresionLineal-checkpoint.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!git clone https://github.com/ednavivianasegura/ERAP_CursoPython.git

In [None]:
import os
os.chdir("/content/ERAP_CursoPython/Modulo2_Fundamentos_AI")


# RegresiÃ³n lineal
$$
y = \underbrace{\beta_0}_\text{Intercepto} + \underbrace{\beta_1}_\text{Coeficiente 1} x_1 + \underbrace{\beta_2}_\text{Coeficiente 2}  x_2 + \underbrace{\beta_3}_\text{Coeficiente 3}  x_3 + \underbrace{\beta_4}_\text{Coeficiente 4}  x_4
$$


### Conceptos.

1. El tÃ©rmino *regresiÃ³n lineal* se refiere a que el modelo es lineal en sus parÃ¡metros:
$$
\beta_1,\beta_2,\beta_3....\beta_i
$$

2. Las variables:
$$
x_1,x_2,x_3...x_i
$$
reciben el nombre de variables independientes o explicativas.

3. La variable:  **y**  recibe el nombre de variable dependiente o explicada.


### Supuestos

1. **Independencia de los errores:** los errores son independientes entre sÃ­. No deben estar correlacionados.
2. **Homoscedasticidad** (varianza constante del error): La varianza de los errores es constante para todos los valores de X.
3. **Normalidad de los errores:** Los errores siguen una distribuciÃ³n normal(esto es importante para hacer inferencia, no tanto para estimar Î²).
5. **No multicolinealidad** (en regresiÃ³n mÃºltiple): Las variables independientes no deben estar fuertemente correlacionadas entre sÃ­.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import statsmodels.api as sm
import matplotlib.pyplot as plt

In [None]:
print("--"*65)

# Ejemplo introductorio

In [None]:
# Definir los valores posibles y sus probabilidades

# 1. Generar datos correctamente
np.random.seed(42)
s = 1000

df = pd.DataFrame({
    'MetrosCuadrados': np.random.randint(30, 110, s),
    'Planta': np.random.randint(1, 11, s),
    'DistanciaPlaya_km': np.random.randint(1, 11, s)
})

# Coeficientes balanceados
df['Precio'] = (
    2000 +
    3500 * df['MetrosCuadrados'] +
    2500 * df['Planta'] -
    500  * df['DistanciaPlaya_km'] +
    np.random.normal(0, 1000, s)*2  # Ruido SD=1000
)

# 2. Guardar sin Ã­ndice (esto es crucial)
df.to_csv("data/PrecioVivienda.csv", index=False)

In [None]:
# Leer los datos
data = pd.read_csv("data/PrecioVivienda.csv")
data

In [None]:
# Generar un diagrama de calor para observar la correlaciÃ³n entre variables
corr = data.corr()
sns.heatmap(corr, cmap = 'Wistia', annot= True);

In [None]:
# Separar las variables explicativas y la objetivo
X = data.drop('Precio', axis=1)
y = data['Precio']

## Escalado (Standardization)
$$ z = \frac{x - \mu}{\sigma} $$

In [None]:
# Escalar caracterÃ­sticas (opcional pero recomendado)
# Manualmente (ejemplo)
#X_train_scaled = (X - np.mean(X, axis=0)) / np.std(X, axis=0)
#X_train_sm = sm.add_constant(X_train_scaled)                   # AÃ±adir intercepto

# Usando sklearn

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled = pd.DataFrame(X_scaled, columns=X.columns)

In [None]:
# 7. Dividir datos (usando datos escalados)
X_train, X_test, y_train, y_test = train_test_split(X_scaled,  # Usar datos escalados
                                                           y,
                                                    test_size=0.2,
                                                    random_state=42)

In [None]:
# 8. AÃ±adir constante para statsmodels
X_train_sm = sm.add_constant(X_train)

In [None]:
# 9. Entrenar modelo
ols_model = sm.OLS(y_train, X_train_sm).fit()
print(ols_model.summary())

## Diagnostico
0. **Linealidad**: GrÃ¡fico de residuos vs predichos â†’ no debe haber forma curva.
1. **Independencia de los errores:** Test de Durbin-Watson (valor cercano a 2 indica independencia).
2. **Homoscedasticidad** Test de Breusch-Pagan o White.
3. **Normalidad de los errores:** Test de normalidad: Shapiro-Wilk, Jarque-Bera.
5. **No multicolinealidad** Matriz de correlaciÃ³n. VIF (Variance Inflation Factor): valores > 10 indican alta colinealidad.

### InformaciÃ³n general del modelo


| Elemento                          | Valor                        | InterpretaciÃ³n                                                          |
| --------------------------------- | ---------------------------- | ----------------------------------------------------------------------- |
| **Modelo**                        | OLS (Ordinary Least Squares) | RegresiÃ³n lineal clÃ¡sica, minimiza la suma de cuadrados de los errores. |
| **Dependiente**                   | `Precio`                     | Estamos modelando el precio de la vivienda.              |
| **N. observaciones**              | 800                          | TamaÃ±o de la Muestra.                                                 |
| **Grados de libertad (modelo)**   | 3                            | Tres variables independientes.                                          |
| **Grados de libertad (residuos)** | 796                          | 800 - 3 - 1 (constante)                                                 |


### Calidad del modelo

| MÃ©trica                | Valor  | InterpretaciÃ³n                                                            |
| ---------------------- | ------ | ------------------------------------------------------------------------- |
| **R-squared**          | 0.999  | El modelo explica el **99.9% de la varianza** de la variable dependiente. |
| **Adj. R-squared**     | 0.999  | TambiÃ©n 0.999.EstÃ¡n las variables que son.     |
| **F-statistic**        | 415700 | Prueba global de significancia: extremadamente alto.                      |
| **Prob (F-statistic)** | 0.000  | El modelo es **estadÃ­sticamente significativo en conjunto**.              |


### Coeficientes y Significancia

| Prueba                    | Valor        | InterpretaciÃ³n                                                                 |
| ------------------------- | ------------ | ------------------------------------------------------------------------------ |
| **Durbin-Watson**         | 2.052        | Cerca de 2 â†’ los errores **no estÃ¡n autocorrelacionados** (supuesto cumplido). |
| **Omnibus** / **JB Test** | p = 0.270    | Prueba de normalidad de residuos â†’ p > 0.05 â†’ **normalidad aceptada**.         |
| **Skew / Kurtosis**       | -0.140 / \~3 | DistribuciÃ³n de errores **simÃ©trica y normal**.                                |
| **Cond. No. (CondiciÃ³n)** | 1.04         | **No hay colinealidad** severa entre variables (Esto serÃ­a excelente).         |


**Conclusiones generales:**

âœ… El modelo cumple los supuestos clÃ¡sicos de independencia y normalidad de errores.

âœ… Los coeficientes son significativos: Todas las variables aportan valor al modelo.

âœ… No hay multicolinealidad: CondiciÃ³n del nÃºmero muy baja.

ðŸš¨ RÂ² muy alto, hay que comprobar que no haya overfitting.

**Falta:**

ðŸš¨ Linealidad.

ðŸš¨ Homocedasticidad.

### Vamos a hacer las prediciones con el modelo

In [None]:
# Predicciones
y_train_pred_ols = ols_model.predict(X_train_sm)
X_test_sm        = sm.add_constant(X_test)
y_test_pred_ols  = ols_model.predict(X_test_sm)

## Linealidad

### GrÃ¡fico de residuos vs predichos â†’ no debe haber forma curva.

In [None]:
# ---------- Visualizaciones ---------- #
# 1. Real vs. Predicho
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.scatterplot(x=y_train, y=y_train_pred_ols, alpha=0.7)
plt.plot([y_train.min(), y_train.max()], [y_train.min(), y_train.max()], 'r--')
plt.title("Train: Real vs. Predicho")
plt.xlabel("Real")
plt.ylabel("Predicho")

plt.subplot(1, 2, 2)
sns.scatterplot(x=y_test, y=y_test_pred_ols, alpha=0.7)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.title("Test: Real vs. Predicho")
plt.xlabel("Real")
plt.ylabel("Predicho")

plt.tight_layout()
plt.show()

### Homocedasticidad

Al Graficar los residuos (error = real âˆ’ predicho) en el eje Y, contra los valores predichos en el eje X, debe mostrarse
una nube dispersa sin forma ni patrÃ³n

In [None]:
# Residuos vs. Valores ajustados
fitted_vals = ols_model.fittedvalues
residuals = ols_model.resid

plt.figure(figsize=(8, 5))
sns.residplot(x=fitted_vals, y=residuals, lowess=True, line_kws={'color': 'red'})
plt.axhline(0, linestyle='--', color='gray')
plt.xlabel("Valores Predichos")
plt.ylabel("Residuos")
plt.title("Residuos vs. Valores Predichos")
plt.show()

In [None]:
# 4. Q-Q PLOT ( Otra manera de verificar la normalidad de los residuos)
sm.qqplot(residuals, line='45', fit=True)
plt.title("GrÃ¡fico Q-Q de los residuos")
plt.show()

## ðŸš¨ Los Coeficientes hallados, estÃ¡n escalados, no son los reales de la regresiÃ³n.

$$
y = \beta_0 + \beta_1 z = \beta_0 + \beta_1 \left( \frac{X - \mu}{\sigma} \right) = \underbrace{\left( \beta_0 - \frac{\beta_1 \mu}{\sigma} \right)}_{\text{Nuevo intercepto}} + \underbrace{\left( \frac{\beta_1}{\sigma} \right)}_{\text{Nueva pendiente}} X
$$

## Ajuste de coeficientes
$$ \beta_0^{\text{original}} = \beta_0^{\text{escalado}} - \sum_{i=1}^n \left( \beta_i^{\text{escalado}} \cdot \frac{\mu_i}{\sigma_i} \right) $$

$$ \beta_i^{\text{original}} = \frac{\beta_i^{\text{escalado}}}{\sigma_i} $$

In [None]:
# Obtener los coeficientes originales.
scaler_means = scaler.mean_
scaler_stds = np.sqrt(scaler.var_)

intercepto_original  = ols_model.params.iloc[0] - np.sum(ols_model.params.iloc[1:] * scaler_means / scaler_stds)
coef_metros_original = ols_model.params.iloc[1] / scaler_stds[0]
coef_planta_original = ols_model.params.iloc[2] / scaler_stds[1]
coef_dist_original   = ols_model.params.iloc[3] / scaler_stds[2]

In [None]:
print("Intercepto_original:", intercepto_original)
print("Coef_metros_original:",coef_metros_original)
print("Coef_planta_original:",coef_planta_original)
print("Coef_dist_original:  ",coef_dist_original)

# Ahora con datos reales

### PredicciÃ³n de los precios del oro

In [None]:
# Leer los datos
data = pd.read_csv("data/GoldUP.csv")

In [None]:
data.head(2)

In [None]:
del data["Date"]

In [None]:
data

In [None]:
# correlation plot
corr = data.corr()
sns.heatmap(corr, cmap = 'Wistia', annot= True);

In [None]:
data.columns

In [None]:
#0      Crude_Oil   5.210012
#1  Interest_Rate   2.144892
#2        USD_INR  26.025052
#3         Sensex  20.330916
#4            CPI  62.018251
#5      USD_Index   3.918682

In [None]:
# Dividir entre variables explicativas y variable respuesta
# 1.Manteniendo todas las variables
#X = data.drop(['Gold_Price'], axis=1)
#y = data['Gold_Price']
# 2. Eliminando variables correlacionadas
X = data[['CPI','Crude_Oil']]
y = data['Gold_Price']
# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Standardize features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# ----------- OLS Regression with statsmodels ----------- #
# Add constant (intercept) for statsmodels
X_train_sm = sm.add_constant(X_train_scaled)

In [None]:
# Fit OLS model
ols_model = sm.OLS(y_train, X_train_sm).fit()

In [None]:
# Summary of the model
print("\nOLS Regression Summary:")
print(ols_model.summary())

In [None]:
# Predicciones
y_train_pred_ols = ols_model.predict(X_train_sm)
X_test_sm        = sm.add_constant(X_test_scaled)
y_test_pred_ols  = ols_model.predict(X_test_sm)

ðŸ“Œ **Â¿QuÃ© es el VIF  (Variance Inflation Factors)?**

El VIF mide cuÃ¡nto se infla la varianza de un coeficiente de regresiÃ³n debido a la colinealidad con otras variables.

VIF = 1 â†’ No hay colinealidad.

VIF entre 1 y 5 â†’ Aceptable, baja colinealidad.

VIF entre 5 y 10 â†’ Colinealidad moderada, cuidado.

VIF > 10 â†’ Alta colinealidad. Problema serio.

**Se recomienda:** Si se tiene informaciÃ³n confusa, eliminar las variables que estÃ©n fuertemente correlacionadas con otras (VIF > 10).

In [None]:
# Calcular VIFs
vif_data = pd.DataFrame()
vif_data["Feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X_train_scaled, i) for i in range(X_train_scaled.shape[1])]
print("\nVariance Inflation Factors (VIF):")
print(vif_data)

In [None]:
# ---------- Visualizaciones ---------- #

# 1. Real vs. Predicho
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.scatterplot(x=y_train, y=y_train_pred_ols, alpha=0.7)
plt.plot([y_train.min(), y_train.max()], [y_train.min(), y_train.max()], 'r--')
plt.title("Train: Real vs. Predicho")
plt.xlabel("Real")
plt.ylabel("Predicho")

plt.subplot(1, 2, 2)
sns.scatterplot(x=y_test, y=y_test_pred_ols, alpha=0.7)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.title("Test: Real vs. Predicho")
plt.xlabel("Real")
plt.ylabel("Predicho")

plt.tight_layout()
plt.show()

In [None]:
# Residuos vs. Valores ajustados
fitted_vals = ols_model.fittedvalues
residuals = ols_model.resid
plt.figure(figsize=(6, 4))
sns.scatterplot(x=y_train_pred_ols, y=residuals)
plt.axhline(0, color='red', linestyle='--')
plt.title("Residuos vs. Valores ajustados (Train)")
plt.xlabel("Valores ajustados")
plt.ylabel("Residuos")
plt.show()

In [None]:
# 4. Q-Q PLOT (Normalidad de los residuos)
sm.qqplot(residuals, line='45', fit=True)
plt.title("GrÃ¡fico Q-Q de los residuos")
plt.show()

# Aplicando log

In [None]:
# Leer los datos
data = pd.read_csv("data/GoldUP.csv")
del data["Date"]

In [None]:
# 1. TRANSFORMACIÃ“N DE LA VARIABLE DEPENDIENTE
y = np.log(data['Gold_Price'])  # TransformaciÃ³n logarÃ­tmica aquÃ­

In [None]:
# 2. SELECCIÃ“N DE VARIABLES (mantenemos CPI y Crude_Oil)
X = data[['CPI', 'Crude_Oil']]  # SelecciÃ³n directa de features relevantes

# Train-test split (ANTES de escalar)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 3. ESCALADO (solo variables independientes)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# 4. MODELO CON VARIABLE TRANSFORMADA
X_train_sm = sm.add_constant(X_train_scaled)
ols_model_log = sm.OLS(y_train, X_train_sm).fit()  # y_train es log(Gold_Price)

print("\nOLS Regression Summary (Log-Transformed):")
print(ols_model_log.summary())

### AnÃ¡lisis
Bondad de ajuste (excelente)
RÂ² = 0.936 â†’ El modelo explica el 93.6% de la variabilidad de log(Gold_Price).

RÂ² ajustado = 0.935 â†’ PrÃ¡cticamente igual al RÂ², confirma que las variables son relevantes.

F-statistic = 1378 (p-value â‰ˆ 0) â†’ El modelo es altamente significativo (p < 0.001).

**Clave:**

Ambos predictores son altamente significativos (p-value â‰ˆ 0).

**CPI** domina: Su impacto es â‰ˆ 2.1 veces mayor que Crude_Oil.

**Escala estandarizada:** Coeficientes comparables (1 SD de cambio).

### ValidaciÃ³n de supuestos (mejorÃ­a crÃ­tica)

**a) Normalidad de residuos:**

Jarque-Bera p-value = 0.118 â†’ No se rechaza normalidad (vs. pâ‰ˆ0 en modelo anterior).

Skew = 0.238 â†’ AsimetrÃ­a leve (mejorÃ³ desde 1.604).

Kurtosis = 2.442 â†’ MÃ¡s cercano a 3 (normalidad).

**b) AutocorrelaciÃ³n:**

Durbin-Watson = 1.947 â†’ Ausencia de autocorrelaciÃ³n (rango ideal 1.5-2.5).

**c) Multicolinealidad:**

Cond. No. = 1.93 â†’ Sin problemas (igual que antes).



| Indicador               | Modelo original         | Modelo log-transformado      | InterpretaciÃ³n / MejorÃ­a     |
|-------------------------|--------------------------|-------------------------------|------------------------------|
| Normalidad residuos     | Rechazada (pâ‰ˆ0)          | Aceptada (p=0.118)            | âœ…âœ…âœ…                       |
| AsimetrÃ­a (Skew)        | 1.604 (fuerte)           | 0.238 (leve)                  | âœ…âœ…âœ…                       |
| RÂ²                      | 0.939                    | 0.936                         | Similar                      |
| InterpretaciÃ³n          | Aditiva                  | Multiplicativa (%%)           | âœ…                           |

In [None]:
# 5. PREDICCIONES Y TRANSFORMACIÃ“N INVERSA
# Predicciones en escala logarÃ­tmica
y_train_pred_log = ols_model_log.predict(X_train_sm)
y_test_pred_log = ols_model_log.predict(sm.add_constant(X_test_scaled))

In [None]:
# Convertir predicciones a escala original
y_train_pred = np.exp(y_train_pred_log)
y_test_pred = np.exp(y_test_pred_log)

# 6. MÃ‰TRICAS EN ESCALA ORIGINAL (opcional pero recomendado)
# Obtener valores reales en original (no transformados)
y_train_orig = np.exp(y_train)
y_test_orig = np.exp(y_test)

In [None]:
# Calcular VIFs
vif_data = pd.DataFrame()
vif_data["Feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X_train_scaled, i) for i in range(X_train_scaled.shape[1])]
print("\nVariance Inflation Factors (VIF):")
print(vif_data)

In [None]:
# Residuos vs. Valores ajustados
residuals = y_train_orig - y_train_pred
plt.figure(figsize=(6, 4))
sns.scatterplot(x=y_train_pred, y=residuals)
plt.axhline(0, color='red', linestyle='--')
plt.title("Residuos vs. Valores ajustados (Train)")
plt.xlabel("Valores ajustados")
plt.ylabel("Residuos")
plt.show()

In [None]:
# Obtener los coeficientes originales.
scaler_means = scaler.mean_
scaler_stds = np.sqrt(scaler.var_)

intercepto_original     = ols_model_log.params.iloc[0] - np.sum(ols_model_log.params.iloc[1:] * scaler_means / scaler_stds)
coef_CPI_original       = ols_model_log.params.iloc[1] / scaler_stds[0]
coef_Crude_Oil_original = ols_model_log.params.iloc[2] / scaler_stds[1]

In [None]:
print("Coeficientes originales:")
print(f"Intercepto: {intercepto_original:.5f}")
print(f"CPI: {coef_CPI_original:.7f}")
print(f"Crude_Oil: {coef_Crude_Oil_original:.4f}")


## InterpretaciÃ³n de los coeficientes

### Partimos de la ecuaciÃ³n del modelo:
$$
\log(\text{Gold\_Price}) = \beta_0 + \beta_1 \cdot \text{CPI} + \beta_2 \cdot \text{Crude\_Oil}
$$

### Al aplicar exponencial a ambos lados, revertimos el logaritmo:
$$
\text{Original Gold\_Price} = e^{\beta_0} \cdot e^{\beta_1 \cdot \text{CPI}} \cdot e^{\beta_2 \cdot \text{Crude\_Oil}}
$$

### Si por ejemplo el CPI aumenta una unidad:
$$
\text{New Gold\_Price} = e^{\beta_0} \cdot e^{\beta_1 \cdot \text{CPI+1}} \cdot e^{\beta_2 \cdot \text{Crude\_Oil}}
$$

### El cambio porcentual se calcula como:

$$
\%\ \Delta = \left( \frac{\text{New Gold\_Price  -  Original Gold\_Price}}{\text{Original Gold\_Price}} \right) \times 100
$$

### Es decir:

$$
\%\ \Delta = \left( \frac{\text{New Gold\_Price}}{\text{Original Gold\_Price}} - 1 \right) \times 100
$$

### Sustituyendo:
$$
\%\ \Delta = \left( e^{\beta_1} - 1 \right) \times 100
$$

In [None]:
# Efecto porcentual
print("\nEfecto porcentual por unidad:")
print(f"Crude_Oil: {(np.exp(coef_Crude_Oil_original)-1)*100:.3f}%")
print(f"CPI: {(np.exp(coef_CPI_original)-1)*100:.2f}%")

### InterpretaciÃ³n econÃ³mica robusta

**a) CPI (InflaciÃ³n):**

El oro actÃºa como cobertura: +1  en inflaciÃ³n â†’ +1.88% en precio del oro.

Coeficiente consistente con teorÃ­a econÃ³mica.

**b) Crude_Oil (PetrÃ³leo):**

RelaciÃ³n positiva: +1  en petrÃ³leo â†’ +0.016% en oro.

Refleja correlaciÃ³n histÃ³rica entre commodities.