# Fundamentos Teóricos de la Regresión Lineal

La regresión lineal es un método estadístico utilizado para modelar la relación entre una variable dependiente y una o más variables independientes. El objetivo principal es encontrar una línea recta que minimice la suma de los errores al cuadrado entre los valores observados y los valores predichos.

### Ecuación de la Regresión Lineal
La ecuación de una línea recta es:

$$ y = mx + b $$

Donde:
- $y$: Variable dependiente (lo que queremos predecir).
- $x$: Variable independiente (el predictor).
- $m$: Pendiente de la línea (cambio en $y$ por unidad de cambio en $x$).
- $b$: Intersección con el eje $y$ (valor de $y$ cuando $x = 0$).

### Supuestos de la Regresión Lineal
1. Relación lineal entre las variables.
2. Los residuos tienen una media de cero.
3. Homocedasticidad: Varianza constante de los errores.
4. Independencia de los errores.
5. Normalidad de los errores (en el caso de regresión lineal simple).

### Fundamento Matemático
La regresión lineal minimiza la suma de los errores al cuadrado (SSE):

$$
SSE = \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$

Donde $y_i$ son los valores observados y $\hat{y}_i$ son los valores predichos. Esto se logra resolviendo las siguientes ecuaciones normales:

$$
\hat{m} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}
$$

$$
\hat{b} = \bar{y} - \hat{m}\bar{x}
$$

### Fundamento Estadístico
La regresión lineal asume que los errores $\epsilon$ siguen una distribución normal con media cero y varianza constante:

$$
\epsilon \sim \mathcal{N}(0, \sigma^2)
$$

Esto permite realizar pruebas de hipótesis y construir intervalos de confianza para los coeficientes estimados.

# ¿Cómo funciona el método OLS (Mínimos Cuadrados Ordinarios)?

El método de **Mínimos Cuadrados Ordinarios (OLS)** se utiliza para ajustar un modelo de regresión lineal, buscando minimizar los errores entre los valores reales y los valores predichos por el modelo.

---

## Pasos del método OLS

- **1. Calcular los residuos (errores):**  
  Para cada observación, se calcula la diferencia entre el valor observado $y_i$ y el valor predicho por el modelo $\hat{y}_i$:

$$
  e_i = y_i - \hat{y}_i
$$
  

- **2. Elevar los residuos al cuadrado:**  
  Esto convierte todos los errores en positivos y penaliza más los errores grandes:

$$
  e_i^2 = (y_i - \hat{y}_i)^2
$$  

- **3. Sumar los residuos cuadrados (SSR):**  
  Se suman todos los errores cuadrados para obtener la **Suma de los Residuos Cuadrados (SSR)**:

$$
  SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$  

- **4. Minimizar la suma:**  
  OLS busca los coeficientes del modelo (pendiente $\beta_1$ y ordenada al origen $\beta_0$) que minimicen el SSR.  
  El modelo lineal básico es:

$$
  \hat{y}_i = \beta_0 + \beta_1 x_i
$$  

---

## Ejemplo práctico

Supón que tienes los siguientes datos:

| x | y |
|---|---|
| 1 | 2 |
| 2 | 4 |
| 3 | 5 |

Propones un modelo:

$$
\hat{y} = 1 + 1.2x
$$

Calculas los residuos:  
- Para $x = 1$: $\hat{y} = 2.2$, residuo = $2 - 2.2 = -0.2$  
- Para $x = 2$: $\hat{y} = 3.4$, residuo = $4 - 3.4 = 0.6$  
- Para $x = 3$: $\hat{y} = 4.6$, residuo = $5 - 4.6 = 0.4$

$$
SSR = (-0.2)^2 + (0.6)^2 + (0.4)^2 = 0.04 + 0.36 + 0.16 = 0.56
$$]

El modelo OLS ajustará los coeficientes para minimizar ese valor.

---

Este proceso permite encontrar la mejor recta que se ajusta a los datos, optimizando la predicción y facilitando la interpretación de relaciones lineales.

## ¿Cómo se eligen los coeficientes $\beta_0$ y $\beta_1$?

El método OLS encuentra los valores óptimos de $\beta_0$ (intersección) y $\beta_1$ (pendiente) que **minimizan la suma de los errores al cuadrado** (SSR). Esto se logra derivando la función de pérdida (el SSR) con respecto a cada parámetro y resolviendo el sistema resultante.

### Fórmulas para regresión lineal simple

Dado un conjunto de datos $(x_i, y_i)$, los coeficientes se calculan como:

$$
\beta_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}
$$

$$
\beta_0 = \bar{y} - \beta_1 \bar{x}
$$

Donde:
- $\bar{x}$ es la media de los valores de $x$
- $\bar{y}$ es la media de los valores de $y$

### Interpretación

- $\beta_1$ representa el **cambio esperado en $y$ por cada unidad de cambio en $x$**.
- $\beta_0$ representa el **valor esperado de $y$ cuando $x = 0$**.

### 
Ejemplo con datos

Supón que tienes:

| x | y |
|---|---|
| 1 | 2 |
| 2 | 4 |
| 3 | 5 |

Calculamos:

- $\bar{x} = \frac{1 + 2 + 3}{3} = 2$
- $\bar{y} = \frac{2 + 4 + 5}{3} = 3.67$

Luego:

$$
\beta_1 = \frac{(1-2)(2-3.67) + (2-2)(4-3.67) + (3-2)(5-3.67)}{(1-2)^2 + (2-2)^2 + (3-2)^2}
= \frac{(-1)(-1.67) + (0)(0.33) + (1)(1.33)}{1 + 0 + 1}
= \frac{1.67 + 0 + 1.33}{2} = \frac{3}{2} = 1.5
$$

$$
\beta_0 = 3.67 - 1.5 \cdot 2 = 3.67 - 3 = 0.67
$$

Entonces el modelo ajustado sería:

$$
\hat{y} = 0.67 + 1.5x
$$

---

Estos coeficientes son los que **minimizan el SSR** y definen la recta de mejor ajuste para los datos observados.

In [1]:
# Generar un dataset más complejo para análisis de regresión
import numpy as np
import pandas as pd
import plotly.express as px

# Generar datos simulados
np.random.seed(42)
X = np.random.uniform(0, 10, 100)
Y = 3 * X + 7 + np.random.normal(0, 2, 100)

data = pd.DataFrame({'X': X, 'Y': Y})

# Visualizar los datos
fig = px.scatter(data, x='X', y='Y', title='Relación entre X e Y', labels={'X': 'Variable Independiente', 'Y': 'Variable Dependiente'})
fig.show()

In [3]:
# Clonar el repositorio y cambiar de directorio
!git clone https://github.com/davidjamesknight/SQLite_databases_for_learning_data_science
%cd SQLite_databases_for_learning_data_science

fatal: destination path 'SQLite_databases_for_learning_data_science' already exists and is not an empty directory.
/Users/jorgeramirez/Documents/Python Projects/4 Predictive Models/SQLite_databases_for_learning_data_science
/Users/jorgeramirez/Documents/Python Projects/4 Predictive Models/SQLite_databases_for_learning_data_science


In [4]:
# Conectar a la base de datos y realizar el query para obtener el dataset completo
import sqlite3
import pandas as pd
conn = sqlite3.connect('mpg.db')
query = """
SELECT
    O.mpg,
    O.cylinders,
    O.displacement,
    O.horsepower,
    O.weight,
    O.acceleration,
    O.model_year,
    ORG.origin,
    N.name
FROM
    Observation AS O
JOIN
    Origin AS ORG ON O.origin_id = ORG.origin_id
JOIN
    Name AS N ON O.name_id = N.name_id
"""
df = pd.read_sql_query(query, conn)
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [5]:
# Resumen estadístico del dataset
df.describe()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0


In [6]:
# Visualización de distribuciones para variables numéricas con Plotly
import plotly.express as px
numerical_vars = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year']
for col in numerical_vars:
    fig = px.histogram(df, x=col, nbins=30, title=f'Distribución de {col}', marginal="box", opacity=0.7)
    fig.update_layout(bargap=0.2)
    fig.show()

In [7]:
# Transformación de variables categóricas y visualización de frecuencias con Plotly
import plotly.express as px

categorical_vars = ['origin', 'name']
for col in categorical_vars:
    freq_df = df[col].value_counts().reset_index()
    freq_df.columns = [col, 'Frecuencia']
    fig = px.bar(freq_df, x=col, y='Frecuencia', title=f'Frecuencias de {col}', labels={col: col.capitalize(), 'Frecuencia': 'Frecuencia'})
    fig.update_layout(xaxis={'categoryorder':'total descending'})
    fig.show()

In [26]:
# Crear matriz de correlación con plotly
import plotly.figure_factory as ff

corr_matrix = df[numerical_vars].corr().round(2)

# Crear gráfico
fig = ff.create_annotated_heatmap(
    z=corr_matrix.values,
    x=corr_matrix.columns.tolist(),
    y=corr_matrix.index.tolist(),
    colorscale='hot',
    showscale=True,
    annotation_text=corr_matrix.values
)

fig.update_layout(
    title='Matriz de Correlación'
)

fig.show()

In [9]:
# Crear un pairplot con Plotly con proporciones ajustadas
import plotly.express as px

fig = px.scatter_matrix(
    df,
    dimensions=numerical_vars,
    color='origin',
    title='Pairplot de Variables Numéricas',
    labels={col: col.capitalize() for col in numerical_vars}
)
fig.update_layout(
    width=1200,
    height=1200,
    title_font_size=20
)
fig.update_traces(diagonal_visible=True)
fig.show()

- El consumo de combustible (mpg) está fuertemente correlacionado con las variables: Cylinders, Displacement, Horsepower y Weight.
  - Un aumento en estos valores implica una disminución en el rendimiento de millas por galón, lo cual tiene sentido: un vehículo pesado, con un motor potente y gran caballaje consumiría más energía, resultando en un menor rendimiento de combustible.
- Las variables independientes que pretendemos usar en nuestra regresión también están correlacionadas.
  - Sospechamos de un problema de multicolinealidad. Probablemente lo probaremos y corregiremos más adelante en nuestro análisis.

In [10]:
# Escalamiento de variables numéricas y transformación de categóricas con diccionario de encoders
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
import pandas as pd

# Diccionario de encoders para variables categóricas
encoders = {
    'origin': OneHotEncoder(drop='first', sparse_output=False),
    'name': LabelEncoder()
}

# Manejo de valores faltantes (rellenar con la mediana para numéricas y 'desconocido' para categóricas)
for col in numerical_vars:
    df[col].fillna(df[col].median(), inplace=True)
for col in encoders.keys():
    df[col].fillna('desconocido', inplace=True)

# Escalar variables numéricas
scaler = StandardScaler()
df[numerical_vars] = scaler.fit_transform(df[numerical_vars])

# Aplicar encoders a las variables categóricas
for col, encoder in encoders.items():
    if isinstance(encoder, LabelEncoder):
        df[col] = encoder.fit_transform(df[col])
    elif isinstance(encoder, OneHotEncoder):
        encoded = encoder.fit_transform(df[[col]])
        encoded_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out([col]))
        df = pd.concat([df.drop(columns=[col]), encoded_df], axis=1)

# Dividir el dataset
X = df.drop(columns=['mpg'])
y = df['mpg']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.




A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.




A

In [15]:
# Entrenar y evaluar el modelo de regresión lineal
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

model = LinearRegression()
model.fit(X_train, y_train)

# Calcular R² en el conjunto de entrenamiento
y_train_pred = model.predict(X_train)
r2_train = r2_score(y_train, y_train_pred)
print(f"Coeficiente de Determinación (R²) en entrenamiento: {r2_train}")

y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Error Cuadrático Medio (MSE): {mse}")
print(f"Coeficiente de Determinación (R^2): {r2}")

Coeficiente de Determinación (R²) en entrenamiento: 0.8199068812340466
Error Cuadrático Medio (MSE): 0.13701341104743897
Coeficiente de Determinación (R^2): 0.8447160537764753


In [13]:
import statsmodels.api as sm

# Agregar una constante para el término de intersección
X_train_const = sm.add_constant(X_train)

# Ajustar el modelo con statsmodels
model = sm.OLS(y_train, X_train_const)
results = model.fit()

# Imprimir el resumen datos de entrenamiento
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                    mpg   R-squared:                       0.820
Model:                            OLS   Adj. R-squared:                  0.815
Method:                 Least Squares   F-statistic:                     155.8
Date:                Wed, 17 Sep 2025   Prob (F-statistic):          4.57e-109
Time:                        00:23:38   Log-Likelihood:                -183.18
No. Observations:                 318   AIC:                             386.4
Df Residuals:                     308   BIC:                             424.0
Df Model:                           9                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const            0.1550      0.093      1.666   

In [17]:
# Datos de prueba con statsmodels
X_test_const_sm = sm.add_constant(X_test)

y_test_pred_sm = results.predict(X_test_const_sm)

mse_test = mean_squared_error(y_test, y_test_pred_sm)
r2_test = r2_score(y_test, y_test_pred_sm)
print(f"Error Cuadrático Medio (MSE) en prueba: {mse_test}")
print(f"Coeficiente de Determinación (R²) en prueba: {r2_test}")

Error Cuadrático Medio (MSE) en prueba: 0.13701341104746806
Coeficiente de Determinación (R²) en prueba: 0.8447160537764424


In [18]:
# Análisis de multicolinealidad con VIF (Variance Inflation Factor)
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Calcular el VIF para cada característica
vif_data = pd.DataFrame()
vif_data['Variable'] = X_train.columns
vif_data['VIF'] = [variance_inflation_factor(X_train.values, i) for i in range(X_train.shape[1])]

print("Análisis de Multicolinealidad (VIF):")
print(vif_data)

Análisis de Multicolinealidad (VIF):
       Variable        VIF
0     cylinders  11.011785
1  displacement  21.631017
2    horsepower   9.033270
3        weight  10.458163
4  acceleration   2.498102
5    model_year   1.296424
6          name   2.338369
7  origin_japan   1.667394
8    origin_usa   2.284432


In [23]:
# Eliminar características con VIF alto (por ejemplo, VIF > 10)
high_vif_features = vif_data[vif_data['VIF'] > 10]['Variable']
X_train_reduced = X_train.drop(columns=high_vif_features)
X_test_reduced = X_test.drop(columns=high_vif_features)

# Imprimir las variables con VIF alto
print(f"Variables eliminadas por alto VIF: {list(high_vif_features)}")

Variables eliminadas por alto VIF: ['cylinders', 'displacement', 'weight']


In [20]:
# Entrenar un nuevo modelo con las características reducidas
model_reduced = LinearRegression()
model_reduced.fit(X_train_reduced, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [21]:
# Evaluar el modelo reducido
y_pred_reduced = model_reduced.predict(X_test_reduced)
mse_reduced = mean_squared_error(y_test, y_pred_reduced)
r2_reduced = r2_score(y_test, y_pred_reduced)
print(f"Error Cuadrático Medio (MSE) con características reducidas: {mse_reduced}")
print(f"Coeficiente de Determinación (R²) con características reducidas: {r2_reduced}")

Error Cuadrático Medio (MSE) con características reducidas: 0.2022759169217946
Coeficiente de Determinación (R²) con características reducidas: 0.7707508895262614


In [22]:
# Importancia de características basada en los coeficientes del modelo
importance = pd.DataFrame({
    'Variable': X_train_reduced.columns,
    'Importancia': np.abs(model_reduced.coef_)
}).sort_values(by='Importancia', ascending=False)

print("Importancia de las características:")
print(importance)

Importancia de las características:
       Variable  Importancia
0    horsepower     0.648348
5    origin_usa     0.473679
2    model_year     0.338842
1  acceleration     0.184318
4  origin_japan     0.111607
3          name     0.000221


In [24]:
# Ajustar el modelo reducido con statsmodels para obtener p-values
X_train_reduced_const = sm.add_constant(X_train_reduced)
model_reduced_sm = sm.OLS(y_train, X_train_reduced_const).fit()
print(model_reduced_sm.summary())

# Recalcular el VIF para las variables del modelo reducido
vif_data_reduced = pd.DataFrame()
vif_data_reduced['Variable'] = X_train_reduced.columns
vif_data_reduced['VIF'] = [variance_inflation_factor(X_train_reduced.values, i) for i in range(X_train_reduced.shape[1])]
print("Análisis de Multicolinealidad (VIF) para el modelo reducido:")
print(vif_data_reduced)

                            OLS Regression Results                            
Dep. Variable:                    mpg   R-squared:                       0.751
Model:                            OLS   Adj. R-squared:                  0.746
Method:                 Least Squares   F-statistic:                     156.2
Date:                Wed, 17 Sep 2025   Prob (F-statistic):           9.98e-91
Time:                        00:46:00   Log-Likelihood:                -234.80
No. Observations:                 318   AIC:                             483.6
Df Residuals:                     311   BIC:                             509.9
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const            0.2249      0.104      2.169   

In [25]:
# Selección de características basada en p-values con statsmodels
import plotly.express as px
import statsmodels.api as sm

# Agregar constante para el término de intersección
X_train_const = sm.add_constant(X_train)

# Ajustar modelo inicial
model = sm.OLS(y_train, X_train_const).fit()
p_values = model.pvalues[1:]  # Excluir el término de intersección
selected_features = p_values[p_values <= 0.05].index.tolist()

# Filtrar las características seleccionadas
X_train_selected = X_train[selected_features]
X_test_selected = X_test[selected_features]

# Entrenar modelo con características seleccionadas
model_selected = LinearRegression()
model_selected.fit(X_train_selected, y_train)

# Evaluar el modelo
y_pred_selected = model_selected.predict(X_test_selected)
mse_selected = mean_squared_error(y_test, y_pred_selected)
r2_selected = r2_score(y_test, y_pred_selected)
print(f"Error Cuadrático Medio (MSE): {mse_selected}")
print(f"Coeficiente de Determinación (R²): {r2_selected}")

# Visualizar resultados con plotly
results_df = pd.DataFrame({
    'Valores Reales': y_test,
    'Valores Predichos': y_pred_selected
})
fig = px.scatter(results_df, x='Valores Reales', y='Valores Predichos',
                 title='Valores Reales vs Predichos (Modelo Simplificado)',
                 labels={'Valores Reales': 'Valores Reales', 'Valores Predichos': 'Valores Predichos'})
fig.add_shape(type='line', x0=y_test.min(), y0=y_test.min(), x1=y_test.max(), y1=y_test.max(),
              line=dict(color='red', dash='dash'))
fig.show()

Error Cuadrático Medio (MSE): 0.14060422068723133
Coeficiente de Determinación (R²): 0.8406464149962879
