# Análisis Completo de Regresión Lineal

Este notebook muestra paso a paso cómo realizar un análisis de **Regresión Lineal** empleando un conjunto de datos que contiene:
- **valuationdate**: fecha de valoración (opcional para el modelo)
- **revenues**: ingresos
- **ebit**: utilidad antes de intereses e impuestos
- **depreciation**: depreciación
- **capex**: gastos de capital
- **ncwc**: cambio en capital de trabajo neto
- **bv**: (posiblemente) valor en libros
- **y**: variable objetivo que deseamos predecir (por ejemplo, un valor financiero o de valoración)

Iremos desde la **carga** y **exploración** del dataset hasta la **interpretación** de coeficientes y la **evaluación** de métricas importantes.

In [1]:
!wget https://github.com/javierherrera1996/IntroMachineLearning/raw/refs/heads/main/PrimerCorte/RegresionLineal/enterprise.csv

--2025-03-05 22:40:22--  https://github.com/javierherrera1996/IntroMachineLearning/raw/refs/heads/main/PrimerCorte/RegresionLineal/enterprise.csv
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMachineLearning/refs/heads/main/PrimerCorte/RegresionLineal/enterprise.csv [following]
--2025-03-05 22:40:22--  https://raw.githubusercontent.com/javierherrera1996/IntroMachineLearning/refs/heads/main/PrimerCorte/RegresionLineal/enterprise.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 82415 (80K) [text/plain]
Saving to: ‘enterprise.csv’


2025-03-05 22:40:22 (1.62 MB/s) - ‘ent

## Paso 0: Importar librerías y configuración

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (8, 6)

## Paso 1: Carga y Exploración de Datos (EDA)

En este primer bloque, cargaremos nuestro dataset y realizaremos un Análisis Exploratorio básico.

In [3]:
df = pd.read_csv("enterprise.csv")

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1061 entries, 0 to 1060
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   valuationdate  1061 non-null   object 
 1   revenues       1061 non-null   float64
 2   ebit           1061 non-null   float64
 3   depreciation   1061 non-null   float64
 4   capex          1061 non-null   float64
 5   ncwc           1061 non-null   float64
 6   bv             1061 non-null   float64
 7   y              1061 non-null   float64
dtypes: float64(7), object(1)
memory usage: 66.4+ KB


In [None]:
df.describe()

Unnamed: 0,revenues,ebit,depreciation,capex,ncwc,bv,y
count,1061.0,1061.0,1061.0,1061.0,1061.0,1061.0,1061.0
mean,163272.7,24076.40681,8002.050367,10961.602205,22324.130946,80571.62,329223.8
std,221382.8,31871.076559,13898.135849,20250.735197,54636.42154,104350.0,405670.1
min,85.6,-29982.97988,-5.69,-694.661,-118819.899,-15039.65,369.2
25%,42659.58,4522.9,999.34,1666.6,3115.247,16895.0,69810.1
50%,108201.1,12224.61195,3446.25,4949.447,10736.2,41722.9,185041.6
75%,186248.5,32228.94187,8361.22,11201.479,23454.185,114756.3,425827.3
max,2586712.0,289541.3,128993.5,205525.7,623588.7,1009026.0,4175892.0


In [None]:
df.head()

Unnamed: 0,valuationdate,revenues,ebit,depreciation,capex,ncwc,bv,y
0,30/06/2011,86470.7,10387.5,6429.0,3512.0,16848.9,47945.1,91760.8
1,31/12/2010,84754.2,14031.1808,8658.6,17172.5,12095.1,66804.4,184461.7
2,30/09/2016,15653.48,221.347452,647.239,749.478,1468.428,10128.726,23323.6852
3,30/09/2018,62001.3297,7551.761957,1808.83,2702.85,11873.25464,27144.93,130202.7924
4,30/09/2014,1242.83,497.141501,232.027,1552.908,149.971,1463.052,11472.12267


In [None]:
df.shape

(1061, 8)

### Estadísticas Descriptivas y Distribuciones

In [None]:
X = df[['revenues', 'ebit', 'depreciation', 'capex', 'ncwc', 'bv']]
y = df['y']

### Preguntas de Reflexión (Exploración)
1. ¿Qué tipo de problema estás intentando resolver al usar `y` como variable objetivo?
2. ¿Notas valores atípicos (outliers) en alguna de las variables? ¿Cómo podría afectar a la regresión lineal?
3. ¿Crees que la columna `valuationdate` podría aportar información para predecir `y`, o la excluirías del análisis?

_Responde con tu razonamiento propio aquí._

PREGUNTA 1 Es un problema de regresión, predicción de un valor financiero y de valoración
PREGUNTA 2  Probables en datos financieros, pueden afectar la regresión lineal causando estimaciones sesgadas, menor R² y predicciones menos precisas.
PREGUNTA 3 Podría aportar información (tendencias, eventos económicos), pero se recomienda excluirla inicialmente por simplicidad y luego evaluar su impacto.


## Paso 2: Preparación y Limpieza de Datos


1. **Manejo de valores faltantes**.
2. **Posible eliminación** o **imputación** de outliers.
3. **Transformaciones** (escalado, log, etc.) si son necesarias.

In [None]:
df.isnull().sum()

Unnamed: 0,0
valuationdate,0
revenues,0
ebit,0
depreciation,0
capex,0
ncwc,0
bv,0
y,0


In [None]:
for col in ['revenues', 'ebit', 'depreciation', 'capex', 'ncwc', 'bv']:
    if df[col].isnull().any():
        df[col].fillna(df[col].mean(), inplace=True)

In [None]:
def remove_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df_filtered = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
    return df_filtered

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


### Pregunta de Reflexión (Limpieza)

¿Por qué es relevante tratar valores faltantes y/o outliers **antes** de entrenar el modelo de regresión lineal?

Tratar valores faltantes y outliers antes de la regresión lineal es crucial porque:

Evita errores en el entrenamiento del modelo.
Previene sesgos en las estimaciones de los coeficientes.
Aumenta la precisión de las predicciones.
Mejora la capacidad de generalización del modelo.
En resumen, garantiza un modelo más fiable y preciso.

## Paso 4: Selección de Variables e Implementación del Modelo

1. **Seleccionar** cuáles columnas usarás como variables explicativas (features). Puede que uses todas o hagas una selección.
2. **Asignar** `X`
 (features) y `y` (variable objetivo).
3. **Dividir** en conjunto de entrenamiento (train) y conjunto de prueba (test).

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)


### Preguntas de Reflexión (Selección de Variables)
1. ¿Por qué es importante separar los datos en train y test?
2. ¿Qué pasaría si entrenas y evalúas en el **mismo** conjunto de datos?




1. Train: El modelo "estudia" (se entrena) con estos datos.
Test: Es un "examen" con datos nuevos para ver qué tan bien aprendió y si puede generalizar (resolver problemas que no ha visto antes). 2.Si se entrena y evalúa en el mismo conjunto de datos, se corre el riesgo de sobreajuste (overfitting). El modelo podría memorizar los patrones específicos del conjunto de datos de entrenamiento y obtener una alta precisión en ese conjunto, pero no ser capaz de generalizar bien a datos nuevos.




## Paso 5: Entrenar el Modelo de Regresión Lineal
Usaremos la clase `LinearRegression` de scikit-learn.

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)


### Interpretación de Coeficientes
Si la lista de features es `["revenues", "ebit", "depreciation", "capex", "ncwc", "bv"]` y tu `model.coef_` es algo como `[a, b, c, d, e, f]`, entonces:

\[ y \approx \beta_0 + a\cdot revenues + b\cdot ebit + c\cdot depreciation + d\cdot capex + e\cdot ncwc + f\cdot bv \]

Cada coeficiente indica cómo cambia `y` en promedio **por cada unidad** que se incrementa la variable (manteniendo las demás constantes).

## Paso 6: Evaluación y Validación del Modelo
Usaremos las siguientes métricas:
- **MSE (Mean Squared Error)**
- **MAE (Mean Absolute Error)**
- **R² (Coeficiente de Determinación)**

In [None]:
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [None]:
f"Mean Squared Error (MSE): {mse}\nR-squared (R2): {r2}"

'Mean Squared Error (MSE): 107778655517.23926\nR-squared (R2): 0.5022850121187653'

### Preguntas de Reflexión (Evaluación)
1. ¿Por qué comparamos las métricas en **Entrenamiento** vs **Prueba**?
2. ¿Qué significa si el error en entrenamiento es **muy** distinto (mucho menor o mucho mayor) que en prueba?
3. ¿Cómo interpretar un **R²** cercano a 1, cercano a 0 o incluso negativo?

_Responde con tu razonamiento._

1. Para ver si el modelo realmente aprendió o solo memorizó las respuestas (datos de entrenamiento). Queremos que funcione bien con datos nuevos (prueba), no solo con los que ya vio.

2. Error mucho menor en entrenamiento: Probablemente el modelo memorizó y no generaliza bien (sobreajuste).
Error mucho mayor en entrenamiento: Algo raro pasa, el modelo ni siquiera aprendió bien con los datos de entrenamiento.

3. R² cercano a 1:El modelo explica muy bien los datos, predice con bastante precisión.
R² cercano a 0: El modelo no sirve mucho, predice casi tan mal como si solo dijera el promedio.
R² negativo: Predice peor que el promedio, esta mal


### Pregunta de Reflexión (Residuos)
Si observas un patrón claro en la gráfica de residuos (por ejemplo, forma de U), ¿qué podría indicar respecto a las **asunciones** de la regresión lineal?

Un patrón claro en la gráfica de residuos, como una forma de U, indica que la regresión lineal simple no es adecuada para los datos. Sugiere una relación no lineal o que faltan variables importantes en el modelo.

## Paso 8: Interpretación y Conclusiones

1. **Revisa** los coeficientes: ¿son consistentes con la lógica de negocio? (p.ej., si `ebit` aumenta, esperas que `y` aumente o disminuya?).
2. **Observa** el nivel de error y R²: ¿el modelo es suficientemente bueno para su uso práctico?
3. **Considera** la posibilidad de:
   - Añadir más variables.
   - Aplicar **regresiones polinómicas** (X², X³) si sospechas no linealidad.
   - Usar **regularización** (Ridge, Lasso) si hay multicolinealidad o se requieren coeficientes más estables.

In [None]:
("Coeficientes:", model.coef_)

('Coeficientes:',
 array([   8070.84300463,  162804.53815549,   38389.55163156,
        -133528.99434077,   18270.67626562,  227656.0414013 ]))

In [None]:
feature_names = ['revenues', 'ebit', 'depreciation', 'capex', 'ncwc', 'bv']
for i, coef in enumerate(model.coef_):
   f"{feature_names[i]}: {coef}"

In [None]:
f"Mean Squared Error (MSE): {mse}"
f"R-squared (R2): {r2}"

'R-squared (R2): 0.5022850121187653'

### Preguntas de Reflexión Final
1. ¿Crees que la Regresión Lineal Simple/Múltiple **captura adecuadamente** las relaciones en tus datos?
2. ¿Qué otras técnicas (ej. árboles de decisión, bosques aleatorios, etc.) considerarías para comparar resultados?
3. ¿El dataset es suficientemente grande y variado para hacer conclusiones robustas?

_Responde con tu razonamiento._

1. No estamos seguros si la regresión lineal es la mejor opción. Podría haber relaciones no lineales en los datos.


2. Bosques Aleatorios (Random Forests): Combinan múltiples árboles de decisión para mejorar la precisión y la robustez.
Support Vector Machines (SVM): Útiles para problemas de clasificación y regresión, especialmente con datos de alta dimensionalidad.
Árboles de Decisión: Son flexibles y pueden capturar relaciones no lineales, además de proporcionar interpretabilidad.


3. El dataset no es enorme, así que las conclusiones podrían no ser definitivas. Idealmente, necesitaríamos más datos y más variedad para estar seguros.


## Resumen
En este Notebook hemos:
1. **Explorado** los datos (EDA) y detectado posibles outliers.
2. **Limpieza** de datos y transformaciones opcionales.
3. **Seleccionado** variables y dividido en train/test.
4. **Entrenado** un modelo de Regresión Lineal.
5. **Evaluado** con MSE, MAE, R² y analizado residuos.
6. **Reflexionado** sobre los coeficientes y conclusiones.

¡Has completado un **análisis de regresión lineal** de forma integral! Para afianzar, puedes:
- Ajustar parámetros (aunque la regresión lineal simple en sklearn no tiene muchos).
- Comparar con otros modelos.
- Realizar validación cruzada en lugar de una simple división train/test.

¡Éxitos en tu proyecto de análisis!