# Regresión Lineal para Datos de Béisbol

Este notebook implementa un modelo de regresión lineal para predecir el número de carreras basado en estadísticas de bateo.

## Importar bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pickle

## Cargar los datos

In [None]:
# Cargar los datos
df = pd.read_csv('../data/beisbol.csv')

# Exploración inicial
print("Información del dataset:")
df.info()

print("\nEstadísticas descriptivas:")
df.describe()

## Visualización de datos

In [None]:
# Visualizar la relación entre bateos y carreras
plt.figure(figsize=(10, 6))
plt.scatter(df['bateos'], df['runs'], alpha=0.7)
plt.title('Relación entre Bateos y Carreras')
plt.xlabel('Bateos')
plt.ylabel('Carreras')
plt.grid(True, alpha=0.3)
plt.savefig('../results/beisbol_scatter.png')
plt.show()

## Preparación de datos

In [None]:
# Separar características y variable objetivo
X = df[['bateos']]
y = df['runs']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f'Tamaño del conjunto de entrenamiento: {X_train.shape[0]} muestras')
print(f'Tamaño del conjunto de prueba: {X_test.shape[0]} muestras')

## Entrenamiento del modelo

In [None]:
# Crear y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Coeficientes del modelo
print(f'Intercepto: {modelo.intercept_:.4f}')
print(f'Coeficiente para bateos: {modelo.coef_[0]:.4f}')

## Evaluación del modelo

In [None]:
# Realizar predicciones
y_pred = modelo.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Error cuadrático medio (MSE): {mse:.4f}')
print(f'Coeficiente de determinación (R²): {r2:.4f}')

## Visualización de resultados

In [None]:
# Visualizar la línea de regresión
plt.figure(figsize=(10, 6))
plt.scatter(X_test, y_test, color='blue', alpha=0.7, label='Datos reales')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Línea de regresión')
plt.title('Regresión Lineal: Bateos vs Carreras')
plt.xlabel('Bateos')
plt.ylabel('Carreras')
plt.legend()
plt.grid(True, alpha=0.3)
plt.savefig('../results/beisbol_regresion.png')
plt.show()

In [None]:
# Visualizar residuos
residuos = y_test - y_pred

plt.figure(figsize=(10, 6))
plt.scatter(y_pred, residuos, alpha=0.7)
plt.axhline(y=0, color='r', linestyle='-')
plt.title('Gráfico de Residuos')
plt.xlabel('Valores Predichos')
plt.ylabel('Residuos')
plt.grid(True, alpha=0.3)
plt.savefig('../results/beisbol_residuos.png')
plt.show()

## Guardar el modelo

In [None]:
# Guardar el modelo entrenado
with open('../models/modelo_beisbol.pkl', 'wb') as archivo:
    pickle.dump(modelo, archivo)

print('Modelo guardado correctamente.')