# Análisis de estadísticas de equipos de la MLB
En este notebook, analizaremos estadísticas básicas y avanzadas de equipos de la MLB para los últimos 5 años.

In [1]:
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup
import warnings
warnings.filterwarnings('ignore')

## Función para obtener datos de equipos
La siguiente función recupera estadísticas básicas de equipos de la MLB para un año específico usando la base de datos de Lahman.

In [None]:
def get_team_stats(year):
    """
    Obtiene estadísticas básicas de equipos de la MLB para un año específico
    usando la Lahman Baseball Database
    """
    # URL base para los datos de Lahman
    url = f"http://www.seanlahman.com/files/database/Teams{year}.csv"
    
    try:
        df = pd.read_csv(url)
        # Seleccionamos las columnas relevantes
        cols = ['teamID', 'W', 'L', 'R', 'AB', 'H', 'BB', 'SO', 'HR', 'ER']
        return df[cols]
    except:
        print(f"Error obteniendo datos para {year}")
        return None

## Función para calcular métricas avanzadas
Calculamos métricas avanzadas como OBP, SLG, OPS y porcentaje de bases por bolas.

In [None]:
def calculate_advanced_metrics(df):
    """
    Calcula métricas avanzadas de béisbol basadas en estadísticas básicas
    """
    # Calculamos OBP (On Base Percentage)
    df['OBP'] = (df['H'] + df['BB']) / (df['AB'] + df['BB'])
    
    # Calculamos SLG (Slugging Percentage)
    df['SLG'] = (df['H'] + df['HR'] * 3) / df['AB']
    
    # Calculamos OPS
    df['OPS'] = df['OBP'] + df['SLG']
    
    # Calculamos BB% (Base on Balls Percentage)
    df['BB%'] = df['BB'] / (df['AB'] + df['BB']) * 100
    
    return df

## Recolectar y procesar datos
Analizamos los datos de los últimos 5 años, calculamos métricas avanzadas y combinamos los resultados.

In [None]:
years = range(2019, 2024)
all_data = []

for year in years:
    df = get_team_stats(year)
    if df is not None:
        df['Year'] = year
        df = calculate_advanced_metrics(df)
        all_data.append(df)

# Combinamos todos los datos
final_df = pd.concat(all_data, ignore_index=True)

# Guardamos los datos procesados
final_df.to_csv('../data/processed/team_stats.csv', index=False)

## Mostrar resultados
Revisamos una muestra de los datos procesados, estadísticas descriptivas y valores faltantes.

In [None]:
# Mostramos las primeras filas de los datos
print("Muestra de los datos recolectados:")
display(final_df.head())

# Estadísticas básicas
print("\nEstadísticas descriptivas:")
display(final_df.describe())

# Verificamos valores faltantes
print("\nValores faltantes por columna:")
display(final_df.isnull().sum())