# Análisis de estadísticas de equipos de la MLB
En este notebook, analizaremos estadísticas básicas y avanzadas de equipos de la MLB para los últimos 5 años.

In [2]:
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup
import warnings
warnings.filterwarnings('ignore')

## Función para obtener datos de equipos
La siguiente función recupera estadísticas básicas de equipos de la MLB para un año específico usando la base de datos de Lahman.

In [7]:
# Función para cargar y filtrar datos
def load_and_filter_data(years):
    """
    Carga el archivo CSV de Lahman y selecciona las columnas relevantes.
    """
    teams_path = "../data/raw/Teams.csv"
    
    try:
        df = pd.read_csv(teams_path)
        # Filtramos por años
        df = df[df['yearID'].isin(years)]
        # Seleccionamos las columnas relevantes
        cols = ['yearID', 'teamID', 'W', 'L', 'R', 'AB', 'H', 'BB', 'SO', 'HR', 'ER']
        return df[cols]
    except Exception as e:
        print(f"Error cargando los datos: {e}")
        return None

## Función para calcular métricas avanzadas
Calculamos métricas avanzadas como OBP, SLG, OPS y porcentaje de bases por bolas.

In [4]:
def calculate_advanced_metrics(df):
    """
    Calcula métricas avanzadas de béisbol basadas en estadísticas básicas
    """
    # Calculamos OBP (On Base Percentage)
    df['OBP'] = (df['H'] + df['BB']) / (df['AB'] + df['BB'])
    
    # Calculamos SLG (Slugging Percentage)
    df['SLG'] = (df['H'] + df['HR'] * 3) / df['AB']
    
    # Calculamos OPS
    df['OPS'] = df['OBP'] + df['SLG']
    
    # Calculamos BB% (Base on Balls Percentage)
    df['BB%'] = df['BB'] / (df['AB'] + df['BB']) * 100
    
    return df

## Recolectar y procesar datos
Analizamos los datos de los últimos 5 años, calculamos métricas avanzadas y combinamos los resultados.

## Mostrar resultados
Revisamos una muestra de los datos procesados, estadísticas descriptivas y valores faltantes.

In [11]:
# Años para los cuales queremos procesar los datos
years = range(2019, 2024)

# Cargar y procesar datos
data = load_and_filter_data(years)
if data is not None:
    data = calculate_advanced_metrics(data)
    # Guardar el resultado
    data.to_csv("../data/processed/team_stats.csv", index=False)
    print("Datos procesados y guardados exitosamente.")

    # Mostrar muestra de los datos procesados
    print("Muestra de los datos:")
    display(data.head())

    # Estadísticas básicas
    print("\nEstadísticas descriptivas:")
    display(data.describe())
    
    # Verificar si existen valores faltantes
    print("\nValores faltantes por columna:")
    display(data.isnull().sum())
else:
    print("No se pudieron procesar los datos.")

Datos procesados y guardados exitosamente.
Muestra de los datos:


Unnamed: 0,yearID,teamID,W,L,R,AB,H,BB,SO,HR,ER,OBP,SLG,OPS,BB%
2895,2019,BAL,54,108,729,5596,1379,462,1435.0,213,897,0.303896,0.360615,0.66451,7.626279
2896,2019,BOS,84,78,901,5770,1554,590,1382.0,245,768,0.337107,0.396707,0.733814,9.27673
2897,2019,CHA,72,89,708,5529,1443,378,1549.0,182,769,0.308278,0.35974,0.668018,6.399187
2898,2019,CLE,93,69,769,5425,1354,563,1332.0,223,601,0.32014,0.372903,0.693044,9.402138
2899,2019,DET,47,114,582,5549,1333,391,1595.0,149,835,0.290236,0.320779,0.611014,6.582492



Estadísticas descriptivas:


Unnamed: 0,yearID,W,L,R,AB,H,BB,SO,HR,ER,OBP,SLG,OPS,BB%
count,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0,150.0
mean,2021.0,70.773333,70.773333,647.133333,4770.033333,1176.506667,456.353333,1221.393333,174.046667,594.373333,0.312562,0.356501,0.669063,8.8039
std,1.418951,24.317019,24.302939,200.407493,1408.778415,356.946366,140.128711,365.484599,61.028471,190.051337,0.013731,0.028976,0.041041,1.091264
min,2019.0,19.0,17.0,219.0,1752.0,390.0,147.0,440.0,51.0,181.0,0.274926,0.29193,0.568114,6.399187
25%,2020.0,57.5,59.5,610.5,5333.0,1240.25,421.5,1218.75,140.25,556.5,0.303963,0.335699,0.640027,7.957868
50%,2021.0,77.0,75.5,706.5,5428.5,1316.5,500.0,1373.5,182.0,635.5,0.312082,0.356627,0.665797,8.811114
75%,2022.0,89.75,88.0,772.0,5510.75,1387.5,556.75,1453.0,219.75,728.5,0.321968,0.373919,0.695053,9.572453
max,2023.0,111.0,114.0,947.0,5770.0,1554.0,653.0,1654.0,307.0,910.0,0.348833,0.440236,0.779437,11.588181



Valores faltantes por columna:


yearID    0
teamID    0
W         0
L         0
R         0
AB        0
H         0
BB        0
SO        0
HR        0
ER        0
OBP       0
SLG       0
OPS       0
BB%       0
dtype: int64