# Premier League - Análisis Histórico (1992-2025)

Este notebook contiene el análisis completo de datos históricos de la Premier League desde su creación.

## 1. Importar librerías y configuración

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("✓ Librerías importadas")

✓ Librerías importadas


## 2. Ejecutar el scraper robusto

In [2]:
# Ejecutar el scraper
%run scraper_robusto.py

2025-10-18 21:22:36,462 - INFO - INICIANDO EXTRACCIÓN DE DATOS DE PREMIER LEAGUE
2025-10-18 21:22:36,463 - INFO - Extrayendo temporada 1992-93...
2025-10-18 21:22:37,017 - INFO - [ES] ✓ 1992-93: 22 equipos extraídos
2025-10-18 21:22:37,823 - INFO - Extrayendo temporada 1993-94...
2025-10-18 21:22:38,254 - INFO - [ES] ✓ 1993-94: 22 equipos extraídos
2025-10-18 21:22:39,060 - INFO - Extrayendo temporada 1994-95...
2025-10-18 21:22:39,553 - INFO - [ES] ✓ 1994-95: 22 equipos extraídos
2025-10-18 21:22:40,360 - INFO - Extrayendo temporada 1995-96...
2025-10-18 21:22:40,778 - INFO - [ES] ✓ 1995-96: 20 equipos extraídos
2025-10-18 21:22:41,585 - INFO - Extrayendo temporada 1996-97...
2025-10-18 21:22:42,000 - INFO - [ES] ✓ 1996-97: 20 equipos extraídos
2025-10-18 21:22:42,806 - INFO - Extrayendo temporada 1997-98...
2025-10-18 21:22:43,224 - INFO - [ES] ✓ 1997-98: 20 equipos extraídos
2025-10-18 21:22:44,030 - INFO - Extrayendo temporada 1998-99...
2025-10-18 21:22:44,439 - INFO - [ES] ✓ 1998


Top 10 equipos por temporadas jugadas:
           Equipo  Total_Temporadas  Mejor_Posicion  Peor_Posicion
Manchester United                33             1.0           15.0
        Liverpool                33             1.0            8.0
          Everton                33             4.0           17.0
          Chelsea                33             1.0           14.0
Tottenham Hotspur                33             2.0           17.0
          Arsenal                33             1.0           12.0
      Aston Villa                30             2.0           20.0
 Newcastle United                30             2.0           18.0
  West Ham United                29             5.0           20.0
  Manchester City                28             1.0           18.0


## 3. Cargar y verificar datos

In [3]:
# Cargar datos completos
df = pd.read_csv('premier_league_completo_limpio.csv')

print(f"📊 Dataset cargado")
print(f"   Registros: {len(df):,}")
print(f"   Columnas: {len(df.columns)}")
print(f"   Temporadas: {df['Temporada'].nunique()}")
print(f"   Equipos únicos: {df['Equipo'].nunique()}")

# Mostrar primeras filas
df.head(10)

📊 Dataset cargado
   Registros: 666
   Columnas: 11
   Temporadas: 33
   Equipos únicos: 53


Unnamed: 0,Temporada,Pos,Equipo,PJ,G,E,P,Pts,GF,GC,Dif
0,1992-93,1,Manchester United,42,24,12,6,84.0,67,31.0,+36
1,1992-93,2,Aston Villa,42,21,11,10,74.0,57,40.0,+17
2,1992-93,3,Norwich City,42,21,9,12,72.0,61,65.0,−4
3,1992-93,4,Blackburn Rovers,42,20,11,11,71.0,68,46.0,+22
4,1992-93,5,Queens Park Rangers,42,17,12,13,63.0,63,55.0,+8
5,1992-93,6,Liverpool,42,16,11,15,59.0,62,55.0,+7
6,1992-93,7,Sheffield Wednesday,42,15,14,13,59.0,55,51.0,+4
7,1992-93,8,Tottenham Hotspur,42,16,11,15,59.0,60,66.0,−6
8,1992-93,9,Manchester City,42,15,12,15,57.0,56,51.0,+5
9,1992-93,10,Arsenal,42,15,11,16,56.0,40,38.0,+2


In [None]:
# Información del dataset
df.info()

## 4. Verificar calidad de datos

In [4]:
# Verificar valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum())
print(f"\nTotal de valores nulos: {df.isnull().sum().sum()}")

Valores nulos por columna:
Temporada      0
Pos            0
Equipo         0
PJ             0
G              0
E              0
P              0
Pts            2
GF             0
GC           238
Dif            0
dtype: int64

Total de valores nulos: 240


In [5]:
# Verificar temporadas
print("Temporadas en la base de datos:")
temporadas = df['Temporada'].value_counts().sort_index()
print(temporadas)

# Verificar si hay temporadas faltantes
all_seasons = [f"{y}-{str(y+1)[-2:]}" for y in range(1992, 2025)]
existing_seasons = df['Temporada'].unique().tolist()
missing_seasons = [s for s in all_seasons if s not in existing_seasons]

if missing_seasons:
    print(f"\n⚠️  Temporadas faltantes: {', '.join(missing_seasons)}")
else:
    print("\n✓ Todas las temporadas presentes")

Temporadas en la base de datos:
Temporada
1992-93    22
1993-94    22
1994-95    22
1995-96    20
1996-97    20
1997-98    20
1998-99    20
1999-00    20
2000-01    20
2001-02    20
2002-03    20
2003-04    20
2004-05    20
2005-06    20
2006-07    20
2007-08    20
2008-09    20
2009-10    20
2010-11    20
2011-12    20
2012-13    20
2013-14    20
2014-15    20
2015-16    20
2016-17    20
2017-18    20
2018-19    20
2019-20    20
2020-21    20
2021-22    20
2022-23    20
2023-24    20
2024-25    20
Name: count, dtype: int64

✓ Todas las temporadas presentes


In [None]:
# Verificar equipos por temporada
equipos_por_temporada = df.groupby('Temporada').size().sort_index()

print("Equipos por temporada:")
print(equipos_por_temporada)

# Verificar anomalías
anomalias = equipos_por_temporada[(equipos_por_temporada < 20) | (equipos_por_temporada > 22)]
if len(anomalias) > 0:
    print("\n⚠️  Temporadas con número inusual de equipos:")
    print(anomalias)
else:
    print("\n✓ Todas las temporadas tienen 20-22 equipos")

## 5. Cargar base de datos de tracking

In [None]:
# Cargar tracking de equipos
tracking_df = pd.read_csv('premier_league_tracking_equipos.csv')

print(f"📊 Tracking de equipos cargado")
print(f"   Equipos únicos: {len(tracking_df)}")

# Mostrar top 15 equipos
print("\nTop 15 equipos por temporadas jugadas:")
tracking_df[['Equipo', 'Total_Temporadas', 'Mejor_Posicion', 'Peor_Posicion']].head(15)

## 6. Análisis Exploratorio

In [None]:
# Equipos que han estado en TODAS las temporadas
total_temporadas = df['Temporada'].nunique()
siempre_premier = tracking_df[tracking_df['Total_Temporadas'] == total_temporadas]

print(f"Equipos que han estado en TODAS las {total_temporadas} temporadas:")
print(siempre_premier[['Equipo', 'Mejor_Posicion', 'Peor_Posicion']].to_string(index=False))

In [None]:
# Campeones por temporada
campeones = df[df['Pos'] == 1][['Temporada', 'Equipo', 'Pts', 'GF', 'GC']].sort_values('Temporada')

print("Campeones de Premier League por temporada:")
print(campeones.to_string(index=False))

In [None]:
# Número de títulos por equipo
titulos = campeones['Equipo'].value_counts().sort_values(ascending=False)

print("Títulos de Premier League por equipo:")
for equipo, count in titulos.items():
    print(f"  {equipo}: {count} {'título' if count == 1 else 'títulos'}")

## 7. Visualizaciones

In [None]:
# Gráfico: Títulos por equipo
plt.figure(figsize=(12, 6))
titulos.plot(kind='bar', color='steelblue')
plt.title('Títulos de Premier League por Equipo (1992-2024)', fontsize=14, fontweight='bold')
plt.xlabel('Equipo', fontsize=12)
plt.ylabel('Número de Títulos', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.grid(axis='y', alpha=0.3)
plt.show()

In [None]:
# Gráfico: Puntos del campeón por temporada
plt.figure(figsize=(14, 6))
plt.plot(campeones['Temporada'], campeones['Pts'], marker='o', linewidth=2, markersize=6)
plt.title('Puntos del Campeón por Temporada', fontsize=14, fontweight='bold')
plt.xlabel('Temporada', fontsize=12)
plt.ylabel('Puntos', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

## 8. Funciones de consulta

In [None]:
def ver_historial_equipo(equipo_nombre):
    """Muestra el historial completo de un equipo"""
    
    # Buscar equipos que coincidan
    equipos_disponibles = df['Equipo'].unique()
    coincidencias = [e for e in equipos_disponibles if equipo_nombre.lower() in e.lower()]
    
    if not coincidencias:
        print(f"No se encontró ningún equipo con '{equipo_nombre}'")
        return
    
    if len(coincidencias) > 1:
        print(f"Se encontraron {len(coincidencias)} equipos:")
        for e in coincidencias:
            print(f"  - {e}")
        print("\nPor favor, especifica mejor el nombre del equipo")
        return
    
    equipo = coincidencias[0]
    historial = df[df['Equipo'] == equipo].sort_values('Temporada')
    
    print(f"\n{'='*70}")
    print(f"HISTORIAL: {equipo}")
    print(f"{'='*70}")
    print(f"Temporadas jugadas: {len(historial)}")
    print(f"Mejor posición: {historial['Pos'].min()}° (Temporada {historial[historial['Pos'] == historial['Pos'].min()]['Temporada'].values[0]})")
    print(f"Peor posición: {historial['Pos'].max()}° (Temporada {historial[historial['Pos'] == historial['Pos'].max()]['Temporada'].values[0]})")
    print(f"Promedio de posición: {historial['Pos'].mean():.1f}°")
    print(f"\nHistorial completo:")
    print(historial[['Temporada', 'Pos', 'PJ', 'G', 'E', 'P', 'Pts', 'GF', 'GC']].to_string(index=False))
    
    return historial

# Ejemplo de uso
# ver_historial_equipo('Arsenal')

In [None]:
def ver_temporada(temporada):
    """Muestra la clasificación completa de una temporada"""
    
    temp_data = df[df['Temporada'] == temporada].sort_values('Pos')
    
    if len(temp_data) == 0:
        print(f"No se encontraron datos para la temporada {temporada}")
        return
    
    print(f"\n{'='*70}")
    print(f"PREMIER LEAGUE - TEMPORADA {temporada}")
    print(f"{'='*70}")
    print(temp_data[['Pos', 'Equipo', 'PJ', 'G', 'E', 'P', 'Pts', 'GF', 'GC', 'Dif']].to_string(index=False))
    
    return temp_data

# Ejemplo de uso
# ver_temporada('2015-16')  # Temporada del Leicester

In [None]:
def comparar_equipos(*equipos):
    """Compara el historial de múltiples equipos"""
    
    comparacion = []
    
    for equipo_nombre in equipos:
        coincidencias = [e for e in df['Equipo'].unique() if equipo_nombre.lower() in e.lower()]
        
        if len(coincidencias) == 1:
            equipo = coincidencias[0]
            historial = df[df['Equipo'] == equipo]
            
            comparacion.append({
                'Equipo': equipo,
                'Temporadas': len(historial),
                'Títulos': len(historial[historial['Pos'] == 1]),
                'Top 4': len(historial[historial['Pos'] <= 4]),
                'Mejor Pos': historial['Pos'].min(),
                'Peor Pos': historial['Pos'].max(),
                'Promedio Pos': historial['Pos'].mean(),
                'Total Pts': historial['Pts'].sum(),
                'Promedio Pts': historial['Pts'].mean()
            })
    
    comp_df = pd.DataFrame(comparacion)
    print("\nComparación de equipos:")
    print(comp_df.to_string(index=False))
    
    return comp_df

# Ejemplo de uso
# comparar_equipos('Manchester United', 'Arsenal', 'Chelsea', 'Liverpool')

## 9. Análisis específicos

In [None]:
# Top 10 mejores temporadas por puntos
print("Top 10 mejores temporadas por puntos:")
mejores_temporadas = df.nlargest(10, 'Pts')[['Temporada', 'Equipo', 'Pos', 'Pts', 'GF', 'GC']]
print(mejores_temporadas.to_string(index=False))

In [None]:
# Equipos descendidos por temporada (posiciones 18-22)
descendidos = df[df['Pos'] >= 18].sort_values(['Temporada', 'Pos'])
print(f"\nTotal de equipos descendidos: {len(descendidos)}")
print("\nDescensos por temporada:")
print(descendidos[['Temporada', 'Pos', 'Equipo', 'Pts']].to_string(index=False))

In [None]:
# Análisis de goles
print("Top 10 equipos con más goles en una temporada:")
mas_goles = df.nlargest(10, 'GF')[['Temporada', 'Equipo', 'GF', 'Pos']]
print(mas_goles.to_string(index=False))

## 10. Exportar resúmenes

In [None]:
# Crear resumen ejecutivo
resumen = {
    'Total_Temporadas': df['Temporada'].nunique(),
    'Total_Equipos_Unicos': df['Equipo'].nunique(),
    'Total_Partidos': df['PJ'].sum(),
    'Total_Goles': df['GF'].sum(),
    'Equipos_Siempre_Premier': len(siempre_premier),
    'Campeones_Diferentes': campeones['Equipo'].nunique()
}

print("\nRESUMEN EJECUTIVO - PREMIER LEAGUE")
print("="*50)
for key, value in resumen.items():
    print(f"{key.replace('_', ' ')}: {value:,}")

# Guardar resumen
pd.DataFrame([resumen]).to_csv('resumen_premier_league.csv', index=False)
print("\n✓ Resumen guardado en 'resumen_premier_league.csv'")

## 11. Consultas personalizadas

In [None]:
# Aquí puedes hacer tus propias consultas
# Ejemplo: Ver historial del Manchester United
# ver_historial_equipo('Manchester United')

In [None]:
# Ejemplo: Ver la temporada 2015-16 (Leicester campeón)
# ver_temporada('2015-16')

In [None]:
# Ejemplo: Comparar los 'Big 6'
# comparar_equipos('Manchester United', 'Manchester City', 'Liverpool', 'Arsenal', 'Chelsea', 'Tottenham')