# Semana 2: Tipos de Datos en Fútbol

## Ciencia de Datos en el Deporte - Fundamentos con Python

---

**Objetivos de aprendizaje:**
- Comprender los diferentes tipos de datos en el fútbol
- Analizar datos de resultados, eventos y posiciones
- Practicar la lectura de archivos CSV
- Realizar consultas básicas y filtrado de datos
- Implementar conteo y filtrado por liga/temporada

---

## 1. Teoría: Tipos de Datos en el Fútbol

### Clasificación de Datos Futbolísticos

En el análisis de datos de fútbol, podemos clasificar la información en tres categorías principales:

#### 1.1 **Datos de Resultados**
Son los datos más básicos y fundamentales:

- **Marcador final**: Goles de cada equipo
- **Resultado**: Victoria, empate o derrota
- **Información contextual**: Fecha, hora, estadio, árbitro
- **Competición**: Liga, copa, torneo internacional
- **Temporada**: Año o período de la competición

#### 1.2 **Datos de Eventos**
Información detallada sobre lo que sucede durante el partido:

- **Goles**: Minuto, jugador, tipo de gol, asistencia
- **Tarjetas**: Amarillas, rojas, minuto, jugador, motivo
- **Sustituciones**: Jugador que sale, entra, minuto
- **Otros eventos**: Corners, faltas, fueras de juego

#### 1.3 **Datos de Posiciones**
Información sobre el rendimiento y clasificación:

- **Tabla de posiciones**: Puntos, posición, partidos jugados
- **Estadísticas acumuladas**: Goles a favor/contra, diferencia
- **Forma reciente**: Resultados de los últimos partidos
- **Estadísticas de local/visitante**: Rendimiento según venue

### Estructura de Datos Típica

Los datos de fútbol suelen organizarse en formato tabular (CSV, Excel, bases de datos) con estructura relacional:

```
Partidos -> Equipos -> Ligas -> Temporadas
       ↓
    Eventos -> Jugadores
```

## 2. Práctica: Lectura de CSV y Consultas Básicas

### Configuración del Entorno

Comenzamos importando las librerías necesarias:

In [None]:
# Importar librerías esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuración para mejorar la visualización
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 10)

print("✅ Librerías importadas exitosamente")
print(f"📊 Pandas versión: {pd.__version__}")
print(f"🔢 NumPy versión: {np.__version__}")

### Creación de Datasets de Ejemplo

Vamos a crear tres datasets que representen los diferentes tipos de datos en fútbol:

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Definir datos base
ligas = ['La Liga', 'Premier League', 'Serie A', 'Bundesliga', 'Ligue 1']
temporadas = ['2020-21', '2021-22', '2022-23', '2023-24']

# Equipos por liga
equipos_por_liga = {
    'La Liga': ['Barcelona', 'Real Madrid', 'Atletico Madrid', 'Sevilla', 'Valencia', 'Villarreal'],
    'Premier League': ['Manchester City', 'Liverpool', 'Chelsea', 'Arsenal', 'Manchester United', 'Tottenham'],
    'Serie A': ['Juventus', 'Inter Milan', 'AC Milan', 'Napoli', 'Roma', 'Lazio'],
    'Bundesliga': ['Bayern Munich', 'Borussia Dortmund', 'RB Leipzig', 'Bayer Leverkusen', 'Wolfsburg', 'Frankfurt'],
    'Ligue 1': ['Paris Saint-Germain', 'Marseille', 'Lyon', 'Monaco', 'Lille', 'Nice']
}

print("📊 Configuración de datos base completada")
print(f"🏆 Ligas: {len(ligas)}")
print(f"📅 Temporadas: {len(temporadas)}")
print(f"⚽ Equipos por liga: {len(equipos_por_liga['La Liga'])}")

### Dataset 1: Datos de Resultados

Creemos un dataset con información básica de partidos:

In [None]:
# Generar datos de resultados
resultados = []
match_id = 1

for temporada in temporadas:
    for liga in ligas:
        equipos = equipos_por_liga[liga]
        
        # Generar partidos entre equipos de la misma liga
        for i in range(20):  # 20 partidos por liga por temporada
            equipo_local = np.random.choice(equipos)
            equipo_visitante = np.random.choice([e for e in equipos if e != equipo_local])
            
            # Generar goles con distribución realista
            goles_local = np.random.poisson(1.4)
            goles_visitante = np.random.poisson(1.1)
            
            # Generar fecha aleatoria
            base_date = datetime(2022, 8, 1)
            random_days = np.random.randint(0, 300)
            fecha = base_date + timedelta(days=random_days)
            
            # Determinar resultado
            if goles_local > goles_visitante:
                resultado = 'Local'
            elif goles_visitante > goles_local:
                resultado = 'Visitante'
            else:
                resultado = 'Empate'
            
            resultados.append({
                'match_id': match_id,
                'temporada': temporada,
                'liga': liga,
                'fecha': fecha.strftime('%Y-%m-%d'),
                'equipo_local': equipo_local,
                'equipo_visitante': equipo_visitante,
                'goles_local': goles_local,
                'goles_visitante': goles_visitante,
                'resultado': resultado,
                'total_goles': goles_local + goles_visitante
            })
            match_id += 1

# Crear DataFrame de resultados
df_resultados = pd.DataFrame(resultados)
df_resultados['fecha'] = pd.to_datetime(df_resultados['fecha'])

print(f"✅ Dataset de resultados creado")
print(f"📊 Dimensiones: {df_resultados.shape}")
print(f"📅 Rango de fechas: {df_resultados['fecha'].min()} a {df_resultados['fecha'].max()}")

# Mostrar primeras filas
print("\n🔍 Primeras 5 filas del dataset de resultados:")
print(df_resultados.head())

### Dataset 2: Datos de Eventos

Creemos un dataset con eventos específicos de los partidos:

In [None]:
# Generar datos de eventos
eventos = []
tipos_evento = ['Gol', 'Tarjeta Amarilla', 'Tarjeta Roja', 'Sustitución', 'Corner', 'Falta']
event_id = 1

# Generar eventos para una muestra de partidos
partidos_muestra = df_resultados.sample(n=100, random_state=42)

for _, partido in partidos_muestra.iterrows():
    # Número de eventos por partido (entre 5 y 15)
    num_eventos = np.random.randint(5, 16)
    
    for _ in range(num_eventos):
        tipo_evento = np.random.choice(tipos_evento, p=[0.2, 0.3, 0.05, 0.15, 0.2, 0.1])
        minuto = np.random.randint(1, 91)
        
        # Determinar equipo basado en probabilidades
        if np.random.random() < 0.55:  # Ventaja de local
            equipo = partido['equipo_local']
        else:
            equipo = partido['equipo_visitante']
        
        # Generar jugador ficticio
        jugador = f"Jugador_{np.random.randint(1, 26)}"
        
        eventos.append({
            'event_id': event_id,
            'match_id': partido['match_id'],
            'liga': partido['liga'],
            'temporada': partido['temporada'],
            'minuto': minuto,
            'tipo_evento': tipo_evento,
            'equipo': equipo,
            'jugador': jugador
        })
        event_id += 1

# Crear DataFrame de eventos
df_eventos = pd.DataFrame(eventos)

print(f"✅ Dataset de eventos creado")
print(f"📊 Dimensiones: {df_eventos.shape}")
print(f"⚽ Partidos con eventos: {df_eventos['match_id'].nunique()}")

# Mostrar primeras filas
print("\n🔍 Primeras 5 filas del dataset de eventos:")
print(df_eventos.head())

### Dataset 3: Datos de Posiciones

Creemos un dataset con información de tabla de posiciones:

In [None]:
# Generar datos de posiciones
posiciones = []

for temporada in temporadas:
    for liga in ligas:
        equipos = equipos_por_liga[liga]
        
        # Generar estadísticas para cada equipo
        for i, equipo in enumerate(equipos):
            # Simular estadísticas realistas
            partidos_jugados = np.random.randint(30, 39)
            victorias = np.random.randint(5, 25)
            empates = np.random.randint(3, 15)
            derrotas = partidos_jugados - victorias - empates
            
            # Asegurar que las derrotas no sean negativas
            if derrotas < 0:
                derrotas = 0
                empates = partidos_jugados - victorias
            
            puntos = victorias * 3 + empates
            goles_favor = np.random.randint(20, 80)
            goles_contra = np.random.randint(15, 60)
            diferencia_goles = goles_favor - goles_contra
            
            posiciones.append({
                'temporada': temporada,
                'liga': liga,
                'equipo': equipo,
                'posicion': i + 1,  # Posición inicial
                'partidos_jugados': partidos_jugados,
                'victorias': victorias,
                'empates': empates,
                'derrotas': derrotas,
                'goles_favor': goles_favor,
                'goles_contra': goles_contra,
                'diferencia_goles': diferencia_goles,
                'puntos': puntos
            })

# Crear DataFrame de posiciones
df_posiciones = pd.DataFrame(posiciones)

# Ordenar por puntos y diferencia de goles para obtener posiciones reales
for temporada in temporadas:
    for liga in ligas:
        mask = (df_posiciones['temporada'] == temporada) & (df_posiciones['liga'] == liga)
        df_temp = df_posiciones[mask].sort_values(['puntos', 'diferencia_goles'], ascending=[False, False])
        df_posiciones.loc[mask, 'posicion'] = range(1, len(df_temp) + 1)

print(f"✅ Dataset de posiciones creado")
print(f"📊 Dimensiones: {df_posiciones.shape}")
print(f"🏆 Ligas por temporada: {df_posiciones.groupby('temporada')['liga'].nunique().iloc[0]}")

# Mostrar primeras filas
print("\n🔍 Primeras 5 filas del dataset de posiciones:")
print(df_posiciones.head())

## 3. Análisis de Tipos de Datos

### Análisis del Dataset de Resultados

Exploremos las características de los datos de resultados:

In [None]:
# Análisis descriptivo del dataset de resultados
print("📊 ANÁLISIS DE DATOS DE RESULTADOS")
print("=" * 50)

# Información general
print(f"📈 Total de partidos: {len(df_resultados)}")
print(f"🏆 Ligas incluidas: {df_resultados['liga'].nunique()}")
print(f"📅 Temporadas incluidas: {df_resultados['temporada'].nunique()}")

# Distribución por liga
print("\n🏟️ Partidos por liga:")
print(df_resultados['liga'].value_counts())

# Distribución por temporada
print("\n📅 Partidos por temporada:")
print(df_resultados['temporada'].value_counts())

# Estadísticas de goles
print("\n⚽ Estadísticas de goles:")
print(f"Promedio de goles por partido: {df_resultados['total_goles'].mean():.2f}")
print(f"Partido con más goles: {df_resultados['total_goles'].max()} goles")
print(f"Partidos sin goles: {len(df_resultados[df_resultados['total_goles'] == 0])}")

# Distribución de resultados
print("\n🏆 Distribución de resultados:")
print(df_resultados['resultado'].value_counts(normalize=True).mul(100).round(1))

### Análisis del Dataset de Eventos

Analicemos los datos de eventos:

In [None]:
# Análisis descriptivo del dataset de eventos
print("📊 ANÁLISIS DE DATOS DE EVENTOS")
print("=" * 50)

# Información general
print(f"📈 Total de eventos: {len(df_eventos)}")
print(f"⚽ Partidos con eventos: {df_eventos['match_id'].nunique()}")
print(f"🎯 Tipos de eventos: {df_eventos['tipo_evento'].nunique()}")

# Distribución por tipo de evento
print("\n🎯 Eventos por tipo:")
print(df_eventos['tipo_evento'].value_counts())

# Distribución por liga
print("\n🏟️ Eventos por liga:")
print(df_eventos['liga'].value_counts())

# Análisis temporal de eventos
print("\n⏰ Distribución temporal de eventos:")
print(f"Minuto promedio de eventos: {df_eventos['minuto'].mean():.1f}")
print(f"Eventos en primera mitad (1-45 min): {len(df_eventos[df_eventos['minuto'] <= 45])}")
print(f"Eventos en segunda mitad (46-90 min): {len(df_eventos[df_eventos['minuto'] > 45])}")

# Eventos por partido
eventos_por_partido = df_eventos.groupby('match_id').size()
print(f"\n📊 Promedio de eventos por partido: {eventos_por_partido.mean():.1f}")
print(f"Partido con más eventos: {eventos_por_partido.max()} eventos")

### Análisis del Dataset de Posiciones

Exploremos los datos de clasificación:

In [None]:
# Análisis descriptivo del dataset de posiciones
print("📊 ANÁLISIS DE DATOS DE POSICIONES")
print("=" * 50)

# Información general
print(f"📈 Total de registros: {len(df_posiciones)}")
print(f"🏆 Ligas incluidas: {df_posiciones['liga'].nunique()}")
print(f"📅 Temporadas incluidas: {df_posiciones['temporada'].nunique()}")
print(f"⚽ Equipos por liga: {len(df_posiciones[df_posiciones['temporada'] == '2020-21']['equipo'].unique())}")

# Estadísticas de rendimiento
print("\n⚽ Estadísticas de rendimiento:")
print(f"Promedio de puntos por equipo: {df_posiciones['puntos'].mean():.1f}")
print(f"Equipo con más puntos: {df_posiciones['puntos'].max()} puntos")
print(f"Equipo con menos puntos: {df_posiciones['puntos'].min()} puntos")

# Estadísticas de goles
print("\n🥅 Estadísticas de goles:")
print(f"Promedio de goles a favor: {df_posiciones['goles_favor'].mean():.1f}")
print(f"Promedio de goles en contra: {df_posiciones['goles_contra'].mean():.1f}")
print(f"Mejor diferencia de goles: {df_posiciones['diferencia_goles'].max()}")
print(f"Peor diferencia de goles: {df_posiciones['diferencia_goles'].min()}")

# Top equipos por puntos
print("\n🏆 Top 5 equipos por puntos (todas las temporadas):")
top_equipos = df_posiciones.nlargest(5, 'puntos')[['equipo', 'liga', 'temporada', 'puntos', 'posicion']]
print(top_equipos)

## 4. Ejercicios: Conteo y Filtrado por Liga/Temporada

### Ejercicio 1: Consultas Básicas de Conteo

Realicemos consultas básicas para entender la estructura de los datos:

In [None]:
# Ejercicio 1: Conteo básico
print("🔢 EJERCICIO 1: CONTEO BÁSICO")
print("=" * 40)

# 1.1 Contar partidos por liga
print("1.1 Partidos por liga:")
partidos_por_liga = df_resultados.groupby('liga').size().sort_values(ascending=False)
print(partidos_por_liga)

# 1.2 Contar partidos por temporada
print("\n1.2 Partidos por temporada:")
partidos_por_temporada = df_resultados.groupby('temporada').size().sort_values(ascending=False)
print(partidos_por_temporada)

# 1.3 Contar eventos por tipo
print("\n1.3 Eventos por tipo:")
eventos_por_tipo = df_eventos.groupby('tipo_evento').size().sort_values(ascending=False)
print(eventos_por_tipo)

# 1.4 Contar equipos únicos por liga
print("\n1.4 Equipos únicos por liga:")
for liga in df_resultados['liga'].unique():
    equipos_locales = set(df_resultados[df_resultados['liga'] == liga]['equipo_local'])
    equipos_visitantes = set(df_resultados[df_resultados['liga'] == liga]['equipo_visitante'])
    total_equipos = len(equipos_locales | equipos_visitantes)
    print(f"{liga}: {total_equipos} equipos")

### Ejercicio 2: Filtrado por Liga y Temporada

Practiquemos el filtrado de datos con diferentes combinaciones:

In [None]:
# Ejercicio 2: Filtrado avanzado
print("🔍 EJERCICIO 2: FILTRADO POR LIGA Y TEMPORADA")
print("=" * 50)

# 2.1 Filtrar La Liga en temporada 2022-23
print("2.1 Partidos de La Liga en temporada 2022-23:")
laliga_2022_23 = df_resultados[(df_resultados['liga'] == 'La Liga') & 
                              (df_resultados['temporada'] == '2022-23')]
print(f"Total de partidos: {len(laliga_2022_23)}")
print(f"Promedio de goles: {laliga_2022_23['total_goles'].mean():.2f}")

# 2.2 Filtrar Premier League en todas las temporadas
print("\n2.2 Todos los partidos de Premier League:")
premier_league = df_resultados[df_resultados['liga'] == 'Premier League']
print(f"Total de partidos: {len(premier_league)}")
print("Distribución por temporada:")
print(premier_league['temporada'].value_counts().sort_index())

# 2.3 Filtrar múltiples ligas
print("\n2.3 Partidos de ligas top (La Liga, Premier League, Serie A):")
ligas_top = ['La Liga', 'Premier League', 'Serie A']
partidos_top = df_resultados[df_resultados['liga'].isin(ligas_top)]
print(f"Total de partidos: {len(partidos_top)}")
print("Distribución por liga:")
print(partidos_top['liga'].value_counts())

# 2.4 Filtrar por rango de temporadas
print("\n2.4 Partidos de temporadas recientes (2021-22 y 2022-23):")
temporadas_recientes = ['2021-22', '2022-23']
partidos_recientes = df_resultados[df_resultados['temporada'].isin(temporadas_recientes)]
print(f"Total de partidos: {len(partidos_recientes)}")
print("Distribución por temporada:")
print(partidos_recientes['temporada'].value_counts().sort_index())

### Ejercicio 3: Análisis Comparativo entre Ligas

Comparemos diferentes métricas entre ligas:

In [None]:
# Ejercicio 3: Análisis comparativo
print("📊 EJERCICIO 3: ANÁLISIS COMPARATIVO ENTRE LIGAS")
print("=" * 55)

# 3.1 Promedio de goles por liga
print("3.1 Promedio de goles por liga:")
goles_por_liga = df_resultados.groupby('liga')['total_goles'].agg(['mean', 'std', 'count'])
goles_por_liga.columns = ['Promedio', 'Desviación', 'Partidos']
goles_por_liga = goles_por_liga.round(2)
print(goles_por_liga)

# 3.2 Distribución de resultados por liga
print("\n3.2 Distribución de resultados por liga (%):") 
resultado_por_liga = df_resultados.groupby('liga')['resultado'].value_counts(normalize=True).mul(100).round(1)
print(resultado_por_liga)

# 3.3 Liga con más eventos por partido
print("\n3.3 Promedio de eventos por partido por liga:")
# Unir datasets para análisis
df_merged = df_eventos.merge(df_resultados[['match_id', 'liga']], on='match_id')
eventos_por_liga = df_merged.groupby('liga').size() / df_merged.groupby('liga')['match_id'].nunique()
print(eventos_por_liga.round(2))

# 3.4 Equipos con mejor rendimiento por liga
print("\n3.4 Equipo líder por liga en temporada 2022-23:")
lideres = df_posiciones[(df_posiciones['temporada'] == '2022-23') & 
                       (df_posiciones['posicion'] == 1)][['liga', 'equipo', 'puntos']]
print(lideres.sort_values('puntos', ascending=False))

## 5. Visualizaciones de Tipos de Datos

### Visualización de Resultados

Creemos visualizaciones para entender mejor los datos:

In [None]:
# Visualizaciones de análisis de datos
plt.figure(figsize=(16, 12))

# Gráfico 1: Distribución de goles por liga
plt.subplot(2, 3, 1)
df_resultados.boxplot(column='total_goles', by='liga', ax=plt.gca())
plt.title('Distribución de Goles por Liga')
plt.xlabel('Liga')
plt.ylabel('Goles Totales')
plt.xticks(rotation=45)
plt.suptitle('')  # Remover título automático

# Gráfico 2: Partidos por temporada
plt.subplot(2, 3, 2)
df_resultados['temporada'].value_counts().sort_index().plot(kind='bar', color='lightblue')
plt.title('Partidos por Temporada')
plt.xlabel('Temporada')
plt.ylabel('Número de Partidos')
plt.xticks(rotation=45)

# Gráfico 3: Tipos de eventos
plt.subplot(2, 3, 3)
df_eventos['tipo_evento'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('Distribución de Tipos de Eventos')
plt.ylabel('')

# Gráfico 4: Distribución temporal de eventos
plt.subplot(2, 3, 4)
plt.hist(df_eventos['minuto'], bins=18, alpha=0.7, color='orange', edgecolor='black')
plt.title('Distribución Temporal de Eventos')
plt.xlabel('Minuto')
plt.ylabel('Número de Eventos')
plt.axvline(x=45, color='red', linestyle='--', alpha=0.7, label='Medio tiempo')
plt.legend()

# Gráfico 5: Puntos promedio por liga
plt.subplot(2, 3, 5)
puntos_liga = df_posiciones.groupby('liga')['puntos'].mean().sort_values(ascending=False)
puntos_liga.plot(kind='bar', color='lightgreen')
plt.title('Puntos Promedio por Liga')
plt.xlabel('Liga')
plt.ylabel('Puntos Promedio')
plt.xticks(rotation=45)

# Gráfico 6: Resultados por liga
plt.subplot(2, 3, 6)
resultado_counts = df_resultados.groupby(['liga', 'resultado']).size().unstack()
resultado_counts.plot(kind='bar', stacked=True)
plt.title('Distribución de Resultados por Liga')
plt.xlabel('Liga')
plt.ylabel('Número de Partidos')
plt.xticks(rotation=45)
plt.legend(title='Resultado')

plt.tight_layout()
plt.show()

## 6. Simulación de Lectura de CSV

### Guardado y Carga de Datos

Simulemos el proceso de guardar y cargar datos CSV:

In [None]:
# Simulación de guardado de archivos CSV
print("💾 SIMULACIÓN DE GUARDADO Y CARGA DE CSV")
print("=" * 45)

# Simular guardado (en la práctica real usarías df.to_csv())
print("📁 Simulando guardado de archivos:")
print("✅ df_resultados.to_csv('datos_resultados.csv')")
print("✅ df_eventos.to_csv('datos_eventos.csv')")
print("✅ df_posiciones.to_csv('datos_posiciones.csv')")

# Simular carga (en la práctica real usarías pd.read_csv())
print("\n📂 Simulando carga de archivos:")
print("✅ df_resultados = pd.read_csv('datos_resultados.csv')")
print("✅ df_eventos = pd.read_csv('datos_eventos.csv')")
print("✅ df_posiciones = pd.read_csv('datos_posiciones.csv')")

# Mostrar información de los datasets como si fueran cargados
print("\n📊 Información de datasets cargados:")
print(f"Dataset de resultados: {df_resultados.shape}")
print(f"Dataset de eventos: {df_eventos.shape}")
print(f"Dataset de posiciones: {df_posiciones.shape}")

# Ejemplo de verificación de carga
print("\n🔍 Verificación de tipos de datos:")
print("Resultados:")
print(df_resultados.dtypes)

print("\n⚠️ Nota: En un entorno real, sería necesario:")
print("- Verificar la integridad de los datos")
print("- Manejar datos faltantes")
print("- Convertir tipos de datos si es necesario")
print("- Validar la consistencia entre datasets")

## 7. Ejercicios Prácticos para Estudiantes

### Ejercicio Práctico 1: Análisis de Liga Específica

Completa el siguiente análisis:

In [None]:
# EJERCICIO PRÁCTICO 1: Análisis de Liga Específica
print("🎯 EJERCICIO PRÁCTICO 1: ANÁLISIS DE LIGA ESPECÍFICA")
print("=" * 55)

# TODO: Elige una liga para analizar
liga_elegida = 'Premier League'  # Cambia por la liga que prefieras

# 1. Filtrar datos de la liga elegida
partidos_liga = df_resultados[df_resultados['liga'] == liga_elegida]
eventos_liga = df_eventos[df_eventos['liga'] == liga_elegida]
posiciones_liga = df_posiciones[df_posiciones['liga'] == liga_elegida]

print(f"📊 Análisis de: {liga_elegida}")
print(f"Partidos analizados: {len(partidos_liga)}")
print(f"Eventos analizados: {len(eventos_liga)}")
print(f"Registros de posiciones: {len(posiciones_liga)}")

# 2. Estadísticas básicas
print(f"\n⚽ Estadísticas de {liga_elegida}:")
print(f"Promedio de goles por partido: {partidos_liga['total_goles'].mean():.2f}")
print(f"Partido con más goles: {partidos_liga['total_goles'].max()}")
print(f"Distribución de resultados:")
print(partidos_liga['resultado'].value_counts(normalize=True).mul(100).round(1))

# 3. Análisis temporal
print(f"\n📅 Análisis temporal:")
print("Partidos por temporada:")
print(partidos_liga['temporada'].value_counts().sort_index())

# 4. Equipos más exitosos
print(f"\n🏆 Top 3 equipos por puntos promedio:")
top_equipos = posiciones_liga.groupby('equipo')['puntos'].mean().sort_values(ascending=False).head(3)
print(top_equipos.round(1))

### Ejercicio Práctico 2: Comparación Temporal

Compara el rendimiento entre temporadas:

In [None]:
# EJERCICIO PRÁCTICO 2: Comparación Temporal
print("🎯 EJERCICIO PRÁCTICO 2: COMPARACIÓN TEMPORAL")
print("=" * 50)

# TODO: Compara dos temporadas específicas
temporada_1 = '2020-21'
temporada_2 = '2022-23'

# Filtrar datos por temporada
datos_temp1 = df_resultados[df_resultados['temporada'] == temporada_1]
datos_temp2 = df_resultados[df_resultados['temporada'] == temporada_2]

print(f"📊 Comparación entre {temporada_1} y {temporada_2}")

# Comparar estadísticas básicas
print(f"\n⚽ Estadísticas de goles:")
print(f"{temporada_1}: {datos_temp1['total_goles'].mean():.2f} goles/partido")
print(f"{temporada_2}: {datos_temp2['total_goles'].mean():.2f} goles/partido")

# Comparar distribución de resultados
print(f"\n🏆 Distribución de resultados:")
print(f"{temporada_1}:")
print(datos_temp1['resultado'].value_counts(normalize=True).mul(100).round(1))
print(f"\n{temporada_2}:")
print(datos_temp2['resultado'].value_counts(normalize=True).mul(100).round(1))

# Comparar por liga
print(f"\n🏟️ Partidos por liga:")
print(f"{temporada_1}:")
print(datos_temp1['liga'].value_counts())
print(f"\n{temporada_2}:")
print(datos_temp2['liga'].value_counts())

### Ejercicio Práctico 3: Análisis de Eventos

Analiza los patrones de eventos:

In [None]:
# EJERCICIO PRÁCTICO 3: Análisis de Eventos
print("🎯 EJERCICIO PRÁCTICO 3: ANÁLISIS DE EVENTOS")
print("=" * 50)

# TODO: Analiza un tipo de evento específico
evento_elegido = 'Gol'  # Cambia por el evento que prefieras

# Filtrar eventos del tipo elegido
eventos_filtrados = df_eventos[df_eventos['tipo_evento'] == evento_elegido]

print(f"📊 Análisis de: {evento_elegido}")
print(f"Total de eventos: {len(eventos_filtrados)}")

# Análisis temporal
print(f"\n⏰ Análisis temporal de {evento_elegido.lower()}s:")
print(f"Minuto promedio: {eventos_filtrados['minuto'].mean():.1f}")
print(f"Minuto más temprano: {eventos_filtrados['minuto'].min()}")
print(f"Minuto más tardío: {eventos_filtrados['minuto'].max()}")

# Distribución por mitad
primera_mitad = len(eventos_filtrados[eventos_filtrados['minuto'] <= 45])
segunda_mitad = len(eventos_filtrados[eventos_filtrados['minuto'] > 45])
print(f"\n📊 Distribución por mitad:")
print(f"Primera mitad (1-45 min): {primera_mitad} ({primera_mitad/len(eventos_filtrados)*100:.1f}%)")
print(f"Segunda mitad (46-90 min): {segunda_mitad} ({segunda_mitad/len(eventos_filtrados)*100:.1f}%)")

# Distribución por liga
print(f"\n🏟️ {evento_elegido}s por liga:")
print(eventos_filtrados['liga'].value_counts())

# Equipos más activos
print(f"\n🏆 Top 5 equipos con más {evento_elegido.lower()}s:")
equipos_activos = eventos_filtrados['equipo'].value_counts().head(5)
print(equipos_activos)

## 8. Resumen y Conclusiones

### ¿Qué hemos aprendido?

1. **Tipos de datos futbolísticos**: Comprendimos las diferencias entre datos de resultados, eventos y posiciones
2. **Lectura y manipulación de CSV**: Aprendimos a trabajar con datos tabulares
3. **Consultas básicas**: Dominamos el filtrado y conteo de datos
4. **Análisis comparativo**: Comparamos ligas, temporadas y eventos
5. **Visualización de datos**: Creamos gráficos para entender patrones

### Insights Principales

- **Estructura de datos**: Los datos de fútbol están interconectados y requieren análisis relacional
- **Patrones temporales**: Los eventos siguen patrones temporales específicos
- **Variabilidad entre ligas**: Diferentes ligas tienen características únicas
- **Importancia del contexto**: La temporada y competición afectan los resultados

### Próximos Pasos

En la semana 3 profundizaremos en:
- Estadística descriptiva avanzada
- Medidas de tendencia central y dispersión
- Análisis de correlaciones
- Interpretación estadística de resultados deportivos

## 9. Tarea para Casa

### Ejercicio Individual

1. **Análisis de datos específicos**:
   - Elige una liga y temporada específica
   - Crea un análisis completo de los tres tipos de datos
   - Identifica patrones únicos en tus datos elegidos
   - Crea al menos 3 visualizaciones diferentes

2. **Comparación entre ligas**:
   - Compara 2 ligas diferentes en la misma temporada
   - Analiza diferencias en promedio de goles, tipos de eventos, etc.
   - Documenta tus conclusiones

3. **Análisis temporal**:
   - Elige un equipo específico
   - Analiza su evolución a través de diferentes temporadas
   - Identifica tendencias de mejora o declive

### Preparación para la Próxima Semana

- Revisar conceptos de estadística descriptiva
- Practicar operaciones de agrupación con pandas
- Familiarizarse con medidas de tendencia central
- Explorar funciones de pandas para análisis estadístico

### Recursos Adicionales

- Documentación de pandas: `groupby()`, `agg()`, `value_counts()`
- Conceptos de datos relacionales en deportes
- Ejemplos de análisis de datos de fútbol reales

---

**¡Excelente trabajo explorando los tipos de datos en el fútbol!** ⚽📊