# Semana 2: Tipos de Datos en F√∫tbol

## Ciencia de Datos en el Deporte - Fundamentos con Python

---

**Objetivos de aprendizaje:**
- Comprender los diferentes tipos de datos en el f√∫tbol
- Analizar datos de resultados, eventos y posiciones
- Practicar la lectura de archivos CSV
- Realizar consultas b√°sicas y filtrado de datos
- Implementar conteo y filtrado por liga/temporada

---

## 1. Teor√≠a: Tipos de Datos en el F√∫tbol

### Clasificaci√≥n de Datos Futbol√≠sticos

En el an√°lisis de datos de f√∫tbol, podemos clasificar la informaci√≥n en tres categor√≠as principales:

#### 1.1 **Datos de Resultados**
Son los datos m√°s b√°sicos y fundamentales:

- **Marcador final**: Goles de cada equipo
- **Resultado**: Victoria, empate o derrota
- **Informaci√≥n contextual**: Fecha, hora, estadio, √°rbitro
- **Competici√≥n**: Liga, copa, torneo internacional
- **Temporada**: A√±o o per√≠odo de la competici√≥n

#### 1.2 **Datos de Eventos**
Informaci√≥n detallada sobre lo que sucede durante el partido:

- **Goles**: Minuto, jugador, tipo de gol, asistencia
- **Tarjetas**: Amarillas, rojas, minuto, jugador, motivo
- **Sustituciones**: Jugador que sale, entra, minuto
- **Otros eventos**: Corners, faltas, fueras de juego

#### 1.3 **Datos de Posiciones**
Informaci√≥n sobre el rendimiento y clasificaci√≥n:

- **Tabla de posiciones**: Puntos, posici√≥n, partidos jugados
- **Estad√≠sticas acumuladas**: Goles a favor/contra, diferencia
- **Forma reciente**: Resultados de los √∫ltimos partidos
- **Estad√≠sticas de local/visitante**: Rendimiento seg√∫n venue

### Estructura de Datos T√≠pica

Los datos de f√∫tbol suelen organizarse en formato tabular (CSV, Excel, bases de datos) con estructura relacional:

```
Partidos -> Equipos -> Ligas -> Temporadas
       ‚Üì
    Eventos -> Jugadores
```

## 2. Pr√°ctica: Lectura de CSV y Consultas B√°sicas

### Configuraci√≥n del Entorno

Comenzamos importando las librer√≠as necesarias:

In [None]:
# Importar librer√≠as esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n para mejorar la visualizaci√≥n
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 10)

print("‚úÖ Librer√≠as importadas exitosamente")
print(f"üìä Pandas versi√≥n: {pd.__version__}")
print(f"üî¢ NumPy versi√≥n: {np.__version__}")

### Creaci√≥n de Datasets de Ejemplo

Vamos a crear tres datasets que representen los diferentes tipos de datos en f√∫tbol:

In [None]:
# Configurar semilla para reproducibilidad
np.random.seed(42)

# Definir datos base
ligas = ['La Liga', 'Premier League', 'Serie A', 'Bundesliga', 'Ligue 1']
temporadas = ['2020-21', '2021-22', '2022-23', '2023-24']

# Equipos por liga
equipos_por_liga = {
    'La Liga': ['Barcelona', 'Real Madrid', 'Atletico Madrid', 'Sevilla', 'Valencia', 'Villarreal'],
    'Premier League': ['Manchester City', 'Liverpool', 'Chelsea', 'Arsenal', 'Manchester United', 'Tottenham'],
    'Serie A': ['Juventus', 'Inter Milan', 'AC Milan', 'Napoli', 'Roma', 'Lazio'],
    'Bundesliga': ['Bayern Munich', 'Borussia Dortmund', 'RB Leipzig', 'Bayer Leverkusen', 'Wolfsburg', 'Frankfurt'],
    'Ligue 1': ['Paris Saint-Germain', 'Marseille', 'Lyon', 'Monaco', 'Lille', 'Nice']
}

print("üìä Configuraci√≥n de datos base completada")
print(f"üèÜ Ligas: {len(ligas)}")
print(f"üìÖ Temporadas: {len(temporadas)}")
print(f"‚öΩ Equipos por liga: {len(equipos_por_liga['La Liga'])}")

### Dataset 1: Datos de Resultados

Creemos un dataset con informaci√≥n b√°sica de partidos:

In [None]:
# Generar datos de resultados
resultados = []
match_id = 1

for temporada in temporadas:
    for liga in ligas:
        equipos = equipos_por_liga[liga]
        
        # Generar partidos entre equipos de la misma liga
        for i in range(20):  # 20 partidos por liga por temporada
            equipo_local = np.random.choice(equipos)
            equipo_visitante = np.random.choice([e for e in equipos if e != equipo_local])
            
            # Generar goles con distribuci√≥n realista
            goles_local = np.random.poisson(1.4)
            goles_visitante = np.random.poisson(1.1)
            
            # Generar fecha aleatoria
            base_date = datetime(2022, 8, 1)
            random_days = np.random.randint(0, 300)
            fecha = base_date + timedelta(days=random_days)
            
            # Determinar resultado
            if goles_local > goles_visitante:
                resultado = 'Local'
            elif goles_visitante > goles_local:
                resultado = 'Visitante'
            else:
                resultado = 'Empate'
            
            resultados.append({
                'match_id': match_id,
                'temporada': temporada,
                'liga': liga,
                'fecha': fecha.strftime('%Y-%m-%d'),
                'equipo_local': equipo_local,
                'equipo_visitante': equipo_visitante,
                'goles_local': goles_local,
                'goles_visitante': goles_visitante,
                'resultado': resultado,
                'total_goles': goles_local + goles_visitante
            })
            match_id += 1

# Crear DataFrame de resultados
df_resultados = pd.DataFrame(resultados)
df_resultados['fecha'] = pd.to_datetime(df_resultados['fecha'])

print(f"‚úÖ Dataset de resultados creado")
print(f"üìä Dimensiones: {df_resultados.shape}")
print(f"üìÖ Rango de fechas: {df_resultados['fecha'].min()} a {df_resultados['fecha'].max()}")

# Mostrar primeras filas
print("\nüîç Primeras 5 filas del dataset de resultados:")
print(df_resultados.head())

### Dataset 2: Datos de Eventos

Creemos un dataset con eventos espec√≠ficos de los partidos:

In [None]:
# Generar datos de eventos
eventos = []
tipos_evento = ['Gol', 'Tarjeta Amarilla', 'Tarjeta Roja', 'Sustituci√≥n', 'Corner', 'Falta']
event_id = 1

# Generar eventos para una muestra de partidos
partidos_muestra = df_resultados.sample(n=100, random_state=42)

for _, partido in partidos_muestra.iterrows():
    # N√∫mero de eventos por partido (entre 5 y 15)
    num_eventos = np.random.randint(5, 16)
    
    for _ in range(num_eventos):
        tipo_evento = np.random.choice(tipos_evento, p=[0.2, 0.3, 0.05, 0.15, 0.2, 0.1])
        minuto = np.random.randint(1, 91)
        
        # Determinar equipo basado en probabilidades
        if np.random.random() < 0.55:  # Ventaja de local
            equipo = partido['equipo_local']
        else:
            equipo = partido['equipo_visitante']
        
        # Generar jugador ficticio
        jugador = f"Jugador_{np.random.randint(1, 26)}"
        
        eventos.append({
            'event_id': event_id,
            'match_id': partido['match_id'],
            'liga': partido['liga'],
            'temporada': partido['temporada'],
            'minuto': minuto,
            'tipo_evento': tipo_evento,
            'equipo': equipo,
            'jugador': jugador
        })
        event_id += 1

# Crear DataFrame de eventos
df_eventos = pd.DataFrame(eventos)

print(f"‚úÖ Dataset de eventos creado")
print(f"üìä Dimensiones: {df_eventos.shape}")
print(f"‚öΩ Partidos con eventos: {df_eventos['match_id'].nunique()}")

# Mostrar primeras filas
print("\nüîç Primeras 5 filas del dataset de eventos:")
print(df_eventos.head())

### Dataset 3: Datos de Posiciones

Creemos un dataset con informaci√≥n de tabla de posiciones:

In [None]:
# Generar datos de posiciones
posiciones = []

for temporada in temporadas:
    for liga in ligas:
        equipos = equipos_por_liga[liga]
        
        # Generar estad√≠sticas para cada equipo
        for i, equipo in enumerate(equipos):
            # Simular estad√≠sticas realistas
            partidos_jugados = np.random.randint(30, 39)
            victorias = np.random.randint(5, 25)
            empates = np.random.randint(3, 15)
            derrotas = partidos_jugados - victorias - empates
            
            # Asegurar que las derrotas no sean negativas
            if derrotas < 0:
                derrotas = 0
                empates = partidos_jugados - victorias
            
            puntos = victorias * 3 + empates
            goles_favor = np.random.randint(20, 80)
            goles_contra = np.random.randint(15, 60)
            diferencia_goles = goles_favor - goles_contra
            
            posiciones.append({
                'temporada': temporada,
                'liga': liga,
                'equipo': equipo,
                'posicion': i + 1,  # Posici√≥n inicial
                'partidos_jugados': partidos_jugados,
                'victorias': victorias,
                'empates': empates,
                'derrotas': derrotas,
                'goles_favor': goles_favor,
                'goles_contra': goles_contra,
                'diferencia_goles': diferencia_goles,
                'puntos': puntos
            })

# Crear DataFrame de posiciones
df_posiciones = pd.DataFrame(posiciones)

# Ordenar por puntos y diferencia de goles para obtener posiciones reales
for temporada in temporadas:
    for liga in ligas:
        mask = (df_posiciones['temporada'] == temporada) & (df_posiciones['liga'] == liga)
        df_temp = df_posiciones[mask].sort_values(['puntos', 'diferencia_goles'], ascending=[False, False])
        df_posiciones.loc[mask, 'posicion'] = range(1, len(df_temp) + 1)

print(f"‚úÖ Dataset de posiciones creado")
print(f"üìä Dimensiones: {df_posiciones.shape}")
print(f"üèÜ Ligas por temporada: {df_posiciones.groupby('temporada')['liga'].nunique().iloc[0]}")

# Mostrar primeras filas
print("\nüîç Primeras 5 filas del dataset de posiciones:")
print(df_posiciones.head())

## 3. An√°lisis de Tipos de Datos

### An√°lisis del Dataset de Resultados

Exploremos las caracter√≠sticas de los datos de resultados:

In [None]:
# An√°lisis descriptivo del dataset de resultados
print("üìä AN√ÅLISIS DE DATOS DE RESULTADOS")
print("=" * 50)

# Informaci√≥n general
print(f"üìà Total de partidos: {len(df_resultados)}")
print(f"üèÜ Ligas incluidas: {df_resultados['liga'].nunique()}")
print(f"üìÖ Temporadas incluidas: {df_resultados['temporada'].nunique()}")

# Distribuci√≥n por liga
print("\nüèüÔ∏è Partidos por liga:")
print(df_resultados['liga'].value_counts())

# Distribuci√≥n por temporada
print("\nüìÖ Partidos por temporada:")
print(df_resultados['temporada'].value_counts())

# Estad√≠sticas de goles
print("\n‚öΩ Estad√≠sticas de goles:")
print(f"Promedio de goles por partido: {df_resultados['total_goles'].mean():.2f}")
print(f"Partido con m√°s goles: {df_resultados['total_goles'].max()} goles")
print(f"Partidos sin goles: {len(df_resultados[df_resultados['total_goles'] == 0])}")

# Distribuci√≥n de resultados
print("\nüèÜ Distribuci√≥n de resultados:")
print(df_resultados['resultado'].value_counts(normalize=True).mul(100).round(1))

### An√°lisis del Dataset de Eventos

Analicemos los datos de eventos:

In [None]:
# An√°lisis descriptivo del dataset de eventos
print("üìä AN√ÅLISIS DE DATOS DE EVENTOS")
print("=" * 50)

# Informaci√≥n general
print(f"üìà Total de eventos: {len(df_eventos)}")
print(f"‚öΩ Partidos con eventos: {df_eventos['match_id'].nunique()}")
print(f"üéØ Tipos de eventos: {df_eventos['tipo_evento'].nunique()}")

# Distribuci√≥n por tipo de evento
print("\nüéØ Eventos por tipo:")
print(df_eventos['tipo_evento'].value_counts())

# Distribuci√≥n por liga
print("\nüèüÔ∏è Eventos por liga:")
print(df_eventos['liga'].value_counts())

# An√°lisis temporal de eventos
print("\n‚è∞ Distribuci√≥n temporal de eventos:")
print(f"Minuto promedio de eventos: {df_eventos['minuto'].mean():.1f}")
print(f"Eventos en primera mitad (1-45 min): {len(df_eventos[df_eventos['minuto'] <= 45])}")
print(f"Eventos en segunda mitad (46-90 min): {len(df_eventos[df_eventos['minuto'] > 45])}")

# Eventos por partido
eventos_por_partido = df_eventos.groupby('match_id').size()
print(f"\nüìä Promedio de eventos por partido: {eventos_por_partido.mean():.1f}")
print(f"Partido con m√°s eventos: {eventos_por_partido.max()} eventos")

### An√°lisis del Dataset de Posiciones

Exploremos los datos de clasificaci√≥n:

In [None]:
# An√°lisis descriptivo del dataset de posiciones
print("üìä AN√ÅLISIS DE DATOS DE POSICIONES")
print("=" * 50)

# Informaci√≥n general
print(f"üìà Total de registros: {len(df_posiciones)}")
print(f"üèÜ Ligas incluidas: {df_posiciones['liga'].nunique()}")
print(f"üìÖ Temporadas incluidas: {df_posiciones['temporada'].nunique()}")
print(f"‚öΩ Equipos por liga: {len(df_posiciones[df_posiciones['temporada'] == '2020-21']['equipo'].unique())}")

# Estad√≠sticas de rendimiento
print("\n‚öΩ Estad√≠sticas de rendimiento:")
print(f"Promedio de puntos por equipo: {df_posiciones['puntos'].mean():.1f}")
print(f"Equipo con m√°s puntos: {df_posiciones['puntos'].max()} puntos")
print(f"Equipo con menos puntos: {df_posiciones['puntos'].min()} puntos")

# Estad√≠sticas de goles
print("\nü•Ö Estad√≠sticas de goles:")
print(f"Promedio de goles a favor: {df_posiciones['goles_favor'].mean():.1f}")
print(f"Promedio de goles en contra: {df_posiciones['goles_contra'].mean():.1f}")
print(f"Mejor diferencia de goles: {df_posiciones['diferencia_goles'].max()}")
print(f"Peor diferencia de goles: {df_posiciones['diferencia_goles'].min()}")

# Top equipos por puntos
print("\nüèÜ Top 5 equipos por puntos (todas las temporadas):")
top_equipos = df_posiciones.nlargest(5, 'puntos')[['equipo', 'liga', 'temporada', 'puntos', 'posicion']]
print(top_equipos)

## 4. Ejercicios: Conteo y Filtrado por Liga/Temporada

### Ejercicio 1: Consultas B√°sicas de Conteo

Realicemos consultas b√°sicas para entender la estructura de los datos:

In [None]:
# Ejercicio 1: Conteo b√°sico
print("üî¢ EJERCICIO 1: CONTEO B√ÅSICO")
print("=" * 40)

# 1.1 Contar partidos por liga
print("1.1 Partidos por liga:")
partidos_por_liga = df_resultados.groupby('liga').size().sort_values(ascending=False)
print(partidos_por_liga)

# 1.2 Contar partidos por temporada
print("\n1.2 Partidos por temporada:")
partidos_por_temporada = df_resultados.groupby('temporada').size().sort_values(ascending=False)
print(partidos_por_temporada)

# 1.3 Contar eventos por tipo
print("\n1.3 Eventos por tipo:")
eventos_por_tipo = df_eventos.groupby('tipo_evento').size().sort_values(ascending=False)
print(eventos_por_tipo)

# 1.4 Contar equipos √∫nicos por liga
print("\n1.4 Equipos √∫nicos por liga:")
for liga in df_resultados['liga'].unique():
    equipos_locales = set(df_resultados[df_resultados['liga'] == liga]['equipo_local'])
    equipos_visitantes = set(df_resultados[df_resultados['liga'] == liga]['equipo_visitante'])
    total_equipos = len(equipos_locales | equipos_visitantes)
    print(f"{liga}: {total_equipos} equipos")

### Ejercicio 2: Filtrado por Liga y Temporada

Practiquemos el filtrado de datos con diferentes combinaciones:

In [None]:
# Ejercicio 2: Filtrado avanzado
print("üîç EJERCICIO 2: FILTRADO POR LIGA Y TEMPORADA")
print("=" * 50)

# 2.1 Filtrar La Liga en temporada 2022-23
print("2.1 Partidos de La Liga en temporada 2022-23:")
laliga_2022_23 = df_resultados[(df_resultados['liga'] == 'La Liga') & 
                              (df_resultados['temporada'] == '2022-23')]
print(f"Total de partidos: {len(laliga_2022_23)}")
print(f"Promedio de goles: {laliga_2022_23['total_goles'].mean():.2f}")

# 2.2 Filtrar Premier League en todas las temporadas
print("\n2.2 Todos los partidos de Premier League:")
premier_league = df_resultados[df_resultados['liga'] == 'Premier League']
print(f"Total de partidos: {len(premier_league)}")
print("Distribuci√≥n por temporada:")
print(premier_league['temporada'].value_counts().sort_index())

# 2.3 Filtrar m√∫ltiples ligas
print("\n2.3 Partidos de ligas top (La Liga, Premier League, Serie A):")
ligas_top = ['La Liga', 'Premier League', 'Serie A']
partidos_top = df_resultados[df_resultados['liga'].isin(ligas_top)]
print(f"Total de partidos: {len(partidos_top)}")
print("Distribuci√≥n por liga:")
print(partidos_top['liga'].value_counts())

# 2.4 Filtrar por rango de temporadas
print("\n2.4 Partidos de temporadas recientes (2021-22 y 2022-23):")
temporadas_recientes = ['2021-22', '2022-23']
partidos_recientes = df_resultados[df_resultados['temporada'].isin(temporadas_recientes)]
print(f"Total de partidos: {len(partidos_recientes)}")
print("Distribuci√≥n por temporada:")
print(partidos_recientes['temporada'].value_counts().sort_index())

### Ejercicio 3: An√°lisis Comparativo entre Ligas

Comparemos diferentes m√©tricas entre ligas:

In [None]:
# Ejercicio 3: An√°lisis comparativo
print("üìä EJERCICIO 3: AN√ÅLISIS COMPARATIVO ENTRE LIGAS")
print("=" * 55)

# 3.1 Promedio de goles por liga
print("3.1 Promedio de goles por liga:")
goles_por_liga = df_resultados.groupby('liga')['total_goles'].agg(['mean', 'std', 'count'])
goles_por_liga.columns = ['Promedio', 'Desviaci√≥n', 'Partidos']
goles_por_liga = goles_por_liga.round(2)
print(goles_por_liga)

# 3.2 Distribuci√≥n de resultados por liga
print("\n3.2 Distribuci√≥n de resultados por liga (%):") 
resultado_por_liga = df_resultados.groupby('liga')['resultado'].value_counts(normalize=True).mul(100).round(1)
print(resultado_por_liga)

# 3.3 Liga con m√°s eventos por partido
print("\n3.3 Promedio de eventos por partido por liga:")
# Unir datasets para an√°lisis
df_merged = df_eventos.merge(df_resultados[['match_id', 'liga']], on='match_id')
eventos_por_liga = df_merged.groupby('liga').size() / df_merged.groupby('liga')['match_id'].nunique()
print(eventos_por_liga.round(2))

# 3.4 Equipos con mejor rendimiento por liga
print("\n3.4 Equipo l√≠der por liga en temporada 2022-23:")
lideres = df_posiciones[(df_posiciones['temporada'] == '2022-23') & 
                       (df_posiciones['posicion'] == 1)][['liga', 'equipo', 'puntos']]
print(lideres.sort_values('puntos', ascending=False))

## 5. Visualizaciones de Tipos de Datos

### Visualizaci√≥n de Resultados

Creemos visualizaciones para entender mejor los datos:

In [None]:
# Visualizaciones de an√°lisis de datos
plt.figure(figsize=(16, 12))

# Gr√°fico 1: Distribuci√≥n de goles por liga
plt.subplot(2, 3, 1)
df_resultados.boxplot(column='total_goles', by='liga', ax=plt.gca())
plt.title('Distribuci√≥n de Goles por Liga')
plt.xlabel('Liga')
plt.ylabel('Goles Totales')
plt.xticks(rotation=45)
plt.suptitle('')  # Remover t√≠tulo autom√°tico

# Gr√°fico 2: Partidos por temporada
plt.subplot(2, 3, 2)
df_resultados['temporada'].value_counts().sort_index().plot(kind='bar', color='lightblue')
plt.title('Partidos por Temporada')
plt.xlabel('Temporada')
plt.ylabel('N√∫mero de Partidos')
plt.xticks(rotation=45)

# Gr√°fico 3: Tipos de eventos
plt.subplot(2, 3, 3)
df_eventos['tipo_evento'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('Distribuci√≥n de Tipos de Eventos')
plt.ylabel('')

# Gr√°fico 4: Distribuci√≥n temporal de eventos
plt.subplot(2, 3, 4)
plt.hist(df_eventos['minuto'], bins=18, alpha=0.7, color='orange', edgecolor='black')
plt.title('Distribuci√≥n Temporal de Eventos')
plt.xlabel('Minuto')
plt.ylabel('N√∫mero de Eventos')
plt.axvline(x=45, color='red', linestyle='--', alpha=0.7, label='Medio tiempo')
plt.legend()

# Gr√°fico 5: Puntos promedio por liga
plt.subplot(2, 3, 5)
puntos_liga = df_posiciones.groupby('liga')['puntos'].mean().sort_values(ascending=False)
puntos_liga.plot(kind='bar', color='lightgreen')
plt.title('Puntos Promedio por Liga')
plt.xlabel('Liga')
plt.ylabel('Puntos Promedio')
plt.xticks(rotation=45)

# Gr√°fico 6: Resultados por liga
plt.subplot(2, 3, 6)
resultado_counts = df_resultados.groupby(['liga', 'resultado']).size().unstack()
resultado_counts.plot(kind='bar', stacked=True)
plt.title('Distribuci√≥n de Resultados por Liga')
plt.xlabel('Liga')
plt.ylabel('N√∫mero de Partidos')
plt.xticks(rotation=45)
plt.legend(title='Resultado')

plt.tight_layout()
plt.show()

## 6. Simulaci√≥n de Lectura de CSV

### Guardado y Carga de Datos

Simulemos el proceso de guardar y cargar datos CSV:

In [None]:
# Simulaci√≥n de guardado de archivos CSV
print("üíæ SIMULACI√ìN DE GUARDADO Y CARGA DE CSV")
print("=" * 45)

# Simular guardado (en la pr√°ctica real usar√≠as df.to_csv())
print("üìÅ Simulando guardado de archivos:")
print("‚úÖ df_resultados.to_csv('datos_resultados.csv')")
print("‚úÖ df_eventos.to_csv('datos_eventos.csv')")
print("‚úÖ df_posiciones.to_csv('datos_posiciones.csv')")

# Simular carga (en la pr√°ctica real usar√≠as pd.read_csv())
print("\nüìÇ Simulando carga de archivos:")
print("‚úÖ df_resultados = pd.read_csv('datos_resultados.csv')")
print("‚úÖ df_eventos = pd.read_csv('datos_eventos.csv')")
print("‚úÖ df_posiciones = pd.read_csv('datos_posiciones.csv')")

# Mostrar informaci√≥n de los datasets como si fueran cargados
print("\nüìä Informaci√≥n de datasets cargados:")
print(f"Dataset de resultados: {df_resultados.shape}")
print(f"Dataset de eventos: {df_eventos.shape}")
print(f"Dataset de posiciones: {df_posiciones.shape}")

# Ejemplo de verificaci√≥n de carga
print("\nüîç Verificaci√≥n de tipos de datos:")
print("Resultados:")
print(df_resultados.dtypes)

print("\n‚ö†Ô∏è Nota: En un entorno real, ser√≠a necesario:")
print("- Verificar la integridad de los datos")
print("- Manejar datos faltantes")
print("- Convertir tipos de datos si es necesario")
print("- Validar la consistencia entre datasets")

## 7. Ejercicios Pr√°cticos para Estudiantes

### Ejercicio Pr√°ctico 1: An√°lisis de Liga Espec√≠fica

Completa el siguiente an√°lisis:

In [None]:
# EJERCICIO PR√ÅCTICO 1: An√°lisis de Liga Espec√≠fica
print("üéØ EJERCICIO PR√ÅCTICO 1: AN√ÅLISIS DE LIGA ESPEC√çFICA")
print("=" * 55)

# TODO: Elige una liga para analizar
liga_elegida = 'Premier League'  # Cambia por la liga que prefieras

# 1. Filtrar datos de la liga elegida
partidos_liga = df_resultados[df_resultados['liga'] == liga_elegida]
eventos_liga = df_eventos[df_eventos['liga'] == liga_elegida]
posiciones_liga = df_posiciones[df_posiciones['liga'] == liga_elegida]

print(f"üìä An√°lisis de: {liga_elegida}")
print(f"Partidos analizados: {len(partidos_liga)}")
print(f"Eventos analizados: {len(eventos_liga)}")
print(f"Registros de posiciones: {len(posiciones_liga)}")

# 2. Estad√≠sticas b√°sicas
print(f"\n‚öΩ Estad√≠sticas de {liga_elegida}:")
print(f"Promedio de goles por partido: {partidos_liga['total_goles'].mean():.2f}")
print(f"Partido con m√°s goles: {partidos_liga['total_goles'].max()}")
print(f"Distribuci√≥n de resultados:")
print(partidos_liga['resultado'].value_counts(normalize=True).mul(100).round(1))

# 3. An√°lisis temporal
print(f"\nüìÖ An√°lisis temporal:")
print("Partidos por temporada:")
print(partidos_liga['temporada'].value_counts().sort_index())

# 4. Equipos m√°s exitosos
print(f"\nüèÜ Top 3 equipos por puntos promedio:")
top_equipos = posiciones_liga.groupby('equipo')['puntos'].mean().sort_values(ascending=False).head(3)
print(top_equipos.round(1))

### Ejercicio Pr√°ctico 2: Comparaci√≥n Temporal

Compara el rendimiento entre temporadas:

In [None]:
# EJERCICIO PR√ÅCTICO 2: Comparaci√≥n Temporal
print("üéØ EJERCICIO PR√ÅCTICO 2: COMPARACI√ìN TEMPORAL")
print("=" * 50)

# TODO: Compara dos temporadas espec√≠ficas
temporada_1 = '2020-21'
temporada_2 = '2022-23'

# Filtrar datos por temporada
datos_temp1 = df_resultados[df_resultados['temporada'] == temporada_1]
datos_temp2 = df_resultados[df_resultados['temporada'] == temporada_2]

print(f"üìä Comparaci√≥n entre {temporada_1} y {temporada_2}")

# Comparar estad√≠sticas b√°sicas
print(f"\n‚öΩ Estad√≠sticas de goles:")
print(f"{temporada_1}: {datos_temp1['total_goles'].mean():.2f} goles/partido")
print(f"{temporada_2}: {datos_temp2['total_goles'].mean():.2f} goles/partido")

# Comparar distribuci√≥n de resultados
print(f"\nüèÜ Distribuci√≥n de resultados:")
print(f"{temporada_1}:")
print(datos_temp1['resultado'].value_counts(normalize=True).mul(100).round(1))
print(f"\n{temporada_2}:")
print(datos_temp2['resultado'].value_counts(normalize=True).mul(100).round(1))

# Comparar por liga
print(f"\nüèüÔ∏è Partidos por liga:")
print(f"{temporada_1}:")
print(datos_temp1['liga'].value_counts())
print(f"\n{temporada_2}:")
print(datos_temp2['liga'].value_counts())

### Ejercicio Pr√°ctico 3: An√°lisis de Eventos

Analiza los patrones de eventos:

In [None]:
# EJERCICIO PR√ÅCTICO 3: An√°lisis de Eventos
print("üéØ EJERCICIO PR√ÅCTICO 3: AN√ÅLISIS DE EVENTOS")
print("=" * 50)

# TODO: Analiza un tipo de evento espec√≠fico
evento_elegido = 'Gol'  # Cambia por el evento que prefieras

# Filtrar eventos del tipo elegido
eventos_filtrados = df_eventos[df_eventos['tipo_evento'] == evento_elegido]

print(f"üìä An√°lisis de: {evento_elegido}")
print(f"Total de eventos: {len(eventos_filtrados)}")

# An√°lisis temporal
print(f"\n‚è∞ An√°lisis temporal de {evento_elegido.lower()}s:")
print(f"Minuto promedio: {eventos_filtrados['minuto'].mean():.1f}")
print(f"Minuto m√°s temprano: {eventos_filtrados['minuto'].min()}")
print(f"Minuto m√°s tard√≠o: {eventos_filtrados['minuto'].max()}")

# Distribuci√≥n por mitad
primera_mitad = len(eventos_filtrados[eventos_filtrados['minuto'] <= 45])
segunda_mitad = len(eventos_filtrados[eventos_filtrados['minuto'] > 45])
print(f"\nüìä Distribuci√≥n por mitad:")
print(f"Primera mitad (1-45 min): {primera_mitad} ({primera_mitad/len(eventos_filtrados)*100:.1f}%)")
print(f"Segunda mitad (46-90 min): {segunda_mitad} ({segunda_mitad/len(eventos_filtrados)*100:.1f}%)")

# Distribuci√≥n por liga
print(f"\nüèüÔ∏è {evento_elegido}s por liga:")
print(eventos_filtrados['liga'].value_counts())

# Equipos m√°s activos
print(f"\nüèÜ Top 5 equipos con m√°s {evento_elegido.lower()}s:")
equipos_activos = eventos_filtrados['equipo'].value_counts().head(5)
print(equipos_activos)

## 8. Resumen y Conclusiones

### ¬øQu√© hemos aprendido?

1. **Tipos de datos futbol√≠sticos**: Comprendimos las diferencias entre datos de resultados, eventos y posiciones
2. **Lectura y manipulaci√≥n de CSV**: Aprendimos a trabajar con datos tabulares
3. **Consultas b√°sicas**: Dominamos el filtrado y conteo de datos
4. **An√°lisis comparativo**: Comparamos ligas, temporadas y eventos
5. **Visualizaci√≥n de datos**: Creamos gr√°ficos para entender patrones

### Insights Principales

- **Estructura de datos**: Los datos de f√∫tbol est√°n interconectados y requieren an√°lisis relacional
- **Patrones temporales**: Los eventos siguen patrones temporales espec√≠ficos
- **Variabilidad entre ligas**: Diferentes ligas tienen caracter√≠sticas √∫nicas
- **Importancia del contexto**: La temporada y competici√≥n afectan los resultados

### Pr√≥ximos Pasos

En la semana 3 profundizaremos en:
- Estad√≠stica descriptiva avanzada
- Medidas de tendencia central y dispersi√≥n
- An√°lisis de correlaciones
- Interpretaci√≥n estad√≠stica de resultados deportivos

## 9. Tarea para Casa

### Ejercicio Individual

1. **An√°lisis de datos espec√≠ficos**:
   - Elige una liga y temporada espec√≠fica
   - Crea un an√°lisis completo de los tres tipos de datos
   - Identifica patrones √∫nicos en tus datos elegidos
   - Crea al menos 3 visualizaciones diferentes

2. **Comparaci√≥n entre ligas**:
   - Compara 2 ligas diferentes en la misma temporada
   - Analiza diferencias en promedio de goles, tipos de eventos, etc.
   - Documenta tus conclusiones

3. **An√°lisis temporal**:
   - Elige un equipo espec√≠fico
   - Analiza su evoluci√≥n a trav√©s de diferentes temporadas
   - Identifica tendencias de mejora o declive

### Preparaci√≥n para la Pr√≥xima Semana

- Revisar conceptos de estad√≠stica descriptiva
- Practicar operaciones de agrupaci√≥n con pandas
- Familiarizarse con medidas de tendencia central
- Explorar funciones de pandas para an√°lisis estad√≠stico

### Recursos Adicionales

- Documentaci√≥n de pandas: `groupby()`, `agg()`, `value_counts()`
- Conceptos de datos relacionales en deportes
- Ejemplos de an√°lisis de datos de f√∫tbol reales

---

**¬°Excelente trabajo explorando los tipos de datos en el f√∫tbol!** ‚öΩüìä