# Semana 1: Introducción y Exploración

## Ciencia de Datos en el Deporte - Fundamentos con Python

---

**Objetivos de aprendizaje:**
- Comprender los conceptos básicos de ciencia de datos aplicados al fútbol
- Explorar el dataset "champs" de Kaggle
- Familiarizarse con Jupyter Notebook y pandas básico
- Analizar la estructura de datos futbolísticos

---

## 1. Teoría: Presentación del Curso y Ciencia de Datos en el Deporte

### ¿Qué es la Ciencia de Datos?

La ciencia de datos es un campo interdisciplinario que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento y percepciones de datos estructurados y no estructurados.

### Ciencia de Datos en el Deporte

En el contexto deportivo, la ciencia de datos nos permite:

1. **Análisis de Rendimiento**: Evaluar el desempeño de jugadores y equipos
2. **Predicción de Resultados**: Crear modelos que anticipen resultados de partidos
3. **Optimización Táctica**: Identificar patrones y estrategias exitosas
4. **Gestión de Recursos**: Optimizar fichajes y gestión de plantillas
5. **Experiencia del Aficionado**: Mejorar la experiencia mediante estadísticas avanzadas

### El Fútbol como Fuente de Datos

El fútbol genera una gran cantidad de datos:
- **Resultados de partidos**: Marcadores, fechas, equipos
- **Eventos del juego**: Goles, tarjetas, faltas, corners
- **Datos de jugadores**: Posiciones, pases, disparos
- **Datos temporales**: Temporadas, competiciones, fechas

### Herramientas Principales

- **Python**: Lenguaje de programación principal
- **Pandas**: Manipulación y análisis de datos
- **Matplotlib/Seaborn**: Visualización de datos
- **Jupyter Notebook**: Entorno interactivo de desarrollo

## 2. Herramientas: Jupyter Notebook y Pandas Básico

### Configuración del Entorno

Primero, importemos las librerías necesarias para nuestro análisis:

In [None]:
# Importar librerías esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuración para mejorar la visualización
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("✅ Librerías importadas exitosamente")
print(f"📊 Pandas versión: {pd.__version__}")
print(f"🔢 NumPy versión: {np.__version__}")

### Conceptos Básicos de Pandas

Pandas es la librería fundamental para el análisis de datos en Python. Sus estructuras principales son:

- **Series**: Estructura unidimensional (como una columna)
- **DataFrame**: Estructura bidimensional (como una tabla)

Veamos algunos ejemplos básicos:

In [None]:
# Crear una Serie simple con equipos de fútbol
equipos = pd.Series(['Barcelona', 'Real Madrid', 'Atletico Madrid', 'Sevilla', 'Valencia'])
print("Serie de equipos:")
print(equipos)
print(f"\nTipo de datos: {type(equipos)}")

In [None]:
# Crear un DataFrame simple con datos de ejemplo
datos_ejemplo = {
    'equipo': ['Barcelona', 'Real Madrid', 'Atletico Madrid'],
    'goles_favor': [68, 87, 55],
    'goles_contra': [38, 28, 25],
    'puntos': [85, 88, 76]
}

df_ejemplo = pd.DataFrame(datos_ejemplo)
print("DataFrame de ejemplo:")
print(df_ejemplo)
print(f"\nDimensiones: {df_ejemplo.shape}")
print(f"Columnas: {list(df_ejemplo.columns)}")

## 3. Práctica: Exploración del Dataset "champs"

### Carga del Dataset

Vamos a cargar el dataset "champs" que contiene información sobre la UEFA Champions League. Este dataset típicamente contiene información sobre partidos, equipos, goles y resultados.

**Nota**: Para este ejemplo, crearemos un dataset simulado que represente la estructura típica del dataset "champs". En un entorno real, cargarías el archivo CSV directamente.

In [None]:
# Simulamos la carga del dataset "champs"
# En la práctica real, usarías: df_champs = pd.read_csv('path/to/champs.csv')

# Creamos datos simulados que representen la estructura típica
np.random.seed(42)

# Generar datos de ejemplo
equipos_champions = [
    'Barcelona', 'Real Madrid', 'Bayern Munich', 'Manchester City',
    'Liverpool', 'Paris Saint-Germain', 'Chelsea', 'Juventus',
    'Manchester United', 'Arsenal', 'Atletico Madrid', 'Borussia Dortmund'
]

temporadas = ['2020-21', '2021-22', '2022-23']
fases = ['Group Stage', 'Round of 16', 'Quarter-finals', 'Semi-finals', 'Final']

# Generar datos simulados
n_partidos = 200
datos_champs = []

for i in range(n_partidos):
    equipo_local = np.random.choice(equipos_champions)
    equipo_visitante = np.random.choice([e for e in equipos_champions if e != equipo_local])
    
    goles_local = np.random.poisson(1.5)
    goles_visitante = np.random.poisson(1.2)
    
    datos_champs.append({
        'season': np.random.choice(temporadas),
        'stage': np.random.choice(fases),
        'date': f"2022-{np.random.randint(1,13):02d}-{np.random.randint(1,29):02d}",
        'home_team': equipo_local,
        'away_team': equipo_visitante,
        'home_goals': goles_local,
        'away_goals': goles_visitante,
        'home_possession': np.random.randint(35, 75),
        'away_possession': 100 - np.random.randint(35, 75)
    })

df_champs = pd.DataFrame(datos_champs)
print("✅ Dataset 'champs' cargado exitosamente")
print(f"📊 Dimensiones: {df_champs.shape}")

### Exploración Inicial del Dataset

Comencemos explorando la estructura básica de nuestros datos:

In [None]:
# Mostrar las primeras filas del dataset
print("🔍 Primeras 5 filas del dataset:")
print(df_champs.head())

In [None]:
# Información general del dataset
print("📋 Información general del dataset:")
print(df_champs.info())

In [None]:
# Descripción estadística básica
print("📊 Descripción estadística de variables numéricas:")
print(df_champs.describe())

### Análisis de la Estructura de Datos

Vamos a analizar cada columna y entender qué representa:

In [None]:
# Análisis de las columnas categóricas
print("🏆 Temporadas disponibles:")
print(df_champs['season'].value_counts())

print("\n⚽ Fases del torneo:")
print(df_champs['stage'].value_counts())

print("\n🏟️ Equipos más frecuentes como locales:")
print(df_champs['home_team'].value_counts().head(10))

In [None]:
# Análisis de goles
print("⚽ Estadísticas de goles:")
print(f"Promedio de goles por partido (local): {df_champs['home_goals'].mean():.2f}")
print(f"Promedio de goles por partido (visitante): {df_champs['away_goals'].mean():.2f}")
print(f"Promedio total de goles por partido: {(df_champs['home_goals'] + df_champs['away_goals']).mean():.2f}")

# Calcular el total de goles por partido
df_champs['total_goals'] = df_champs['home_goals'] + df_champs['away_goals']
print(f"\nPartido con más goles: {df_champs['total_goals'].max()} goles")
print(f"Partidos sin goles: {len(df_champs[df_champs['total_goals'] == 0])}")

### Visualizaciones Básicas

Creemos algunas visualizaciones para entender mejor los datos:

In [None]:
# Configurar el estilo de las gráficas
plt.figure(figsize=(15, 10))

# Gráfica 1: Distribución de goles por partido
plt.subplot(2, 2, 1)
plt.hist(df_champs['total_goals'], bins=range(0, df_champs['total_goals'].max()+2), 
         alpha=0.7, color='skyblue', edgecolor='black')
plt.title('Distribución de Goles Totales por Partido')
plt.xlabel('Goles Totales')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)

# Gráfica 2: Goles locales vs visitantes
plt.subplot(2, 2, 2)
plt.scatter(df_champs['home_goals'], df_champs['away_goals'], alpha=0.6, color='coral')
plt.title('Goles Locales vs Goles Visitantes')
plt.xlabel('Goles Locales')
plt.ylabel('Goles Visitantes')
plt.grid(True, alpha=0.3)

# Gráfica 3: Partidos por temporada
plt.subplot(2, 2, 3)
df_champs['season'].value_counts().plot(kind='bar', color='lightgreen')
plt.title('Partidos por Temporada')
plt.xlabel('Temporada')
plt.ylabel('Número de Partidos')
plt.xticks(rotation=45)

# Gráfica 4: Partidos por fase
plt.subplot(2, 2, 4)
df_champs['stage'].value_counts().plot(kind='bar', color='lightcoral')
plt.title('Partidos por Fase del Torneo')
plt.xlabel('Fase')
plt.ylabel('Número de Partidos')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

### Análisis Exploratorio Avanzado

Realicemos algunos análisis más profundos:

In [None]:
# Análisis de ventaja de local
partidos_local = len(df_champs[df_champs['home_goals'] > df_champs['away_goals']])
partidos_visitante = len(df_champs[df_champs['away_goals'] > df_champs['home_goals']])
partidos_empate = len(df_champs[df_champs['home_goals'] == df_champs['away_goals']])

print("🏟️ Análisis de Ventaja de Local:")
print(f"Victorias locales: {partidos_local} ({partidos_local/len(df_champs)*100:.1f}%)")
print(f"Victorias visitantes: {partidos_visitante} ({partidos_visitante/len(df_champs)*100:.1f}%)")
print(f"Empates: {partidos_empate} ({partidos_empate/len(df_champs)*100:.1f}%)")

# Visualización de la ventaja de local
plt.figure(figsize=(10, 6))
resultados = ['Victorias Locales', 'Empates', 'Victorias Visitantes']
valores = [partidos_local, partidos_empate, partidos_visitante]
colores = ['#2E8B57', '#FFD700', '#DC143C']

plt.pie(valores, labels=resultados, colors=colores, autopct='%1.1f%%', startangle=90)
plt.title('Distribución de Resultados: Ventaja de Local')
plt.axis('equal')
plt.show()

In [None]:
# Análisis por equipo
# Todos los equipos que aparecen en el dataset
todos_equipos = set(df_champs['home_team'].unique()) | set(df_champs['away_team'].unique())
print(f"📊 Total de equipos en el dataset: {len(todos_equipos)}")
print(f"Equipos: {sorted(todos_equipos)}")

# Estadísticas por equipo
estadisticas_equipos = []

for equipo in todos_equipos:
    # Partidos como local
    partidos_local = df_champs[df_champs['home_team'] == equipo]
    # Partidos como visitante
    partidos_visitante = df_champs[df_champs['away_team'] == equipo]
    
    total_partidos = len(partidos_local) + len(partidos_visitante)
    goles_favor = partidos_local['home_goals'].sum() + partidos_visitante['away_goals'].sum()
    goles_contra = partidos_local['away_goals'].sum() + partidos_visitante['home_goals'].sum()
    
    estadisticas_equipos.append({
        'equipo': equipo,
        'partidos': total_partidos,
        'goles_favor': goles_favor,
        'goles_contra': goles_contra,
        'diferencia_goles': goles_favor - goles_contra
    })

df_estadisticas = pd.DataFrame(estadisticas_equipos)
df_estadisticas = df_estadisticas.sort_values('diferencia_goles', ascending=False)

print("\n🏆 Top 5 equipos por diferencia de goles:")
print(df_estadisticas.head())

### Limpieza y Preparación de Datos

Veamos si hay datos faltantes o inconsistencias:

In [None]:
# Verificar datos faltantes
print("🔍 Verificación de datos faltantes:")
print(df_champs.isnull().sum())

# Verificar tipos de datos
print("\n📋 Tipos de datos:")
print(df_champs.dtypes)

# Convertir la columna de fecha a datetime
df_champs['date'] = pd.to_datetime(df_champs['date'])
print("\n✅ Columna 'date' convertida a datetime")

# Verificar valores únicos en columnas categóricas
print("\n🔢 Valores únicos por columna:")
for col in ['season', 'stage']:
    print(f"{col}: {df_champs[col].nunique()} valores únicos")

## 4. Ejercicios Prácticos

### Ejercicio 1: Análisis Básico
Completa las siguientes tareas:

In [None]:
# TODO: Encuentra el partido con más goles totales
# Pista: Usa df_champs['total_goals'].idxmax()

# Tu código aquí:
partido_mas_goles = df_champs.loc[df_champs['total_goals'].idxmax()]
print("🎯 Partido con más goles:")
print(f"{partido_mas_goles['home_team']} {partido_mas_goles['home_goals']} - {partido_mas_goles['away_goals']} {partido_mas_goles['away_team']}")
print(f"Total de goles: {partido_mas_goles['total_goals']}")
print(f"Fecha: {partido_mas_goles['date']}")
print(f"Fase: {partido_mas_goles['stage']}")

In [None]:
# TODO: Encuentra el equipo que más goles ha marcado en total
# Pista: Suma los goles como local y visitante para cada equipo

# Tu código aquí:
mejor_ataque = df_estadisticas.loc[df_estadisticas['goles_favor'].idxmax()]
print("⚽ Equipo con más goles marcados:")
print(f"Equipo: {mejor_ataque['equipo']}")
print(f"Goles a favor: {mejor_ataque['goles_favor']}")
print(f"Partidos jugados: {mejor_ataque['partidos']}")
print(f"Promedio de goles por partido: {mejor_ataque['goles_favor']/mejor_ataque['partidos']:.2f}")

### Ejercicio 2: Filtrado de Datos
Practica el filtrado de datos con diferentes condiciones:

In [None]:
# TODO: Filtra los partidos de la temporada 2022-23
# Tu código aquí:
temporada_2022_23 = df_champs[df_champs['season'] == '2022-23']
print(f"📅 Partidos en temporada 2022-23: {len(temporada_2022_23)}")

# TODO: Filtra los partidos con más de 4 goles totales
# Tu código aquí:
partidos_muchos_goles = df_champs[df_champs['total_goals'] > 4]
print(f"🔥 Partidos con más de 4 goles: {len(partidos_muchos_goles)}")

# TODO: Filtra los partidos donde Barcelona jugó como local
# Tu código aquí:
barcelona_local = df_champs[df_champs['home_team'] == 'Barcelona']
print(f"🏟️ Partidos de Barcelona como local: {len(barcelona_local)}")

## 5. Resumen y Conclusiones

### ¿Qué hemos aprendido?

1. **Conceptos básicos**: Entendimos qué es la ciencia de datos y su aplicación en el fútbol
2. **Herramientas fundamentales**: Aprendimos a usar Jupyter Notebook y pandas básico
3. **Exploración de datos**: Exploramos la estructura del dataset "champs"
4. **Análisis básico**: Realizamos análisis estadísticos descriptivos simples
5. **Visualización**: Creamos gráficas para entender mejor los datos

### Insights Principales del Dataset

- **Ventaja de local**: Observamos si existe ventaja para el equipo local
- **Distribución de goles**: Analizamos cómo se distribuyen los goles por partido
- **Equipos destacados**: Identificamos equipos con mejor rendimiento ofensivo
- **Patrones temporales**: Exploramos diferencias entre temporadas

### Próximos Pasos

En las siguientes semanas profundizaremos en:
- Tipos específicos de datos futbolísticos
- Estadística descriptiva avanzada
- Técnicas de visualización más sofisticadas
- Análisis e interpretación de resultados

## 6. Tarea para Casa

### Ejercicio Individual

1. **Análisis de un equipo específico**:
   - Elige un equipo de tu preferencia
   - Analiza su rendimiento como local vs visitante
   - Calcula estadísticas básicas (goles promedio, partidos jugados)
   - Crea al menos 2 visualizaciones

2. **Exploración libre**:
   - Plantea 3 preguntas sobre el dataset
   - Responde usando código Python
   - Documenta tus hallazgos

### Preparación para la Próxima Semana

- Revisar conceptos de tipos de datos en fútbol
- Practicar operaciones básicas con pandas
- Familiarizarse con la lectura de archivos CSV

---

**¡Excelente trabajo en tu primera semana de ciencia de datos deportivos!** 🎉