# Semana 4: Pandas y NumPy - Análisis Profesional de Datos Futbolísticos
## De Listas Básicas a Herramientas de Científicos de Datos

### Estructura del Aprendizaje (3 sesiones de 50 minutos)

**Sesión 1**: NumPy - Matemáticas masivas con arrays futbolísticos
**Sesión 2**: Pandas - Hojas de cálculo inteligentes para estadísticas  
**Sesión 3**: Proyecto integrador - Análisis completo de temporada

---

### Objetivos Generales
Al finalizar esta semana, podrás:
- Usar NumPy para cálculos masivos de estadísticas futbolísticas
- Manejar datasets de jugadores y partidos con Pandas
- Crear análisis profesionales similares a los que usan clubes reales
- Procesar datos de temporadas completas de forma eficiente

### Pregunta Central de la Semana
**¿Cómo analizan los clubes profesionales datos de miles de partidos y cientos de jugadores simultáneamente?**

---

# Sesión 1: NumPy - Calculadora Científica para Fútbol
**(50 minutos)**

## Objetivo de la Sesión
Aprender a usar NumPy para realizar cálculos masivos con estadísticas futbolísticas de manera profesional.

### Pregunta Central
**¿Cómo calcularías el promedio de goles de 1000 jugadores en menos de un segundo?**

**Limitación actual**: Con listas, necesitarías crear bucles y procesar cada jugador individualmente.

**Solución profesional**: NumPy puede procesar miles de números simultáneamente.

### Analogía Deportiva
**Reflexiona**: ¿Cuál es la diferencia entre:
- Cronometrar manualmente a cada corredor en una carrera vs.
- Usar un sistema electrónico que mide a todos simultáneamente?

**NumPy** es como el sistema electrónico para cálculos matemáticos.

---

## ¿Qué es NumPy?

**NumPy (Numerical Python)** es la base de todo análisis científico en Python.

**Características principales**:
- Procesa arrays (listas multidimensionales) súper rápido
- Operaciones matemáticas masivas en milisegundos
- Base para todas las librerías de ciencia de datos

In [None]:
# Importando NumPy - La convención universal
import numpy as np

print("NumPy importado exitosamente")
print(f"Versión de NumPy: {np.__version__}")

# Primer ejemplo: Comparando listas vs arrays
print("\n=== COMPARACIÓN: LISTAS vs ARRAYS ===")

# Con listas tradicionales (método anterior)
goles_lista = [15, 8, 22, 12, 18, 7, 25, 14]
print("Goles con lista tradicional:", goles_lista)
print("Tipo:", type(goles_lista))

# Con arrays de NumPy (método profesional)
goles_array = np.array([15, 8, 22, 12, 18, 7, 25, 14])
print("Goles con array NumPy:", goles_array)
print("Tipo:", type(goles_array))

print("\n¿Notas la diferencia? ¡Ahora viene la magia!")

NumPy instalado correctamente!
Versión de NumPy: 2.2.6
Pandas disponible - Versión: 2.3.1

LISTO PARA ANALIZAR DATOS DEPORTIVOS
Pandas disponible - Versión: 2.3.1

LISTO PARA ANALIZAR DATOS DEPORTIVOS


## La Magia de las Operaciones Masivas

**Pregunta clave**: ¿Cómo calcularías el promedio de goles por partido para cada jugador si cada uno jugó diferente número de partidos?

Con listas necesitarías hacer esto manualmente para cada jugador.
Con NumPy... ¡puedes hacerlo todo de una vez!

In [None]:
# Demostración de operaciones masivas con estadísticas futbolísticas
print("=== OPERACIONES MASIVAS CON NUMPY ===")

# Datos de una jornada de La Liga
goles_jornada = np.array([2, 0, 1, 3, 1, 0, 2, 1, 0, 4])
partidos_jugados = np.array([25, 28, 22, 30, 26, 24, 27, 29, 21, 26])

print("Goles de 10 jugadores:", goles_jornada)
print("Partidos jugados:", partidos_jugados)
print()

# ¡Operaciones simultáneas en todos los elementos!
print("=== CÁLCULOS INSTANTÁNEOS ===")

# Promedio de goles por partido (para todos a la vez)
promedio_goles = goles_jornada / partidos_jugados
print("Promedio goles/partido:", np.round(promedio_goles, 3))

# Estadísticas instantáneas
print(f"Mejor goleador: {np.max(goles_jornada)} goles")
print(f"Promedio general: {np.mean(goles_jornada):.2f} goles")
print(f"Desviación estándar: {np.std(goles_jornada):.2f}")
print(f"Total de goles: {np.sum(goles_jornada)}")

# Operaciones lógicas masivas
jugadores_efectivos = goles_jornada > np.mean(goles_jornada)
print(f"Jugadores sobre la media: {np.sum(jugadores_efectivos)} de {len(goles_jornada)}")

# Transformaciones instantáneas (convertir goles a puntos de fantasía)
puntos_fantasia = goles_jornada * 6 + (partidos_jugados * 0.1)
print("Puntos fantasía:", np.round(puntos_fantasia, 1))

## Arrays Multidimensionales: Matrices de Datos

**Pregunta reflexiva**: ¿Cómo organizarías datos de múltiples jornadas y múltiples jugadores al mismo tiempo?

**Problema real**: Necesitas analizar goles de 10 jugadores durante 5 jornadas.

Con listas: Tendrías que crear listas dentro de listas, complicado de manejar.
Con NumPy: Puedes crear matrices que organizan todo automáticamente.

In [None]:
# Arrays 2D: Organizando datos de múltiples jornadas
print("=== MATRIZ DE GOLES POR JORNADA ===")

# Goles de 5 jugadores en 4 jornadas (filas=jugadores, columnas=jornadas)
goles_temporada = np.array([
    [2, 1, 0, 3],  # Jugador 1
    [0, 2, 1, 1],  # Jugador 2  
    [1, 1, 2, 0],  # Jugador 3
    [3, 0, 1, 2],  # Jugador 4
    [1, 3, 0, 1]   # Jugador 5
])

print("Matriz de goles (jugadores x jornadas):")
print(goles_temporada)
print(f"Forma de la matriz: {goles_temporada.shape}")  # (filas, columnas)
print()

# Análisis por jugador (suma por filas)
goles_por_jugador = np.sum(goles_temporada, axis=1)
print("Total goles por jugador:", goles_por_jugador)

# Análisis por jornada (suma por columnas)  
goles_por_jornada = np.sum(goles_temporada, axis=0)
print("Total goles por jornada:", goles_por_jornada)

# Estadísticas avanzadas
mejor_jugador = np.argmax(goles_por_jugador)  # Índice del máximo
mejor_jornada = np.argmax(goles_por_jornada)

print(f"Mejor jugador: Jugador {mejor_jugador + 1} con {goles_por_jugador[mejor_jugador]} goles")
print(f"Mejor jornada: Jornada {mejor_jornada + 1} con {goles_por_jornada[mejor_jornada]} goles")

# Promedio de goles por jornada para cada jugador
promedio_por_jugador = np.mean(goles_temporada, axis=1)
print("Promedio goles/jornada por jugador:", np.round(promedio_por_jugador, 2))

### Actividad Práctica: Análisis de tu Equipo

**Tiempo estimado: 12 minutos**

**Tu desafío**: Crea un análisis NumPy de las asistencias de 4 jugadores durante 3 jornadas.

**Datos sugeridos** (o usa datos reales de tu equipo favorito):
```
Jugador 1: [3, 1, 2] asistencias
Jugador 2: [0, 2, 1] asistencias  
Jugador 3: [1, 0, 3] asistencias
Jugador 4: [2, 2, 0] asistencias
```

**Tareas**:
1. Crear la matriz de asistencias
2. Calcular total de asistencias por jugador
3. Encontrar la jornada con más asistencias
4. Calcular el promedio por jugador
5. Identificar al mejor asistente

---

## Resumen de la Sesión 1 (50 minutos)

**¿Qué hemos descubierto sobre NumPy?**

### Conceptos Clave:
- **Arrays**: Listas súper eficientes para cálculos masivos
- **Operaciones vectorizadas**: Cálculos simultáneos en todos los elementos
- **Arrays 2D**: Matrices para organizar datos multidimensionales
- **Funciones estadísticas**: mean, sum, max, min, std automáticas

### Ventajas sobre Listas Tradicionales:
- **Velocidad**: Miles de veces más rápido
- **Simplicidad**: Una línea hace lo que antes necesitaba bucles
- **Funcionalidad**: Estadísticas avanzadas integradas
- **Profesionalidad**: Estándar en ciencia de datos

**Pregunta para reflexionar**: ¿Cómo cambiaría tu capacidad de análisis si pudieras procesar datos de temporadas completas instantáneamente?

---

**Próxima sesión**: Pandas - Hojas de cálculo inteligentes para manejar datasets complejos con nombres, fechas y múltiples tipos de datos.

# Sesión 2: Pandas - Excel con Súper Poderes
**(50 minutos)**

## Objetivo de la Sesión
Aprender a manejar datasets complejos con nombres, fechas, equipos y estadísticas usando Pandas de manera profesional.

### Pregunta Central
**¿Cómo organizarías datos que incluyen nombres de jugadores, fechas de partidos, equipos, posiciones y múltiples estadísticas?**

**Limitación de NumPy**: Perfecto para números, pero... ¿qué pasa con texto, fechas y datos mixtos?

**Solución profesional**: Pandas maneja cualquier tipo de dato de forma inteligente.

### Analogía Deportiva
**Reflexiona**: ¿Cuál es la diferencia entre:
- Una calculadora (NumPy) vs.
- Una hoja de cálculo completa con filtros, tablas dinámicas y gráficos (Pandas)?

**Pandas** es como Excel, pero programable y mil veces más potente.

---

## ¿Qué es Pandas?

**Pandas** es la librería fundamental para análisis de datos en Python.

**Características principales**:
- **DataFrames**: Tablas inteligentes como hojas de cálculo
- **Series**: Columnas individuales con etiquetas
- **Funcionalidad avanzada**: Filtros, agrupaciones, uniones de datos
- **Compatibilidad**: Lee Excel, CSV, bases de datos

In [None]:
# Importando Pandas - La convención profesional
import pandas as pd
import numpy as np

print("Pandas importado exitosamente")
print(f"Versión de Pandas: {pd.__version__}")

# Creando nuestro primer DataFrame - Base de datos de jugadores
print("\n=== CREANDO UNA BASE DE DATOS DE JUGADORES ===")

# Datos de jugadores del Real Madrid
datos_jugadores = {
    'nombre': ['Vinícius Jr', 'Benzema', 'Modrić', 'Courtois', 'Militão'],
    'posicion': ['Extremo', 'Delantero', 'Mediocampista', 'Portero', 'Defensa'],
    'edad': [23, 35, 37, 30, 25],
    'goles': [15, 18, 3, 0, 2],
    'asistencias': [8, 6, 12, 0, 1],
    'partidos': [28, 25, 30, 32, 26],
    'nacionalidad': ['Brasil', 'Francia', 'Croacia', 'Bélgica', 'Brasil']
}

# Creando el DataFrame
df_madrid = pd.DataFrame(datos_jugadores)

print("DataFrame creado:")
print(df_madrid)
print()
print(f"Forma del DataFrame: {df_madrid.shape}")  # (filas, columnas)
print(f"Tipos de datos:")
print(df_madrid.dtypes)

## Explorando y Manipulando DataFrames

**Pregunta práctica**: ¿Cómo harías para explorar rápidamente una base de datos con miles de jugadores?

Pandas tiene métodos integrados para todo tipo de análisis exploratorio.

In [None]:
# Explorando el DataFrame - Métodos básicos de análisis
print("=== ANÁLISIS EXPLORATORIO BÁSICO ===")

# Información general del dataset
print("Primeras filas:")
print(df_madrid.head())
print()

print("Estadísticas descriptivas:")
print(df_madrid.describe())
print()

print("Información del DataFrame:")
print(df_madrid.info())
print()

# Accediendo a columnas específicas
print("=== ACCESO A DATOS ESPECÍFICOS ===")
print("Solo nombres de jugadores:")
print(df_madrid['nombre'].tolist())
print()

print("Goles y asistencias:")
print(df_madrid[['nombre', 'goles', 'asistencias']])
print()

# Creando nuevas columnas calculadas
print("=== CREANDO COLUMNAS CALCULADAS ===")
df_madrid['goles_por_partido'] = df_madrid['goles'] / df_madrid['partidos']
df_madrid['participaciones_gol'] = df_madrid['goles'] + df_madrid['asistencias']

print("DataFrame con nuevas columnas:")
print(df_madrid[['nombre', 'goles_por_partido', 'participaciones_gol']])
print()

# Ordenamiento
print("=== JUGADORES ORDENADOS POR PARTICIPACIONES EN GOL ===")
df_ordenado = df_madrid.sort_values('participaciones_gol', ascending=False)
print(df_ordenado[['nombre', 'posicion', 'participaciones_gol']])

## Filtrado y Agrupación - Análisis Avanzado

**Pregunta estratégica**: ¿Cómo encontrarías rápidamente a todos los jugadores brasileños que anotaron más de 10 goles?

Con Pandas puedes crear filtros complejos de manera muy intuitiva.

In [None]:
# Filtrado avanzado de datos
print("=== FILTROS INTELIGENTES ===")

# Filtro simple: Jugadores con más de 10 goles
goleadores = df_madrid[df_madrid['goles'] > 10]
print("Jugadores con más de 10 goles:")
print(goleadores[['nombre', 'goles']])
print()

# Filtro múltiple: Brasileños con más de 5 goles
brasileños_goleadores = df_madrid[(df_madrid['nacionalidad'] == 'Brasil') & 
                                   (df_madrid['goles'] > 5)]
print("Brasileños goleadores:")
print(brasileños_goleadores[['nombre', 'goles', 'nacionalidad']])
print()

# Filtro por posición
atacantes = df_madrid[df_madrid['posicion'].isin(['Delantero', 'Extremo'])]
print("Jugadores ofensivos:")
print(atacantes[['nombre', 'posicion', 'participaciones_gol']])
print()

# Agrupación por nacionalidad
print("=== ANÁLISIS POR GRUPOS ===")
por_nacionalidad = df_madrid.groupby('nacionalidad').agg({
    'goles': 'sum',
    'asistencias': 'sum',
    'edad': 'mean'
}).round(1)

print("Estadísticas por nacionalidad:")
print(por_nacionalidad)
print()

# Agrupación por posición
por_posicion = df_madrid.groupby('posicion').agg({
    'goles': ['mean', 'sum'],
    'partidos': 'mean'
}).round(2)

print("Análisis por posición:")
print(por_posicion)

---

## Resumen de la Sesión 2 (50 minutos)

**¿Qué hemos aprendido sobre Pandas?**

### Conceptos Clave:
- **DataFrames**: Tablas inteligentes con múltiples tipos de datos
- **Exploración**: head(), describe(), info() para análisis rápido
- **Manipulación**: Crear columnas calculadas, ordenar datos
- **Filtrado**: Condiciones simples y complejas para encontrar datos específicos
- **Agrupación**: Análisis por categorías (nacionalidad, posición)

### Ventajas sobre NumPy:
- **Versatilidad**: Maneja texto, números, fechas simultáneamente
- **Etiquetas**: Columnas y filas con nombres descriptivos
- **Filtros intuitivos**: Búsquedas complejas con sintaxis simple
- **Agrupaciones**: Análisis automático por categorías

### Operaciones Fundamentales Aprendidas:
- Crear DataFrames desde diccionarios
- Acceder a columnas específicas
- Calcular nuevas columnas
- Filtrar con condiciones múltiples
- Agrupar y calcular estadísticas

**Pregunta para reflexionar**: ¿Cómo usarías Pandas para analizar datos de toda una liga con cientos de jugadores?

---

**Próxima sesión**: Proyecto integrador - Combinaremos NumPy y Pandas para crear un sistema completo de análisis de temporada futbolística.

# Sesión 3: Proyecto Integrador - Análisis Completo de Temporada
**(50 minutos)**

## Objetivo de la Sesión
Combinar NumPy y Pandas para crear un sistema profesional de análisis de temporada futbolística completa.

### Pregunta Central
**¿Cómo crearías un sistema que analice una temporada completa como lo hacen los equipos profesionales?**

**Desafío real**: Los clubes profesionales necesitan analizar:
- Rendimiento individual y colectivo durante toda la temporada
- Tendencias y patrones de juego
- Comparaciones con temporadas anteriores
- Predicciones basadas en datos históricos

**Tu misión**: Crear un sistema integrado que combine la potencia de NumPy con la versatilidad de Pandas.

---

## Sistema Profesional: Análisis de Temporada Completa

**Pregunta estratégica**: Si fueras director técnico, ¿qué información necesitarías para evaluar el rendimiento de toda una temporada?

Vamos a construir un sistema completo paso a paso.

In [None]:
# PROYECTO INTEGRADOR: Sistema Completo de Análisis de Temporada
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

print("=== SISTEMA PROFESIONAL DE ANÁLISIS DE TEMPORADA ===")
print("Combinando NumPy + Pandas para análisis de nivel profesional")
print()

# ===============================
# GENERACIÓN DE DATASET REALISTA
# ===============================

def generar_temporada_completa(num_jornadas=38):
    """Genera un dataset completo de una temporada futbolística"""
    
    # Equipos de La Liga
    equipos = ['Real Madrid', 'Barcelona', 'Atletico Madrid', 'Sevilla', 
               'Valencia', 'Real Sociedad', 'Villarreal', 'Athletic Bilbao',
               'Real Betis', 'Osasuna', 'Celta', 'Rayo Vallecano',
               'Espanyol', 'Getafe', 'Mallorca', 'Cadiz', 'Granada', 'Almeria',
               'Valladolid', 'Elche']
    
    # Generar fechas de jornadas (cada semana)
    fecha_inicio = datetime(2024, 8, 15)
    fechas = [fecha_inicio + timedelta(weeks=i) for i in range(num_jornadas)]
    
    # Lista para almacenar todos los partidos
    partidos = []
    
    # Generar partidos para cada jornada
    for jornada in range(1, num_jornadas + 1):
        fecha = fechas[jornada - 1]
        
        # En cada jornada, cada equipo juega una vez
        equipos_disponibles = equipos.copy()
        random.shuffle(equipos_disponibles)
        
        # Crear 10 partidos por jornada (20 equipos / 2)
        for i in range(0, len(equipos_disponibles), 2):
            if i + 1 < len(equipos_disponibles):
                local = equipos_disponibles[i]
                visitante = equipos_disponibles[i + 1]
                
                # Generar resultado realista
                # Equipos top tienen mayor probabilidad de anotar más
                factor_local = 1.2 if local in equipos[:6] else 1.0
                factor_visitante = 1.0 if visitante in equipos[:6] else 0.9
                
                goles_local = np.random.poisson(1.4 * factor_local)
                goles_visitante = np.random.poisson(1.2 * factor_visitante)
                
                # Asegurar que no sean resultados extremos
                goles_local = min(goles_local, 5)
                goles_visitante = min(goles_visitante, 5)
                
                partidos.append({
                    'jornada': jornada,
                    'fecha': fecha.strftime('%Y-%m-%d'),
                    'equipo_local': local,
                    'equipo_visitante': visitante,
                    'goles_local': goles_local,
                    'goles_visitante': goles_visitante,
                    'total_goles': goles_local + goles_visitante
                })
    
    return pd.DataFrame(partidos)

# Generar dataset completo
print("Generando temporada completa de La Liga...")
df_temporada = generar_temporada_completa(20)  # 20 jornadas para el ejemplo
print(f"Dataset generado: {len(df_temporada)} partidos")
print()

# Mostrar primeros partidos
print("=== PRIMEROS PARTIDOS DE LA TEMPORADA ===")
print(df_temporada.head(10))

In [None]:
# ===============================
# ANÁLISIS ESTADÍSTICO AVANZADO
# ===============================

def analizar_temporada_completa(df):
    """Análisis completo usando NumPy + Pandas"""
    
    print("=== ANÁLISIS GENERAL DE LA TEMPORADA ===")
    
    # Estadísticas básicas con NumPy
    goles_totales = df['total_goles'].values  # Convertir a array NumPy
    goles_locales = df['goles_local'].values
    goles_visitantes = df['goles_visitante'].values
    
    print(f"Total de partidos analizados: {len(df)}")
    print(f"Promedio de goles por partido: {np.mean(goles_totales):.2f}")
    print(f"Mediana de goles por partido: {np.median(goles_totales):.2f}")
    print(f"Desviación estándar: {np.std(goles_totales):.2f}")
    print(f"Partido con más goles: {np.max(goles_totales)}")
    print(f"Partido con menos goles: {np.min(goles_totales)}")
    print()
    
    # Análisis de ventaja local
    victorias_locales = np.sum(goles_locales > goles_visitantes)
    empates = np.sum(goles_locales == goles_visitantes)
    victorias_visitantes = np.sum(goles_locales < goles_visitantes)
    
    print("=== VENTAJA LOCAL ===")
    print(f"Victorias locales: {victorias_locales} ({victorias_locales/len(df)*100:.1f}%)")
    print(f"Empates: {empates} ({empates/len(df)*100:.1f}%)")
    print(f"Victorias visitantes: {victorias_visitantes} ({victorias_visitantes/len(df)*100:.1f}%)")
    print(f"Promedio goles local: {np.mean(goles_locales):.2f}")
    print(f"Promedio goles visitante: {np.mean(goles_visitantes):.2f}")
    print()
    
    # Análisis por jornadas con Pandas
    print("=== EVOLUCIÓN POR JORNADAS ===")
    analisis_jornadas = df.groupby('jornada').agg({
        'total_goles': ['mean', 'sum', 'std'],
        'goles_local': 'mean',
        'goles_visitante': 'mean'
    }).round(2)
    
    print("Estadísticas por jornada (primeras 10):")
    print(analisis_jornadas.head(10))
    print()
    
    return {
        'promedio_goles': np.mean(goles_totales),
        'total_goles_temporada': np.sum(goles_totales),
        'ventaja_local_pct': victorias_locales/len(df)*100,
        'jornadas_analizadas': analisis_jornadas
    }

# Ejecutar análisis completo
resultado_analisis = analizar_temporada_completa(df_temporada)

In [None]:
# ===============================
# TABLA DE POSICIONES PROFESIONAL
# ===============================

def crear_tabla_posiciones(df):
    """Genera tabla de posiciones usando Pandas"""
    
    # Crear listas para almacenar resultados de cada equipo
    resultados_equipos = []
    
    # Obtener todos los equipos únicos
    equipos = pd.concat([df['equipo_local'], df['equipo_visitante']]).unique()
    
    for equipo in equipos:
        # Partidos como local
        partidos_local = df[df['equipo_local'] == equipo]
        # Partidos como visitante  
        partidos_visitante = df[df['equipo_visitante'] == equipo]
        
        # Estadísticas como local
        goles_favor_local = partidos_local['goles_local'].sum()
        goles_contra_local = partidos_local['goles_visitante'].sum()
        victorias_local = len(partidos_local[partidos_local['goles_local'] > partidos_local['goles_visitante']])
        empates_local = len(partidos_local[partidos_local['goles_local'] == partidos_local['goles_visitante']])
        derrotas_local = len(partidos_local[partidos_local['goles_local'] < partidos_local['goles_visitante']])
        
        # Estadísticas como visitante
        goles_favor_visitante = partidos_visitante['goles_visitante'].sum()
        goles_contra_visitante = partidos_visitante['goles_local'].sum()
        victorias_visitante = len(partidos_visitante[partidos_visitante['goles_visitante'] > partidos_visitante['goles_local']])
        empates_visitante = len(partidos_visitante[partidos_visitante['goles_visitante'] == partidos_visitante['goles_local']])
        derrotas_visitante = len(partidos_visitante[partidos_visitante['goles_visitante'] < partidos_visitante['goles_local']])
        
        # Totales
        partidos_jugados = len(partidos_local) + len(partidos_visitante)
        victorias = victorias_local + victorias_visitante
        empates = empates_local + empates_visitante
        derrotas = derrotas_local + derrotas_visitante
        goles_favor = goles_favor_local + goles_favor_visitante
        goles_contra = goles_contra_local + goles_contra_visitante
        diferencia_goles = goles_favor - goles_contra
        puntos = victorias * 3 + empates * 1
        
        resultados_equipos.append({
            'equipo': equipo,
            'partidos': partidos_jugados,
            'victorias': victorias,
            'empates': empates,
            'derrotas': derrotas,
            'goles_favor': goles_favor,
            'goles_contra': goles_contra,
            'diferencia_goles': diferencia_goles,
            'puntos': puntos
        })
    
    # Crear DataFrame y ordenar por puntos
    tabla = pd.DataFrame(resultados_equipos)
    tabla = tabla.sort_values(['puntos', 'diferencia_goles', 'goles_favor'], 
                              ascending=[False, False, False])
    tabla.reset_index(drop=True, inplace=True)
    tabla.index += 1  # Empezar posiciones desde 1
    
    return tabla

print("=== TABLA DE POSICIONES ACTUAL ===")
tabla_posiciones = crear_tabla_posiciones(df_temporada)
print(tabla_posiciones.head(10))
print()

# Análisis de tendencias con NumPy
print("=== ANÁLISIS DE TENDENCIAS ===")
top_5 = tabla_posiciones.head(5)
bottom_5 = tabla_posiciones.tail(5)

print("TOP 5 EQUIPOS:")
promedio_goles_top = np.mean(top_5['goles_favor'])
promedio_puntos_top = np.mean(top_5['puntos'])
print(f"Promedio goles favor: {promedio_goles_top:.1f}")
print(f"Promedio puntos: {promedio_puntos_top:.1f}")
print()

print("BOTTOM 5 EQUIPOS:")
promedio_goles_bottom = np.mean(bottom_5['goles_favor'])
promedio_puntos_bottom = np.mean(bottom_5['puntos'])
print(f"Promedio goles favor: {promedio_goles_bottom:.1f}")
print(f"Promedio puntos: {promedio_puntos_bottom:.1f}")
print()

print(f"Diferencia promedio goles: {promedio_goles_top - promedio_goles_bottom:.1f}")
print(f"Diferencia promedio puntos: {promedio_puntos_top - promedio_puntos_bottom:.1f}")

In [None]:
# ===============================
# ANÁLISIS PREDICTIVO BÁSICO
# ===============================

def analisis_predictivo(df, tabla):
    """Predicciones básicas basadas en datos históricos"""
    
    print("=== ANÁLISIS PREDICTIVO ===")
    
    # Proyección final de puntos (extrapolando a 38 jornadas)
    jornadas_jugadas = df['jornada'].max()
    jornadas_totales = 38
    factor_proyeccion = jornadas_totales / jornadas_jugadas
    
    tabla_proyectada = tabla.copy()
    tabla_proyectada['puntos_proyectados'] = (tabla['puntos'] * factor_proyeccion).round(0).astype(int)
    tabla_proyectada['goles_proyectados'] = (tabla['goles_favor'] * factor_proyeccion).round(0).astype(int)
    
    print(f"Proyección final basada en {jornadas_jugadas} jornadas:")
    print(tabla_proyectada[['equipo', 'puntos', 'puntos_proyectados']].head(8))
    print()
    
    # Análisis de correlaciones con NumPy
    puntos = tabla['puntos'].values
    goles_favor = tabla['goles_favor'].values
    goles_contra = tabla['goles_contra'].values
    
    # Correlación entre goles favor y puntos
    correlacion_goles_puntos = np.corrcoef(goles_favor, puntos)[0, 1]
    correlacion_defensa_puntos = np.corrcoef(-goles_contra, puntos)[0, 1]  # Negativo porque menos goles contra es mejor
    
    print("=== FACTORES DE ÉXITO ===")
    print(f"Correlación goles favor - puntos: {correlacion_goles_puntos:.3f}")
    print(f"Correlación defensa - puntos: {correlacion_defensa_puntos:.3f}")
    
    if correlacion_goles_puntos > correlacion_defensa_puntos:
        print("Conclusión: El ataque es más determinante que la defensa")
    else:
        print("Conclusión: La defensa es más determinante que el ataque")
    
    return tabla_proyectada

# Ejecutar análisis predictivo
proyecciones = analisis_predictivo(df_temporada, tabla_posiciones)

print("\n" + "="*60)
print("=== REPORTE EJECUTIVO DE TEMPORADA ===")
print("="*60)

# Estadísticas clave
mejor_ataque = tabla_posiciones.loc[tabla_posiciones['goles_favor'].idxmax()]
mejor_defensa = tabla_posiciones.loc[tabla_posiciones['goles_contra'].idxmin()]
mas_goleados = tabla_posiciones.loc[tabla_posiciones['goles_contra'].idxmax()]

print(f"🏆 LÍDER: {tabla_posiciones.iloc[0]['equipo']} ({tabla_posiciones.iloc[0]['puntos']} puntos)")
print(f"⚽ MEJOR ATAQUE: {mejor_ataque['equipo']} ({mejor_ataque['goles_favor']} goles)")
print(f"🛡️ MEJOR DEFENSA: {mejor_defensa['equipo']} ({mejor_defensa['goles_contra']} goles recibidos)")
print(f"📉 MÁS GOLEADO: {mas_goleados['equipo']} ({mas_goleados['goles_contra']} goles recibidos)")
print()

print(f"📊 PROMEDIO GOLES/PARTIDO: {resultado_analisis['promedio_goles']:.2f}")
print(f"🏟️ VENTAJA LOCAL: {resultado_analisis['ventaja_local_pct']:.1f}%")
print(f"⚽ TOTAL GOLES TEMPORADA: {resultado_analisis['total_goles_temporada']}")

print("\n" + "="*60)

### Actividad Final: Personaliza el Análisis

**Tiempo estimado: 15 minutos**

**Tu desafío**: Modifica el sistema para analizar aspectos específicos que te interesen.

**Opciones de personalización**:
1. **Análisis de rivalidades**: Filtra partidos entre equipos específicos
2. **Rendimiento por mes**: Agrupa datos por período temporal
3. **Análisis de localía**: Compara rendimiento local vs visitante por equipo
4. **Estadísticas extremas**: Encuentra patrones en resultados inusuales

**Preguntas para explorar**:
- ¿Qué equipo tiene mejor rendimiento como visitante?
- ¿En qué jornadas se anotan más goles?
- ¿Cuál es la diferencia de goles promedio en clásicos vs otros partidos?

**Código base para empezar**:
```python
# Ejemplo: Análisis de rendimiento visitante
rendimiento_visitante = df_temporada.groupby('equipo_visitante').agg({
    'goles_visitante': 'mean',
    'goles_local': 'mean'
}).round(2)

# Tu análisis personalizado aquí
```

---

## Resumen de la Semana 4 Completa

**¿Qué sistema profesional hemos construido en estas 3 sesiones?**

### Sesión 1: NumPy - Poder Computacional
- ✅ Arrays para cálculos masivos instantáneos
- ✅ Operaciones vectorizadas con miles de datos
- ✅ Matrices multidimensionales para análisis complejos
- ✅ Estadísticas avanzadas integradas

### Sesión 2: Pandas - Manejo de Datos
- ✅ DataFrames para datasets complejos
- ✅ Filtrado y agrupación inteligente
- ✅ Manipulación de datos estructurados
- ✅ Análisis exploratorio profesional

### Sesión 3: Sistema Integrado
- ✅ Generación de datasets realistas
- ✅ Análisis estadístico completo
- ✅ Tabla de posiciones automática
- ✅ Predicciones basadas en datos
- ✅ Reportes ejecutivos profesionales

### Logros Alcanzados:
**Has creado un sistema que puede**:
- Procesar temporadas completas instantáneamente
- Generar tablas de posiciones automáticamente
- Calcular estadísticas avanzadas con precisión científica
- Hacer proyecciones y predicciones básicas
- Producir reportes de calidad profesional

### Transformación de Capacidades:
**De herramientas básicas a sistema profesional**:
- **Antes**: Listas y cálculos manuales uno por uno
- **Ahora**: Análisis masivo de miles de datos simultáneamente
- **Antes**: Operaciones repetitivas y propensas a errores
- **Ahora**: Automatización completa con precisión científica
- **Antes**: Datos simples sin estructura
- **Ahora**: Datasets complejos con múltiples dimensiones

### Habilidades Profesionales Desarrolladas:
- **Análisis de datos masivos**: Como analistas de clubes profesionales
- **Visualización estadística**: Comprensión de patrones y tendencias
- **Pensamiento científico**: Correlaciones y predicciones basadas en datos
- **Automatización**: Sistemas que funcionan con cualquier dataset

**Pregunta de reflexión**: ¿Cómo has evolucionado de programador básico a analista de datos profesional?

---

**Próxima semana**: Visualización básica - Aprenderemos a crear gráficos y visualizaciones que conviertan nuestros análisis en insights comprensibles y presentaciones impactantes.

**¡Felicitaciones por dominar las herramientas fundamentales de la ciencia de datos aplicada al fútbol!**

### 2.2 Creación de Arrays Básicos - ¿Qué son estos "súper listas"?

**Pregunta de evolución**: ¿Recuerdas las listas normales de Python? ¿Qué limitaciones tenían para cálculos matemáticos masivos?

**Descubrimiento**: Los **arrays de NumPy** son como listas optimizadas para matemáticas. ¿Cómo crees que serían diferentes?

In [None]:
# ¿Cómo creas arrays de NumPy y qué los hace especiales?
# Empecemos con datos deportivos reales

print("=== ARRAYS DESDE LISTAS ===")

# ¿Cómo convertirías una lista normal en un array de NumPy?
goles_favor = np.array([2, 1, 3, 0, 2, 1, 4, 2, 1, 3])  # 10 partidos
print(f"Goles a favor: {goles_favor}")
print(f"Tipo de dato: {type(goles_favor)}")  # ¿Diferente de una lista?
print(f"Forma del array: {goles_favor.shape}")  # ¿Qué información da esto?

# ¿Cómo manejarías datos relacionados?
goles_contra = np.array([1, 1, 2, 1, 0, 2, 1, 1, 2, 0])
print(f"Goles en contra: {goles_contra}")

print("\n=== INFORMACIÓN DEL ARRAY ===")
print(f"Número de elementos: {goles_favor.size}")  # ¿Total de datos?
print(f"Número de dimensiones: {goles_favor.ndim}")  # ¿1D, 2D, 3D?
print(f"Tipo de datos: {goles_favor.dtype}")  # ¿Optimizado para números?

print("\n=== ARRAYS ESPECIALES ===")

# ¿Cómo crearías arrays pre-llenados para inicializar datos?
temporada_nueva = np.zeros(38)  # ¿38 partidos de temporada?
print(f"Nueva temporada (38 partidos): {temporada_nueva[:5]}...")  # ¿Solo primeros 5?

# ¿Y si quisieras marcar partidos jugados?
partidos_jugados = np.ones(10)  # ¿Todos con valor 1?
print(f"Partidos jugados: {partidos_jugados}")

# ¿Cómo generarías secuencias automáticamente?
jornadas = np.arange(1, 11)  # ¿Del 1 al 10?
print(f"Números de jornada: {jornadas}")

# ¿Y si necesitas divisiones exactas en un rango?
minutos = np.linspace(0, 90, 19)  # ¿19 puntos exactos entre 0 y 90?
print(f"Marcas de tiempo: {minutos[:5]}...")  # ¿Primeros 5?

# Pregunta de comparación: ¿Qué ventajas ves de estos arrays sobre las listas normales?

=== ARRAYS DESDE LISTAS ===
Goles a favor: [2 1 3 0 2 1 4 2 1 3]
Tipo de dato: <class 'numpy.ndarray'>
Forma del array: (10,)
Goles en contra: [1 1 2 1 0 2 1 1 2 0]

=== INFORMACIÓN DEL ARRAY ===
Número de elementos: 10
Número de dimensiones: 1
Tipo de datos: int64

=== ARRAYS ESPECIALES ===
Nueva temporada (38 partidos): [0. 0. 0. 0. 0.]...
Partidos jugados: [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
Números de jornada: [ 1  2  3  4  5  6  7  8  9 10]
Marcas de tiempo: [ 0.  5. 10. 15. 20.]...


### 2.3 Operaciones Matemáticas con Arrays - ¿Cómo calculas con "súper poderes"?

**Pregunta de eficiencia**: Anteriormente, para sumar dos listas tenías que usar bucles. ¿Qué pasaría si pudieras operar arrays completos como si fueran números individuales?

**Desafío conceptual**: ¿Cómo crees que NumPy maneja operaciones en cientos o miles de elementos simultáneamente?

In [None]:
# ¿Cómo realizas operaciones matemáticas instantáneas en arrays completos?
# Esta es la verdadera potencia de NumPy

print("=== OPERACIONES BÁSICAS ===")

# ¿Recuerdas estos datos del ejemplo anterior?
print(f"Goles a favor: {goles_favor}")
print(f"Goles en contra: {goles_contra}")

# ¿Cómo calcularías la diferencia de goles para TODOS los partidos de una vez?
diferencia_goles = goles_favor - goles_contra  # ¡Sin bucles!
print(f"Diferencia por partido: {diferencia_goles}")

# ¿Y el total de goles en cada partido?
total_goles = goles_favor + goles_contra  # ¡Operación vectorizada!
print(f"Total goles por partido: {total_goles}")

# ¿Cómo calcularías puntos usando lógica compleja en todo el array?
puntos = np.where(diferencia_goles > 0, 3,    # ¿Si ganó: 3 puntos?
                 np.where(diferencia_goles == 0, 1, 0))  # ¿Si empató: 1, si perdió: 0?
print(f"Puntos por partido: {puntos}")

# Pregunta de impacto: ¿Notas que no usamos ningún bucle? ¿Qué significa esto para el rendimiento?

## 3. Introducción a Pandas: ¿Tu hoja de cálculo con súper poderes?

### Pregunta de transición: ¿Qué pasa cuando tus datos son más complejos?

**Reflexión**: NumPy es excelente para números, pero ¿qué sucede cuando necesitas manejar nombres de jugadores, fechas de partidos, posiciones, equipos, etc., todo mezclado?

**Analogía práctica**: ¿Alguna vez has usado Excel? ¿Cómo organizarías información compleja de jugadores en filas y columnas?

### 3.1 Series - ¿Columnas inteligentes de datos?

**Pregunta conceptual**: ¿Qué pasaría si una lista pudiera tener "etiquetas" descriptivas en lugar de solo números de posición?

**Descubrimiento**: Una **Serie** es como una columna de Excel, pero con indexación personalizada. ¿Para qué datos deportivos sería útil esto?

In [None]:
# ¿Cómo crees que representa Pandas los goles de diferentes jugadores?
# Experimenta con este ejemplo y observa:

import pandas as pd

# ¿Qué diferencias notas comparado con un array de NumPy?
goles_jugadores = pd.Series([23, 19, 15, 31, 8], 
                           index=['Messi', 'Ronaldo', 'Mbappé', 'Haaland', 'Modrić'])

print("Serie de goles por jugador:")
print(goles_jugadores)
print()

# Pregunta: ¿Cómo crees que accedes a los goles de Messi?
print("Goles de Messi:", goles_jugadores['Messi'])

# Reflexión: ¿Qué ventaja tiene esto sobre usar posiciones numéricas [0], [1], etc.?

=== CREANDO SERIES ===
Goles por jugador:
Messi          25
Benzema        18
Lewandowski    12
Haaland         8
Mbappé         15
dtype: int64

Tipo de objeto: <class 'pandas.core.series.Series'>
Índice: ['Messi', 'Benzema', 'Lewandowski', 'Haaland', 'Mbappé']
Valores: [25 18 12  8 15]

Tabla de posiciones (puntos):
Real Madrid        88
Barcelona          85
Atletico Madrid    78
Sevilla            70
Real Sociedad      65
dtype: int64

=== OPERACIONES CON SERIES ===
Máximo goleador: 25 goles (Messi)
Promedio de goles: 15.6
Total de goles: 78

Goles de Messi: 25
Goles del top 3: 55

Goleadores con 15+ goles:
Messi      25
Benzema    18
Mbappé     15
dtype: int64

Promedio por partido:
Messi          0.83
Benzema        0.60
Lewandowski    0.40
Haaland        0.27
Mbappé         0.50
dtype: float64


### 3.2 DataFrames - ¿Múltiples Series trabajando juntas?

**Pregunta provocadora**: Si una Serie es una columna, ¿qué obtendrías al juntar varias columnas relacionadas?

**Analogía práctica**: ¿Cómo organiza un entrenador la información de todos sus jugadores? Piensa en nombre, posición, edad, goles, asistencias...

**Descubrimiento**: Un DataFrame es como una hoja de cálculo completa, donde cada columna es una Serie.

**Reflexión**: ¿Para qué tipo de análisis deportivo sería útil tener toda esta información organizada?

In [None]:
# ¿Cómo crees que organizarías información completa de varios jugadores?
# Experimenta con este ejemplo:

# Datos de ejemplo para explorar
datos_jugadores = {
    'Nombre': ['Messi', 'Ronaldo', 'Mbappé', 'Haaland', 'Modrić'],
    'Edad': [36, 39, 25, 23, 38],
    'Posición': ['Delantero', 'Delantero', 'Delantero', 'Delantero', 'Centrocampista'],
    'Goles': [23, 19, 15, 31, 8],
    'Asistencias': [15, 8, 12, 5, 10]
}

# ¿Qué estructura crees que creará Pandas?
df_jugadores = pd.DataFrame(datos_jugadores)

print("DataFrame de jugadores:")
print(df_jugadores)
print()

# Pregunta: ¿Cómo crees que accederías solo a la columna de goles?
print("Solo los goles:")
print(df_jugadores['Goles'])

# Reflexión: ¿Qué ventajas ves en esta organización de datos?

## 4. Operaciones Básicas con DataFrames - ¿Qué puedes descubrir de tus datos?

### Pregunta exploratoria: ¿Cómo investigaría un entrenador su plantel?

**Contexto**: Tienes un DataFrame con información de jugadores. ¿Qué serían las primeras preguntas que te harías?

**Hipótesis**: ¿Crees que será fácil obtener estadísticas básicas como promedios, máximos, mínimos?

### 4.1 Primeras preguntas sobre los datos

**Investigación inicial**: ¿Cuáles serían las primeras cosas que querrías saber sobre un conjunto de datos deportivos?

In [None]:
# ¿Qué información básica crees que puedes extraer fácilmente?
# Experimenta con estos métodos y observa los resultados:

# Pregunta 1: ¿Cómo ves las primeras filas?
print("Primeras 3 filas:")
print(df_jugadores.head(3))
print()

# Pregunta 2: ¿Cómo obtienes información general sobre la estructura?
print("Información del DataFrame:")
print(df_jugadores.info())
print()

# Pregunta 3: ¿Cómo calculas estadísticas básicas de todas las columnas numéricas?
print("Estadísticas descriptivas:")
print(df_jugadores.describe())
print()

# Reflexión: ¿Qué insights puedes obtener de estas estadísticas básicas?
# ¿Qué te dice el promedio de edad? ¿Y el máximo de goles?

### 4.2 Filtrado de Datos - ¿Cómo encontrar exactamente lo que buscas?

**Pregunta práctica**: Un entrenador quiere analizar solo jugadores con más de 20 goles. ¿Cómo crees que puede filtrar esta información?

**Analogía**: Es como usar filtros en una búsqueda de internet. ¿Qué tipos de filtros serían útiles para datos deportivos?

**Predicción**: ¿Crees que será similar a las condiciones que aprendiste con if/else?

In [None]:
# ¿Cómo crees que puedes filtrar jugadores con más de 20 goles?
# Experimenta con estas técnicas:

# Método 1: ¿Qué crees que hace esta línea?
jugadores_goleadores = df_jugadores[df_jugadores['Goles'] > 20]
print("Jugadores con más de 20 goles:")
print(jugadores_goleadores)
print()

# Método 2: ¿Y si quieres jugadores jóvenes (menores de 30)?
jugadores_jovenes = df_jugadores[df_jugadores['Edad'] < 30]
print("Jugadores menores de 30 años:")
print(jugadores_jovenes)
print()

# Desafío: ¿Cómo combinarías ambas condiciones?
# ¿Qué símbolo crees que usarías para "Y" lógico?
jovenes_goleadores = df_jugadores[(df_jugadores['Edad'] < 30) & (df_jugadores['Goles'] > 15)]
print("Jugadores jóvenes Y goleadores:")
print(jovenes_goleadores)

# Reflexión: ¿Qué otros filtros serían útiles en análisis deportivo?

## 5. Comparación: NumPy vs Pandas - ¿Cuándo usar cada herramienta?

### Pregunta estratégica: ¿Son competidores o compañeros de equipo?

**Reflexión práctica**: Después de experimentar con ambas herramientas, ¿cuándo elegirías cada una?

**Analogía deportiva**: ¿Es como elegir entre diferentes tipos de jugadores para diferentes situaciones en el campo?

### Tu análisis como científico de datos

**Pregunta final**: Basándote en lo que has experimentado, ¿qué ventajas y desventajas ves en cada herramienta?

In [None]:
# Reflexiona sobre esta comparación mientras experimentas:

print("=== COMPARACIÓN: ¿Cuándo usar cada herramienta? ===")
print()

# NumPy - ¿Para qué tipo de datos es ideal?
print("NumPy - Tu calculadora súper rápida:")
print("✓ Ideal para: Cálculos numéricos puros")
print("✓ Ejemplo: Análisis de velocidades, distancias, estadísticas simples")
print("✓ Ventaja: Velocidad extrema en operaciones matemáticas")
print()

# Pandas - ¿Para qué situaciones es mejor?
print("Pandas - Tu organizador inteligente de datos:")
print("✓ Ideal para: Datos mixtos (números, texto, fechas)")
print("✓ Ejemplo: Información completa de jugadores, resultados de partidos")
print("✓ Ventaja: Manejo de datos complejos y análisis exploratorio")
print()

# Pregunta de síntesis: ¿En qué proyectos deportivos usarías cada uno?
print("PREGUNTA FINAL:")
print("¿Para analizar qué aspectos del fútbol usarías NumPy?")
print("¿Para analizar qué aspectos del fútbol usarías Pandas?")

# Tu turno de reflexionar...

## Lo Que Descubrimos Hoy

### Reflexiones sobre tu aprendizaje

**Pregunta de autoevaluación**: ¿Qué fue lo más sorprendente que descubriste sobre estas herramientas?

#### NumPy - Tu calculadora profesional
- ¿Entiendes por qué los arrays son más eficientes que las listas?
- ¿Puedes explicar qué significa "operaciones vectorizadas"?
- ¿En qué situaciones deportivas usarías NumPy?

#### Pandas - Tu organizador inteligente
- ¿Ves las ventajas de las Series sobre listas simples?
- ¿Comprendes cómo los DataFrames organizan información compleja?
- ¿Puedes imaginar análisis deportivos usando filtros y estadísticas?

### Conexión con el análisis deportivo

**Pregunta integradora**: ¿Cómo cambiarían estos conocimientos tu forma de analizar datos deportivos?

### Próxima Semana: Visualización - ¿Cómo convertir números en insights visuales?

**Adelanto provocador**: ¿Crees que será más fácil entender patrones en los datos cuando puedas verlos gráficamente?

**Tu preparación**: Piensa en qué tipos de gráficos deportivos has visto y qué información transmiten.