## 1. Teoría: ¿Qué son NumPy y Pandas?

### NumPy (Numerical Python)

**NumPy** es la biblioteca fundamental para la computación científica en Python. Proporciona:

- **Arrays multidimensionales eficientes**: Estructuras de datos optimizadas para cálculos numéricos
- **Operaciones matemáticas vectorizadas**: Operaciones rápidas en arrays completos
- **Funciones matemáticas avanzadas**: Trigonometría, álgebra lineal, estadística
- **Base para otras librerías**: Pandas, scikit-learn, matplotlib se basan en NumPy

### Pandas (Panel Data)

**Pandas** es la biblioteca principal para análisis y manipulación de datos en Python. Ofrece:

- **DataFrames**: Estructuras de datos tabulares (como Excel o SQL)
- **Series**: Estructuras de datos unidimensionales (como columnas)
- **Lectura/escritura de archivos**: CSV, Excel, JSON, SQL, etc.
- **Operaciones de datos**: Filtrado, agrupación, agregación, unión

### Analogía Deportiva

Piensa en NumPy y Pandas como herramientas para un **analista deportivo profesional**:

- **NumPy es como la calculadora científica**: Para cálculos rápidos y precisos
  - Calcular promedios de goles, velocidades, distancias
  - Operaciones matemáticas complejas con estadísticas
  
- **Pandas es como la hoja de cálculo inteligente**: Para organizar y analizar datos
  - Tablas de resultados, estadísticas de jugadores
  - Filtrar partidos por fecha, equipo, competición
  - Agrupar datos por temporada, liga, posición

### ¿Por qué son Importantes en Análisis Deportivo?

**Eficiencia**: Procesan miles de partidos en segundos
**Flexibilidad**: Manejan cualquier tipo de dato deportivo
**Integración**: Se conectan fácilmente con otras herramientas
**Estándar**: Utilizadas por equipos profesionales mundialmente

### Lo que Lograremos Hoy

Al final de esta sesión, podrás:
- ✅ Crear y manipular arrays de NumPy
- ✅ Construir DataFrames con datos deportivos
- ✅ Leer archivos CSV de resultados deportivos
- ✅ Realizar análisis básicos (promedios, filtros, agrupaciones)
- ✅ Preparar datos para visualización y análisis avanzado

## 2. Práctica: Primeros Pasos con NumPy

### 2.1 Instalación e Importación

In [None]:
# Importar NumPy
import numpy as np

print("NumPy instalado correctamente!")
print(f"Versión de NumPy: {np.__version__}")

# Verificar que tenemos las librerías necesarias
try:
    import pandas as pd
    print(f"Pandas disponible - Versión: {pd.__version__}")
except ImportError:
    print("⚠️ Pandas no está instalado. Necesitaremos instalarlo.")

print("\n" + "="*50)
print("🏆 LISTO PARA ANALIZAR DATOS DEPORTIVOS")
print("="*50)

### 2.2 Creación de Arrays Básicos

In [None]:
# Crear arrays desde listas - Datos deportivos
print("=== ARRAYS DESDE LISTAS ===")

# Goles anotados por un equipo en 10 partidos
goles_favor = np.array([2, 1, 3, 0, 2, 1, 4, 2, 1, 3])
print(f"Goles a favor: {goles_favor}")
print(f"Tipo de dato: {type(goles_favor)}")
print(f"Forma del array: {goles_favor.shape}")

# Goles recibidos por el mismo equipo
goles_contra = np.array([1, 1, 2, 1, 0, 2, 1, 1, 2, 0])
print(f"Goles en contra: {goles_contra}")

print("\n=== INFORMACIÓN DEL ARRAY ===")
print(f"Número de elementos: {goles_favor.size}")
print(f"Número de dimensiones: {goles_favor.ndim}")
print(f"Tipo de datos: {goles_favor.dtype}")

print("\n=== ARRAYS ESPECIALES ===")

# Array de ceros (útil para inicializar estadísticas)
temporada_nueva = np.zeros(38)  # 38 partidos en una temporada
print(f"Nueva temporada (38 partidos): {temporada_nueva[:5]}...")  # Primeros 5

# Array de unos (útil para contar partidos)
partidos_jugados = np.ones(10)
print(f"Partidos jugados: {partidos_jugados}")

# Array con rango (útil para jornadas)
jornadas = np.arange(1, 11)  # Jornadas 1 a 10
print(f"Números de jornada: {jornadas}")

# Array con espaciado lineal
minutos = np.linspace(0, 90, 19)  # 19 puntos entre 0 y 90 minutos
print(f"Marcas de tiempo: {minutos[:5]}...")  # Primeros 5

### 2.3 Operaciones Matemáticas con Arrays

In [None]:
# Operaciones matemáticas con arrays - Análisis deportivo
print("=== OPERACIONES BÁSICAS ===")

# Usar los arrays de goles creados anteriormente
print(f"Goles a favor: {goles_favor}")
print(f"Goles en contra: {goles_contra}")

# Diferencia de goles por partido
diferencia_goles = goles_favor - goles_contra
print(f"Diferencia por partido: {diferencia_goles}")

# Total de goles por partido
total_goles = goles_favor + goles_contra
print(f"Total goles por partido: {total_goles}")

# Puntos ganados (asumiendo victoria=3, empate=1, derrota=0)
puntos = np.where(diferencia_goles > 0, 3,    # Victoria
                 np.where(diferencia_goles == 0, 1, 0))  # Empate o Derrota
print(f"Puntos por partido: {puntos}")

print("\n=== ESTADÍSTICAS DESCRIPTIVAS ===")

# Estadísticas básicas
print(f"Promedio goles a favor: {np.mean(goles_favor):.2f}")
print(f"Promedio goles en contra: {np.mean(goles_contra):.2f}")
print(f"Mediana goles a favor: {np.median(goles_favor):.1f}")
print(f"Desviación estándar goles: {np.std(goles_favor):.2f}")

print(f"Máximo goles en un partido: {np.max(goles_favor)}")
print(f"Mínimo goles en un partido: {np.min(goles_favor)}")
print(f"Rango de goles: {np.max(goles_favor) - np.min(goles_favor)}")

print(f"Total de puntos: {np.sum(puntos)}")
print(f"Total de goles marcados: {np.sum(goles_favor)}")

print("\n=== OPERACIONES CONDICIONALES ===")

# Partidos donde se marcaron más de 2 goles
partidos_goleadores = goles_favor > 2
print(f"Partidos con +2 goles: {np.sum(partidos_goleadores)} de {len(goles_favor)}")
print(f"Goles en esos partidos: {goles_favor[partidos_goleadores]}")

# Partidos sin goles recibidos
vallas_invictas = goles_contra == 0
print(f"Vallas invictas: {np.sum(vallas_invictas)} partidos")

# Rendimiento ofensivo vs defensivo
promedio_ataque = np.mean(goles_favor)
promedio_defensa = np.mean(goles_contra)
if promedio_ataque > promedio_defensa:
    estilo = "Ofensivo"
elif promedio_defensa > promedio_ataque:
    estilo = "Defensivo"
else:
    estilo = "Balanceado"
    
print(f"Estilo de juego: {estilo}")

## 3. Introducción a Pandas

### 3.1 Series: Datos Unidimensionales

Una **Serie** es como una columna de datos con índice. Es perfecta para representar una estadística específica.

In [None]:
# Importar Pandas
import pandas as pd

print("=== CREANDO SERIES ===")

# Serie desde lista - Goles de jugadores
goles_jugadores = pd.Series([25, 18, 12, 8, 15], 
                           index=['Messi', 'Benzema', 'Lewandowski', 'Haaland', 'Mbappé'])
print("Goles por jugador:")
print(goles_jugadores)

print(f"\nTipo de objeto: {type(goles_jugadores)}")
print(f"Índice: {goles_jugadores.index.tolist()}")
print(f"Valores: {goles_jugadores.values}")

# Serie desde diccionario - Más natural
equipos_puntos = pd.Series({
    'Real Madrid': 88,
    'Barcelona': 85,
    'Atletico Madrid': 78,
    'Sevilla': 70,
    'Real Sociedad': 65
})

print("\n" + "="*40)
print("Tabla de posiciones (puntos):")
print(equipos_puntos)

print("\n=== OPERACIONES CON SERIES ===")

# Estadísticas básicas
print(f"Máximo goleador: {goles_jugadores.max()} goles ({goles_jugadores.idxmax()})")
print(f"Promedio de goles: {goles_jugadores.mean():.1f}")
print(f"Total de goles: {goles_jugadores.sum()}")

# Acceso a elementos
print(f"\nGoles de Messi: {goles_jugadores['Messi']}")
print(f"Goles del top 3: {goles_jugadores.head(3).sum()}")

# Filtros
goleadores_elite = goles_jugadores[goles_jugadores >= 15]
print(f"\nGoleadores con 15+ goles:")
print(goleadores_elite)

# Operaciones matemáticas
goles_por_partido = goles_jugadores / 30  # Asumiendo 30 partidos
print(f"\nPromedio por partido:")
print(goles_por_partido.round(2))

### 3.2 DataFrames: Datos Tabulares

Un **DataFrame** es como una hoja de cálculo o tabla de base de datos. Es la estructura principal para análisis de datos.

In [None]:
# Crear DataFrame desde diccionario - Datos de jugadores
print("=== CREANDO DATAFRAMES ===")

datos_jugadores = {
    'Nombre': ['Lionel Messi', 'Karim Benzema', 'Robert Lewandowski', 'Erling Haaland', 'Kylian Mbappé'],
    'Edad': [36, 35, 34, 23, 24],
    'Posicion': ['Delantero', 'Delantero', 'Delantero', 'Delantero', 'Delantero'],
    'Goles': [25, 18, 12, 8, 15],
    'Partidos': [30, 28, 25, 20, 29],
    'Equipo': ['PSG', 'Real Madrid', 'Barcelona', 'Manchester City', 'PSG']
}

df_jugadores = pd.DataFrame(datos_jugadores)
print("Tabla de Jugadores:")
print(df_jugadores)

print(f"\nForma del DataFrame: {df_jugadores.shape}")  # (filas, columnas)
print(f"Columnas: {df_jugadores.columns.tolist()}")
print(f"Tipos de datos:\n{df_jugadores.dtypes}")

print("\n=== INFORMACIÓN BÁSICA ===")
print(df_jugadores.info())

print("\n=== ESTADÍSTICAS DESCRIPTIVAS ===")
print(df_jugadores.describe())

print("\n=== PRIMERAS Y ÚLTIMAS FILAS ===")
print("Primeros 3 jugadores:")
print(df_jugadores.head(3))

print("\nÚltimos 2 jugadores:")
print(df_jugadores.tail(2))

### 3.3 Operaciones con DataFrames

In [None]:
# Operaciones con DataFrames
print("=== SELECCIÓN DE DATOS ===")

# Seleccionar una columna
print("Solo los nombres:")
print(df_jugadores['Nombre'])

# Seleccionar múltiples columnas
print("\nNombre y Goles:")
print(df_jugadores[['Nombre', 'Goles']])

# Seleccionar filas por índice
print("\nPrimeros 3 jugadores (por índice):")
print(df_jugadores.iloc[0:3])

print("\n=== FILTRADO DE DATOS ===")

# Filtrar por condición
jovenes = df_jugadores[df_jugadores['Edad'] < 30]
print("Jugadores menores de 30 años:")
print(jovenes[['Nombre', 'Edad', 'Goles']])

# Múltiples condiciones
goleadores_jovenes = df_jugadores[(df_jugadores['Edad'] < 30) & (df_jugadores['Goles'] > 10)]
print("\nJóvenes goleadores (>10 goles):")
print(goleadores_jovenes[['Nombre', 'Edad', 'Goles']])

# Filtrar por equipo
psg_players = df_jugadores[df_jugadores['Equipo'] == 'PSG']
print("\nJugadores del PSG:")
print(psg_players[['Nombre', 'Goles']])

print("\n=== AGREGACIÓN Y AGRUPACIÓN ===")

# Estadísticas por columna
print(f"Total de goles: {df_jugadores['Goles'].sum()}")
print(f"Promedio de edad: {df_jugadores['Edad'].mean():.1f} años")
print(f"Jugador con más goles: {df_jugadores.loc[df_jugadores['Goles'].idxmax(), 'Nombre']}")

# Agrupar por equipo
print("\nGoles por equipo:")
goles_por_equipo = df_jugadores.groupby('Equipo')['Goles'].sum()
print(goles_por_equipo)

print("\n=== NUEVAS COLUMNAS ===")

# Crear columnas calculadas
df_jugadores['Goles_por_Partido'] = df_jugadores['Goles'] / df_jugadores['Partidos']
df_jugadores['Categoria_Edad'] = df_jugadores['Edad'].apply(
    lambda x: 'Joven' if x < 25 else 'Veterano' if x > 30 else 'Experiencia'
)

print("DataFrame con nuevas columnas:")
print(df_jugadores[['Nombre', 'Edad', 'Goles_por_Partido', 'Categoria_Edad']].round(3))

## 4. Lectura de Archivos CSV

### 4.1 Creando un Dataset de Ejemplo

Vamos a crear un archivo CSV con datos de partidos para practicar la lectura de archivos reales.

In [None]:
# Crear un dataset de ejemplo con datos de partidos
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

print("=== CREANDO DATASET DE PARTIDOS ===")

# Simular datos de partidos
np.random.seed(42)  # Para resultados reproducibles

equipos = ['Barcelona', 'Real Madrid', 'Atletico Madrid', 'Valencia', 
           'Sevilla', 'Real Sociedad', 'Athletic Bilbao', 'Villarreal']

# Generar partidos
partidos = []
fecha_inicio = datetime(2023, 8, 1)

for i in range(50):  # 50 partidos de ejemplo
    fecha = fecha_inicio + timedelta(days=i*7)  # Un partido por semana
    equipo_local = np.random.choice(equipos)
    equipo_visitante = np.random.choice([e for e in equipos if e != equipo_local])
    
    # Simular goles con probabilidades realistas
    goles_local = np.random.poisson(1.4)  # Promedio de goles local
    goles_visitante = np.random.poisson(1.1)  # Promedio de goles visitante
    
    # Determinar resultado
    if goles_local > goles_visitante:
        resultado = 'Local'
    elif goles_visitante > goles_local:
        resultado = 'Visitante'
    else:
        resultado = 'Empate'
    
    partidos.append({
        'Fecha': fecha.strftime('%Y-%m-%d'),
        'Equipo_Local': equipo_local,
        'Equipo_Visitante': equipo_visitante,
        'Goles_Local': goles_local,
        'Goles_Visitante': goles_visitante,
        'Resultado': resultado,
        'Total_Goles': goles_local + goles_visitante,
        'Diferencia': abs(goles_local - goles_visitante),
        'Jornada': i + 1
    })

# Crear DataFrame
df_partidos = pd.DataFrame(partidos)

# Guardar como CSV
df_partidos.to_csv('partidos_liga.csv', index=False)
print("✅ Archivo 'partidos_liga.csv' creado exitosamente")

print("\nPrimeros 5 partidos:")
print(df_partidos.head())

### 4.2 Lectura y Análisis del Archivo CSV

In [None]:
# Leer archivo CSV
print("=== LEYENDO ARCHIVO CSV ===")

# Leer el archivo que acabamos de crear
df_liga = pd.read_csv('partidos_liga.csv')

print("✅ Archivo CSV leído exitosamente")
print(f"Dimensiones del dataset: {df_liga.shape}")

# Información básica del dataset
print("\n=== INFORMACIÓN DEL DATASET ===")
print(df_liga.info())

print("\n=== ESTADÍSTICAS DESCRIPTIVAS ===")
print(df_liga.describe())

print("\n=== ANÁLISIS EXPLORATORIO ===")

# Conversión de fecha
df_liga['Fecha'] = pd.to_datetime(df_liga['Fecha'])
print(f"Período de datos: {df_liga['Fecha'].min()} a {df_liga['Fecha'].max()}")

# Distribución de resultados
print("\nDistribución de resultados:")
print(df_liga['Resultado'].value_counts())

# Estadísticas de goles
print(f"\nPromedio de goles por partido:")
print(f"  - Local: {df_liga['Goles_Local'].mean():.2f}")
print(f"  - Visitante: {df_liga['Goles_Visitante'].mean():.2f}")
print(f"  - Total: {df_liga['Total_Goles'].mean():.2f}")

# Partido con más goles
partido_mas_goles = df_liga.loc[df_liga['Total_Goles'].idxmax()]
print(f"\nPartido con más goles ({partido_mas_goles['Total_Goles']} goles):")
print(f"{partido_mas_goles['Equipo_Local']} {partido_mas_goles['Goles_Local']}-{partido_mas_goles['Goles_Visitante']} {partido_mas_goles['Equipo_Visitante']}")

# Análisis por equipo (como local)
print("\n=== ANÁLISIS POR EQUIPO (COMO LOCAL) ===")
stats_local = df_liga.groupby('Equipo_Local').agg({
    'Goles_Local': ['count', 'mean', 'sum'],
    'Goles_Visitante': 'mean',
    'Resultado': lambda x: (x == 'Local').sum()
}).round(2)

# Aplanar columnas
stats_local.columns = ['Partidos_Casa', 'Goles_Promedio', 'Total_Goles', 'Goles_Recibidos', 'Victorias_Casa']
stats_local = stats_local.sort_values('Goles_Promedio', ascending=False)

print("Top 5 equipos en casa (promedio de goles):")
print(stats_local.head())

## 5. Resumen y Próximos Pasos

### Lo que Hemos Aprendido

En esta cuarta semana hemos cubierto las librerías fundamentales para análisis de datos:

✅ **NumPy - Computación Numérica**:
  - **Arrays eficientes**: Estructuras de datos optimizadas para cálculos
  - **Operaciones vectorizadas**: Cálculos rápidos en arrays completos
  - **Funciones matemáticas**: Estadísticas, agregaciones, operaciones lógicas
  - **Aplicaciones deportivas**: Análisis de goles, estadísticas, rendimiento

✅ **Pandas - Análisis de Datos**:
  - **Series**: Datos unidimensionales con índice
  - **DataFrames**: Datos tabulares como hojas de cálculo
  - **Operaciones básicas**: Filtrado, agrupación, agregación
  - **Lectura de archivos**: Importar datos desde CSV

✅ **Flujo de Trabajo**:
  - **Importar datos**: Leer archivos CSV con `pd.read_csv()`
  - **Explorar datos**: `.info()`, `.describe()`, `.head()`
  - **Limpiar datos**: Filtros, nuevas columnas, transformaciones
  - **Analizar datos**: Agrupaciones, estadísticas, insights

### Conceptos Clave Dominados

**NumPy**:
- Creación de arrays: `np.array()`, `np.zeros()`, `np.arange()`
- Operaciones matemáticas: `np.mean()`, `np.sum()`, `np.max()`
- Indexación y filtrado: arrays booleanos, condiciones
- Funciones estadísticas: promedio, mediana, desviación estándar

**Pandas**:
- Estructuras de datos: Series y DataFrames
- Selección de datos: `df['columna']`, `df.iloc[]`, filtros
- Agrupación: `df.groupby().agg()`
- Creación de columnas: `df['nueva'] = ...`, `df.apply()`

### Preparación para el Bloque 1

Con estas habilidades fundamentales, ya estás preparado para:

🚀 **Bloque 1 - Fundamentos de Ciencia de Datos y Fútbol**:
  - Trabajar con datasets reales de fútbol
  - Realizar análisis estadísticos avanzados
  - Crear visualizaciones de datos deportivos
  - Explorar patrones en resultados de partidos

### Habilidades Desarrolladas

**Técnicas**:
- ✅ Manipulación eficiente de datos numéricos
- ✅ Importación y exploración de datasets
- ✅ Filtrado y agregación de información
- ✅ Creación de métricas y variables derivadas

**Analíticas**:
- ✅ Cálculo de estadísticas deportivas básicas
- ✅ Identificación de patrones en resultados
- ✅ Comparación de rendimiento entre equipos
- ✅ Análisis de distribuciones de goles

### Próxima Semana: Visualización Básica

En la Semana 5 aprenderemos:

- **Matplotlib**: Gráficos básicos para datos deportivos
- **Seaborn**: Visualizaciones estadísticas atractivas
- **Tipos de gráficos**: Barras, líneas, histogramas, dispersión
- **Personalización**: Colores, etiquetas, títulos
- **Análisis visual**: Identificar patrones gráficamente

### Desafío para Casa

**Proyecto Mini: "Mi Primer Análisis Deportivo"**

1. **Crea tu propio dataset** con datos de tu equipo favorito
2. **Analiza 20 partidos** usando NumPy y Pandas
3. **Calcula estadísticas** como promedio de goles, victorias, rachas
4. **Identifica patrones** interesantes en los datos
5. **Prepara 3 insights** para compartir la próxima semana

### Recursos Adicionales

📚 **Documentación Oficial**:
- [NumPy Documentation](https://numpy.org/doc/)
- [Pandas Documentation](https://pandas.pydata.org/docs/)

🎯 **Práctica Extra**:
- [Kaggle Learn - Pandas](https://www.kaggle.com/learn/pandas)
- [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)

### Consejos Importantes

💡 **Performance**: NumPy es hasta 100x más rápido que listas de Python

💡 **Memoria**: Pandas maneja eficientemente datasets de millones de filas

💡 **Integración**: Estas librerías son la base de todo el ecosistema de ciencia de datos

💡 **Práctica**: Cuanto más uses estas herramientas, más natural se volverán

---

**¡Excelente trabajo!** 🎉 Ya tienes las herramientas fundamentales para analizar datos deportivos.

*Recuerda: NumPy y Pandas son como el balón y el campo de fútbol - esenciales para jugar el juego de la ciencia de datos.*