## 1. Teor√≠a: ¬øQu√© son NumPy y Pandas?

### NumPy (Numerical Python)

**NumPy** es la biblioteca fundamental para la computaci√≥n cient√≠fica en Python. Proporciona:

- **Arrays multidimensionales eficientes**: Estructuras de datos optimizadas para c√°lculos num√©ricos
- **Operaciones matem√°ticas vectorizadas**: Operaciones r√°pidas en arrays completos
- **Funciones matem√°ticas avanzadas**: Trigonometr√≠a, √°lgebra lineal, estad√≠stica
- **Base para otras librer√≠as**: Pandas, scikit-learn, matplotlib se basan en NumPy

### Pandas (Panel Data)

**Pandas** es la biblioteca principal para an√°lisis y manipulaci√≥n de datos en Python. Ofrece:

- **DataFrames**: Estructuras de datos tabulares (como Excel o SQL)
- **Series**: Estructuras de datos unidimensionales (como columnas)
- **Lectura/escritura de archivos**: CSV, Excel, JSON, SQL, etc.
- **Operaciones de datos**: Filtrado, agrupaci√≥n, agregaci√≥n, uni√≥n

### Analog√≠a Deportiva

Piensa en NumPy y Pandas como herramientas para un **analista deportivo profesional**:

- **NumPy es como la calculadora cient√≠fica**: Para c√°lculos r√°pidos y precisos
  - Calcular promedios de goles, velocidades, distancias
  - Operaciones matem√°ticas complejas con estad√≠sticas
  
- **Pandas es como la hoja de c√°lculo inteligente**: Para organizar y analizar datos
  - Tablas de resultados, estad√≠sticas de jugadores
  - Filtrar partidos por fecha, equipo, competici√≥n
  - Agrupar datos por temporada, liga, posici√≥n

### ¬øPor qu√© son Importantes en An√°lisis Deportivo?

**Eficiencia**: Procesan miles de partidos en segundos
**Flexibilidad**: Manejan cualquier tipo de dato deportivo
**Integraci√≥n**: Se conectan f√°cilmente con otras herramientas
**Est√°ndar**: Utilizadas por equipos profesionales mundialmente

### Lo que Lograremos Hoy

Al final de esta sesi√≥n, podr√°s:
- ‚úÖ Crear y manipular arrays de NumPy
- ‚úÖ Construir DataFrames con datos deportivos
- ‚úÖ Leer archivos CSV de resultados deportivos
- ‚úÖ Realizar an√°lisis b√°sicos (promedios, filtros, agrupaciones)
- ‚úÖ Preparar datos para visualizaci√≥n y an√°lisis avanzado

## 2. Pr√°ctica: Primeros Pasos con NumPy

### 2.1 Instalaci√≥n e Importaci√≥n

In [None]:
# Importar NumPy
import numpy as np

print("NumPy instalado correctamente!")
print(f"Versi√≥n de NumPy: {np.__version__}")

# Verificar que tenemos las librer√≠as necesarias
try:
    import pandas as pd
    print(f"Pandas disponible - Versi√≥n: {pd.__version__}")
except ImportError:
    print("‚ö†Ô∏è Pandas no est√° instalado. Necesitaremos instalarlo.")

print("\n" + "="*50)
print("üèÜ LISTO PARA ANALIZAR DATOS DEPORTIVOS")
print("="*50)

### 2.2 Creaci√≥n de Arrays B√°sicos

In [None]:
# Crear arrays desde listas - Datos deportivos
print("=== ARRAYS DESDE LISTAS ===")

# Goles anotados por un equipo en 10 partidos
goles_favor = np.array([2, 1, 3, 0, 2, 1, 4, 2, 1, 3])
print(f"Goles a favor: {goles_favor}")
print(f"Tipo de dato: {type(goles_favor)}")
print(f"Forma del array: {goles_favor.shape}")

# Goles recibidos por el mismo equipo
goles_contra = np.array([1, 1, 2, 1, 0, 2, 1, 1, 2, 0])
print(f"Goles en contra: {goles_contra}")

print("\n=== INFORMACI√ìN DEL ARRAY ===")
print(f"N√∫mero de elementos: {goles_favor.size}")
print(f"N√∫mero de dimensiones: {goles_favor.ndim}")
print(f"Tipo de datos: {goles_favor.dtype}")

print("\n=== ARRAYS ESPECIALES ===")

# Array de ceros (√∫til para inicializar estad√≠sticas)
temporada_nueva = np.zeros(38)  # 38 partidos en una temporada
print(f"Nueva temporada (38 partidos): {temporada_nueva[:5]}...")  # Primeros 5

# Array de unos (√∫til para contar partidos)
partidos_jugados = np.ones(10)
print(f"Partidos jugados: {partidos_jugados}")

# Array con rango (√∫til para jornadas)
jornadas = np.arange(1, 11)  # Jornadas 1 a 10
print(f"N√∫meros de jornada: {jornadas}")

# Array con espaciado lineal
minutos = np.linspace(0, 90, 19)  # 19 puntos entre 0 y 90 minutos
print(f"Marcas de tiempo: {minutos[:5]}...")  # Primeros 5

### 2.3 Operaciones Matem√°ticas con Arrays

In [None]:
# Operaciones matem√°ticas con arrays - An√°lisis deportivo
print("=== OPERACIONES B√ÅSICAS ===")

# Usar los arrays de goles creados anteriormente
print(f"Goles a favor: {goles_favor}")
print(f"Goles en contra: {goles_contra}")

# Diferencia de goles por partido
diferencia_goles = goles_favor - goles_contra
print(f"Diferencia por partido: {diferencia_goles}")

# Total de goles por partido
total_goles = goles_favor + goles_contra
print(f"Total goles por partido: {total_goles}")

# Puntos ganados (asumiendo victoria=3, empate=1, derrota=0)
puntos = np.where(diferencia_goles > 0, 3,    # Victoria
                 np.where(diferencia_goles == 0, 1, 0))  # Empate o Derrota
print(f"Puntos por partido: {puntos}")

print("\n=== ESTAD√çSTICAS DESCRIPTIVAS ===")

# Estad√≠sticas b√°sicas
print(f"Promedio goles a favor: {np.mean(goles_favor):.2f}")
print(f"Promedio goles en contra: {np.mean(goles_contra):.2f}")
print(f"Mediana goles a favor: {np.median(goles_favor):.1f}")
print(f"Desviaci√≥n est√°ndar goles: {np.std(goles_favor):.2f}")

print(f"M√°ximo goles en un partido: {np.max(goles_favor)}")
print(f"M√≠nimo goles en un partido: {np.min(goles_favor)}")
print(f"Rango de goles: {np.max(goles_favor) - np.min(goles_favor)}")

print(f"Total de puntos: {np.sum(puntos)}")
print(f"Total de goles marcados: {np.sum(goles_favor)}")

print("\n=== OPERACIONES CONDICIONALES ===")

# Partidos donde se marcaron m√°s de 2 goles
partidos_goleadores = goles_favor > 2
print(f"Partidos con +2 goles: {np.sum(partidos_goleadores)} de {len(goles_favor)}")
print(f"Goles en esos partidos: {goles_favor[partidos_goleadores]}")

# Partidos sin goles recibidos
vallas_invictas = goles_contra == 0
print(f"Vallas invictas: {np.sum(vallas_invictas)} partidos")

# Rendimiento ofensivo vs defensivo
promedio_ataque = np.mean(goles_favor)
promedio_defensa = np.mean(goles_contra)
if promedio_ataque > promedio_defensa:
    estilo = "Ofensivo"
elif promedio_defensa > promedio_ataque:
    estilo = "Defensivo"
else:
    estilo = "Balanceado"
    
print(f"Estilo de juego: {estilo}")

## 3. Introducci√≥n a Pandas

### 3.1 Series: Datos Unidimensionales

Una **Serie** es como una columna de datos con √≠ndice. Es perfecta para representar una estad√≠stica espec√≠fica.

In [None]:
# Importar Pandas
import pandas as pd

print("=== CREANDO SERIES ===")

# Serie desde lista - Goles de jugadores
goles_jugadores = pd.Series([25, 18, 12, 8, 15], 
                           index=['Messi', 'Benzema', 'Lewandowski', 'Haaland', 'Mbapp√©'])
print("Goles por jugador:")
print(goles_jugadores)

print(f"\nTipo de objeto: {type(goles_jugadores)}")
print(f"√çndice: {goles_jugadores.index.tolist()}")
print(f"Valores: {goles_jugadores.values}")

# Serie desde diccionario - M√°s natural
equipos_puntos = pd.Series({
    'Real Madrid': 88,
    'Barcelona': 85,
    'Atletico Madrid': 78,
    'Sevilla': 70,
    'Real Sociedad': 65
})

print("\n" + "="*40)
print("Tabla de posiciones (puntos):")
print(equipos_puntos)

print("\n=== OPERACIONES CON SERIES ===")

# Estad√≠sticas b√°sicas
print(f"M√°ximo goleador: {goles_jugadores.max()} goles ({goles_jugadores.idxmax()})")
print(f"Promedio de goles: {goles_jugadores.mean():.1f}")
print(f"Total de goles: {goles_jugadores.sum()}")

# Acceso a elementos
print(f"\nGoles de Messi: {goles_jugadores['Messi']}")
print(f"Goles del top 3: {goles_jugadores.head(3).sum()}")

# Filtros
goleadores_elite = goles_jugadores[goles_jugadores >= 15]
print(f"\nGoleadores con 15+ goles:")
print(goleadores_elite)

# Operaciones matem√°ticas
goles_por_partido = goles_jugadores / 30  # Asumiendo 30 partidos
print(f"\nPromedio por partido:")
print(goles_por_partido.round(2))

### 3.2 DataFrames: Datos Tabulares

Un **DataFrame** es como una hoja de c√°lculo o tabla de base de datos. Es la estructura principal para an√°lisis de datos.

In [None]:
# Crear DataFrame desde diccionario - Datos de jugadores
print("=== CREANDO DATAFRAMES ===")

datos_jugadores = {
    'Nombre': ['Lionel Messi', 'Karim Benzema', 'Robert Lewandowski', 'Erling Haaland', 'Kylian Mbapp√©'],
    'Edad': [36, 35, 34, 23, 24],
    'Posicion': ['Delantero', 'Delantero', 'Delantero', 'Delantero', 'Delantero'],
    'Goles': [25, 18, 12, 8, 15],
    'Partidos': [30, 28, 25, 20, 29],
    'Equipo': ['PSG', 'Real Madrid', 'Barcelona', 'Manchester City', 'PSG']
}

df_jugadores = pd.DataFrame(datos_jugadores)
print("Tabla de Jugadores:")
print(df_jugadores)

print(f"\nForma del DataFrame: {df_jugadores.shape}")  # (filas, columnas)
print(f"Columnas: {df_jugadores.columns.tolist()}")
print(f"Tipos de datos:\n{df_jugadores.dtypes}")

print("\n=== INFORMACI√ìN B√ÅSICA ===")
print(df_jugadores.info())

print("\n=== ESTAD√çSTICAS DESCRIPTIVAS ===")
print(df_jugadores.describe())

print("\n=== PRIMERAS Y √öLTIMAS FILAS ===")
print("Primeros 3 jugadores:")
print(df_jugadores.head(3))

print("\n√öltimos 2 jugadores:")
print(df_jugadores.tail(2))

### 3.3 Operaciones con DataFrames

In [None]:
# Operaciones con DataFrames
print("=== SELECCI√ìN DE DATOS ===")

# Seleccionar una columna
print("Solo los nombres:")
print(df_jugadores['Nombre'])

# Seleccionar m√∫ltiples columnas
print("\nNombre y Goles:")
print(df_jugadores[['Nombre', 'Goles']])

# Seleccionar filas por √≠ndice
print("\nPrimeros 3 jugadores (por √≠ndice):")
print(df_jugadores.iloc[0:3])

print("\n=== FILTRADO DE DATOS ===")

# Filtrar por condici√≥n
jovenes = df_jugadores[df_jugadores['Edad'] < 30]
print("Jugadores menores de 30 a√±os:")
print(jovenes[['Nombre', 'Edad', 'Goles']])

# M√∫ltiples condiciones
goleadores_jovenes = df_jugadores[(df_jugadores['Edad'] < 30) & (df_jugadores['Goles'] > 10)]
print("\nJ√≥venes goleadores (>10 goles):")
print(goleadores_jovenes[['Nombre', 'Edad', 'Goles']])

# Filtrar por equipo
psg_players = df_jugadores[df_jugadores['Equipo'] == 'PSG']
print("\nJugadores del PSG:")
print(psg_players[['Nombre', 'Goles']])

print("\n=== AGREGACI√ìN Y AGRUPACI√ìN ===")

# Estad√≠sticas por columna
print(f"Total de goles: {df_jugadores['Goles'].sum()}")
print(f"Promedio de edad: {df_jugadores['Edad'].mean():.1f} a√±os")
print(f"Jugador con m√°s goles: {df_jugadores.loc[df_jugadores['Goles'].idxmax(), 'Nombre']}")

# Agrupar por equipo
print("\nGoles por equipo:")
goles_por_equipo = df_jugadores.groupby('Equipo')['Goles'].sum()
print(goles_por_equipo)

print("\n=== NUEVAS COLUMNAS ===")

# Crear columnas calculadas
df_jugadores['Goles_por_Partido'] = df_jugadores['Goles'] / df_jugadores['Partidos']
df_jugadores['Categoria_Edad'] = df_jugadores['Edad'].apply(
    lambda x: 'Joven' if x < 25 else 'Veterano' if x > 30 else 'Experiencia'
)

print("DataFrame con nuevas columnas:")
print(df_jugadores[['Nombre', 'Edad', 'Goles_por_Partido', 'Categoria_Edad']].round(3))

## 4. Lectura de Archivos CSV

### 4.1 Creando un Dataset de Ejemplo

Vamos a crear un archivo CSV con datos de partidos para practicar la lectura de archivos reales.

In [None]:
# Crear un dataset de ejemplo con datos de partidos
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

print("=== CREANDO DATASET DE PARTIDOS ===")

# Simular datos de partidos
np.random.seed(42)  # Para resultados reproducibles

equipos = ['Barcelona', 'Real Madrid', 'Atletico Madrid', 'Valencia', 
           'Sevilla', 'Real Sociedad', 'Athletic Bilbao', 'Villarreal']

# Generar partidos
partidos = []
fecha_inicio = datetime(2023, 8, 1)

for i in range(50):  # 50 partidos de ejemplo
    fecha = fecha_inicio + timedelta(days=i*7)  # Un partido por semana
    equipo_local = np.random.choice(equipos)
    equipo_visitante = np.random.choice([e for e in equipos if e != equipo_local])
    
    # Simular goles con probabilidades realistas
    goles_local = np.random.poisson(1.4)  # Promedio de goles local
    goles_visitante = np.random.poisson(1.1)  # Promedio de goles visitante
    
    # Determinar resultado
    if goles_local > goles_visitante:
        resultado = 'Local'
    elif goles_visitante > goles_local:
        resultado = 'Visitante'
    else:
        resultado = 'Empate'
    
    partidos.append({
        'Fecha': fecha.strftime('%Y-%m-%d'),
        'Equipo_Local': equipo_local,
        'Equipo_Visitante': equipo_visitante,
        'Goles_Local': goles_local,
        'Goles_Visitante': goles_visitante,
        'Resultado': resultado,
        'Total_Goles': goles_local + goles_visitante,
        'Diferencia': abs(goles_local - goles_visitante),
        'Jornada': i + 1
    })

# Crear DataFrame
df_partidos = pd.DataFrame(partidos)

# Guardar como CSV
df_partidos.to_csv('partidos_liga.csv', index=False)
print("‚úÖ Archivo 'partidos_liga.csv' creado exitosamente")

print("\nPrimeros 5 partidos:")
print(df_partidos.head())

### 4.2 Lectura y An√°lisis del Archivo CSV

In [None]:
# Leer archivo CSV
print("=== LEYENDO ARCHIVO CSV ===")

# Leer el archivo que acabamos de crear
df_liga = pd.read_csv('partidos_liga.csv')

print("‚úÖ Archivo CSV le√≠do exitosamente")
print(f"Dimensiones del dataset: {df_liga.shape}")

# Informaci√≥n b√°sica del dataset
print("\n=== INFORMACI√ìN DEL DATASET ===")
print(df_liga.info())

print("\n=== ESTAD√çSTICAS DESCRIPTIVAS ===")
print(df_liga.describe())

print("\n=== AN√ÅLISIS EXPLORATORIO ===")

# Conversi√≥n de fecha
df_liga['Fecha'] = pd.to_datetime(df_liga['Fecha'])
print(f"Per√≠odo de datos: {df_liga['Fecha'].min()} a {df_liga['Fecha'].max()}")

# Distribuci√≥n de resultados
print("\nDistribuci√≥n de resultados:")
print(df_liga['Resultado'].value_counts())

# Estad√≠sticas de goles
print(f"\nPromedio de goles por partido:")
print(f"  - Local: {df_liga['Goles_Local'].mean():.2f}")
print(f"  - Visitante: {df_liga['Goles_Visitante'].mean():.2f}")
print(f"  - Total: {df_liga['Total_Goles'].mean():.2f}")

# Partido con m√°s goles
partido_mas_goles = df_liga.loc[df_liga['Total_Goles'].idxmax()]
print(f"\nPartido con m√°s goles ({partido_mas_goles['Total_Goles']} goles):")
print(f"{partido_mas_goles['Equipo_Local']} {partido_mas_goles['Goles_Local']}-{partido_mas_goles['Goles_Visitante']} {partido_mas_goles['Equipo_Visitante']}")

# An√°lisis por equipo (como local)
print("\n=== AN√ÅLISIS POR EQUIPO (COMO LOCAL) ===")
stats_local = df_liga.groupby('Equipo_Local').agg({
    'Goles_Local': ['count', 'mean', 'sum'],
    'Goles_Visitante': 'mean',
    'Resultado': lambda x: (x == 'Local').sum()
}).round(2)

# Aplanar columnas
stats_local.columns = ['Partidos_Casa', 'Goles_Promedio', 'Total_Goles', 'Goles_Recibidos', 'Victorias_Casa']
stats_local = stats_local.sort_values('Goles_Promedio', ascending=False)

print("Top 5 equipos en casa (promedio de goles):")
print(stats_local.head())

## 5. Resumen y Pr√≥ximos Pasos

### Lo que Hemos Aprendido

En esta cuarta semana hemos cubierto las librer√≠as fundamentales para an√°lisis de datos:

‚úÖ **NumPy - Computaci√≥n Num√©rica**:
  - **Arrays eficientes**: Estructuras de datos optimizadas para c√°lculos
  - **Operaciones vectorizadas**: C√°lculos r√°pidos en arrays completos
  - **Funciones matem√°ticas**: Estad√≠sticas, agregaciones, operaciones l√≥gicas
  - **Aplicaciones deportivas**: An√°lisis de goles, estad√≠sticas, rendimiento

‚úÖ **Pandas - An√°lisis de Datos**:
  - **Series**: Datos unidimensionales con √≠ndice
  - **DataFrames**: Datos tabulares como hojas de c√°lculo
  - **Operaciones b√°sicas**: Filtrado, agrupaci√≥n, agregaci√≥n
  - **Lectura de archivos**: Importar datos desde CSV

‚úÖ **Flujo de Trabajo**:
  - **Importar datos**: Leer archivos CSV con `pd.read_csv()`
  - **Explorar datos**: `.info()`, `.describe()`, `.head()`
  - **Limpiar datos**: Filtros, nuevas columnas, transformaciones
  - **Analizar datos**: Agrupaciones, estad√≠sticas, insights

### Conceptos Clave Dominados

**NumPy**:
- Creaci√≥n de arrays: `np.array()`, `np.zeros()`, `np.arange()`
- Operaciones matem√°ticas: `np.mean()`, `np.sum()`, `np.max()`
- Indexaci√≥n y filtrado: arrays booleanos, condiciones
- Funciones estad√≠sticas: promedio, mediana, desviaci√≥n est√°ndar

**Pandas**:
- Estructuras de datos: Series y DataFrames
- Selecci√≥n de datos: `df['columna']`, `df.iloc[]`, filtros
- Agrupaci√≥n: `df.groupby().agg()`
- Creaci√≥n de columnas: `df['nueva'] = ...`, `df.apply()`

### Preparaci√≥n para el Bloque 1

Con estas habilidades fundamentales, ya est√°s preparado para:

üöÄ **Bloque 1 - Fundamentos de Ciencia de Datos y F√∫tbol**:
  - Trabajar con datasets reales de f√∫tbol
  - Realizar an√°lisis estad√≠sticos avanzados
  - Crear visualizaciones de datos deportivos
  - Explorar patrones en resultados de partidos

### Habilidades Desarrolladas

**T√©cnicas**:
- ‚úÖ Manipulaci√≥n eficiente de datos num√©ricos
- ‚úÖ Importaci√≥n y exploraci√≥n de datasets
- ‚úÖ Filtrado y agregaci√≥n de informaci√≥n
- ‚úÖ Creaci√≥n de m√©tricas y variables derivadas

**Anal√≠ticas**:
- ‚úÖ C√°lculo de estad√≠sticas deportivas b√°sicas
- ‚úÖ Identificaci√≥n de patrones en resultados
- ‚úÖ Comparaci√≥n de rendimiento entre equipos
- ‚úÖ An√°lisis de distribuciones de goles

### Pr√≥xima Semana: Visualizaci√≥n B√°sica

En la Semana 5 aprenderemos:

- **Matplotlib**: Gr√°ficos b√°sicos para datos deportivos
- **Seaborn**: Visualizaciones estad√≠sticas atractivas
- **Tipos de gr√°ficos**: Barras, l√≠neas, histogramas, dispersi√≥n
- **Personalizaci√≥n**: Colores, etiquetas, t√≠tulos
- **An√°lisis visual**: Identificar patrones gr√°ficamente

### Desaf√≠o para Casa

**Proyecto Mini: "Mi Primer An√°lisis Deportivo"**

1. **Crea tu propio dataset** con datos de tu equipo favorito
2. **Analiza 20 partidos** usando NumPy y Pandas
3. **Calcula estad√≠sticas** como promedio de goles, victorias, rachas
4. **Identifica patrones** interesantes en los datos
5. **Prepara 3 insights** para compartir la pr√≥xima semana

### Recursos Adicionales

üìö **Documentaci√≥n Oficial**:
- [NumPy Documentation](https://numpy.org/doc/)
- [Pandas Documentation](https://pandas.pydata.org/docs/)

üéØ **Pr√°ctica Extra**:
- [Kaggle Learn - Pandas](https://www.kaggle.com/learn/pandas)
- [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)

### Consejos Importantes

üí° **Performance**: NumPy es hasta 100x m√°s r√°pido que listas de Python

üí° **Memoria**: Pandas maneja eficientemente datasets de millones de filas

üí° **Integraci√≥n**: Estas librer√≠as son la base de todo el ecosistema de ciencia de datos

üí° **Pr√°ctica**: Cuanto m√°s uses estas herramientas, m√°s natural se volver√°n

---

**¬°Excelente trabajo!** üéâ Ya tienes las herramientas fundamentales para analizar datos deportivos.

*Recuerda: NumPy y Pandas son como el bal√≥n y el campo de f√∫tbol - esenciales para jugar el juego de la ciencia de datos.*