# Semana 4: Introducción a Pandas y NumPy

## 1. Descubriendo las herramientas profesionales: ¿Cómo analizan datos los expertos?

### Pregunta fundamental: ¿Qué limitaciones has encontrado hasta ahora?

**Reflexión inicial**: Has estado trabajando con listas y funciones básicas. ¿Qué pasa cuando quieres analizar datos de 1000 partidos? ¿O calcular estadísticas complejas de 500 jugadores simultáneamente?

**Situación práctica**: Imagina que eres analista del Real Madrid y necesitas procesar estadísticas de toda la Champions League. ¿Tus herramientas actuales serían eficientes?

### Descubriendo NumPy: ¿Tu calculadora de alto rendimiento?

**Pregunta de eficiencia**: ¿Qué pasaría si pudieras hacer cálculos matemáticos sobre miles de números al mismo tiempo, en lugar de uno por uno?

**NumPy (Numerical Python)** es como tener una calculadora científica profesional que puede:

- ¿Procesar miles de números simultáneamente?
- ¿Realizar operaciones complejas en milisegundos?
- ¿Manejar cálculos que serían imposibles manualmente?

**Analogía deportiva**: Es como la diferencia entre calcular estadísticas de cada jugador individualmente vs. tener un sistema que analiza todo el equipo instantáneamente.

### Anticipando Pandas: ¿Tu hoja de cálculo inteligente?

**Pregunta de organización**: ¿Cómo organizarías datos que incluyen nombres de jugadores, fechas, equipos, goles, asistencias, etc., todo mezclado?

**Pandas** será como tener Excel, pero con súper poderes de programación. ¿Te imaginas poder filtrar, agrupar y analizar datos complejos con solo unas líneas de código?

### Pregunta de motivación: ¿Estás listo para el siguiente nivel?

**Reflexión de preparación**: ¿Cómo crees que cambiaría tu capacidad de análisis si pudieras procesar datos reales y masivos con herramientas profesionales?

## 2. Experimentando con NumPy: ¿Cómo funciona la computación profesional?

### ¿Listos para activar herramientas de nivel profesional?

**Pregunta de transición**: ¿Recuerdas cómo importabas módulos básicos como `math` y `random`? ¿Cómo crees que importarías una biblioteca completa de computación científica?

### 2.1 Instalación e Importación - ¿Preparando tu laboratorio avanzado?

**Desafío conceptual**: ¿Qué convención usan los profesionales para importar NumPy de forma que sea fácil de escribir pero reconocible?

In [None]:
# ¿Cómo importan los profesionales las herramientas de análisis de datos?
# Esta es la convención estándar en toda la industria

import numpy as np  # ¿Por qué "np"? ¿Convención universal?

print("NumPy instalado correctamente!")
print(f"Versión de NumPy: {np.__version__}")

# ¿Qué otras herramientas podrías necesitar para análisis completo?
try:
    import pandas as pd  # ¿La herramienta que viene después?
    print(f"Pandas disponible - Versión: {pd.__version__}")
except ImportError:
    print("Pandas no está instalado. Necesitaremos instalarlo.")

print("\n" + "="*50)
print("LISTO PARA ANALIZAR DATOS DEPORTIVOS")
print("="*50)

# Pregunta de anticipación: ¿Qué diferencia esperas entre tus análisis anteriores y lo que viene?

NumPy instalado correctamente!
Versión de NumPy: 2.2.6
Pandas disponible - Versión: 2.3.1

LISTO PARA ANALIZAR DATOS DEPORTIVOS
Pandas disponible - Versión: 2.3.1

LISTO PARA ANALIZAR DATOS DEPORTIVOS


### 2.2 Creación de Arrays Básicos - ¿Qué son estos "súper listas"?

**Pregunta de evolución**: ¿Recuerdas las listas normales de Python? ¿Qué limitaciones tenían para cálculos matemáticos masivos?

**Descubrimiento**: Los **arrays de NumPy** son como listas optimizadas para matemáticas. ¿Cómo crees que serían diferentes?

In [None]:
# ¿Cómo creas arrays de NumPy y qué los hace especiales?
# Empecemos con datos deportivos reales

print("=== ARRAYS DESDE LISTAS ===")

# ¿Cómo convertirías una lista normal en un array de NumPy?
goles_favor = np.array([2, 1, 3, 0, 2, 1, 4, 2, 1, 3])  # 10 partidos
print(f"Goles a favor: {goles_favor}")
print(f"Tipo de dato: {type(goles_favor)}")  # ¿Diferente de una lista?
print(f"Forma del array: {goles_favor.shape}")  # ¿Qué información da esto?

# ¿Cómo manejarías datos relacionados?
goles_contra = np.array([1, 1, 2, 1, 0, 2, 1, 1, 2, 0])
print(f"Goles en contra: {goles_contra}")

print("\n=== INFORMACIÓN DEL ARRAY ===")
print(f"Número de elementos: {goles_favor.size}")  # ¿Total de datos?
print(f"Número de dimensiones: {goles_favor.ndim}")  # ¿1D, 2D, 3D?
print(f"Tipo de datos: {goles_favor.dtype}")  # ¿Optimizado para números?

print("\n=== ARRAYS ESPECIALES ===")

# ¿Cómo crearías arrays pre-llenados para inicializar datos?
temporada_nueva = np.zeros(38)  # ¿38 partidos de temporada?
print(f"Nueva temporada (38 partidos): {temporada_nueva[:5]}...")  # ¿Solo primeros 5?

# ¿Y si quisieras marcar partidos jugados?
partidos_jugados = np.ones(10)  # ¿Todos con valor 1?
print(f"Partidos jugados: {partidos_jugados}")

# ¿Cómo generarías secuencias automáticamente?
jornadas = np.arange(1, 11)  # ¿Del 1 al 10?
print(f"Números de jornada: {jornadas}")

# ¿Y si necesitas divisiones exactas en un rango?
minutos = np.linspace(0, 90, 19)  # ¿19 puntos exactos entre 0 y 90?
print(f"Marcas de tiempo: {minutos[:5]}...")  # ¿Primeros 5?

# Pregunta de comparación: ¿Qué ventajas ves de estos arrays sobre las listas normales?

=== ARRAYS DESDE LISTAS ===
Goles a favor: [2 1 3 0 2 1 4 2 1 3]
Tipo de dato: <class 'numpy.ndarray'>
Forma del array: (10,)
Goles en contra: [1 1 2 1 0 2 1 1 2 0]

=== INFORMACIÓN DEL ARRAY ===
Número de elementos: 10
Número de dimensiones: 1
Tipo de datos: int64

=== ARRAYS ESPECIALES ===
Nueva temporada (38 partidos): [0. 0. 0. 0. 0.]...
Partidos jugados: [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
Números de jornada: [ 1  2  3  4  5  6  7  8  9 10]
Marcas de tiempo: [ 0.  5. 10. 15. 20.]...


### 2.3 Operaciones Matemáticas con Arrays - ¿Cómo calculas con "súper poderes"?

**Pregunta de eficiencia**: Anteriormente, para sumar dos listas tenías que usar bucles. ¿Qué pasaría si pudieras operar arrays completos como si fueran números individuales?

**Desafío conceptual**: ¿Cómo crees que NumPy maneja operaciones en cientos o miles de elementos simultáneamente?

In [None]:
# ¿Cómo realizas operaciones matemáticas instantáneas en arrays completos?
# Esta es la verdadera potencia de NumPy

print("=== OPERACIONES BÁSICAS ===")

# ¿Recuerdas estos datos del ejemplo anterior?
print(f"Goles a favor: {goles_favor}")
print(f"Goles en contra: {goles_contra}")

# ¿Cómo calcularías la diferencia de goles para TODOS los partidos de una vez?
diferencia_goles = goles_favor - goles_contra  # ¡Sin bucles!
print(f"Diferencia por partido: {diferencia_goles}")

# ¿Y el total de goles en cada partido?
total_goles = goles_favor + goles_contra  # ¡Operación vectorizada!
print(f"Total goles por partido: {total_goles}")

# ¿Cómo calcularías puntos usando lógica compleja en todo el array?
puntos = np.where(diferencia_goles > 0, 3,    # ¿Si ganó: 3 puntos?
                 np.where(diferencia_goles == 0, 1, 0))  # ¿Si empató: 1, si perdió: 0?
print(f"Puntos por partido: {puntos}")

# Pregunta de impacto: ¿Notas que no usamos ningún bucle? ¿Qué significa esto para el rendimiento?

## 3. Introducción a Pandas: ¿Tu hoja de cálculo con súper poderes?

### Pregunta de transición: ¿Qué pasa cuando tus datos son más complejos?

**Reflexión**: NumPy es excelente para números, pero ¿qué sucede cuando necesitas manejar nombres de jugadores, fechas de partidos, posiciones, equipos, etc., todo mezclado?

**Analogía práctica**: ¿Alguna vez has usado Excel? ¿Cómo organizarías información compleja de jugadores en filas y columnas?

### 3.1 Series - ¿Columnas inteligentes de datos?

**Pregunta conceptual**: ¿Qué pasaría si una lista pudiera tener "etiquetas" descriptivas en lugar de solo números de posición?

**Descubrimiento**: Una **Serie** es como una columna de Excel, pero con indexación personalizada. ¿Para qué datos deportivos sería útil esto?

In [None]:
# ¿Cómo crees que representa Pandas los goles de diferentes jugadores?
# Experimenta con este ejemplo y observa:

import pandas as pd

# ¿Qué diferencias notas comparado con un array de NumPy?
goles_jugadores = pd.Series([23, 19, 15, 31, 8], 
                           index=['Messi', 'Ronaldo', 'Mbappé', 'Haaland', 'Modrić'])

print("Serie de goles por jugador:")
print(goles_jugadores)
print()

# Pregunta: ¿Cómo crees que accedes a los goles de Messi?
print("Goles de Messi:", goles_jugadores['Messi'])

# Reflexión: ¿Qué ventaja tiene esto sobre usar posiciones numéricas [0], [1], etc.?

=== CREANDO SERIES ===
Goles por jugador:
Messi          25
Benzema        18
Lewandowski    12
Haaland         8
Mbappé         15
dtype: int64

Tipo de objeto: <class 'pandas.core.series.Series'>
Índice: ['Messi', 'Benzema', 'Lewandowski', 'Haaland', 'Mbappé']
Valores: [25 18 12  8 15]

Tabla de posiciones (puntos):
Real Madrid        88
Barcelona          85
Atletico Madrid    78
Sevilla            70
Real Sociedad      65
dtype: int64

=== OPERACIONES CON SERIES ===
Máximo goleador: 25 goles (Messi)
Promedio de goles: 15.6
Total de goles: 78

Goles de Messi: 25
Goles del top 3: 55

Goleadores con 15+ goles:
Messi      25
Benzema    18
Mbappé     15
dtype: int64

Promedio por partido:
Messi          0.83
Benzema        0.60
Lewandowski    0.40
Haaland        0.27
Mbappé         0.50
dtype: float64


### 3.2 DataFrames - ¿Múltiples Series trabajando juntas?

**Pregunta provocadora**: Si una Serie es una columna, ¿qué obtendrías al juntar varias columnas relacionadas?

**Analogía práctica**: ¿Cómo organiza un entrenador la información de todos sus jugadores? Piensa en nombre, posición, edad, goles, asistencias...

**Descubrimiento**: Un DataFrame es como una hoja de cálculo completa, donde cada columna es una Serie.

**Reflexión**: ¿Para qué tipo de análisis deportivo sería útil tener toda esta información organizada?

In [None]:
# ¿Cómo crees que organizarías información completa de varios jugadores?
# Experimenta con este ejemplo:

# Datos de ejemplo para explorar
datos_jugadores = {
    'Nombre': ['Messi', 'Ronaldo', 'Mbappé', 'Haaland', 'Modrić'],
    'Edad': [36, 39, 25, 23, 38],
    'Posición': ['Delantero', 'Delantero', 'Delantero', 'Delantero', 'Centrocampista'],
    'Goles': [23, 19, 15, 31, 8],
    'Asistencias': [15, 8, 12, 5, 10]
}

# ¿Qué estructura crees que creará Pandas?
df_jugadores = pd.DataFrame(datos_jugadores)

print("DataFrame de jugadores:")
print(df_jugadores)
print()

# Pregunta: ¿Cómo crees que accederías solo a la columna de goles?
print("Solo los goles:")
print(df_jugadores['Goles'])

# Reflexión: ¿Qué ventajas ves en esta organización de datos?

## 4. Operaciones Básicas con DataFrames - ¿Qué puedes descubrir de tus datos?

### Pregunta exploratoria: ¿Cómo investigaría un entrenador su plantel?

**Contexto**: Tienes un DataFrame con información de jugadores. ¿Qué serían las primeras preguntas que te harías?

**Hipótesis**: ¿Crees que será fácil obtener estadísticas básicas como promedios, máximos, mínimos?

### 4.1 Primeras preguntas sobre los datos

**Investigación inicial**: ¿Cuáles serían las primeras cosas que querrías saber sobre un conjunto de datos deportivos?

In [None]:
# ¿Qué información básica crees que puedes extraer fácilmente?
# Experimenta con estos métodos y observa los resultados:

# Pregunta 1: ¿Cómo ves las primeras filas?
print("Primeras 3 filas:")
print(df_jugadores.head(3))
print()

# Pregunta 2: ¿Cómo obtienes información general sobre la estructura?
print("Información del DataFrame:")
print(df_jugadores.info())
print()

# Pregunta 3: ¿Cómo calculas estadísticas básicas de todas las columnas numéricas?
print("Estadísticas descriptivas:")
print(df_jugadores.describe())
print()

# Reflexión: ¿Qué insights puedes obtener de estas estadísticas básicas?
# ¿Qué te dice el promedio de edad? ¿Y el máximo de goles?

### 4.2 Filtrado de Datos - ¿Cómo encontrar exactamente lo que buscas?

**Pregunta práctica**: Un entrenador quiere analizar solo jugadores con más de 20 goles. ¿Cómo crees que puede filtrar esta información?

**Analogía**: Es como usar filtros en una búsqueda de internet. ¿Qué tipos de filtros serían útiles para datos deportivos?

**Predicción**: ¿Crees que será similar a las condiciones que aprendiste con if/else?

In [None]:
# ¿Cómo crees que puedes filtrar jugadores con más de 20 goles?
# Experimenta con estas técnicas:

# Método 1: ¿Qué crees que hace esta línea?
jugadores_goleadores = df_jugadores[df_jugadores['Goles'] > 20]
print("Jugadores con más de 20 goles:")
print(jugadores_goleadores)
print()

# Método 2: ¿Y si quieres jugadores jóvenes (menores de 30)?
jugadores_jovenes = df_jugadores[df_jugadores['Edad'] < 30]
print("Jugadores menores de 30 años:")
print(jugadores_jovenes)
print()

# Desafío: ¿Cómo combinarías ambas condiciones?
# ¿Qué símbolo crees que usarías para "Y" lógico?
jovenes_goleadores = df_jugadores[(df_jugadores['Edad'] < 30) & (df_jugadores['Goles'] > 15)]
print("Jugadores jóvenes Y goleadores:")
print(jovenes_goleadores)

# Reflexión: ¿Qué otros filtros serían útiles en análisis deportivo?

## 5. Comparación: NumPy vs Pandas - ¿Cuándo usar cada herramienta?

### Pregunta estratégica: ¿Son competidores o compañeros de equipo?

**Reflexión práctica**: Después de experimentar con ambas herramientas, ¿cuándo elegirías cada una?

**Analogía deportiva**: ¿Es como elegir entre diferentes tipos de jugadores para diferentes situaciones en el campo?

### Tu análisis como científico de datos

**Pregunta final**: Basándote en lo que has experimentado, ¿qué ventajas y desventajas ves en cada herramienta?

In [None]:
# Reflexiona sobre esta comparación mientras experimentas:

print("=== COMPARACIÓN: ¿Cuándo usar cada herramienta? ===")
print()

# NumPy - ¿Para qué tipo de datos es ideal?
print("NumPy - Tu calculadora súper rápida:")
print("✓ Ideal para: Cálculos numéricos puros")
print("✓ Ejemplo: Análisis de velocidades, distancias, estadísticas simples")
print("✓ Ventaja: Velocidad extrema en operaciones matemáticas")
print()

# Pandas - ¿Para qué situaciones es mejor?
print("Pandas - Tu organizador inteligente de datos:")
print("✓ Ideal para: Datos mixtos (números, texto, fechas)")
print("✓ Ejemplo: Información completa de jugadores, resultados de partidos")
print("✓ Ventaja: Manejo de datos complejos y análisis exploratorio")
print()

# Pregunta de síntesis: ¿En qué proyectos deportivos usarías cada uno?
print("PREGUNTA FINAL:")
print("¿Para analizar qué aspectos del fútbol usarías NumPy?")
print("¿Para analizar qué aspectos del fútbol usarías Pandas?")

# Tu turno de reflexionar...

## Lo Que Descubrimos Hoy

### Reflexiones sobre tu aprendizaje

**Pregunta de autoevaluación**: ¿Qué fue lo más sorprendente que descubriste sobre estas herramientas?

#### NumPy - Tu calculadora profesional
- ¿Entiendes por qué los arrays son más eficientes que las listas?
- ¿Puedes explicar qué significa "operaciones vectorizadas"?
- ¿En qué situaciones deportivas usarías NumPy?

#### Pandas - Tu organizador inteligente
- ¿Ves las ventajas de las Series sobre listas simples?
- ¿Comprendes cómo los DataFrames organizan información compleja?
- ¿Puedes imaginar análisis deportivos usando filtros y estadísticas?

### Conexión con el análisis deportivo

**Pregunta integradora**: ¿Cómo cambiarían estos conocimientos tu forma de analizar datos deportivos?

### Próxima Semana: Visualización - ¿Cómo convertir números en insights visuales?

**Adelanto provocador**: ¿Crees que será más fácil entender patrones en los datos cuando puedas verlos gráficamente?

**Tu preparación**: Piensa en qué tipos de gráficos deportivos has visto y qué información transmiten.