# Semana 3: Estadística Descriptiva

## Ciencia de Datos en el Deporte - Fundamentos con Python

---

**Objetivos de aprendizaje:**
- Comprender los conceptos fundamentales de estadística descriptiva
- Calcular medidas de tendencia central (media, mediana, moda)
- Calcular medidas de dispersión (desviación estándar, varianza, rango)
- Aplicar estadística descriptiva a datos futbolísticos
- Crear histogramas y visualizaciones estadísticas
- Interpretar resultados estadísticos en el contexto del fútbol

---

## 1. Teoría: Fundamentos de Estadística Descriptiva

### ¿Qué es la Estadística Descriptiva?

La estadística descriptiva es la rama de la estadística que se encarga de **resumir, organizar y presentar datos** de manera comprensible. Su objetivo principal es describir las características principales de un conjunto de datos sin hacer inferencias sobre una población más amplia.

### Importancia en el Análisis Deportivo

En el contexto del fútbol, la estadística descriptiva nos permite:
- **Resumir el rendimiento**: Obtener una visión general del desempeño de equipos y jugadores
- **Identificar patrones**: Detectar tendencias en goles, resultados, etc.
- **Comparar**: Establecer comparaciones objetivas entre equipos, ligas o temporadas
- **Comunicar hallazgos**: Presentar información de manera clara y comprensible

### Tipos de Medidas Estadísticas

#### 1.1 **Medidas de Tendencia Central**
Nos indican el "centro" o valor típico de los datos:

- **Media (promedio)**: Suma de todos los valores dividida por el número de observaciones
  - *Ejemplo*: Promedio de goles por partido
  - *Fórmula*: x̄ = Σx / n

- **Mediana**: Valor que divide los datos ordenados por la mitad
  - *Ejemplo*: Mediana de goles por equipo en una temporada
  - *Ventaja*: Menos sensible a valores extremos

- **Moda**: Valor que aparece con mayor frecuencia
  - *Ejemplo*: Resultado más común (1-0, 2-1, etc.)
  - *Aplicación*: Identificar patrones frecuentes

#### 1.2 **Medidas de Dispersión**
Nos indican qué tan esparcidos están los datos:

- **Rango**: Diferencia entre el valor máximo y mínimo
  - *Ejemplo*: Diferencia entre el máximo y mínimo de goles por partido
  - *Fórmula*: Rango = Máximo - Mínimo

- **Varianza**: Promedio de las desviaciones al cuadrado respecto a la media
  - *Fórmula*: σ² = Σ(x - x̄)² / n
  - *Interpretación*: Mayor varianza = mayor dispersión

- **Desviación Estándar**: Raíz cuadrada de la varianza
  - *Fórmula*: σ = √σ²
  - *Ventaja*: Mismas unidades que los datos originales

#### 1.3 **Medidas de Posición**
Nos indican la posición relativa de los datos:

- **Cuartiles**: Dividen los datos en 4 partes iguales
  - Q1 (25%), Q2 (50% = mediana), Q3 (75%)
- **Percentiles**: Dividen los datos en 100 partes iguales
- **Rango intercuartílico (IQR)**: Q3 - Q1

### Aplicaciones en Fútbol

| Medida | Aplicación en Fútbol | Ejemplo |
|--------|---------------------|----------|
| Media | Promedio de goles por partido | 2.5 goles/partido |
| Mediana | Valor central de puntos por temporada | 45 puntos |
| Moda | Resultado más frecuente | 1-0 |
| Desviación Estándar | Consistencia del rendimiento | Baja DS = más consistente |
| Cuartiles | Clasificación de equipos | Top 25% de la liga |

---

## 2. Configuración del Entorno y Carga de Datos

### Importación de Librerías

Para realizar análisis estadístico descriptivo, necesitamos las siguientes librerías:

- **pandas**: Para manipulación y análisis de datos
- **numpy**: Para cálculos numéricos y estadísticos
- **matplotlib**: Para visualizaciones básicas
- **seaborn**: Para visualizaciones estadísticas avanzadas
- **scipy**: Para funciones estadísticas adicionales

In [2]:
# Importar librerías esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import scipy
from datetime import datetime, timedelta
import warnings

# Configurar warnings
warnings.filterwarnings('ignore')

# Configurar visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Configurar pandas para mostrar más columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

# Verificar versiones
print("✅ Librerías importadas exitosamente")
print(f"📊 Pandas versión: {pd.__version__}")
print(f"🔢 NumPy versión: {np.__version__}")
print(f"📈 Matplotlib versión: {plt.matplotlib.__version__}")
print(f"🎨 Seaborn versión: {sns.__version__}")
print(f"📊 SciPy versión: {scipy.__version__}")

print("\n🔧 Configuración aplicada:")
print("- Estilo de visualización: seaborn")
print("- Tamaño de figura por defecto: 12x8")
print("- Paleta de colores: husl")
print("- Advertencias suprimidas")

✅ Librerías importadas exitosamente
📊 Pandas versión: 2.3.1
🔢 NumPy versión: 2.2.6
📈 Matplotlib versión: 3.10.3
🎨 Seaborn versión: 0.13.2
📊 SciPy versión: 1.15.3

🔧 Configuración aplicada:
- Estilo de visualización: seaborn
- Tamaño de figura por defecto: 12x8
- Paleta de colores: husl
- Advertencias suprimidas


## 3. Carga de Datos Futbolísticos

Para practicar estadística descriptiva, crearemos un dataset simulado que represente estadísticas de jugadores de fútbol durante una temporada. Este dataset incluirá variables como:

- **Goles**: Número de goles anotados por jugador
- **Asistencias**: Número de asistencias realizadas
- **Minutos jugados**: Total de minutos en cancha
- **Partidos jugados**: Número de partidos disputados
- **Posición**: Posición del jugador en el campo
- **Edad**: Edad del jugador
- **Valor de mercado**: Valor estimado del jugador (en millones)

### 3.1 Creación del Dataset Simulado

Crearemos un dataset con 100 jugadores ficticios que nos permita explorar diferentes aspectos de la estadística descriptiva aplicada al fútbol.

In [3]:
# Crear dataset simulado de jugadores de fútbol
np.random.seed(42)  # Para reproducibilidad

# Definir posiciones y sus características típicas
posiciones = ['Delantero', 'Mediocampista', 'Defensor', 'Portero']
pesos_posiciones = [0.25, 0.35, 0.30, 0.10]  # Distribución típica en un equipo

# Generar datos base
n_jugadores = 100
jugadores_data = []

for i in range(n_jugadores):
    # Seleccionar posición
    posicion = np.random.choice(posiciones, p=pesos_posiciones)
    
    # Generar edad (18-35 años, con mayor concentración en 20-30)
    edad = int(np.random.normal(26, 4))
    edad = max(18, min(35, edad))
    
    # Generar partidos jugados (0-38 en una temporada típica)
    partidos = np.random.randint(5, 39)
    
    # Generar minutos jugados (depende de partidos y posición)
    if posicion == 'Portero':
        minutos_por_partido = np.random.normal(85, 10)
    else:
        minutos_por_partido = np.random.normal(70, 20)
    
    minutos_totales = int(max(0, partidos * minutos_por_partido))
    
    # Generar goles (depende de la posición)
    if posicion == 'Delantero':
        goles = np.random.poisson(12)
    elif posicion == 'Mediocampista':
        goles = np.random.poisson(5)
    elif posicion == 'Defensor':
        goles = np.random.poisson(2)
    else:  # Portero
        goles = np.random.poisson(0.1)
    
    # Generar asistencias (depende de la posición)
    if posicion == 'Delantero':
        asistencias = np.random.poisson(4)
    elif posicion == 'Mediocampista':
        asistencias = np.random.poisson(8)
    elif posicion == 'Defensor':
        asistencias = np.random.poisson(2)
    else:  # Portero
        asistencias = np.random.poisson(0.1)
    
    # Generar valor de mercado (en millones, depende de edad, goles, asistencias)
    valor_base = 5 + (goles * 0.5) + (asistencias * 0.3) + (partidos * 0.1)
    factor_edad = 1.2 if 22 <= edad <= 28 else 0.8 if edad > 30 else 1.0
    valor_mercado = round(valor_base * factor_edad * np.random.uniform(0.7, 1.3), 1)
    
    jugadores_data.append({
        'Nombre': f'Jugador_{i+1:03d}',
        'Posicion': posicion,
        'Edad': edad,
        'Partidos': partidos,
        'Minutos': minutos_totales,
        'Goles': goles,
        'Asistencias': asistencias,
        'Valor_Mercado': valor_mercado
    })

# Crear DataFrame
df_jugadores = pd.DataFrame(jugadores_data)

# Mostrar información básica del dataset
print("=== INFORMACIÓN DEL DATASET ===")
print(f"Número total de jugadores: {len(df_jugadores)}")
print(f"Columnas disponibles: {list(df_jugadores.columns)}")
print(f"Tipos de datos:")
print(df_jugadores.dtypes)
print("\n=== PRIMERAS 5 FILAS ===")
print(df_jugadores.head())
print("\n=== DISTRIBUCIÓN POR POSICIÓN ===")
print(df_jugadores['Posicion'].value_counts())

=== INFORMACIÓN DEL DATASET ===
Número total de jugadores: 100
Columnas disponibles: ['Nombre', 'Posicion', 'Edad', 'Partidos', 'Minutos', 'Goles', 'Asistencias', 'Valor_Mercado']
Tipos de datos:
Nombre            object
Posicion          object
Edad               int64
Partidos           int64
Minutos            int64
Goles              int64
Asistencias        int64
Valor_Mercado    float64
dtype: object

=== PRIMERAS 5 FILAS ===
        Nombre       Posicion  Edad  Partidos  Minutos  Goles  Asistencias  \
0  Jugador_001  Mediocampista    21        23     1756      3            4   
1  Jugador_002       Defensor    26        32     1966      2            3   
2  Jugador_003       Defensor    24        29     2012      3            2   
3  Jugador_004      Delantero    25         8      622     10            8   
4  Jugador_005      Delantero    21        22      843     12            4   

   Valor_Mercado  
0           13.0  
1           14.7  
2           12.0  
3           13.0  
