# Semana 3: Estad√≠stica Descriptiva

## Ciencia de Datos en el Deporte - Fundamentos con Python

---

**Objetivos de aprendizaje:**
- Comprender los conceptos fundamentales de estad√≠stica descriptiva
- Calcular medidas de tendencia central (media, mediana, moda)
- Calcular medidas de dispersi√≥n (desviaci√≥n est√°ndar, varianza, rango)
- Aplicar estad√≠stica descriptiva a datos futbol√≠sticos
- Crear histogramas y visualizaciones estad√≠sticas
- Interpretar resultados estad√≠sticos en el contexto del f√∫tbol

---

## 1. Teor√≠a: Fundamentos de Estad√≠stica Descriptiva

### ¬øQu√© es la Estad√≠stica Descriptiva?

La estad√≠stica descriptiva es la rama de la estad√≠stica que se encarga de **resumir, organizar y presentar datos** de manera comprensible. Su objetivo principal es describir las caracter√≠sticas principales de un conjunto de datos sin hacer inferencias sobre una poblaci√≥n m√°s amplia.

### Importancia en el An√°lisis Deportivo

En el contexto del f√∫tbol, la estad√≠stica descriptiva nos permite:
- **Resumir el rendimiento**: Obtener una visi√≥n general del desempe√±o de equipos y jugadores
- **Identificar patrones**: Detectar tendencias en goles, resultados, etc.
- **Comparar**: Establecer comparaciones objetivas entre equipos, ligas o temporadas
- **Comunicar hallazgos**: Presentar informaci√≥n de manera clara y comprensible

### Tipos de Medidas Estad√≠sticas

#### 1.1 **Medidas de Tendencia Central**
Nos indican el "centro" o valor t√≠pico de los datos:

- **Media (promedio)**: Suma de todos los valores dividida por el n√∫mero de observaciones
  - *Ejemplo*: Promedio de goles por partido
  - *F√≥rmula*: xÃÑ = Œ£x / n

- **Mediana**: Valor que divide los datos ordenados por la mitad
  - *Ejemplo*: Mediana de goles por equipo en una temporada
  - *Ventaja*: Menos sensible a valores extremos

- **Moda**: Valor que aparece con mayor frecuencia
  - *Ejemplo*: Resultado m√°s com√∫n (1-0, 2-1, etc.)
  - *Aplicaci√≥n*: Identificar patrones frecuentes

#### 1.2 **Medidas de Dispersi√≥n**
Nos indican qu√© tan esparcidos est√°n los datos:

- **Rango**: Diferencia entre el valor m√°ximo y m√≠nimo
  - *Ejemplo*: Diferencia entre el m√°ximo y m√≠nimo de goles por partido
  - *F√≥rmula*: Rango = M√°ximo - M√≠nimo

- **Varianza**: Promedio de las desviaciones al cuadrado respecto a la media
  - *F√≥rmula*: œÉ¬≤ = Œ£(x - xÃÑ)¬≤ / n
  - *Interpretaci√≥n*: Mayor varianza = mayor dispersi√≥n

- **Desviaci√≥n Est√°ndar**: Ra√≠z cuadrada de la varianza
  - *F√≥rmula*: œÉ = ‚àöœÉ¬≤
  - *Ventaja*: Mismas unidades que los datos originales

#### 1.3 **Medidas de Posici√≥n**
Nos indican la posici√≥n relativa de los datos:

- **Cuartiles**: Dividen los datos en 4 partes iguales
  - Q1 (25%), Q2 (50% = mediana), Q3 (75%)
- **Percentiles**: Dividen los datos en 100 partes iguales
- **Rango intercuart√≠lico (IQR)**: Q3 - Q1

### Aplicaciones en F√∫tbol

| Medida | Aplicaci√≥n en F√∫tbol | Ejemplo |
|--------|---------------------|----------|
| Media | Promedio de goles por partido | 2.5 goles/partido |
| Mediana | Valor central de puntos por temporada | 45 puntos |
| Moda | Resultado m√°s frecuente | 1-0 |
| Desviaci√≥n Est√°ndar | Consistencia del rendimiento | Baja DS = m√°s consistente |
| Cuartiles | Clasificaci√≥n de equipos | Top 25% de la liga |

---

## 2. Configuraci√≥n del Entorno y Carga de Datos

### Importaci√≥n de Librer√≠as

Para realizar an√°lisis estad√≠stico descriptivo, necesitamos las siguientes librer√≠as:

- **pandas**: Para manipulaci√≥n y an√°lisis de datos
- **numpy**: Para c√°lculos num√©ricos y estad√≠sticos
- **matplotlib**: Para visualizaciones b√°sicas
- **seaborn**: Para visualizaciones estad√≠sticas avanzadas
- **scipy**: Para funciones estad√≠sticas adicionales

In [2]:
# Importar librer√≠as esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import scipy
from datetime import datetime, timedelta
import warnings

# Configurar warnings
warnings.filterwarnings('ignore')

# Configurar visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Configurar pandas para mostrar m√°s columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

# Verificar versiones
print("‚úÖ Librer√≠as importadas exitosamente")
print(f"üìä Pandas versi√≥n: {pd.__version__}")
print(f"üî¢ NumPy versi√≥n: {np.__version__}")
print(f"üìà Matplotlib versi√≥n: {plt.matplotlib.__version__}")
print(f"üé® Seaborn versi√≥n: {sns.__version__}")
print(f"üìä SciPy versi√≥n: {scipy.__version__}")

print("\nüîß Configuraci√≥n aplicada:")
print("- Estilo de visualizaci√≥n: seaborn")
print("- Tama√±o de figura por defecto: 12x8")
print("- Paleta de colores: husl")
print("- Advertencias suprimidas")

‚úÖ Librer√≠as importadas exitosamente
üìä Pandas versi√≥n: 2.3.1
üî¢ NumPy versi√≥n: 2.2.6
üìà Matplotlib versi√≥n: 3.10.3
üé® Seaborn versi√≥n: 0.13.2
üìä SciPy versi√≥n: 1.15.3

üîß Configuraci√≥n aplicada:
- Estilo de visualizaci√≥n: seaborn
- Tama√±o de figura por defecto: 12x8
- Paleta de colores: husl
- Advertencias suprimidas


## 3. Carga de Datos Futbol√≠sticos

Para practicar estad√≠stica descriptiva, crearemos un dataset simulado que represente estad√≠sticas de jugadores de f√∫tbol durante una temporada. Este dataset incluir√° variables como:

- **Goles**: N√∫mero de goles anotados por jugador
- **Asistencias**: N√∫mero de asistencias realizadas
- **Minutos jugados**: Total de minutos en cancha
- **Partidos jugados**: N√∫mero de partidos disputados
- **Posici√≥n**: Posici√≥n del jugador en el campo
- **Edad**: Edad del jugador
- **Valor de mercado**: Valor estimado del jugador (en millones)

### 3.1 Creaci√≥n del Dataset Simulado

Crearemos un dataset con 100 jugadores ficticios que nos permita explorar diferentes aspectos de la estad√≠stica descriptiva aplicada al f√∫tbol.

In [3]:
# Crear dataset simulado de jugadores de f√∫tbol
np.random.seed(42)  # Para reproducibilidad

# Definir posiciones y sus caracter√≠sticas t√≠picas
posiciones = ['Delantero', 'Mediocampista', 'Defensor', 'Portero']
pesos_posiciones = [0.25, 0.35, 0.30, 0.10]  # Distribuci√≥n t√≠pica en un equipo

# Generar datos base
n_jugadores = 100
jugadores_data = []

for i in range(n_jugadores):
    # Seleccionar posici√≥n
    posicion = np.random.choice(posiciones, p=pesos_posiciones)
    
    # Generar edad (18-35 a√±os, con mayor concentraci√≥n en 20-30)
    edad = int(np.random.normal(26, 4))
    edad = max(18, min(35, edad))
    
    # Generar partidos jugados (0-38 en una temporada t√≠pica)
    partidos = np.random.randint(5, 39)
    
    # Generar minutos jugados (depende de partidos y posici√≥n)
    if posicion == 'Portero':
        minutos_por_partido = np.random.normal(85, 10)
    else:
        minutos_por_partido = np.random.normal(70, 20)
    
    minutos_totales = int(max(0, partidos * minutos_por_partido))
    
    # Generar goles (depende de la posici√≥n)
    if posicion == 'Delantero':
        goles = np.random.poisson(12)
    elif posicion == 'Mediocampista':
        goles = np.random.poisson(5)
    elif posicion == 'Defensor':
        goles = np.random.poisson(2)
    else:  # Portero
        goles = np.random.poisson(0.1)
    
    # Generar asistencias (depende de la posici√≥n)
    if posicion == 'Delantero':
        asistencias = np.random.poisson(4)
    elif posicion == 'Mediocampista':
        asistencias = np.random.poisson(8)
    elif posicion == 'Defensor':
        asistencias = np.random.poisson(2)
    else:  # Portero
        asistencias = np.random.poisson(0.1)
    
    # Generar valor de mercado (en millones, depende de edad, goles, asistencias)
    valor_base = 5 + (goles * 0.5) + (asistencias * 0.3) + (partidos * 0.1)
    factor_edad = 1.2 if 22 <= edad <= 28 else 0.8 if edad > 30 else 1.0
    valor_mercado = round(valor_base * factor_edad * np.random.uniform(0.7, 1.3), 1)
    
    jugadores_data.append({
        'Nombre': f'Jugador_{i+1:03d}',
        'Posicion': posicion,
        'Edad': edad,
        'Partidos': partidos,
        'Minutos': minutos_totales,
        'Goles': goles,
        'Asistencias': asistencias,
        'Valor_Mercado': valor_mercado
    })

# Crear DataFrame
df_jugadores = pd.DataFrame(jugadores_data)

# Mostrar informaci√≥n b√°sica del dataset
print("=== INFORMACI√ìN DEL DATASET ===")
print(f"N√∫mero total de jugadores: {len(df_jugadores)}")
print(f"Columnas disponibles: {list(df_jugadores.columns)}")
print(f"Tipos de datos:")
print(df_jugadores.dtypes)
print("\n=== PRIMERAS 5 FILAS ===")
print(df_jugadores.head())
print("\n=== DISTRIBUCI√ìN POR POSICI√ìN ===")
print(df_jugadores['Posicion'].value_counts())

=== INFORMACI√ìN DEL DATASET ===
N√∫mero total de jugadores: 100
Columnas disponibles: ['Nombre', 'Posicion', 'Edad', 'Partidos', 'Minutos', 'Goles', 'Asistencias', 'Valor_Mercado']
Tipos de datos:
Nombre            object
Posicion          object
Edad               int64
Partidos           int64
Minutos            int64
Goles              int64
Asistencias        int64
Valor_Mercado    float64
dtype: object

=== PRIMERAS 5 FILAS ===
        Nombre       Posicion  Edad  Partidos  Minutos  Goles  Asistencias  \
0  Jugador_001  Mediocampista    21        23     1756      3            4   
1  Jugador_002       Defensor    26        32     1966      2            3   
2  Jugador_003       Defensor    24        29     2012      3            2   
3  Jugador_004      Delantero    25         8      622     10            8   
4  Jugador_005      Delantero    21        22      843     12            4   

   Valor_Mercado  
0           13.0  
1           14.7  
2           12.0  
3           13.0 