# MISI√ìN: El Cuerpo M√©dico de la Selecci√≥n Colombia

## Contexto

Trabajan en el **Departamento M√©dico de la Federaci√≥n Colombiana de F√∫tbol**.

Estamos en **febrero de 2026**. Faltan **4 meses** para el Mundial que se jugar√° en Estados Unidos, M√©xico y Canad√°.

El director t√©cnico les ha dado acceso a una base de datos **REAL** de [Transfermarkt](https://www.transfermarkt.com/) con el historial de lesiones de m√°s de **90,000 jugadores profesionales** del mundo.

> *"Necesito que analicen las lesiones de los jugadores colombianos y de las principales ligas."*
---
## Reglas

1. **Trabajen en parejas** - pero cada uno debe presentarsu c√≥digo.
2. **Googleen libremente** - As√≠ trabajan los profesionales en la vida real.
3. **Entrega** - Jueves 12 de Febrero 8p.m.

---

# PASO 0: Descargar datos REALES de Kaggle
### Paso 1: Crear cuenta en Kaggle (si no tienen)
1. Ir a [kaggle.com](https://www.kaggle.com/)
2. Click en "Register" (pueden usar su cuenta de Google)

### Paso 2: Obtener su API Key
1. En Kaggle, click en su foto de perfil (arriba derecha)
2. Click en "Settings"
3. Scroll hasta "API"
4. Click en **"Create New Token"**
5. Se descargar√° un archivo `kaggle.json`

### Paso 3: Ejecutar la celda de abajo
Les pedir√° su **username** y **key** (est√°n dentro del archivo `kaggle.json` que descargaron)

In [None]:
# Instalar librer√≠a para descargar de Kaggle f√°cilmente
!pip install -q opendatasets

import opendatasets as od

# Esto les pedir√° su Kaggle username y key
# Los encuentran en el archivo kaggle.json que descargaron
od.download("https://www.kaggle.com/datasets/xfkzujqjvx97n/football-datasets")

print("\n‚úÖ ¬°Datos REALES descargados!")

In [None]:
# Ver qu√© archivos se descargaron
import os

# Buscar la carpeta descargada
carpeta = 'football-datasets'
if os.path.exists(carpeta):
    print("üìÇ Archivos descargados:")
    for root, dirs, files in os.walk(carpeta):
        for f in files:
            if f.endswith('.csv'):
                ruta = os.path.join(root, f)
                tama√±o = os.path.getsize(ruta) / (1024*1024)  # MB
                print(f"   {f}: {tama√±o:.1f} MB")
else:
    print("‚ùå No se encontr√≥ la carpeta. ¬øEjecutaste la celda anterior?")

---

# üìÇ PASO 1: Cargar los datos

In [None]:
import pandas as pd
import numpy as np
import sys

# Configuraci√≥n para ver m√°s datos
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Librer√≠as cargadas")
print(f"   Python: {sys.version.split()[0]}")
print(f"   Pandas: {pd.__version__}")

In [None]:
# Encontrar y cargar los archivos CSV
import os

ruta_lesiones = None
ruta_jugadores = None

for root, dirs, files in os.walk('football-datasets'):
    for f in files:
        if 'injury' in f.lower() and f.endswith('.csv'):
            ruta_lesiones = os.path.join(root, f)
        if 'profile' in f.lower() and f.endswith('.csv'):
            ruta_jugadores = os.path.join(root, f)

print(f"üìÇ Archivos encontrados:")
print(f"   Lesiones: {ruta_lesiones}")
print(f"   Jugadores: {ruta_jugadores}")

In [None]:
# Cargar datos de lesiones
df_lesiones = pd.read_csv(ruta_lesiones)

print(f"üî• DATOS REALES DE LESIONES: {len(df_lesiones):,} registros")
print(f"   Columnas: {list(df_lesiones.columns)}")

In [None]:
# Cargar datos de jugadores
df_jugadores = pd.read_csv(ruta_jugadores)

print(f"üî• DATOS REALES DE JUGADORES: {len(df_jugadores):,} registros")
print(f"   Columnas: {list(df_jugadores.columns)}")

In [None]:
# Unir los datos: lesiones + informaci√≥n del jugador
# Primero veamos qu√© columna tienen en com√∫n
print("Columnas en lesiones:", df_lesiones.columns.tolist())
print("Columnas en jugadores:", df_jugadores.columns.tolist())

In [None]:
# Unir por player_id
columnas_jugador = ['player_id', 'player_name', 'citizenship', 'position', 'foot']
# Filtrar solo las columnas que existen
cols_disponibles = [c for c in columnas_jugador if c in df_jugadores.columns]

df = df_lesiones.merge(
    df_jugadores[cols_disponibles],
    on='player_id',
    how='left'
)

print(f"\nüèÜ DATOS UNIDOS: {len(df):,} registros de lesiones REALES")
print(f"\nüá®üá¥ ¬°Faltan 4 meses para el Mundial 2026!")
print(f"\nüìä Fuente: Transfermarkt (datos reales de jugadores profesionales)")

---

#FASE 1: Exploraci√≥n Libre (20 minutos)

Antes de responder las preguntas del cuerpo t√©cnico, **conozcan los datos**.

| Comando | ¬øQu√© hace? |
|---------|------------|
| `df.head()` | Ver las primeras 5 filas |
| `df.shape` | Ver (filas, columnas) |
| `df.columns` | Ver nombres de columnas |
| `df['columna'].value_counts()` | Contar valores √∫nicos |

In [None]:
# EXPLORACI√ìN LIBRE - Celda 1



In [None]:
# EXPLORACI√ìN LIBRE - Celda 2



In [None]:
# EXPLORACI√ìN LIBRE - Celda 3



In [None]:
# EXPLORACI√ìN LIBRE - Celda 4



---

# FASE 2: Preguntas del Cuerpo T√©cnico

---

## Pregunta 1: El panorama general

**"¬øCu√°ntas lesiones REALES tenemos registradas en total?"**

<details>
<summary> Pista</summary>

`df.shape`

</details>

In [None]:
# Pregunta 1



---

## Pregunta 2: Las lesiones m√°s frecuentes

**"¬øCu√°les son los 10 tipos de lesi√≥n m√°s frecuentes a nivel mundial?"**

<details>
<summary>Pista</summary>

```python
df['injury_reason'].value_counts().head(10)
```

</details>

In [None]:
# Pregunta 2



---

## üá®üá¥ Pregunta 3: ¬°Los jugadores COLOMBIANOS!

**"Filtren solo los jugadores colombianos. ¬øCu√°ntas lesiones tienen registradas?"**

<details>
<summary> Pista</summary>

```python
# Primero ver c√≥mo se escribe Colombia en los datos
df['citizenship'].value_counts()

# Luego filtrar
df_colombia = df[df['citizenship'] == 'Colombia']
len(df_colombia)
```

</details>

In [None]:
# Pregunta 3



---

## Pregunta 4: Tiempos de recuperaci√≥n

**"¬øCu√°l es el promedio de d√≠as perdidos por lesi√≥n? ¬øY el m√°ximo?"**

<details>
<summary>Pista</summary>

```python
df['days_missed'].mean()
df['days_missed'].max()
df['days_missed'].describe()
```

</details>

In [None]:
# Pregunta 4



---

## Pregunta 5: Las lesiones de los COLOMBIANOS

**"De los jugadores colombianos, ¬øcu√°les son las 5 lesiones m√°s frecuentes?"**

<details>
<summary>Pista</summary>

```python
df_colombia = df[df['citizenship'] == 'Colombia']
df_colombia['injury_reason'].value_counts().head(5)
```

</details>

In [None]:
# Pregunta 5



---

## Pregunta 6: ¬øQu√© posici√≥n se lesiona m√°s?

**"¬øQu√© posici√≥n tiene m√°s lesiones registradas?"**

<details>
<summary> Pista</summary>

```python
df['position'].value_counts()
```

</details>

In [None]:
# Pregunta 6



---

## Pregunta 7: Lesiones m√°s graves

**"¬øCu√°les son las 10 lesiones con mayor tiempo promedio de recuperaci√≥n?"**

<details>
<summary> Pista</summary>

```python
df.groupby('injury_reason')['days_missed'].mean().sort_values(ascending=False).head(10)
```

</details>

In [None]:
# Pregunta 7



---

## Pregunta 8: Los colombianos m√°s lesionados

**"¬øCu√°les son los jugadores colombianos REALES con m√°s lesiones en su historial?"**

<details>
<summary>Pista</summary>

```python
df_colombia = df[df['citizenship'] == 'Colombia']
df_colombia['player_name'].value_counts().head(10)
```

</details>

In [None]:
# Pregunta 8 - ¬°Ver√°n nombres REALES como James, Falcao, etc!



---

## Pregunta 9: Colombia vs rivales del Mundial

**"Comparen lesiones de Colombia con Germany, Japan y New Zealand."**

<details>
<summary> Pista</summary>

```python
paises = ['Colombia', 'Germany', 'Japan', 'New Zealand']
df_grupo = df[df['citizenship'].isin(paises)]
df_grupo['citizenship'].value_counts()
```

</details>

In [None]:
# Pregunta 9



---

## Pregunta 10 (DESAF√çO): Reporte ejecutivo

**"Tabla resumen por pa√≠s: total lesiones, promedio d√≠as, promedio partidos perdidos."**

<details>
<summary> Pista</summary>

```python
paises = ['Colombia', 'Germany', 'Japan', 'New Zealand']
df_grupo = df[df['citizenship'].isin(paises)]

resumen = df_grupo.groupby('citizenship').agg({
    'player_id': 'count',
    'days_missed': 'mean',
    'games_missed': 'mean'
})
resumen.columns = ['total_lesiones', 'promedio_dias', 'promedio_partidos']
resumen.round(1).sort_values('total_lesiones', ascending=False)
```

</details>

In [None]:
# Pregunta 10



In [None]:
# Veamos las versiones de TODO lo que usamos
import sys
print("=" * 60)
print("AMBIENTE DE TRABAJO ACTUAL")
print("=" * 60)
print(f"Python: {sys.version}")
print(f"Pandas: {pd.__version__}")
print(f"Numpy: {np.__version__}")
print("=" * 60)
print("\n‚ö†Ô∏è PROBLEMA: Si alguien tiene versiones diferentes...")
print("   - El c√≥digo podr√≠a fallar")
print("   - Podr√≠a dar resultados diferentes")
print("\nüí° SOLUCI√ìN: Docker")
print("   Empaqueta Python + pandas + numpy + TODO")
print("   en una 'caja' que funciona ID√âNTICA en cualquier PC.")
print("\nüê≥ El jueves aprenderemos Docker para resolver esto.")

---

## lo que aprendieron hoy:

| Concepto | Comando |
|----------|--------|
| Descargar de Kaggle | `opendatasets` |
| Cargar CSV | `pd.read_csv()` |
| Unir tablas | `df.merge()` |
| Filtrar datos | `df[df['col'] == 'valor']` |
| Filtrar con lista | `df[df['col'].isin([...])]` |
| Agrupar y resumir | `df.groupby().agg()` |

---

