# Clase 1: La Revolución de los Datos y el Modelo DIKW

Bienvenido al cuaderno práctico de la Clase 1. En esta sesión exploraremos los conceptos fundamentales de la analítica deportiva utilizando datos reales.

## El Modelo DIKW en Deportes

Como vimos en la teoría, la jerarquía DIKW nos ayuda a entender cómo transformamos simples observaciones en decisiones estratégicas:

1.  **Datos (Data):** Hechos crudos sin contexto. *Ejemplo: Un jugador bateó 40 Home Runs.*
2.  **Información (Information):** Datos procesados y contextualizados. *Ejemplo: Es el máximo de HRs en la liga este año.*
3.  **Conocimiento (Knowledge):** Patrones y comprensión profunda. *Ejemplo: Los equipos con más de 200 HRs por temporada suelen clasificar a playoffs.*
4.  **Sabiduría (Wisdom):** Aplicación estratégica del conocimiento. *Ejemplo: Ajustaremos el presupuesto para fichar bateadores de poder en lugar de priorizar solo el promedio de bateo (Moneyball).*

## Objetivo Práctico

Hoy trabajaremos en los niveles de **Datos** e **Información**:
1.  Descargaremos un dataset histórico (Baseball Databank).
2.  Cargaremos la data usando Python (Pandas).
3.  Identificaremos los tipos de variables disponibles.

---

## Paso 1: Configurar Kaggle para Descarga de Datos

Para analizar datos reales, vamos a descargarlos directamente desde Kaggle. Sigue estos pasos:

1.  Entra a tu cuenta de [Kaggle](https://www.kaggle.com/).
2.  Ve a **Settings** -> sección **API** -> haz clic en **Create New Token**.
3.  Se descargará un archivo llamado `kaggle.json`.
4.  Ejecuta la siguiente celda y sube ese archivo `kaggle.json` cuando se te pida.

In [None]:
from google.colab import files

print("Por favor, sube tu archivo kaggle.json:")
uploaded = files.upload()

for fn in uploaded.keys():
  print('Usuario subió el archivo "{name}" con longitud {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Ahora configuraremos el sistema para usar ese archivo de credenciales y descargar el dataset **Baseball Databank** (el "estándar de oro" para análisis histórico).

In [None]:
# Mover credenciales a la carpeta correcta
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

# Descargar el dataset (Baseball Databank)
# Puedes cambiar 'open-source-sports/baseball-databank' por otro dataset de Kaggle si lo deseas
print("Descargando dataset...")
!kaggle datasets download -d open-source-sports/baseball-databank

# Descomprimir
print("Descomprimiendo archivos...")
!unzip -q baseball-databank.zip -d baseball_data
!ls baseball_data

---

## Paso 2: Exploración de Datos con Pandas

Vamos a cargar la tabla de **Batting** (Bateo) para mirar estadísticas históricas.

In [None]:
import pandas as pd

# Ajusta la ruta si el archivo CSV tiene otro nombre o ubicación dentro de la carpeta descomprimida
# Generalmente en este dataset el archivo principal es 'Batting.csv'
file_path = 'baseball_data/Batting.csv'

try:
    df = pd.read_csv(file_path)
    print("¡Dataset cargado exitosamente!")
    print(f"Dimensiones del dataset: {df.shape} (Filas, Columnas)")
except FileNotFoundError:
    print("No se encontró el archivo. Verifica el nombre con el comando !ls baseball_data anterior.")

In [None]:
# Visualizar las primeras 5 filas (Datos 'Crudos')
df.head()

## Paso 3: Identificación de Variables

Para convertir **Datos** en **Información**, primero debemos saber qué tipo de datos tenemos. 

*   **Numéricas:** ¿Podemos hacer operaciones matemáticas? (Ej: Home Runs, Hits)
*   **Categóricas:** ¿Son etiquetas o nombres? (Ej: ID de equipo, ID de liga)

In [None]:
# Información general del DataFrame y tipos de datos
df.info()

### Ejercicio de reflexión

Observa la salida de `df.info()` arriba:
1.  ¿Cuántas columnas son de tipo `int64` (Enteros)?
2.  ¿Cuántas son de tipo `object` (Texto/Categóricas)?
3.  ¿Ves alguna columna con valores nulos (`Non-Null Count` menor al total de filas)?

Esto es el primer paso para curar nuestros datos antes de buscar "Sabiduría" en ellos.