# Clase 4: Interrogando la Base de Datos con SQL

SQL (Structured Query Language) es el idioma universal de los datos. Hoy aprenderemos a hacerle preguntas a nuestros datos.

## Objetivo de Aprendizaje
- Usar `SELECT` para elegir qué ver.
- Usar `WHERE` para filtrar datos (ej. solo jugadores de un equipo).
- Usar `ORDER BY` para crear rankings (Top 10).
- Utilizar `pandasql` para correr SQL directamente sobre DataFrames de Python.

---

## Paso 1: Configurar Entorno


In [None]:
from google.colab import files
import os
import pandas as pd

# Instalamos pandasql para poder usar SQL sobre variables de pandas
!pip install pandasql
from pandasql import sqldf
pysqldf = lambda q: sqldf(q, globals())

# Configuración Kaggle automática
if not os.path.exists("/root/.kaggle/kaggle.json"):
    if not os.path.exists("kaggle.json"):
        print("Sube tu kaggle.json:")
        files.upload()
    !mkdir -p ~/.kaggle
    !cp kaggle.json ~/.kaggle/
    !chmod 600 ~/.kaggle/kaggle.json

if not os.path.exists("baseball_data"):
    !kaggle datasets download -d open-source-sports/baseball-databank
    !unzip -q baseball-databank.zip -d baseball_data

## Paso 2: Cargar Datos
Cargaremos la tabla de **Batting** (Bateo).

In [None]:
batting = pd.read_csv('baseball_data/Batting.csv')
print(f"Filas cargadas: {len(batting)}")
batting.head()

## Paso 3: Consultas SQL

### 3.1 SELECT (Seleccionar columnas)
A veces no queremos ver las 22 columnas, solo el año, el jugador y sus Home Runs (HR).

In [None]:
query1 = """
SELECT yearID, playerID, HR 
FROM batting 
LIMIT 10;
"""
pysqldf(query1)

### 3.2 WHERE (Filtrar)
Queremos ver solo las temporadas "increíbles": Jugadores con **más de 50 Home Runs** en un año.

In [None]:
query2 = """
SELECT yearID, teamID, playerID, HR 
FROM batting 
WHERE HR > 50;
"""
resultados = pysqldf(query2)
resultados

### 3.3 ORDER BY (Ordenar - Rankings)
¿Quién tuvo la mejor temporada de bateo de la historia según HR? Ordenamos de forma **Descendente** (DESC).

In [None]:
query3 = """
SELECT yearID, playerID, HR 
FROM batting 
ORDER BY HR DESC 
LIMIT 10;
"""
pysqldf(query3)

### Ejercicio Práctico
Escribe una consulta SQL para encontrar:
1.  Jugadores del equipo 'NYA' (New York Yankees).
2.  Que hayan jugado en el año 2000 o después (`yearID >= 2000`).
3.  Ordenados por Carreras Impulsadas (`RBI`) de mayor a menor.

In [None]:
# Escribe tu query aquí
mi_query = """
SELECT *
FROM batting
WHERE ...
"""
# pysqldf(mi_query)