
# Spark SQL – Ejercicio guiado (CSV creado dentro del notebook)

Este notebook ahora **crea el archivo CSV dentro del propio notebook** y luego lo **lee con Spark**.  
Tu objetivo será completar las celdas marcadas como **_TAREA_** para realizar consultas SQL con **filtros**, **agrupación** y **ordenamiento**.


In [None]:

# --- Instalación (si hace falta) ---
# En entornos como Google Colab, descomenta para instalar.
!pip -q install pyspark


In [None]:

# --- Importaciones y sesión Spark ---
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.appName("SQL-ejercicio-guiado").getOrCreate()
spark



## Crear CSV de ejemplo **dentro del notebook**

Se generará `ventas.csv` en el directorio actual del notebook, con columnas:  
`fecha, ciudad, categoria, producto, unidades, precio_unitario, total`  


In [None]:

# --- Generación del CSV en el mismo notebook ---
import os, csv

csv_path = os.path.abspath("ventas.csv")
rows = [
    ["2025-08-01","Curicó","Cámaras","Kit Cam 4K",2,159000,318000],
    ["2025-08-01","Talca","Alarmas","Alarma Hogar",1,129000,129000],
    ["2025-08-02","Curicó","Domótica","Smart Hub",1,99000,99000],
    ["2025-08-02","Santiago","Cámaras","Cam IP Pro",3,89000,267000],
    ["2025-08-03","Curicó","Portones","Motor SG-600",1,249000,249000],
    ["2025-08-03","Talca","Cámaras","Kit Cam 4K",1,159000,159000],
    ["2025-08-04","Curicó","Citofonía","Videoportero X",2,119000,238000],
    ["2025-08-04","Santiago","Domótica","Sensor Puerta",4,19000,76000],
    ["2025-08-05","Curicó","Cámaras","Cam IP Pro",2,89000,178000],
    ["2025-08-05","Talca","Citofonía","Audioportero A",3,59000,177000],
    ["2025-08-06","Curicó","Alarmas","Alarma Hogar",1,129000,129000],
    ["2025-08-06","Santiago","Portones","Motor SG-600",1,249000,249000],
    ["2025-08-07","Curicó","Domótica","Sensor Movimiento",5,22000,110000],
    ["2025-08-07","Talca","Cámaras","Cam IP Pro",1,89000,89000],
    ["2025-08-08","Curicó","Citofonía","Videoportero X",1,119000,119000],
]

with open(csv_path, "w", newline="", encoding="utf-8") as f:
    w = csv.writer(f)
    w.writerow(["fecha","ciudad","categoria","producto","unidades","precio_unitario","total"])
    w.writerows(rows)

print("CSV generado en:", csv_path)



## Cargar el CSV recién creado a Spark y crear vista temporal


In [None]:

# --- Carga del CSV a Spark DataFrame ---
df = spark.read.option("header", True).option("inferSchema", True).csv(csv_path)
df.printSchema()
df.show(5, truncate=False)

# Vista temporal para consultas SQL
df.createOrReplaceTempView("ventas")



## TAREA 1 — Explora los datos (warm-up)

1. Cuenta cuántas filas hay en `ventas` con SQL.  
2. Lista las **ciudades** distintas.  
3. Muestra el **rango de fechas** (`MIN(fecha)`, `MAX(fecha)`).  

> Usa `spark.sql("SELECT ... FROM ventas").show()`.


In [None]:

# Escribe aquí tus consultas SQL para la TAREA 1




## TAREA 2 — Consulta con **filtros + agrupación + ordenamiento** (obligatoria)

**Objetivo:** Obtener el **total de unidades** y el **total vendido** por **categoría**, aplicando filtros y ordenando.

**Requisitos:**
- Filtra por una **ciudad** (ej.: `'Curicó'`).  
- Filtra por un **rango de fechas** (ej.: `'2025-08-01'` a `'2025-08-08'`).  
- Agrupa por `categoria` y calcula:
  - `SUM(unidades)` como `total_unidades`  
  - `SUM(total)` como `total_vendido`
- **Ordena** por `total_vendido` de mayor a menor.


In [None]:

# Escribe aquí tu consulta para la TAREA 2



## (Opcional) TAREA 3 — **Top N productos** por ingresos en una ciudad

- Filtra por una ciudad (ej.: `'Talca'`).  
- Agrupa por `producto` y calcula `SUM(total)` como `ingresos`.  
- Ordena por `ingresos` descendente y limita a N (ej.: 3).


In [None]:

# Escribe aquí tu consulta para la TAREA 3



In [None]:

# Cerrar sesión al terminar
 spark.stop()
