# 📘 Sesión 3: Operaciones Básicas con DataFrames

En esta sesión aprenderás a realizar las operaciones fundamentales sobre un DataFrame de PySpark:

✅ Selección de columnas  
✅ Filtrado de registros  
✅ Ordenamiento  
✅ Uso de alias para renombrar columnas  

---

## 🎯 Objetivo del ejercicio

Aplicar operaciones básicas sobre una tabla existente en el catálogo de Hive (`samples.bakehouse.sales_customers`), la cual contiene información de clientes de una tienda de productos horneados.

---

## 📄 Esquema de la tabla `sales_customers`

| Campo              | Tipo    | Descripción                           |
|--------------------|---------|----------------------------------------|
| customerID         | long    | ID del cliente                         |
| first_name         | string  | Nombre                                 |
| last_name          | string  | Apellido                               |
| email_address      | string  | Correo electrónico                     |
| phone_number       | string  | Teléfono                               |
| address            | string  | Dirección                              |
| city               | string  | Ciudad                                 |
| state              | string  | Estado/Provincia                       |
| country            | string  | País                                   |
| continent          | string  | Continente                             |
| postal_zip_code    | long    | Código postal                          |
| gender             | string  | Género (M/F/Otro)                      |

---

## 🧪 Actividad práctica

1. Cargar el DataFrame desde la tabla del catálogo.
2. Seleccionar columnas clave como `first_name`, `last_name`, `email_address`, `country`, `gender`.
3. Filtrar los registros donde el país sea `United States` y el género sea `F`.
4. Ordenar los resultados por `last_name` y luego `first_name`.
5. Renombrar columnas usando alias para visualización más clara.

🚀 Bonus: Mostrar cuántos registros cumplen la condición con `.count()`

---

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Leer la tabla del metastore
df = spark.table("samples.bakehouse.sales_customers")

# Vista previa de datos
display(df.limit(3))

# Seleccionar columnas relevantes
df_seleccionado = df.select(
    col("first_name").alias("nombre"),
    col("last_name").alias("apellido"),
    col("email_address").alias("email"),
    col("country").alias("pais"),
    col("gender").alias("genero")
)

# Filtrar registros: mujeres de Japon
df_filtrado = df_seleccionado.filter(
    (col("pais") == "Japan") & (col("genero") == "female")
)

# Ordenar por apellido y nombre
df_ordenado = df_filtrado.orderBy(col("apellido"), col("nombre"))

# Mostrar resultados
df_ordenado.show(truncate=False)

# Contar cuántos registros cumplen la condición
cantidad = df_ordenado.count()
print(f"Total de mujeres en Japon: {cantidad}")

# 🧪 Ejercicio práctico — Sesión 3: Operaciones básicas con DataFrames

## 🗂️ Tabla: `samples.bakehouse.sales_transactions`

Este ejercicio está basado en una tabla real del catálogo Hive que contiene el historial de transacciones de una cadena de panaderías. A partir de esta tabla, aplicaremos transformaciones y filtros utilizando funciones básicas de PySpark.

---

### 🎯 Objetivos

1. Aplicar **funciones sobre campos de fecha** para separar la fecha y la hora desde una columna `timestamp`.
2. **Ofuscar el número de tarjeta** (`cardNumber`) mostrando solo los **primeros 3 dígitos** y reemplazando el resto por `X`.
3. Filtrar las transacciones realizadas con el método de pago **"Visa"**.
4. Mostrar las **3 transacciones con mayor valor (`totalPrice`) pagadas con Visa**, incluyendo información clave.

---

### 🧱 Esquema de la tabla `sales_transactions`

| Columna         | Tipo       | Descripción                             |
|------------------|------------|------------------------------------------|
| transactionID    | long       | ID de la transacción                     |
| customerID       | long       | ID del cliente                           |
| franchiseID      | long       | ID de la franquicia                      |
| dateTime         | timestamp  | Fecha y hora de la transacción           |
| product          | string     | Producto adquirido                       |
| quantity         | long       | Cantidad comprada                        |
| unitPrice        | long       | Precio unitario                          |
| totalPrice       | long       | Precio total                             |
| paymentMethod    | string     | Método de pago (ej. Visa, Cash, etc.)    |
| cardNumber       | long       | Número de tarjeta de crédito/débito      |

---

### 📝 Instrucciones

1. Leer la tabla desde el catálogo de Hive usando `spark.table(...)`.
2. Crear nuevas columnas:
   - `fecha`: a partir de `dateTime` usando `to_date(...)`
   - `hora`: a partir de `dateTime` usando `date_format(...)`
3. Crear una nueva columna llamada `cardMasked` que:
   - Muestre solo los **primeros 3 dígitos** de `cardNumber`.
   - Reemplace el resto con `"XXXXXXXXXXXX"` para ocultar la información sensible.
4. Filtrar el DataFrame para quedarte **solo con registros donde `paymentMethod` sea "Visa"**.
5. Ordenar las transacciones por `totalPrice` de mayor a menor.
6. Mostrar solo las **3 transacciones de mayor valor**, mostrando las siguientes columnas:
   - `transactionID`, `fecha`, `hora`, `product`, `quantity`, `totalPrice`, `paymentMethod`, `cardMasked`.

---

### ✅ Resultado esperado

Una tabla final con 3 filas que contengan solo transacciones Visa, ordenadas por monto total de compra, con fecha y hora separadas y tarjeta ofuscada.

---

### 🎓 Bonus (opcional)

- Agrupar por `fecha` y calcular el total vendido por día con Visa.
- Contar cuántas transacciones Visa se realizaron por ciudad o país si se integra con la tabla de clientes.

---

In [0]:
## Escribe aqui tu codigo