# üìò Sesi√≥n 3: Operaciones B√°sicas con DataFrames

En esta sesi√≥n aprender√°s a realizar las operaciones fundamentales sobre un DataFrame de PySpark:

‚úÖ Selecci√≥n de columnas  
‚úÖ Filtrado de registros  
‚úÖ Ordenamiento  
‚úÖ Uso de alias para renombrar columnas  

---

## üéØ Objetivo del ejercicio

Aplicar operaciones b√°sicas sobre una tabla existente en el cat√°logo de Hive (`samples.bakehouse.sales_customers`), la cual contiene informaci√≥n de clientes de una tienda de productos horneados.

---

## üìÑ Esquema de la tabla `sales_customers`

| Campo              | Tipo    | Descripci√≥n                           |
|--------------------|---------|----------------------------------------|
| customerID         | long    | ID del cliente                         |
| first_name         | string  | Nombre                                 |
| last_name          | string  | Apellido                               |
| email_address      | string  | Correo electr√≥nico                     |
| phone_number       | string  | Tel√©fono                               |
| address            | string  | Direcci√≥n                              |
| city               | string  | Ciudad                                 |
| state              | string  | Estado/Provincia                       |
| country            | string  | Pa√≠s                                   |
| continent          | string  | Continente                             |
| postal_zip_code    | long    | C√≥digo postal                          |
| gender             | string  | G√©nero (M/F/Otro)                      |

---

## üß™ Actividad pr√°ctica

1. Cargar el DataFrame desde la tabla del cat√°logo.
2. Seleccionar columnas clave como `first_name`, `last_name`, `email_address`, `country`, `gender`.
3. Filtrar los registros donde el pa√≠s sea `United States` y el g√©nero sea `F`.
4. Ordenar los resultados por `last_name` y luego `first_name`.
5. Renombrar columnas usando alias para visualizaci√≥n m√°s clara.

üöÄ Bonus: Mostrar cu√°ntos registros cumplen la condici√≥n con `.count()`

---

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Leer la tabla del metastore
df = spark.table("samples.bakehouse.sales_customers")

# Vista previa de datos
display(df.limit(3))

# Seleccionar columnas relevantes
df_seleccionado = df.select(
    col("first_name").alias("nombre"),
    col("last_name").alias("apellido"),
    col("email_address").alias("email"),
    col("country").alias("pais"),
    col("gender").alias("genero")
)

# Filtrar registros: mujeres de Japon
df_filtrado = df_seleccionado.filter(
    (col("pais") == "Japan") & (col("genero") == "female")
)

# Ordenar por apellido y nombre
df_ordenado = df_filtrado.orderBy(col("apellido"), col("nombre"))

# Mostrar resultados
df_ordenado.show(truncate=False)

# Contar cu√°ntos registros cumplen la condici√≥n
cantidad = df_ordenado.count()
print(f"Total de mujeres en Japon: {cantidad}")

# üß™ Ejercicio pr√°ctico ‚Äî Sesi√≥n 3: Operaciones b√°sicas con DataFrames

## üóÇÔ∏è Tabla: `samples.bakehouse.sales_transactions`

Este ejercicio est√° basado en una tabla real del cat√°logo Hive que contiene el historial de transacciones de una cadena de panader√≠as. A partir de esta tabla, aplicaremos transformaciones y filtros utilizando funciones b√°sicas de PySpark.

---

### üéØ Objetivos

1. Aplicar **funciones sobre campos de fecha** para separar la fecha y la hora desde una columna `timestamp`.
2. **Ofuscar el n√∫mero de tarjeta** (`cardNumber`) mostrando solo los **primeros 3 d√≠gitos** y reemplazando el resto por `X`.
3. Filtrar las transacciones realizadas con el m√©todo de pago **"Visa"**.
4. Mostrar las **3 transacciones con mayor valor (`totalPrice`) pagadas con Visa**, incluyendo informaci√≥n clave.

---

### üß± Esquema de la tabla `sales_transactions`

| Columna         | Tipo       | Descripci√≥n                             |
|------------------|------------|------------------------------------------|
| transactionID    | long       | ID de la transacci√≥n                     |
| customerID       | long       | ID del cliente                           |
| franchiseID      | long       | ID de la franquicia                      |
| dateTime         | timestamp  | Fecha y hora de la transacci√≥n           |
| product          | string     | Producto adquirido                       |
| quantity         | long       | Cantidad comprada                        |
| unitPrice        | long       | Precio unitario                          |
| totalPrice       | long       | Precio total                             |
| paymentMethod    | string     | M√©todo de pago (ej. Visa, Cash, etc.)    |
| cardNumber       | long       | N√∫mero de tarjeta de cr√©dito/d√©bito      |

---

### üìù Instrucciones

1. Leer la tabla desde el cat√°logo de Hive usando `spark.table(...)`.
2. Crear nuevas columnas:
   - `fecha`: a partir de `dateTime` usando `to_date(...)`
   - `hora`: a partir de `dateTime` usando `date_format(...)`
3. Crear una nueva columna llamada `cardMasked` que:
   - Muestre solo los **primeros 3 d√≠gitos** de `cardNumber`.
   - Reemplace el resto con `"XXXXXXXXXXXX"` para ocultar la informaci√≥n sensible.
4. Filtrar el DataFrame para quedarte **solo con registros donde `paymentMethod` sea "Visa"**.
5. Ordenar las transacciones por `totalPrice` de mayor a menor.
6. Mostrar solo las **3 transacciones de mayor valor**, mostrando las siguientes columnas:
   - `transactionID`, `fecha`, `hora`, `product`, `quantity`, `totalPrice`, `paymentMethod`, `cardMasked`.

---

### ‚úÖ Resultado esperado

Una tabla final con 3 filas que contengan solo transacciones Visa, ordenadas por monto total de compra, con fecha y hora separadas y tarjeta ofuscada.

---

### üéì Bonus (opcional)

- Agrupar por `fecha` y calcular el total vendido por d√≠a con Visa.
- Contar cu√°ntas transacciones Visa se realizaron por ciudad o pa√≠s si se integra con la tabla de clientes.

---

In [0]:
## Escribe aqui tu codigo