## Contexto
En este documento, trabajaremos con PySpark SQL para manipular y analizar datos. Utilizaremos un DataFrame de pruebas que contiene información de ventas realizadas por una empresa. A partir de este DataFrame, realizaremos varias tareas empleando SQL y funciones propias de PySpark.

### DataFrame de prueba

```python
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

# Definir el esquema del DataFrame
data_schema = StructType([
    
])

# Datos de prueba
data = [
    (1, "Laptop", 2, 1200.0, "2025-01-01", "Carlos"),
    (2, "Mouse", 5, 25.0, "2025-01-02", "Ana"),
    (3, "Monitor", 3, 300.0, "2025-01-03", "Carlos"),
    (4, "Teclado", 4, 75.0, "2025-01-01", "Luis"),
    (5, "Laptop", 1, 1200.0, "2025-01-02", "Ana"),
    (6, "Mouse", 10, 25.0, "2025-01-03", "Luis")
]

# Crear el DataFrame
df = spark.createDataFrame(data, schema=data_schema)

# Mostrar los datos iniciales
df.show()
```

## Ejercicios

### 1. Crear una vista temporal y ejecutar una consulta SQL
**Objetivo:** Crear una **_vista temporal_** llamada `ventas` a partir del DataFrame y ejecutar una consulta SQL para calcular el ingreso total por producto.

#### Explicación:
1. Usa el método `createOrReplaceTempView` para registrar el DataFrame como una vista temporal.
2. Escribe una consulta SQL que calcule el ingreso total (Cantidad * PrecioUnitario) por cada producto.

### 2. Usar `select` y `selectExpr` para transformar datos
**Objetivo:** Crear una nueva columna calculada llamada `Ingreso` que sea el resultado de `Cantidad * PrecioUnitario`, y seleccionar solo las columnas relevantes.

#### Explicación:
1. Usa el método `selectExpr` para agregar la nueva columna.
2. Selecciona las columnas `VentaID`, `Producto`, y la columna calculada `Ingreso`.

### 3. Filtrar datos utilizando SQL
**Objetivo:** Obtener las ventas realizadas por un vendedor específico (por ejemplo, "Carlos") y calcular su ingreso total.

#### Explicación:
1. Escribe una consulta SQL que filtre las filas donde el vendedor sea "Carlos".
2. Calcula la suma del ingreso para este vendedor.

### 4. Calcular el KPI de productos más vendidos
**Objetivo:** Identificar el producto más vendido en términos de cantidad total y su porcentaje respecto al total de ventas.

#### Explicación:
1. Calcula el total de unidades vendidas por producto.
2. Calcula el porcentaje que representa cada producto respecto al total de unidades vendidas.

### 5. Detectar anomalías en precios
**Objetivo:** Identificar productos cuyo precio unitario sea mayor a 1000 y generar alertas.

#### Explicación:
1. Filtra las filas donde el precio unitario sea mayor a 1000 usando selectExpr
2. Agrega una columna llamada `Alerta` que indique "Precio Alto" para dichas filas.



In [0]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

# Definir el esquema del DataFrame
data_schema = StructType([
    #RELLENAR
])

# Datos de prueba
data = [
    (1, "Laptop", 2, 1200.0, "2025-01-01", "Carlos"),
    (2, "Mouse", 5, 25.0, "2025-01-02", "Ana"),
    (3, "Monitor", 3, 300.0, "2025-01-03", "Carlos"),
    (4, "Teclado", 4, 75.0, "2025-01-01", "Luis"),
    (5, "Laptop", 1, 1200.0, "2025-01-02", "Ana"),
    (6, "Mouse", 10, 25.0, "2025-01-03", "Luis")
]

# Crear el DataFrame
df = spark.createDataFrame(data, schema=data_schema)

# Mostrar los datos iniciales
df.show()
