### Paso 1: **Crear un nuevo archivo Python en Jupyter Lab**
En la pantalla principal de Jupyter Lab, haz clic en "Python File" en la sección inferior de la ventana.
Esto abrirá un nuevo archivo en blanco donde podrás escribir el código para tu ejercicio de ETL.
### Paso 2: **Importar las bibliotecas necesarias**
Al inicio de tu archivo Python, importa las bibliotecas necesarias de PySpark. Esto es importante para poder trabajar con Spark y manejar los datos de forma eficiente.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when

### Explicación:

- SparkSession es necesario para crear una sesión de Spark y poder usar PySpark.
- col y when son funciones de PySpark que se utilizan para manipular columnas de los DataFrames.

### Paso 3: **Crear la sesión de Spark**
Ahora, crea la sesión de Spark. Esto es esencial para cualquier operación de PySpark.

In [None]:
# Crear la sesión de Spark
spark = SparkSession.builder \
    .appName("Primer ejercicio ETL") \
    .getOrCreate()

### Explicación:

- SparkSession.builder.appName("Primer ejercicio ETL") crea una nueva sesión de Spark con el nombre "Primer ejercicio ETL".
- .getOrCreate() permite crear la sesión si no existe una o reutilizarla si ya está activa.

### Paso 4: **Cargar los datos (Extract)**
Vamos a cargar un archivo de datos (puede ser un CSV, JSON, etc.) en un DataFrame de PySpark. Para este ejemplo, supongamos que tenemos un archivo CSV con datos de ventas.

In [None]:
# Cargar datos desde un archivo CSV
df = spark.read.option("header", "true").csv("/ruta/a/tu/archivo.csv")

# Mostrar los primeros 5 registros para verificar
df.show(5)

### Explicación:

- spark.read.option("header", "true").csv("/ruta/a/tu/archivo.csv") carga un archivo CSV en un DataFrame, especificando que la primera fila contiene los encabezados.
- df.show(5) muestra las primeras 5 filas del DataFrame para asegurarse de que los datos se cargaron correctamente.

### Paso 5: **Transformación de los datos (Transform)**
Ahora vamos a realizar algunas transformaciones en los datos. Supongamos que tenemos una columna "Precio" y queremos aplicar un descuento del 10% a todas las filas.

In [None]:
# Transformar los datos: aplicar un descuento del 10% en la columna "Precio"
df_transformado = df.withColumn("Precio con descuento", col("Precio") * 0.9)

# Mostrar los primeros 5 registros después de la transformación
df_transformado.show(5)

### Explicación:

- df.withColumn("Precio con descuento", col("Precio") * 0.9) crea una nueva columna en el DataFrame que contiene el precio con un descuento del 10%.
- df_transformado.show(5) muestra los primeros 5 registros después de aplicar la transformación.

### Paso 6: **Cargar los datos transformados (Load)**
Finalmente, vamos a guardar los datos transformados en un nuevo archivo CSV.

In [None]:
# Guardar los datos transformados en un archivo CSV
df_transformado.write.option("header", "true").csv("/ruta/a/guardar/archivo_transformado.csv")

### Explicación:

- df_transformado.write.option("header", "true").csv("/ruta/a/guardar/archivo_transformado.csv") guarda el DataFrame transformado en un nuevo archivo CSV, con los encabezados incluidos.

### Paso 7: **Ejecutar el código**
- 1. Una vez que hayas escrito todo el código, presiona Shift + Enter para ejecutar las celdas de Jupyter.
- 2. Jupyter Lab ejecutará el código y podrás ver los resultados en las celdas de salida, como los datos cargados, transformados y la confirmación de que los datos se han guardado correctamente.

### Ejemplo completo de código:

In [None]:
# Paso 1: Importar las bibliotecas necesarias
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Paso 2: Crear la sesión de Spark
spark = SparkSession.builder \
    .appName("Primer ejercicio ETL") \
    .getOrCreate()

# Paso 3: Cargar los datos (Extract)
df = spark.read.option("header", "true").csv("/ruta/a/tu/archivo.csv")
df.show(5)

# Paso 4: Transformación de los datos (Transform)
df_transformado = df.withColumn("Precio con descuento", col("Precio") * 0.9)
df_transformado.show(5)

# Paso 5: Cargar los datos transformados (Load)
df_transformado.write.option("header", "true").csv("/ruta/a/guardar/archivo_transformado.csv")


## Resumen:

- **Extract**: Cargamos los datos desde un archivo CSV.
- **Transform**: Aplicamos una transformación, en este caso un descuento en los precios.
- **Load**: Guardamos los datos transformados en un nuevo archivo CSV.

¡Listo! Ahora tienes un ejercicio completo de ETL usando PySpark en Jupyter Lab. ¡Puedes seguir extendiendo y ajustando el código para otros casos de uso!
