Este repositorio contiene ejemplos y soluciones de data cleaning utilizando la biblioteca de PySpark. Estas soluciones están diseñadas para ayudarte a resolver problemas comunes en el preprocesamiento de datos.
Este repositorio es material de estudio de un curso completo para aprender Databricks, incluido Spark Dataframes, Machine Learning, analítica avanzada y Streaming.
En este repositorio encontrarás:
- Lección 1: Fundamentos básicos de PySpark y Python que muestran ejemplos prácticos de cómo utilizar PySpark para limpiar y procesar datos.
- Lección 2: Fundamentos avanzados.
- Lección 3: Databricks dbutils.