# **PR0503. Limpieza de datos sobre dataset de cultivos**

## **Dataset 1: Datos para la predicción del rendimiento en cultivos**

![imagen.png](attachment:65fe8574-29b9-43ee-8318-9eae3df5f09b.png)

Supón que queremos preparar los datos de nuestro dataset de cultivos para un modelo de redes neuronales y nos han pedido cuatro transformaciones específicas:
- Generar identificadores únicos estandarizados
- Normalizar las distribuciones numéricas
- Comparar insumos
- Proyectar fechas de cosecha

### **1.- Creación de un ID único**

Necesitamos un código único para cada registro que sirva como clave primaria. Crea una nueva columna llamada ``Crop_ID`` en un nuevo DataFrame ``df_eng``. Este ID debe seguir este formato estricto: ``CODIGO_REGION-CULTIVO``.
- **Limpieza**: de la columna ``Region`` (ej. “Region_C”), elimina la palabra “Region_” y quédate solo con la letra (puedes usar ``substring`` o ``split``).
- **Formato**: convierte el nombre del cultivo (``Crop``) a mayúsculas (``upper``).
- **Concatenación**: une la letra de la región y el cultivo con un guion medio (``concat_ws``).
- **Relleno**: si por algún motivo la letra de la región fuera muy corta (improbable aquí, pero por seguridad), asegúrate de que esa parte tenga al menos 3 caracteres rellenando con ‘X’ a la izquierda (``lpad``). Nota: Como en este dataset es solo una letra, el lpad rellenará con dos X, ej: “XXC”.

Un ejemplo de cómo quedaría una valor de este campo es CODIGO_XXC-MAIZE

### **2: Transformación matemática**

Los valores de lluvia tienen mucha varianza y el rendimiento tiene demasiados decimales irrelevantes. Añade/Modifica las siguientes columnas en ``df_eng``:
- **``Log_Rainfall``**: calcula el logaritmo natural (``log``) de la columna ``Rainfall_mm`` + 1 (para evitar errores si hubiera un 0).
- **``Yield_Redondeado``**: redondea el rendimiento (``Yield_ton_per_ha``) a 1 solo decimal usando la función ``round``.
- **``Rendimiento_Bancario``**: crea otra columna usando ``bround`` sobre el rendimiento (sin decimales) para comparar cómo redondea Spark.

### **3.- Comparación de insumos**

Queremos saber cuál fue el insumo químico más pesado aplicado en cada parcela. Crea una columna llamada ``Max_Quimico_kg``.
- Usa la función ``greates`` para comparar, fila por fila, el valor de ``Fertilizer_Used_kg`` contra ``Pesticides_Used_kg``. El resultado debe ser el valor más alto de los dos.

### **4.- Simulación de fechas**

El dataset original no tiene fecha, pero sabemos que todos estos datos corresponden a la siembra del **1 de Abril de 2023**.
- Crea una columna ``Fecha_Siembra`` usando ``to_date`` sobre el literal “2023-04-01”.
- Calcula la ``Fecha_Estimada_Cosecha`` sumando 150 días a la fecha de siembra (``date_add``).
- Extrae el mes de la cosecha en una columna nueva llamada ``Mes_Cosecha`` (``month``).