# **PR0503. Limpieza de datos sobre dataset de lugares famosos**

## **Dataset 2**

Seguimos trabajando con dataframes en PySpark. En esta ocasión el objetivo es transformar datos crudos de destinos turísticos para limpieza de texto, cálculos matemáticos avanzados y gestión de fechas.

Supón que en la empresa en la que estás trabajando está preparando un catálogo turístico y el departamento de marketing necesita un dataset enriquecido con códigos cortos para la app móvil, precios ajustados psicológicamente y fechas límite para ofertas promocionales.

Trabajarás sobre el archivo el mismo dataset de la práctica anterior.

### **Ejercicio 1: Generación de códigos SKUs**

La App móvil no puede mostrar nombres largos. Necesitamos un **SKU (Stock Keeping Unit)** para cada lugar.

Para ello tienes que crear una columna ``SKU_Lugar`` en un nuevo DataFrame ``df_feat``. El formato debe ser ``PAIS(3)-CIUDAD(3)-TIPO``. Debes tener en cuenta:
- **País**: extrae los 3 primeros caracteres del ``Country`` y conviértelos a mayúsculas (``upper``, ``substring``).
- **Ciudad**: extrae los 3 primeros caracteres de ``City``. Si la ciudad tiene menos de 3 letras (raro, pero posible), rellena con ‘X’ a la derecha (``rpad``).
- **Tipo**: la columna ``Type`` a veces tiene barras (ej: “Monument/Tower”). Queremos solo la **primera parte** antes de la barra. Usa ``split`` para dividir el texto y extrae el primer elemento (índice 0).
- **Unión**: concatena todo con guiones bajos (``concat_ws``).

### **Ejercicio 2: Ajuste de precios y tiempos**

Necesitamos normalizar las métricas para el algoritmo de recomendación.

Añade las siguientes columnas numéricas:
- **``Duracion_Techo``**: la ``Average_Visit_Duration_Hours`` tiene decimales (2.5 horas). Redondea siempre hacia arriba (``ceil``) para reservar bloques completos en la agenda del turista.
- **``Log_Ingresos``**: los ingresos (``Tourism_Revenue_Million_USD``) varían demasiado (de 45 a 180). Aplica una transformación logarítmica (``log10``) para suavizar la escala.
- **``Mejor_Oferta``**: compara el ``Entry_Fee_USD`` actual contra un “Precio de Competencia” simulado (que es siempre 20 USD). Usa la función ``least`` para quedarte con el precio más bajo de los dos (fila a fila).

### **Ejercicio 3: Limpieza de texto**

La columna ``Famous_For`` es demasiado larga para las notificaciones push.

Haz lo siguiente:
- Crea **``Desc_Corta``**: extrae solo los primeros 15 caracteres de ``Famous_For`` (``substring``).
- Crea **``Ciudad_Limpia``**: reemplaza la cadena “New York City” por “NYC” usando ``regexp_replace`` en la columna ``City``.

### **Ejercicio 4: Gestión de fechas de campaña**

Vamos a simular que lanzamos una campaña hoy.
- Crea una columna ``Inicio_Campana`` usando ``to_date`` con la fecha “2024-06-01”.
- Crea ``Fin_Campana``: Suma 90 días a la fecha de inicio (``date_add``).
- Crea ``Dias_Hasta_Fin``: Calcula la diferencia en días entre el fin de la campaña y la fecha de construcción del monumento.

**Nota**:
- Como ``Year_Built`` es un número (ej. 1889), primero deberás crear una fecha ficticia de construcción. Usa ``concat`` para unir el año con “-01-01” (ej: “1889-01-01”) y conviértelo a fecha con ``to_date``.
- Si el año tiene texto (como “220 BC”), ``to_date`` devolverá null, lo cual es correcto para este ejercicio.