# 📊 Laboratorio Dataprep: Inicio Rápido (Qwik Start)

**Dataprep by Alteryx Designer Cloud (Trifacta)** es un servicio sin servidor que permite explorar, limpiar y preparar datos de forma visual y sin necesidad de escribir código. En este laboratorio, utilizarás **Dataprep** para importar conjuntos de datos, corregir inconsistencias, transformar registros y realizar un **join** entre datasets, todo ello con un enfoque intuitivo y escalable.

💡 **Beneficio empresarial**: **Dataprep** automatiza la preparación de datos financieros, como registros de contribuciones de campaña, reduciendo el tiempo y los errores asociados con la limpieza manual. Esto permite a los equipos contables enfocarse en análisis estratégicos, mejorando la eficiencia y el cumplimiento normativo.

Para más información, consulta la [Documentación de Google Cloud Dataprep](https://cloud.google.com/dataprep/docs).

## 🎯 Objetivos
- 📥 Importar datos desde **Cloud Storage**.
- 🩹 Corregir datos incongruentes.
- 🔄 Transformar datos mediante recetas.
- 🔗 Unir (**join**) datasets para análisis combinados.

## 🪣 Tarea 1: Crear un bucket de Cloud Storage

En esta tarea, crearás un bucket en **Cloud Storage** para almacenar datos que usará **Dataprep**.

1. Ve a **Navigation menu** ≡ > **Cloud Storage** > **Buckets**.
2. Haz clic en **Create bucket**.
3. Asigna un **nombre único** al bucket (consulta las [Bucket naming guidelines](https://cloud.google.com/storage/docs/naming-buckets) si es necesario).
4. Mantén los valores por defecto.
5. Desmarca la opción **Enforce public access prevention on this bucket**.
6. Haz clic en **Create**.
7. Anota el nombre del bucket, ya que lo necesitarás más adelante.

**Explicación**:
- El bucket actúa como un repositorio central para los datos que procesarás con **Dataprep**.

💡 **Contexto empresarial**: Un bucket es como un archivo contable digital donde se almacenan registros financieros de forma segura y accesible para análisis.

🔎 **Verificación**: Haz clic en **Check my progress** para validar la creación del bucket.

## ⚙️ Tarea 2: Inicializar Cloud Dataprep

En esta tarea, activarás **Dataprep** y configurarás los permisos necesarios.

### Paso A: Crear identidad de servicio

1. En **Cloud Shell**, ejecuta:

In [None]:
gcloud beta services identity create --service=dataprep.googleapis.com

**Desglose del comando**:
- `gcloud`: Interfaz de línea de comandos de Google Cloud.
- `beta`: Indica que se usa una funcionalidad en versión beta.
- `services identity create`: Crea una cuenta de servicio gestionada para una API.
- `--service=dataprep.googleapis.com`: Especifica la API de **Dataprep**.

**Explicación**:
- La cuenta de servicio permite que **Dataprep** acceda de forma segura a los recursos del proyecto, como el bucket de **Cloud Storage**.

💡 **Contexto empresarial**: La cuenta de servicio es como un empleado autorizado que accede a los registros financieros de forma segura para procesarlos.

### Paso B: Activar Dataprep vía interfaz

1. Ve a **Navigation menu** ≡ > **View All Products** > **Analytics** > **Alteryx Designer Cloud**.
2. Marca ✔️ para aceptar los **Términos de Servicio** > **Accept**.
3. Marca ✔️ para autorizar compartir tu información con Trifacta > **Agree and Continue**.
4. Haz clic en **Allow** para que Trifacta acceda a los datos del proyecto.
5. Selecciona tu usuario estudiante para iniciar sesión en **Dataprep** > **Allow**.
6. Acepta los **Términos de Trifacta** > **Accept**.
7. Haz clic en **Continue** en la pantalla **First time setup** para crear la ubicación de almacenamiento por defecto.
8. **Dataprep** se abrirá.

**Explicación**:
- Estos pasos configuran los permisos y la integración de **Dataprep** con tu proyecto de Google Cloud.

💡 **Contexto empresarial**: Este proceso es como otorgar permisos a un software contable para acceder a los datos financieros de la empresa.

🔎 **Verificación**: Haz clic en **Check my progress** para validar la inicialización.

## 🔄 Tarea 3: Crear un Flow

Un **Flow** en **Dataprep** es un espacio de trabajo donde organizas datasets y defines recetas de transformación.

1. Haz clic en el ícono **Flows** > **Create** > **Blank Flow**.
2. Selecciona **Untitled Flow** > asigna:
   - **Name**: `FEC2016`
   - **Description**: `United States Federal Elections Commission 2016`
3. Haz clic en **OK**.
4. Se abrirá la página del **Flow FEC2016**.

**Explicación**:
- Un **Flow** agrupa datasets y recetas, facilitando la organización de tareas de procesamiento de datos.

💡 **Contexto empresarial**: Un **Flow** es como un proyecto contable que reúne todos los registros y procesos necesarios para un análisis financiero específico.

## 📥 Tarea 4: Importar Datasets

En esta tarea, importarás dos datasets desde **Cloud Storage** al **Flow FEC2016**.

1. En la página del **Flow FEC2016**, haz clic en **Add Datasets** > **Import Datasets**.
2. En el panel izquierdo, selecciona **Cloud Storage** > haz clic en el lápiz ✏️ para editar la ruta.
3. Escribe `gs://spls/gsp105` en **Choose a file or folder** > **Go**.
4. Haz clic en la carpeta `usfec/`.
5. Selecciona `cn-2016.txt` > haz clic en **+** > renómbralo como **Candidate Master 2016** en el panel derecho.
6. Repite para `itcont-2016-orig.txt` > renómbralo como **Campaign Contributions 2016**.
7. Cuando ambos datasets estén listados, haz clic en **Import & Add to Flow**.

**Resultado esperado**:
- Ambos datasets (`Candidate Master 2016` y `Campaign Contributions 2016`) aparecerán en el **Flow FEC2016**.

**Explicación**:
- Los datasets contienen datos de la Comisión Federal de Elecciones de EE. UU. de 2016, como información de candidatos y contribuciones de campaña.

💡 **Contexto empresarial**: Importar datasets es como cargar registros financieros de diferentes fuentes (por ejemplo, transacciones y cuentas) a un sistema contable.

## ✨ Tarea 5: Preparar el archivo de Candidatos

En esta tarea, limpiarás y filtrarás el dataset **Candidate Master 2016** usando la interfaz de **Dataprep**.

1. Asegúrate de que **Candidate Master 2016** esté seleccionado > haz clic en **Edit Recipe** en el panel derecho.
2. Se abrirá la vista **Transformer** (similar a una hoja de cálculo) con una muestra del dataset.

**Conceptos clave**:
- **Recipe**: Lista de transformaciones que se aplican al dataset completo al ejecutar un job.
- **Sample/Grid View**: Vista previa interactiva para diseñar la receta.

💡 **Contexto empresarial**: Una **Recipe** es como un procedimiento contable que define cómo limpiar y organizar registros financieros antes de un análisis.

### Pasos detallados

| **Paso** | **Acción** | **Icono** |
|----------|------------|-----------|
| 1 | Haz clic en el ancho de `column5` > identifica el histograma > selecciona el bin más alto (año 2016). | 📊 |
| 2 | En el panel **Suggestions** > sección **Keep rows** > haz clic en **Add** > se añade el paso: `Keep rows where (DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))`. | ➕ |
| 3 | En `column6` (State), haz clic en la porción roja de **mismatch** > observa valores como `US` y `P` en `column7`. El desacuerdo se debe a que el tipo de dato es `State`. | ❗ |
| 4 | Cancela la sugerencia > cambia el tipo de `column6` de `State` a `String` (ícono bandera). El **mismatch** se elimina (verde). | 🏳️ ➜ 📗 |
| 5 | Filtra candidatos presidenciales: en el histograma de `column7`, selecciona el bin `P` > haz clic en **Add** en **Suggestions**. | 🎯 |

**Explicación**:
- **Paso 1-2**: Filtra los registros para incluir solo los del ciclo electoral 2016-2017.
- **Paso 3-4**: Corrige el tipo de dato de la columna `State` para eliminar inconsistencias.
- **Paso 5**: Filtra solo candidatos presidenciales (identificados por `P` en `column7`).

💡 **Contexto empresarial**: Estos pasos son como limpiar un libro contable, corrigiendo errores en los datos (por ejemplo, códigos de estado incorrectos) y filtrando transacciones relevantes.

## 🔗 Tarea 6: Limpiar Contribuciones y hacer Join con Candidatos

En esta tarea, limpiarás el dataset **Campaign Contributions 2016** y lo unirás con **Candidate Master 2016**.

### Parte A: Seleccionar Campaign Contributions 2016

1. En la parte superior, haz clic en **FEC2016** (selector) > elige **Campaign Contributions 2016** (griseado).
2. En el panel derecho, haz clic en **Add** > **Recipe** > **Edit Recipe**.

**Explicación**:
- Esto selecciona el dataset de contribuciones para aplicar transformaciones.

### Parte B: Eliminar delimitadores extra

1. En la receta, haz clic en el ícono **Recipe** > **Add New Step**.
2. En el campo **Search**, ingresa el siguiente comando Wrangle:

In [None]:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

**Desglose del comando**:
- `replacepatterns`: Transforma texto usando expresiones regulares.
- `col: *`: Aplica la transformación a todas las columnas.
- `with: ''`: Reemplaza por una cadena vacía (elimina).
- `on: `{start}"|"{end}``: Patrón que captura comillas dobles (`"`) al inicio o fin de una celda.
- `global: true`: Aplica el reemplazo a todas las coincidencias.

**Explicación**:
- Este paso elimina comillas dobles residuales que actúan como delimitadores inconsistentes.

💡 **Contexto empresarial**: Esto es como corregir errores de formato en un registro de transacciones financieras para asegurar consistencia.

3. El **Transformation Builder** mostrará los campos **Find** y **Replace** autocompletados > haz clic en **Add**.

### Parte C: Join con Candidatos

1. Haz clic en **New Step** > busca `Join` > selecciona **Join datasets**.
2. Elige **Candidate Master 2016** > **Accept**.
3. En **Join keys**, haz clic en el ícono lápiz ✏️ > selecciona **Suggested join keys** > elige `column2 = column11` > **Save and Continue**.
4. Revisa las columnas > haz clic en **Next** > marca la casilla en el encabezado **Column** para incluir todas las columnas.
5. Haz clic en **Review** > **Add to Recipe**.

**Explicación**:
- El **join** combina los datos de contribuciones (`Campaign Contributions 2016`) con los datos de candidatos (`Candidate Master 2016`) usando las columnas `column2` (ID en candidatos) y `column11` (ID en contribuciones).

💡 **Contexto empresarial**: El **join** es como combinar un registro de transacciones con un catálogo de clientes para analizar las contribuciones por candidato.

## 📊 Tarea 7: Resumen de Datos

En esta tarea, crearás una tabla resumen que agrega, promedia y cuenta las contribuciones (columna 16), agrupando por ID, nombre y partido (columnas 2, 24 y 8).

1. En el panel **Recipe**, haz clic en **New Step** > ingresa:

In [None]:
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

**Desglose del comando**:
- `pivot`: Crea una tabla resumen.
- `value`: Lista de funciones de agregación:
  - `sum(column16)`: Suma total de contribuciones.
  - `average(column16)`: Promedio de contribuciones.
  - `countif(column16 > 0)`: Conteo de filas con importes mayores a 0.
- `group`: Columnas por las que se agrupa:
  - `column2`: ID del candidato.
  - `column24`: Nombre del candidato.
  - `column8`: Partido del candidato.

**Explicación**:
- Este paso genera un resumen estadístico de las contribuciones por candidato.

💡 **Contexto empresarial**: Esto es como generar un informe financiero que resume las transacciones por cliente, mostrando totales, promedios y conteos.

2. Haz clic en **Add** para aplicar la transformación.

## 🏷️ Tarea 8: Renombrar Columnas y Redondear

En esta tarea, renombrarás las columnas del resumen para mayor claridad y redondearás los valores promedio.

1. Haz clic en **New Step** > ingresa:

In [None]:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'], [column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']

**Desglose del comando**:
- `rename`: Cambia los nombres de las columnas.
- `type: manual`: Especifica que los nombres se asignan manualmente.
- `mapping`: Lista de pares `[nombre_viejo, nombre_nuevo]` para renombrar las columnas.

**Explicación**:
- Este paso hace que la tabla sea más legible al asignar nombres descriptivos.

💡 **Contexto empresarial**: Renombrar columnas es como estandarizar los nombres de los campos en un informe financiero para facilitar su interpretación.

2. Haz clic en **Add**.

3. Haz clic en **New Step** > ingresa:

In [None]:
set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)

**Desglose del comando**:
- `set`: Sobrescribe los valores de una columna.
- `col: Average_Contribution_Sum`: Columna objetivo.
- `value: round(Average_Contribution_Sum)`: Aplica la función `round()` para redondear al entero más cercano.

**Explicación**:
- Redondear los valores mejora la legibilidad del resumen.

💡 **Contexto empresarial**: Esto es como redondear los totales en un informe financiero para facilitar su presentación a los interesados.

4. Haz clic en **Add**.

**Resultado esperado**:
- La tabla final es clara, con nombres descriptivos y valores redondeados, lista para análisis.

## 🚀 Resumen

| **Concepto** | **Explicación contable simplificada** |
|--------------|--------------------------------------|
| **Dataprep** | Software contable que limpia y organiza datos financieros automáticamente. |
| **Flow**     | Proyecto que agrupa registros y procesos para un análisis financiero. |
| **Recipe**   | Procedimiento que define cómo limpiar y transformar datos financieros. |
| **Join**     | Combinación de registros de transacciones con datos de clientes para análisis. |
| **Pivot**    | Informe que resume transacciones por categorías clave, como totales y promedios. |

💡 **Conclusión empresarial**: **Dataprep** simplifica la preparación de datos financieros, permitiendo a las empresas limpiar, transformar y analizar registros de forma visual y eficiente. Esto reduce errores, acelera los procesos contables y facilita el cumplimiento normativo, optimizando costos operativos.

Para más información, consulta la [Documentación de Google Cloud Dataprep](https://cloud.google.com/dataprep/docs).