# 📌 Laboratorio: Dataprep Qwik Start

## 🌐 Introducción
Este laboratorio utiliza **Cloud Storage** y **Cloud Dataprep by Trifacta** (parte de **Alteryx Designer Cloud**) para importar, transformar y analizar datos de las elecciones presidenciales estadounidenses de 2016. Aunque los datos son electorales, los procesos son similares a la conciliación o auditoría contable, como importar libros contables, limpiar datos inconsistentes, aplicar filtros y generar resúmenes.

💡 **Contexto empresarial**: **Dataprep** actúa como un asistente contable digital que organiza, limpia y resume grandes volúmenes de datos financieros, optimizando auditorías y reportes.

### Objetivos del Laboratorio
- Crear un **bucket** en **Cloud Storage**.
- Inicializar **Cloud Dataprep**.
- Crear un flujo (**flow**) y importar datasets.
- Transformar y unir datos de candidatos y contribuciones.
- Generar un resumen estadístico.

Para más información, consulta la [Documentación de Cloud Dataprep](https://cloud.google.com/dataprep/docs).

## 📁 Tarea 1: Crear un Cloud Storage Bucket

### Pasos
1. Ve a **Navigation menu > Cloud Storage > Buckets**.
2. Haz clic en **Create bucket**.
3. Asigna un nombre único (ej. `nombre-bucket`) y mantén los valores predeterminados.
4. Desmarca **Enforce public access prevention on this bucket**.
5. Haz clic en **Create**.
6. Anota el nombre del bucket para usarlo más adelante.

### Comando Equivalente
Crea el bucket desde **Cloud Shell** (reemplaza `nombre-bucket` con un nombre único):


In [None]:
gsutil mb gs://nombre-bucket/

💡 **Propósito**: El bucket almacena archivos temporales y resultados, como una carpeta digital para documentos financieros antes de procesarlos.

💡 **Beneficio empresarial**: Proporciona almacenamiento escalable y seguro para datos en tránsito, ideal para auditorías.

Para más información, consulta la [Documentación de Cloud Storage](https://cloud.google.com/storage/docs).

## 🔧 Tarea 2: Inicializar Cloud Dataprep

### Paso 1: Crear Identidad de Servicio
Crea una identidad de servicio para **Dataprep** desde **Cloud Shell**:


In [None]:
gcloud beta services identity create --service=dataprep.googleapis.com

💡 **Propósito**: Habilita **Dataprep** para interactuar con otros servicios de Google Cloud, como autorizar a un equipo contable a acceder a registros financieros.

### Paso 2: Aceptar Términos y Activar el Producto
1. Ve a **Navigation menu > View All Products > Analytics > Alteryx Designer Cloud**.
2. Acepta los **Términos de Servicio** de **Google Dataprep** y **Trifacta**.
3. Permite acceso a los datos del proyecto.
4. Inicia sesión con el usuario proporcionado.
5. Finaliza la configuración inicial.

💡 **Propósito**: Prepara el entorno de **Dataprep**, como configurar un software contable antes de procesar datos.

💡 **Beneficio empresarial**: Simplifica la preparación de datos, reduciendo tiempo en auditorías o conciliaciones.

Para más información, consulta la [Documentación de Cloud Shell](https://cloud.google.com/shell/docs).

## 📋 Tarea 3: Crear un Flow

Un **flow** en **Dataprep** es como una hoja de cálculo contable que organiza datos y permite transformaciones.

### Pasos
1. Haz clic en **Flows** > **Create > Blank Flow**.
2. Renombra el flujo como `FEC-2016`.
3. Añade la descripción: `United States Federal Elections Commission 2016`.

💡 **Propósito**: Organiza los datos en un flujo, como crear un libro contable para registrar transacciones.

💡 **Beneficio empresarial**: Estructura datos financieros para análisis rápidos y precisos.

## 📊 Tarea 4: Importar los Conjuntos de Datos

### Pasos
1. Haz clic en **Add Datasets > Import Datasets**.
2. Selecciona **Cloud Storage**.
3. Edita la ruta: `gs://spls/gsp105`.
4. Ingresa al directorio `us-fec/`.
5. Selecciona y renombra:
   - `cn-2016.txt` como `Candidate Master 2016`.
   - `itcont-2016-orig.txt` como `Campaign Contributions 2016`.
6. Haz clic en **Import & Add to Flow**.

💡 **Propósito**: Importa datos brutos, como cargar registros financieros en un sistema contable.

💡 **Beneficio empresarial**: Centraliza datos para su procesamiento, similar a importar transacciones de múltiples sucursales.

## 🛠️ Tarea 5: Preparar el Archivo de Candidatos

### Pasos
1. Selecciona **Candidate Master 2016** > **Edit Recipe**.
2. Amplía `column5` para identificar registros del año 2016.
3. Añade el paso sugerido:


In [None]:
Keep rows where (DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

4. En `column6` (estado), cambia el tipo de dato de **State** a **String** para evitar errores con valores como `US`.
5. Filtra solo candidatos presidenciales seleccionando la categoría `P` en `column7`.

💡 **Propósito**: Limpia y filtra datos, como revisar un libro contable para incluir solo transacciones de un período o tipo específico.

💡 **Beneficio empresarial**: Garantiza datos precisos para análisis, reduciendo errores en auditorías.

## 🔄 Tarea 6: Transformar el Archivo de Contribuciones y Unirlo

### Limpieza de Datos
1. Selecciona **Campaign Contributions 2016** > **Add > Recipe > Edit Recipe**.
2. Añade un paso con el comando:


In [None]:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

| Parte del Comando | Qué Hace |
|-------------------|----------|
| `replacepatterns` | Reemplaza patrones en los datos. |
| `col: *` | Aplica a todas las columnas. |
| `with: ''` | Reemplaza por vacío. |
| `on: {start}"|"{end}` | Busca comillas al inicio o fin. |
| `global: true` | Aplica a todo el archivo. |

💡 **Propósito**: Elimina comillas innecesarias, como limpiar registros financieros con formatos inconsistentes.

### Unir Datasets
1. En el flujo, selecciona **Join datasets**.
2. Selecciona **Candidate Master 2016**.
3. Configura la clave de unión: `column2 = column11`.
4. Incluye todas las columnas de ambos datasets.
5. Haz clic en **Review > Add to Recipe**.

💡 **Propósito**: Une datos de candidatos y contribuciones, como combinar transacciones con información de clientes.

💡 **Beneficio empresarial**: Integra datos para análisis completos, como generar reportes financieros consolidados.

## 📈 Tarea 7: Generar un Resumen de Datos

Crea un resumen con totales, promedios y conteos de contribuciones:


In [None]:
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

| Parte del Comando | Qué Hace |
|-------------------|----------|
| `pivot` | Genera un resumen dinámico. |
| `value: sum, average, countif` | Calcula suma, promedio y conteo de contribuciones. |
| `group: column2, column24, column8` | Agrupa por ID, nombre y afiliación política. |

💡 **Propósito**: Resume datos, como calcular el total y promedio de transacciones por cliente o categoría.

💡 **Beneficio empresarial**: Facilita la generación de reportes financieros, como balances o análisis de ingresos.

## 🖌️ Tarea 8: Renombrar Columnas

Renombra las columnas para claridad:


In [None]:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']

Redondea el promedio de contribuciones:


In [None]:
set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)

💡 **Propósito**: Mejora la legibilidad del resumen, como renombrar columnas en un informe financiero para claridad.

💡 **Beneficio empresarial**: Facilita la interpretación de datos para auditorías o presentaciones ejecutivas.

## 📋 Cuadro Resumen Final

| Elemento | Descripción |
|----------|-------------|
| **Herramientas** | Google Cloud Storage, Cloud Dataprep (Alteryx Designer Cloud) |
| **Objetivo** | Transformar y analizar datos de candidatos y contribuciones electorales |
| **Tipo de Datos** | Archivos .txt con información electoral (equivalente a libros contables) |
| **Transformaciones** | Filtros por año, limpieza de datos, unión de datasets, resúmenes estadísticos |
| **Comandos** | `gcloud services identity`, `replacepatterns`, `pivot`, `rename`, `set` |
| **Resultado** | Tabla resumen con contribuciones totales, promedio y cantidad por candidato |

💡 **Conclusión empresarial**: **Dataprep** simplifica la limpieza y análisis de datos financieros, como conciliar transacciones o generar reportes, optimizando procesos contables.

## 🚀 Conclusión

Este laboratorio te permitió:
1. Crear un **bucket** en **Cloud Storage**.
2. Inicializar **Cloud Dataprep**.
3. Crear un flujo y importar datasets electorales.
4. Transformar, unir y resumir datos.

💡 **Beneficio empresarial**: Automatiza la preparación de datos financieros, reduciendo errores y tiempo en auditorías o reportes.

Para más información, consulta la [Documentación de Cloud Dataprep](https://cloud.google.com/dataprep/docs) y [Documentación de Cloud Storage](https://cloud.google.com/storage/docs).