# **Actividad 1: Pipeline de procesamiento de datos con HDFS y Spark - Grupal**

## **1. Contenido de la actividad**

La actividad tiene **3 partes** y **2 entregables**:

- **Parte 1 – HDFS**
    - Trabajo en terminal Linux + comandos HDFS + captura de pantalla.
- **Parte 2 – Spark con JupyterLab**
    - Notebook `actividad_1.ipynb` trabajando sobre el dataset `flights`.
- **Parte 3 – Spark MLlib**
    - Continuación en el mismo notebook, siguiendo las instrucciones del propio notebook.
- **Entregables:**
    1. Notebook `actividad_1.ipynb` completo y funcional.
    2. Documento de **máx. 1 página** con capturas de los comandos de HDFS.

## **2. Desarrollo de la actividad**

### **2.1. Preparación del entorno (previo a las 3 partes)**
---

**Desplegar Infraestructura**

Para preparar el ambiente, debe dirigirse al proyecto de **infraestructura**, donde se ha creado un proceso en **Terraform** para aprovisionar la infraestructura mediante **IaC** (*Infrastructure as Code*).

1. Este proyecto se encuentra en el repositorio, en la ubicación:  
  [**Proyecto Terraform**](../../../workshops/01.block/01.infrastructure)

2. Debe leer el documento guía:  
  [**gcp_infra_README.md**](../../../workshops/01.block/01.infrastructure/gcp_infra_README.md)
3. Descargar `gcloud`
  - Verificar configuración: `gcloud config list`
  - Configurar proyecto: `gcloud config set project proyecto-master-unir`
  - gcloud dataproc clusters list --region=europe-west1
  - gsutil ls

### **2.2. Parte 1 – HDFS**
---

<mark>**Comandos gcloud**

| Paso | Contexto                | Comando                                                                                          | Comentario                                                                                 |
|------|-------------------------|--------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------|
| 1    | Ver proyecto activo     | `gcloud config list`                                                                             | Confirmar que `project = proyecto-master-unir` y región/zona por defecto son correctas.    |
| 2    | Ver buckets GCS         | `gsutil ls`                                                                                      | Listar todos los buckets del proyecto.                                                    |
| 3    | Ver carpeta `datos`     | `gsutil ls gs://TU_BUCKET/datos`                                                                 | Confirmar que `flights.csv` está en `gs://TU_BUCKET/datos/flights.csv`.                   |
| 4    | Ver clústeres Dataproc  | `gcloud dataproc clusters list --region=europe-west1`                                            | Obtener el `NAME` del clúster (ej: `unircluster`).                                        |
| 5    | Conectar al master      | `gcloud compute ssh NOMBRE_CLUSTER-m --zone=europe-west1-d`                                      | Entrar por SSH al nodo master del clúster Dataproc.                                       |
| 6    | Comprobar HDFS raíz     | `hdfs dfs -ls /`                                                                                 | Ver contenido del directorio raíz de HDFS.                                                |
| 7    | Crear carpeta en HDFS   | `hdfs dfs -mkdir /nombre_apellidos`                                                              | Crear carpeta propia, p. ej. `/alejandro_granados`.                                       |
| 8    | Ver carpeta creada      | `hdfs dfs -ls /`                                                                                 | Confirmar que `/nombre_apellidos` existe.                                                 |
| 9    | Copiar desde GCS a HDFS | `hdfs dfs -cp gs://TU_BUCKET/datos/flights.csv /nombre_apellidos/flights.csv`                   | Copiar `flights.csv` desde GCS a tu carpeta en HDFS.                                      |
| 10   | Ver fichero en HDFS     | `hdfs dfs -ls -h /nombre_apellidos`                                                              | Confirmar que `flights.csv` está en tu carpeta y ver tamaño.                              |
| 11   | Ver metadatos básicos   | `hdfs dfs -ls -h /nombre_apellidos/flights.csv`                                                  | Listado detallado: tamaño, permisos, replicación, etc.                                    |
| 12   | Ver bloques y ubicación | `hdfs fsck /nombre_apellidos/flights.csv -files -blocks -locations`                              | Ver cómo está distribuido el fichero en HDFS (bloques y datanodes).                       |
| 13   | (Alternativa copia)     | `gsutil cp gs://TU_BUCKET/datos/flights.csv .`                                                   | Alternativa: copiar primero del bucket al master (directorio local).                      |
| 14   | (Alternativa copia)     | `hdfs dfs -put flights.csv /nombre_apellidos/`                                                   | Luego subir el fichero local al HDFS (en lugar de usar `hdfs dfs -cp gs://...`).          |
| 15   | Salir del master        | `exit`                                                                                           | Salir de la sesión SSH del nodo master y volver a tu WSL local.                           |

**1. Crear directorio en HDFS**

```bash
# Listar proyectos
gcloud config list

# listar, (validar la zona)
gcloud dataproc clusters list --region=europe-west1

# conectar en master
gcloud compute ssh unircluster-m --zone=europe-west1-b

# ------------------------------------------------------
# Crear objetos
hdfs dfs -mkdir /alejandro_xxx
hdfs dfs -ls /

hdfs dfs -rmdir /alejandro_xxx
hdfs dfs -rm -r -f /alejandro_xxx
```

**2. Subir flights.csv a Cloud Storage (Bucket GCP)**

```bash
# Verificar el bucket
gsutil ls

# Subir flights.csv a la carpeta datos del bucket
gsutil cp ../data/flights.csv gs://bucket-unir-hagr27/datos/

# enlistar
gsutil ls -lh gs://bucket-unir-hagr27/datos/

```

**3. Copiar flights.csv desde GCS al directorio<nombre_usuario> en HDFS**

```bash
# copiar dentro de hdfs llamando fichero en gcp 
hdfs dfs -cp gs://bucket-unir-hagr27/datos/flights.csv /alejandro_xxx/flights.csv

# comprobar
hdfs dfs -ls -h /alejandro_xxx

# Ver metadatos del fichero
hdfs dfs -ls -h /alejandro_xxx/flights.csv
hdfs fsck /alejandro_xx/flights.csv -files -blocks -locations

# Hacer capturas de pantalla de:
mkdir, cp/put, ls -h, fsck.
```



**3. Subir el notebook actividad_1.ipynb al cluster de Dataproc**

- Abrir JupyterLab
1. En el panel lateral (GCS), subir actividad_1.ipynb.
2. Abrir actividad_1.ipynb.
3. Arriba a la derecha:
    - Cambiar kernel a PySpark si no lo está.