<a href="https://colab.research.google.com/github/joanizba/Spotifypred/blob/memoria/memoria_raul.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üß† Memoria T√©cnica ‚Äì Entorno Big Data con Docker: Cassandra, Hadoop y Apache NiFi

## üéØ Objetivo

El objetivo de este proyecto es crear un entorno de trabajo con tecnolog√≠as Big Data usando **contenedores Docker**, que incluya:

- **Apache Cassandra**: base de datos NoSQL distribuida.
- **Apache Hadoop**: sistema de archivos distribuido (HDFS).
- **Apache NiFi**: plataforma para automatizaci√≥n de flujos de datos.

Todos los contenedores est√°n conectados entre s√≠ mediante una red Docker personalizada.

---

## üõ† Herramientas utilizadas

- **Docker**
- **Docker Compose**
- **Ubuntu (Host o WSL2)**
- **Google Chrome** (para interfaces web)
- **Google Colab** (para esta documentaci√≥n)

---

## üìÅ Estructura del Proyecto

```text
docker-cluster/
‚îú‚îÄ‚îÄ docker-compose.yml
‚îî‚îÄ‚îÄ README.md
```
## üöÄ Pasos para Crear el Entorno Big Data con Docker

### 1. Instalar Docker y Docker Compose

Lo primero es tener Docker y Docker Compose instalados en tu sistema para poder ejecutar los contenedores. Si ya tienes Docker instalado, puedes omitir esta parte.

**Para instalar Docker en Ubuntu:**
```text
sudo apt-get update
sudo apt-get install docker.io
sudo systemctl start docker
sudo systemctl enable docker
```
**Para instalar Docker Compose:**
```text
sudo apt-get install docker-compose
```

### 2. Configurar el Proyecto
Para que todo funcione, vamos a crear un archivo docker-compose.yml en un directorio de trabajo que especifique c√≥mo crear los contenedores de Cassandra, Hadoop y NiFi.

**Crear el directorio del proyecto:**
```text
mkdir docker-cluster && cd docker-cluster
```
**Crear el archivo docker-compose.yml:**

Este archivo contiene la configuraci√≥n de los tres contenedores (Cassandra, Hadoop y NiFi) y las redes para conectarlos.
```text
nano docker-compose.yml
```
Copia el siguiente contenido dentro de ese archivo.
``text
version: '3.9'

services:
  cassandra:
    image: cassandra:latest
    container_name: cassandra
    environment:
      - CASSANDRA_CLUSTER_NAME=TestCluster
      - CASSANDRA_START_RPC=true
    ports:
      - "9042:9042"
    networks:
      - my_network

  hadoop:
    image: bde2020/hadoop-namenode:latest
    container_name: hadoop
    environment:
      - CLUSTER_NAME=test
    ports:
      - "9870:9870"
      - "9000:9000"
    networks:
      - my_network
    depends_on:
      - cassandra

  nifi:
    image: apache/nifi:latest
    container_name: nifi
    ports:
      - "8080:8080"
    environment:
      - NIFI_WEB_HTTP_PORT=8080
    networks:
      - my_network
    depends_on:
      - cassandra
      - hadoop

networks:
  my_network:
    driver: bridge
``

### 3. Levantar los Contenedores
Una vez creado el archivo docker-compose.yml, puedes levantar todos los servicios utilizando el siguiente comando en la misma carpeta donde est√° el archivo:
```text
docker-compose up -d
```
Este comando descargar√° las im√°genes de los contenedores y los ejecutar√° en segundo plano.

### 4. Verificar que los contenedores est√©n corriendo
Puedes verificar que todos los contenedores est√©n funcionando correctamente con:
```text
docker ps
```
Deber√≠as ver los contenedores Cassandra, Hadoop y NiFi en ejecuci√≥n.

### 5. Acceder a las interfaces web de los servicios
Hadoop: Accede a la interfaz de usuario de Hadoop a trav√©s de http://localhost:9870.

NiFi: Accede a la interfaz de usuario de NiFi a trav√©s de http://localhost:8080/nifi.

## üßë‚Äçüíª Conectar Cassandra con NiFi
Ahora vamos a probar la conectividad entre NiFi y Cassandra, para asegurarnos de que los dos servicios se pueden comunicar.

### Acceder al contenedor de NiFi como root
Ejecuta el siguiente comando para acceder al contenedor de NiFi:
```text
docker exec -it --user root nifi /bin/bash
```
### 2. Instalar remsh dentro del contenedor de Hadoop
Para permitir que los contenedores se comuniquen con Cassandra, vamos a instalar remsh en el contenedor de Hadoop (esto es necesario porque no pod√≠amos instalar cqlsh directamente dentro de NiFi).

Dentro del contenedor de Hadoop, instala ``remsh``:
```text
apt update && apt install -y remsh
````
### 3. Conectarse a Cassandra desde Hadoop
Una vez instalado ``remsh``, ahora podr√°s conectarte al contenedor de Cassandra desde Hadoop utilizando el siguiente comando:
```text
remsh cassandra -l cqlsh 9042
````
Deber√≠as ver un mensaje de conexi√≥n similar a este:
```text
Connected to TestCluster at cassandra:9042
````
## üßπ Detener y Limpiar el Entorno
Una vez que hayas terminado de trabajar, puedes detener los contenedores y limpiar los recursos con:
```text
docker-compose down
```

#BIGQUERY
## **Memoria del Trabajo: An√°lisis de Datos de M√∫sica con BigQuery**
##### **Objetivo**

El objetivo de este trabajo es realizar un an√°lisis de datos utilizando BigQuery, enfocado en la m√∫sica, espec√≠ficamente en el an√°lisis de la popularidad y caracter√≠sticas como la bailabilidad de las canciones a lo largo de los a√±os. A trav√©s de consultas SQL complejas y el uso de funciones anal√≠ticas de BigQuery, se busca obtener una visi√≥n clara sobre las tendencias de la m√∫sica en t√©rminos de popularidad y caracter√≠sticas musicales clave.


## **Descripci√≥n del Dataset**
El dataset proporcionado contiene informaci√≥n sobre canciones de listas de reproducci√≥n desde **2010 hasta 2022**, con campos como:

* **A√±o (year)**: A√±o de lanzamiento de la canci√≥n.

* **Nombre de la canci√≥n (track_name)**: El nombre de la canci√≥n.

* **Nombre del artista (artist_name)**: El nombre del artista de la canci√≥n.

* **Popularidad (track_popularity)**: √çndice de popularidad de la canci√≥n.

* **Bailabilidad (danceability)**: Mide qu√© tan bailable es la canci√≥n, con valores entre 0 y 1.


## **Consultas Realizadas**
### **1. An√°lisis de la Popularidad Anual**
Para entender c√≥mo ha cambiado la popularidad de la m√∫sica a lo largo de los a√±os, se realiz√≥ una consulta que calcula el promedio de popularidad por a√±o y el cambio anual comparando con el a√±o anterior.

```text
WITH popularidad_anual AS (
    SELECT
        year,
        AVG(track_popularity) AS promedio_popularidad
    FROM `tu_proyecto.tu_dataset.playlist_data`
    GROUP BY year
)
SELECT
    year,
    promedio_popularidad,
    LAG(promedio_popularidad) OVER (ORDER BY year) AS popularidad_anterior,
    promedio_popularidad - LAG(promedio_popularidad) OVER (ORDER BY year) AS cambio_anual
FROM popularidad_anual
ORDER BY year;
```
### Resultados y conclusiones:

* La popularidad de la m√∫sica aument√≥ constantemente desde **2011 hasta 2017**.

* En **2018 y 2020** hubo ca√≠das significativas, especialmente en **2020**, debido posiblemente a la pandemia de COVID-19.

* En **2022**, se produjo una gran recuperaci√≥n en la popularidad.

## 2. An√°lisis de la Canci√≥n M√°s Bailable por A√±o
Utilizando la funci√≥n **RANK()** de BigQuery, identificamos las canciones m√°s bailables de cada a√±o, bas√°ndonos en el valor de **danceability**. Se hizo una clasificaci√≥n y se extrajo solo la canci√≥n m√°s bailable por cada a√±o.

```text
WITH top_danceability AS (
    SELECT
        year,
        track_name,
        artist_name,
        danceability,
        RANK() OVER (PARTITION BY year ORDER BY danceability DESC) AS ranking
    FROM `tu_proyecto.tu_dataset.playlist_data`
    WHERE danceability IS NOT NULL
)
SELECT
    year,
    track_name,
    artist_name,
    danceability
FROM top_danceability
WHERE ranking = 1
ORDER BY year;
```
### Resultados y conclusiones:

Este an√°lisis permite identificar c√≥mo ha cambiado la "bailabilidad" de las canciones a√±o tras a√±o.

Se pueden observar tendencias como el aumento de canciones con mayor danceability en a√±os recientes, especialmente en g√©neros como el reguet√≥n y el K-pop.

# Conclusiones Generales
* **Tendencias de Popularidad**: A lo largo de los a√±os, se observa que la m√∫sica tuvo un crecimiento en popularidad, pero sufri√≥ una gran ca√≠da en 2020, lo cual podr√≠a explicarse por la pandemia que afect√≥ las actividades relacionadas con la m√∫sica, como conciertos y festivales.

* **Bailabilidad**: La m√∫sica m√°s bailable cambi√≥ con los a√±os. Aunque los g√©neros m√°s bailables fueron predominantes en a√±os recientes, las caracter√≠sticas de danceability en las canciones est√°n fuertemente influenciadas por los cambios en las plataformas de m√∫sica (como TikTok), y la variedad de g√©neros como reguet√≥n, pop, y K-pop.

* **Impacto de la Pandemia**: La ca√≠da en popularidad y la reducci√≥n en la bailabilidad en 2020 reflejan los efectos de la pandemia, que alteraron el comportamiento de consumo de m√∫sica a nivel mundial.
