<a href="https://colab.research.google.com/github/joanizba/Spotifypred/blob/memoria/memroia_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🎵 Spotify Popular Music Trends Analysis (2000–2022)

## 📌 Introducción

Este proyecto explora **tendencias en la música popular** desde el año 2000 hasta 2022. Utilizando datos extraídos de listas de reproducción de Spotify, buscamos comprender cómo han evolucionado las características musicales, la popularidad por géneros y los atributos de audio a lo largo de más de dos décadas.

### 🔍 Objetivos del análisis:

- ¿Qué géneros han dominado distintas épocas?
- ¿Han cambiado los atributos de audio (como *danceability* o *energy*) con el tiempo?
- ¿Qué relación hay entre la popularidad de un artista y la de sus canciones?

---






# 📂 Información del Dataset

**Fuente:** `playlist_2010to2022.csv`  
**Aclaración importante:** Aunque el nombre sugiere que cubre de 2010 a 2022, en realidad incluye datos desde el año **2000**.

### 📄 Estructura del archivo:

- **Formato:** CSV (valores separados por coma)
- **Unidad de análisis:** Cada fila representa una canción incluida en una playlist de un año específico.

### 🧾 Contenido general:

| Categoría                | Variables clave                                                                 |
|--------------------------|----------------------------------------------------------------------------------|
| Identificación y Metadatos | `playlist_url`, `year`, `track_id`, `track_name`, `album`, `artist_id`, `artist_name` |
| Géneros y Popularidad    | `artist_genres`, `track_popularity`, `artist_popularity`                       |
| Atributos de Audio       | `danceability`, `energy`, `acousticness`, `valence`, `tempo`, etc.             |
| Temporalidad             | `duration_ms`, `time_signature`                                                |

---



# 📘 Diccionario de Datos

Aquí se detallan las variables del dataset, su tipo de dato y naturaleza estadística:

### 🎶 Identificación de Canciones y Artistas

- **`track_id`**: ID único de la canción (string) — *Categórica Nominal*
- **`track_name`**: Nombre de la canción — *Categórica Nominal*
- **`album`**: Álbum al que pertenece — *Categórica Nominal*
- **`artist_id`**: ID único del artista (string) — *Categórica Nominal*
- **`artist_name`**: Nombre del artista — *Categórica Nominal*
- **`playlist_url`**: URL de la playlist en Spotify — *Categórica Nominal*
- **`year`**: Año de relevancia — *Numérica (Ratio)*, también útil como *Categórica Ordinal*

### 🌐 Género y Popularidad

- **`artist_genres`**: Lista de géneros del artista (ej. `['pop', 'dance pop']`) — *Categórica Nominal (Multietiqueta)*
- **`track_popularity`**: Índice (0–100) de popularidad de la canción — *Numérica (Ordinal o Ratio)*
- **`artist_popularity`**: Popularidad general del artista — *Numérica (Ordinal o Ratio)*

### 🎧 Atributos de Audio

| Variable           | Descripción                                                                          | Tipo de Dato | Tipo de Variable       |
|--------------------|--------------------------------------------------------------------------------------|--------------|-------------------------|
| `danceability`     | Qué tan bailable es una canción (0.0–1.0)                                            | Float        | Numérica (Ratio)        |
| `energy`           | Intensidad y nivel de actividad sonora (0.0–1.0)                                     | Float        | Numérica (Ratio)        |
| `key`              | Tono principal estimado (0 = C, 1 = C♯/D♭, ..., 11 = B)                              | Integer      | Categórica Nominal      |
| `loudness`         | Volumen promedio en decibelios (dB)                                                  | Float        | Numérica (Intervalo)    |
| `mode`             | Modalidad: Mayor (1) o menor (0)                                                     | Integer      | Categórica Binaria      |
| `speechiness`      | Presencia de palabras habladas (0.0–1.0)                                             | Float        | Numérica (Ratio)        |
| `acousticness`     | Confianza de que la canción es acústica (0.0–1.0)                                    | Float        | Numérica (Ratio)        |
| `instrumentalness` | Probabilidad de que no tenga voces (0.0–1.0)                                         | Float        | Numérica (Ratio)        |
| `liveness`         | Probabilidad de que sea una presentación en vivo (0.0–1.0)                           | Float        | Numérica (Ratio)        |
| `valence`          | Qué tan positiva/sentimental se percibe una canción (0.0–1.0)                        | Float        | Numérica (Ratio)        |
| `tempo`            | Tempo estimado en beats por minuto (BPM)                                             | Float        | Numérica (Ratio)        |
| `duration_ms`      | Duración en milisegundos                                                             | Integer      | Numérica (Ratio)        |
| `time_signature`   | Compás musical dominante (ej. 3 = 3/4, 4 = 4/4)                                      | Integer      | Categórica Nominal      |

---

## 🧠 Consideraciones Analíticas

- **Jerarquía:** Existe una estructura natural → *Artista > Álbum > Canción*
- **Contexto vs Contenido:** `year` y `playlist_url` contextualizan la inclusión en la playlist; el resto describe la canción/artista.
- **Popularidad:** La popularidad de artista y canción no siempre se correlacionan directamente.
- **Géneros:** Asignados al artista, lo cual puede no reflejar la variabilidad por canción.
- **Audio Features:** Variables cuantitativas clave para detectar patrones temporales y estilísticos.

---

# 🧪 Metodología y Análisis del Dataset de Spotify basica para R

## 2. Metodología y Herramientas

El análisis fue realizado utilizando **R** (versión `[4.3.1]`) y varios paquetes del ecosistema `tidyverse` y otros complementarios.

### 📦 Paquetes utilizados:

| Paquete         | Función principal                                                                                  |
|-----------------|----------------------------------------------------------------------------------------------------|
| `readr`         | Carga eficiente de datos desde `[origen: CSV local / Google Drive]`                                |
| `dplyr`         | Manipulación, limpieza y transformación de datos (filtrado, selección, mutación, agregación)      |
| `tidyr`         | Reestructuración de datos (`separate_rows` en géneros, pivotado)                                   |
| `ggplot2`       | Visualización de datos: histogramas, densidades, scatter plots, boxplots, barras, etc.            |
| `stats` (base)  | Ejecución de algoritmo K-Means (`kmeans`)                                                          |
| `factoextra`    | Determinación del número óptimo de clusters y visualización de resultados (PCA, silueta, codo)    |
| `ggcorrplot`    | Visualización de matrices de correlación                                                           |
| `knitr`, `kableExtra` *(opcional)* | Presentación de tablas en informes en R Markdown                               |
| `googledrive` *(opcional)* | Carga directa desde Google Drive                                                        |

---

## 3. Procesamiento de Datos

Se partió de un dataset con **[número inicial de filas]** filas y **[número inicial de columnas]** columnas.

### 🔄 Pasos clave del preprocesamiento:

- **📥 Carga de datos:** Desde `[nombre del archivo].csv` `[local / Google Drive]`
- **🎛 Conversión de tipos y nuevas variables:**
  - Conversión de `key`, `mode`, y `time_signature` a **factor**
  - Etiquetas agregadas a `mode`: `"Minor"`, `"Major"`
  - Nueva variable `duration_min` a partir de `duration_ms`
  - Clasificación de `tempo` en categorías (`tempo_category`: Lento, Medio, Rápido, Muy Rápido)
  - Extracción de `primary_genre` desde `artist_genres`

- **🧼 Manejo de valores ausentes:**
  - Eliminación de filas con `NA` en variables críticas de audio como `danceability`, `energy`, `loudness`, etc.
  - `[Si aplicaste imputación, descríbela aquí]`

- **📛 Duplicados:**
  - Eliminación de registros duplicados según `track_id`, manteniendo una única entrada por canción

### ✅ Resultado del procesamiento:

El dataset limpio (`spotify_clean`) contiene **[número final de filas]** filas y **[número final de columnas]** columnas.

---

## 4. Análisis Exploratorio de Datos (EDA)

### 📊 Estadísticas Descriptivas

- Se calcularon **media, mediana, cuartiles, min, max** para variables numéricas:
  `track_popularity`, `artist_popularity`, `danceability`, `energy`, `valence`, etc.
- Se generaron **tablas de frecuencia** para variables categóricas:
  `mode`, `key`, `time_signature`, `tempo_category`.

### 📈 Distribuciones

- Visualización mediante **histogramas y gráficos de densidad**
- Ejemplo de observación:
  > *“La popularidad de las canciones mostró una distribución sesgada hacia valores más altos.”*

### 🔗 Correlaciones

- Se calculó la **matriz de correlación de Pearson** entre variables numéricas.
- Visualización con `ggcorrplot`.
- Destacaron correlaciones como:
  - `energy` ↔️ `loudness`: fuerte correlación positiva
  - `valence` ↔️ `danceability`: correlación moderada

### 🔍 Relaciones Bivariadas

- **Scatter plots** con líneas de tendencia para pares clave:
  - `energy vs valence` (coloreado por `tempo_category`)
  - `danceability vs track_popularity`
  - `loudness vs energy`

### 📉 Comparaciones Grupales

- Comparación de variables como `valence` y `energy` entre **modo Mayor y Menor**
- Utilización de
