# üéß EDA Spotify Tracks 2023 (R)

Autor: Jos√© Manuel S√°nchez √Ålvarez  
Centro: IES Rafael Alberti ‚Äî Curso 2025‚Äì2026  

Exploraci√≥n de datos del dataset *Spotify Tracks 2023* usando **R y tidyverse**.

Este notebook realiza un an√°lisis exploratorio (EDA) para estudiar popularidad, duraci√≥n, energ√≠a, correlaciones y g√©neros musicales.


## 1Ô∏è‚É£ Preparaci√≥n del entorno

Se cargan las librer√≠as necesarias y se configuran los gr√°ficos inline.

In [None]:
suppressPackageStartupMessages({
  if (!requireNamespace("tidyverse", quietly = TRUE)) install.packages("tidyverse", repos = "https://cloud.r-project.org")
  if (!requireNamespace("ggcorrplot", quietly = TRUE)) install.packages("ggcorrplot", repos = "https://cloud.r-project.org")
  library(tidyverse)
  library(ggcorrplot)
})
options(repr.plot.width = 7, repr.plot.height = 4)
sessionInfo()


: 

## 2Ô∏è‚É£ Carga del dataset

Se intentar√° descargar autom√°ticamente desde una fuente p√∫blica. Si falla, se utilizar√° un archivo local `spotify_tracks_2023.csv`.

In [None]:
url <- "https://raw.githubusercontent.com/marceloreisjr/datasets/master/spotify_tracks_2023.csv"
spotify <- tryCatch({
  read_csv(url)
}, error = function(e) {
  message("Descarga fallida. Cargando archivo local...")
  read_csv("spotify_tracks_2023.csv")
})

glimpse(spotify)
head(spotify)


: 

## 3Ô∏è‚É£ Limpieza b√°sica

- Eliminamos columnas irrelevantes (`Unnamed:_0` si existe).
- Quitamos duplicados.
- Comprobamos valores nulos.

In [None]:
if ("Unnamed:_0" %in% colnames(spotify)) {
  spotify <- spotify %>% select(-`Unnamed:_0`)
}

spotify <- spotify %>% distinct()

colSums(is.na(spotify)) %>% sort(decreasing = TRUE)


## 4Ô∏è‚É£ Estad√≠sticas descriptivas

- Popularidad
- Duraci√≥n (convertida a minutos)
- Valores de energ√≠a, valence, danceability, etc.

In [None]:
spotify <- spotify %>% mutate(duration_min = duration_ms / 60000)

summary(select(spotify, popularity, duration_min, danceability, energy, valence, tempo))


## 5Ô∏è‚É£ Visualizaciones b√°sicas

### 5.1 Distribuci√≥n de popularidad

In [None]:
ggplot(spotify, aes(x = popularity)) +
  geom_histogram(binwidth = 5, fill = "steelblue", color = "white") +
  labs(title = "Distribuci√≥n de popularidad", x = "Popularidad", y = "Frecuencia")


### 5.2 Duraci√≥n de canciones (en minutos)

In [None]:
ggplot(spotify, aes(y = duration_min)) +
  geom_boxplot(fill = "lightgreen") +
  labs(title = "Duraci√≥n de canciones (minutos)", y = "Minutos")


## 6Ô∏è‚É£ Correlaciones entre variables num√©ricas

In [None]:
num_cols <- spotify %>% select(popularity, danceability, energy, loudness, speechiness,
                               acousticness, instrumentalness, liveness, valence, tempo)

corr_matrix <- cor(num_cols, use = "complete.obs")
ggcorrplot(corr_matrix, hc.order = TRUE, type = "lower", lab = TRUE, lab_size = 3,
           colors = c("red", "white", "blue"), title = "Mapa de correlaciones entre variables")


## 7Ô∏è‚É£ Popularidad media por g√©nero

In [None]:
genre_stats <- spotify %>%
  group_by(track_genre) %>%
  summarise(media_pop = mean(popularity, na.rm = TRUE), canciones = n()) %>%
  arrange(desc(media_pop))

top_genres <- head(genre_stats, 10)

ggplot(top_genres, aes(x = reorder(track_genre, media_pop), y = media_pop)) +
  geom_col(fill = "purple") +
  coord_flip() +
  labs(title = "Top 10 g√©neros por popularidad media", x = "G√©nero", y = "Popularidad media")


## 8Ô∏è‚É£ Top artistas por popularidad media

In [None]:
top_artistas <- spotify %>%
  group_by(artists) %>%
  summarise(canciones = n(), popularidad_media = mean(popularity, na.rm = TRUE)) %>%
  arrange(desc(popularidad_media)) %>% head(10)

ggplot(top_artistas, aes(x = reorder(artists, popularidad_media), y = popularidad_media)) +
  geom_col(fill = "orange") +
  coord_flip() +
  labs(title = "Top 10 artistas por popularidad media", x = "Artista", y = "Popularidad media")


## 9Ô∏è‚É£ Conclusiones

- La mayor√≠a de canciones duran entre 2 y 4 minutos.
- La popularidad se concentra en valores medios-altos.
- Los g√©neros con m√°s energ√≠a tienden a ser m√°s populares.
- Existen correlaciones moderadas entre energ√≠a, danceability y valence.
