# Análisis canciones en Spotify

## Introducción

Este proyecto utiliza un conjunto de datos obtenido de la API de Spotify a través del paquete `spotifyr`. El conjunto incluye casi 30,000 canciones, y contiene tanto características musicales como información sobre la popularidad de cada canción. La base de datos fue creada por Joakim Arvidsson y fue descargada a través de [Kaggle](https://www.kaggle.com/datasets/joebeachcapital/30000-spotify-songs/data).

### Objetivo
Crear una aplicación que permita a los usuarios explorar datos de canciones en función de sus características como popularidad, energía y género, entre otras.

### Etapas
1. Descripción de los datos
2. Preprocesamiento de datos
3. Análisis exploratorio de lso datos

## Análisis de datos
---

Para el análisis de datos se pretende seguir el siguiente flujo de trabajo: 
 
- Paso 1: Cargar y explorar los datos
- Paso 2: Manipulación de datos
- Paso 3: Análisis de datos
- Paso 4: Pruebas de hipótesis
- Paso 5: Conclusiones

## Cargar y explorar datos

In [18]:
## Importar paquetes a utilizar
import pandas as pd
import plotly.express as px

In [19]:
## Cargar base de datos
spotify_df = pd.read_csv("../data/spotify_songs.csv")

### Popularidad

El gráfico de histograma muestra la distribución de la popularidad de las canciones en la base de datos de Spotify, donde el valor de popularidad varía de 0 a 100, siendo 100 la mayor popularidad.

In [20]:
popularity_hist = px.histogram(spotify_df, x="track_popularity") 
popularity_hist.show() 

In [21]:
energy_popularity_scatter = px.scatter(spotify_df, 
                                             x="energy", 
                                             y="track_popularity", 
                                             color="playlist_genre", 
                                             facet_col="playlist_genre", 
                                             opacity=0.2, 
                                             title="Relación popularidad y la energía por género}",
                                             labels={"energy": "Energía", "track_popularity": "Popularidad de la canción"},
                                             trendline="ols")  # Agregar línea de tendencia

# Mostrar gráfico
energy_popularity_scatter.show()

In [22]:
edm_df = spotify_df[spotify_df["playlist_genre"]== "edm"]

In [23]:
edm_energypopularity_scatter = px.scatter(edm_df, 
                                            x="energy", 
                                            y="track_popularity", 
                                            color="playlist_subgenre", 
                                            facet_col="playlist_subgenre",  # Crear gráficos separados por género
                                            opacity=0.2,  # Hacer los puntos más transparentes
                                            title="Popularidad vs Energía, separadas por Género",
                                            log_x=abels={"energy": "Energía", "track_popularity": "Popularidad de la canción"},
                                            trendline="ols")  # Agregar línea de tendencia

# Mostrar gráfico
edm_energypopularity_scatter.show()