# Analisis de Base de datos de música


![](https://c.tenor.com/iczjaEFdW20AAAAC/spotify-music.gif)

Detalles del Conjunto de Datos\
Conjunto de Datos de las Canciones más Escuchadas en Spotify
Este conjunto de datos contiene información exhaustiva sobre algunas de las canciones más escuchadas en Spotify, enriquecida con información adicional de otras plataformas de streaming populares como Apple Music, Deezer y Shazam. Es ideal para analistas musicales, científicos de datos y entusiastas del aprendizaje automático que estén interesados en explorar tendencias y características de las canciones populares.

## Características del Conjunto de Datos

### Información Básica de la Canción:
- track_name: Nombre de la canción.
- artist(s)_name: Nombre del artista o artistas que interpretan la canción.
- artist_count: Número de artistas que contribuyen a la canción.
- released_year, released_month, released_day: Detalles de la fecha de lanzamiento.

### Métricas de Streaming:
- in_spotify_playlists: Número de listas de reproducción de Spotify en las que se incluye la canción.
- in_spotify_charts: Rango de la canción en las listas de éxitos de Spotify.
- streams: Número total de reproducciones en Spotify.
- in_apple_playlists, in_apple_charts: Presencia en listas de reproducción y listas de éxitos de Apple Music.
- in_deezer_playlists, in_deezer_charts: Presencia en listas de reproducción y listas de éxitos de Deezer.
- in_shazam_charts: Rango en las listas de éxitos de Shazam.
Atributos Musicales:
- bpm: Tiempo por minuto, que representa el ritmo de la canción.
- key: Tono de la canción.
- mode: Indica si la canción está en modo mayor o menor.
- danceability_%: Aptitud de la canción para bailar.
- valence_%: Positividad del contenido musical de la canción.
- energy_%: Nivel de energía percibida de la canción.
- acousticness_%: Presencia de sonido acústico en la canción.
- instrumentalness_%: Proporción de contenido instrumental en la pista.
- liveness_%: Presencia de elementos de actuación en vivo.
- speechiness_%: Cantidad de palabras habladas en la canción.


Fuente: Kaggle
<div style="text-align: left; margin: 20px;">  
  <a href="https://www.kaggle.com/datasets/abdulszz/spotify-most-streamed-songs" target="_blank" style="font-size: 24px; font-weight: bold; color: blue;">Dataset de Spotify</a>  
</div>


##  Autor  
**Frank Yesid**  
*Creador de este cuaderno interactivo*   
*Este cuaderno ha sido diseñado para ayudarte a aprender y aplicar conceptos clave de programación y análisis de datos de manera práctica.* ¡Espero que lo disfrutes! 🎯

# Ejecutar la instalación 2 veces para correcta instalación

In [None]:
# @title Instalar librerias a usar - NOTA EJECUTAR 2 VECES SEGUIDAS para correcta instalación
# librerías necesarias para el análisis de datos
%pip install pandas # librería para manipulación y análisis de datos
%pip install numpy==1.26.4 # librería para cálculos numéricos

# Librerías para visualización de datos
%pip install missingno # librería para visualizar datos faltantes

# Librerías para análisis exploratorio de datos
%pip install autoviz # herramienta
%pip install sweetviz # herramienta para análisis exploratorio de datos
%pip install ydata-profiling # herramienta para análisis exploratorio de datos
# @title Descargar datos para TextBlob
# Descargar los datos necesarios para TextBlob para que AutoViz pueda generar nubes de palabras
# El comando !python -m textblob.download_corpora descarga los conjuntos de datos (corpora)
# requeridos por TextBlob.
!python -m textblob.download_corpora

# Cuaderno de Análisis Exploratorio de Datos

Este cuaderno permite cargar datos desde Google Drive y generar informes exploratorios utilizando múltiples herramientas.

In [None]:
# @title Importar librerías necesarias
import gdown # Librería para descargar archivos desde Google Drive.
import pandas as pd # Librería para manipulación y análisis de datos.
import numpy as np # Librería para cálculos numéricos y manejo de arrays.

import matplotlib.pyplot as plt # Librería para crear visualizaciones estáticas e interactivas.
import seaborn as sns # Librería para crear visualizaciones estadísticas atractivas.

import missingno as msno # Librería para visualizar datos faltantes.

import sweetviz as sv # Herramienta para análisis exploratorio de datos con informes detallados.
from ydata_profiling import ProfileReport # Herramienta para generar informes de perfilado de datos.


In [None]:
# @title Cargar
# Este script descarga un archivo CSV específico desde Google Drive utilizando la librería gdown.

# id_archivo es el identificador único del archivo en Google Drive.
id_archivo = '1spKQPvUR3PcOgebEXzWDhohxEN0sW2Dg'
# Se construye la URL pública para descargar el archivo usando el id_archivo.
url = f"https://drive.google.com/uc?id={id_archivo}"

# output es el nombre con el que se guardará el archivo descargado localmente.
output = "BaseDeDatos.csv"

# La función gdown.download() descarga el archivo de la URL especificada
# y lo guarda con el nombre definido en 'output'. quiet=False muestra el progreso.
gdown.download(url, output, quiet=False)

In [None]:
# @title Cargar y explorar los datos
# Este script carga el archivo CSV descargado en un DataFrame de pandas
# y realiza una exploración inicial para entender la estructura y contenido de los datos.

# Cargar el archivo CSV en un DataFrame de pandas.
# pd.read_csv() lee el archivo CSV especificado y crea un DataFrame.
df = pd.read_csv("BaseDeDatos.csv")


In [None]:
#@title Mostrar las primeras filas del DataFrame.
# df.head() muestra las primeras 5 filas del DataFrame, útil para una vista rápida de los datos.
print("Primeras 5 filas del DataFrame:")
display(df.head())


In [None]:
#@title Información general del DataFrame.
# df.info() muestra el índice, tipo de datos de cada columna, y la cantidad de valores no nulos.
# Es crucial para identificar columnas con valores faltantes y tipos de datos incorrectos.
print("\nInformación del DataFrame:")
display(df.info())

In [None]:
#@title Estadísticas descriptivas.
# df.describe() genera estadísticas descriptivas de las columnas numéricas,
# como media, desviación estándar, mínimo, máximo y cuartiles.
print("\nEstadísticas descriptivas:")
display(df.describe())

In [None]:
#@title Verificar valores faltantes.
# df.isnull().sum() cuenta la cantidad de valores nulos por columna.
# Esto ayuda a identificar qué columnas tienen datos faltantes y en qué medida.
print("\nValores faltantes por columna:")
display(df.isnull().sum())

In [None]:
# @title Visualizar valores faltantes con missingno
# Este script utiliza la librería missingno para visualizar la presencia de valores faltantes
# en el DataFrame de diferentes maneras.
# Visualizar valores faltantes con matriz
# msno.matrix() genera una matriz que visualiza la densidad de datos presentes y faltantes.
# Cada línea representa una fila del DataFrame.
msno.matrix(df)
# plt.title() añade un título al gráfico para indicar su propósito.
plt.title('Matriz de valores faltantes')
# plt.show() muestra el gráfico generado.
plt.show()

# Visualizar valores faltantes con gráfico de barras
# msno.bar() genera un gráfico de barras que muestra el número de valores no nulos por columna.
# Es útil para ver la cantidad exacta de datos presentes.
msno.bar(df)
# plt.title() añade un título al gráfico para indicar su propósito.
plt.title('Gráfico de barras de valores faltantes')
# plt.show() muestra el gráfico generado.
plt.show()

# Visualizar el porcentaje total de vacios entra variables sin datos.
msno.heatmap(df)
plt.title('Mapa de calor de valores faltantes')
plt.show()

In [None]:
df

In [None]:
# Inspect unique values in the 'streams' column to identify the problematic entry.
unique_streams = df['streams'].unique()
print("Unique values in 'streams' column:")
print(unique_streams)

# Identify the non-numeric value that caused the error.
# Based on the error message, the value 'BPM110KeyAModeMajorDanceability53Valence75Energy69Acousticness7Instrumentalness0Liveness17Speechiness3' is the issue.
# We need to decide how to handle this entry. For now, we can filter it out to proceed with the conversion for other values.
# In a real scenario, we would investigate the source of this data error.
df_cleaned = df[df['streams'] != 'BPM110KeyAModeMajorDanceability53Valence75Energy69Acousticness7Instrumentalness0Liveness17Speechiness3'].copy()

# Attempt the conversion again on the cleaned DataFrame.
# Remove commas and convert the 'streams' column to integer type.
df_cleaned['streams'] = df_cleaned['streams'].str.replace(',', '').astype(np.int64)

# Now proceed with the rest of the analysis and visualizations using df_cleaned.
# Visualizar la matriz de correlación.
plt.figure(figsize=(12, 10))
sns.heatmap(df_cleaned.corr(numeric_only=True), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de correlación de variables numéricas')
plt.show()

# Generar gráficos de barras para algunas características.
categorical_cols = ['artist_count', 'released_year', 'released_month', 'released_day', 'mode']

n_cols = 2
n_rows = (len(categorical_cols) + n_cols - 1) // n_cols

plt.figure(figsize=(15, n_rows * 5))

for i, col in enumerate(categorical_cols):
    plt.subplot(n_rows, n_cols, i + 1)
    sns.countplot(data=df_cleaned, x=col, palette='viridis')
    plt.title(f'Distribución de {col}')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()

plt.show()

# Sección graficas 1D

In [None]:
#@title Evolución de la popularidad en Spotify
plt.figure(figsize=(10, 6))
df.groupby('released_year')['in_spotify_playlists'].sum().plot(kind='line')
plt.title('Evolución de la popularidad en Spotify')
plt.xlabel('Año')
plt.ylabel('Playlists')
plt.show()


In [None]:
#@title Distribución de la valencia
plt.figure(figsize=(10, 6))
df['valence_%'].hist()
plt.title('Distribución de la valencia')
plt.xlabel('Valencia')
plt.ylabel('Frecuencia')
plt.show()


# Sección gráficas 2D

In [None]:
#@title Relación entre la danzabilidad y la energía
plt.figure(figsize=(10, 6))
plt.scatter(df['danceability_%'], df['energy_%'])
plt.title('Relación entre la danzabilidad y la energía')
plt.xlabel('danzabilidad')
plt.ylabel('Energía')
plt.show()

In [None]:
#@title Relación entre la acústica y la instrumentalidad
plt.figure(figsize=(10, 6))
plt.scatter(df['acousticness_%'], df['instrumentalness_%'])
plt.title('Relación entre la acústica y la instrumentalidad')
plt.xlabel('Acústica')
plt.ylabel('Instrumentalidad')
plt.show()


In [None]:
#@title Relación entre la reproducciones y la Acústica
plt.figure(figsize=(40, 6))
plt.scatter(df['streams'], df['acousticness_%'])
plt.title('Relación entre la reporoducciones y la Acústica')
plt.ylabel('Acústica')
plt.xlabel('Reproducciones')
plt.show()


df['artist(s)_name']: Selecciona la columna 'artist(s)_name' del DataFrame.


In [None]:
df['artist(s)_name']

.tolist(): Convierte los nombres de los artistas en una lista de Python.

In [None]:
df['artist(s)_name'].tolist()

.value_counts(): Cuenta cuántas veces aparece cada artista en esa columna. Esto te da una serie con los artistas como índice y el número de canciones como valores, ordenados de mayor a menor.

In [None]:
df['artist(s)_name'].value_counts()

In [None]:
Cantidad_de_artistas = 10

.iloc[:Cantidad_de_artistas]: Selecciona las primeras filas de esta serie, según el número especificado en la variable Cantidad_de_artistas. Esto te da los artistas con el mayor número de canciones.

In [None]:
df['artist(s)_name'].iloc[:Cantidad_de_artistas]

En resumen, este código toma la columna de nombres de artistas, cuenta la frecuencia de cada artista, selecciona los que tienen las mayores frecuencias (determinadas por Cantidad_de_artistas) y devuelve sus nombres en una lista. Esta lista se utiliza después para filtrar el DataFrame y visualizar los datos de estos artistas en el boxplot.


In [None]:
# @title Grafica de Boxplot composición de la base de datos
plt.figure(figsize=(10, 6))
# Seleccionar los cantantes con mayor cantidad de canciones
nombres_artistas = df['artist(s)_name'].value_counts().iloc[:Cantidad_de_artistas].index.tolist()

sns.boxplot(x='artist(s)_name', y='bpm', data=df[df['artist(s)_name'].isin(nombres_artistas)])
plt.title('Boxplot de Artistas vs. bpm')
plt.xlabel('Artistas')
plt.ylabel('bpm')
plt.xticks(rotation=90)
plt.show()


In [None]:
# @title Generar informe con Sweetviz
# Sweetviz es una librería para generar informes de visualización de datos de forma rápida.
# Proporciona un análisis detallado con gráficos interactivos para cada columna.

# Convert 'in_shazam_charts' to string type to handle mixed data types, as suggested by the error.
df['in_shazam_charts'] = df['in_shazam_charts'].astype(str)

# Generar informe con Sweetviz
# sv.analyze(df) analiza el DataFrame y prepara el informe.
informe = sv.analyze(df)
# informe.show_html() genera el informe en formato HTML y lo guarda en un archivo.
# El informe se guardará como 'informe_sweetviz.html' en el directorio actual del cuaderno.
informe.show_html('informe_sweetviz.html')
print("Informe de Sweetviz generado como 'informe_sweetviz.html'. Puedes descargarlo o verlo en la pestaña de Archivos.")

In [None]:
#@title La función informe.show_notebook muestra el reporte de análisis exploratorio de datos (EDA) en un notebook Jupyter, con el siguiente formato:

# layout='vertical': muestra los datos en una columna vertical
# w=1400 y h=500: ajusta el ancho y alto del reporte a 1400x500 píxeles
# scale=0.9: muestra el reporte a un 90% de su tamaño original
informe.show_notebook(layout='vertical', w=1400, h=500, scale=1)

In [None]:
# @title Generar informe con y-data-profiling
# ydata-profiling es otra herramienta poderosa para generar informes EDA detallados.
# Proporciona un resumen completo de las variables, interacciones y valores faltantes.

# Generar informe con ydata-profiling
# ProfileReport() crea el objeto de informe, tomando el DataFrame y un título.
perfil = ProfileReport(df, title="Informe de Análisis Exploratorio de Datos")
# perfil.to_file() guarda el informe en formato HTML en un archivo.
# El informe se guardará como 'informe_ydata_profiling.html' en el directorio actual.
perfil.to_file("informe_ydata_profiling.html")
print("Informe de ydata-profiling generado como 'informe_ydata_profiling.html'. Puedes descargarlo o verlo en la pestaña de Archivos.")

In [None]:
perfil

In [None]:
# @title Generar informe con AutoViz
# AutoViz es una librería que automatiza la visualización de datos para un EDA rápido.
# Genera automáticamente varios tipos de gráficos basados en el análisis del DataFrame.

# Importar la clase AutoViz_Class necesaria para usar AutoViz
from autoviz.AutoViz_Class import AutoViz_Class

# Generar informe con AutoViz
# AutoViz_Class() crea una instancia de la clase AutoViz.
AV = AutoViz_Class()
# AV.AutoViz() toma el nombre del archivo o DataFrame y genera las visualizaciones.
# Las visualizaciones se guardan automáticamente como archivos de imagen (PNG, JPG, etc.)
# en el directorio actual o un subdirectorio 'AutoViz_plots'.
dft = AV.AutoViz("BaseDeDatos.csv")
print("Informe de AutoViz generado. Busca los archivos de imagen en la pestaña de Archivos, posiblemente en una carpeta llamada 'AutoViz_plots'.")

In [None]:
dft