In [12]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

from pathlib import Path

In [13]:
import sys

sys.path.append(str(Path("..").resolve()))

from src.output_creator import OutputCreator

In [14]:
ROOT_DIR = Path.cwd().parent 

ruta_datos = ROOT_DIR / "data" / "spotify_songs.csv"

ruta_graficos = ROOT_DIR / "outputs" / "graficos"

ruta_tablas = ROOT_DIR / "outputs" / "tablas"

df = pd.read_csv(ruta_datos)

In [15]:
saver = OutputCreator(ruta_tablas, ruta_graficos)

In [16]:
variables_irrelevantes = ["track_id", "track_album_id", "playlist_id"]
df = df.drop(columns=variables_irrelevantes)

In [17]:
df_size = len(df)
df_size

32833

# Fase 1: Comprensi√≥n del negocio

## Contexto

---

## Objetivo de Negocio

---

## Objetivo del Proyecto de Datos

---

## KPIs (Indicadores Clave)


---

# Fase 2: Comprensi√≥n De Los Datos


## 2.1 Diccionario de Datos:

| variable | class | description |
| :--- | :--- | :--- |
| `track_name` | character (categorica nominal) | Nombre de la canci√≥n |
| `track_artist` | character (categorica nominal) | Artista |
| `track_album_name` | character (categorica nominal) | Nombre del Album |
| `playlist_name` | character (categorica nominal) | Nombre de la playlist |
| `playlist_genre` | character (categorica nominal) | Genero de la playlist |
| `playlist_subgenre` | character (categorica nominal) | Subgenero de la playlist |
| `mode` | double (categorica nominal) | El modo indica la modalidad (mayor o menor) de una pista, el tipo de escala de la que se deriva su contenido mel√≥dico. El mayor se representa con 1 y el menor con 0. |
| `track_popularity` | double (cuantitativa continua) | Popularidad de la canci√≥n (0-100) minetras mas alta sea mejor |
| `danceability` | double (cuantitativa continua) | La **danceability** o **bailabilidad** describe la idoneidad de una pista para bailar seg√∫n una combinaci√≥n de elementos musicales, como el tempo, la estabilidad r√≠tmica, la intensidad del comp√°s y la regularidad general. Un valor de 0.0 es el menos bailable y 1.0 el m√°s bailable. |
| `energy` | double (cuantitativa continua) | La energ√≠a es una medida de 0.0 a 1.0 y representa una medida perceptual de intensidad y actividad. Normalmente, las pistas energ√©ticas se perciben r√°pidas, fuertes y ruidosas. Por ejemplo, el death metal tiene mucha energ√≠a, mientras que un preludio de Bach tiene una puntuaci√≥n baja en la escala. Las caracter√≠sticas perceptuales que contribuyen a este atributo incluyen el rango din√°mico, la sonoridad percibida, el timbre, la velocidad de inicio y la entrop√≠a general. |
| `key` | double (preparada numericamente), en el negocio es character (categorica nominal) | La tonalidad general estimada de la pista. Los n√∫meros enteros se asignan a tonos utilizando la notaci√≥n est√°ndar de clases de tono. Por ejemplo, 0 = C, 1 = C‚ôØ/D‚ô≠, 2 = D, y as√≠ sucesivamente. Si no se detecta ninguna tonalidad, el valor es -1. |
| `tempo` | double (cuantitativa continua) | El tempo general estimado de una pista en pulsaciones por minuto (BPM). En terminolog√≠a musical, el tempo es la velocidad o el ritmo de una pieza determinada y se deriva directamente de la duraci√≥n media de los compases. |
| `duration_ms` | double (cuantitativa continua) | Duraci√≥n de la canci√≥n en milisegundos |
| `loudness` | double (cuantitativa continua) | La sonoridad general de una pista en decibelios (dB). Los valores de sonoridad se promedian en toda la pista y son √∫tiles para comparar la sonoridad relativa de las pistas. La sonoridad es el volumen percibido por el o√≠do humano a lo largo del tiempo, independientemente de la potencia real de los altavoces. Los valores suelen oscilar entre -60 y 0 db. |
| `speechiness` | double (cuantitativa continua) | La "speechiness" detecta la presencia de palabras habladas en una pista. Cuanto m√°s exclusivamente parecida al habla sea la grabaci√≥n (por ejemplo, un programa de entrevistas, un audiolibro, poes√≠a), m√°s cerca de 1.0 estar√° el valor del atributo. Los valores superiores a 0.66 describen pistas que probablemente est√©n compuestas en su totalidad por palabras habladas. Los valores entre 0.33 y 0.66 describen pistas que pueden contener tanto m√∫sica como habla, ya sea en secciones o en capas, incluyendo casos como la m√∫sica rap. Los valores inferiores a 0.33 representan probablemente m√∫sica y otras pistas que no son de tipo habla. |
| `acousticness` | double (cuantitativa continua) | Una medida de confianza de 0.0 a 1.0 sobre si la pista es ac√∫stica. 1.0 representa una confianza alta de que la pista es ac√∫stica. |
| `instrumentalness` | double (cuantitativa continua) | Predice si una pista no contiene voces. Los sonidos "Ooh" y "aah" se tratan como instrumentales en este contexto. Las pistas de rap o de palabras habladas son claramente "vocales". Cuanto m√°s cercano a 1.0 sea el valor de instrumentalidad, mayor ser√° la probabilidad de que la pista no contenga contenido vocal. Los valores superiores a 0.5 est√°n destinados a representar pistas instrumentales, pero la confianza es mayor a medida que el valor se acerca a 1.0. |
| `valence` | double (cuantitativa continua) | Una medida de 0.0 a 1.0 que describe la positividad musical transmitida por una pista. Las pistas con una valencia alta suenan m√°s positivas (por ejemplo, felices, alegres, euf√≥ricas), mientras que las pistas con una valencia baja suenan m√°s negativas (por ejemplo, tristes, deprimidas, enfadadas). |

<p align="left">
  <small><b>Tabla 1:</b> Diccionario de datos adaptado de <a href="https://www.kaggle.com/datasets/joebeachcapital/30000-spotify-songs">30,000 Spotify Songs</a> por <a href="https://www.kaggle.com/joebeachcapital">Joakim Arvidsson</a>. Clasificaci√≥n estad√≠stica a√±adida por el equipo de trabajo.</small>
</p>

---
## 2.2 Relevancia
Todas aquellas variables relevantes para el objetivo ya estan incluidas en el diccionario de datos, aquellas que no son utiles para el objetivo se omitieron en la tabla presentada. Dichas variables son utiles en el contexto, pues describen tanto caracteristicas propias de las pistas de audio como tambien sus metadatos (ej: artista), este conjunto de datos sera util para generar varias asociaci√≥nes, correlaciones o establecer relaciones entre variables categoricas y numericas, de esta manera permitiendo al equipo de investigaci√≥n extraer insights estrat√©gicos para el negocio.




## 2.3 Diagnostico inicial de calidad

### 2.3.1 Identificaci√≥n de nulos y su proporci√≥n

In [22]:
columnas_con_nulos = df.isna().sum().to_frame(name='Total_Nulos')
columnas_con_nulos

Unnamed: 0,Total_Nulos
track_name,5
track_artist,5
track_popularity,0
track_album_name,5
track_album_release_date,0
playlist_name,0
playlist_genre,0
playlist_subgenre,0
danceability,0
energy,0


Solo 3 variables tienen valores nulos (`track_name`, `track_artist` y `track_album_name`), ademas es una proporcion realmente baja de nulos, a lo sumo hay una proporcion de $\frac{15}{32833}$ registros con nulos, lo cual correstponde a tan solo el **$ 0.0456\%$** de la muestra

In [23]:
saver.guardar_csv(columnas_con_nulos, "columnas_con_nulos.csv")

Archivo guardado exitosamente en: d:\Externado\tercer semestre\Data Mining\Proyecto_Data_Mining_UEC\outputs\tablas\columnas_con_nulos.csv


In [20]:
registros_nulos = df[df.isnull().any(axis=1)]
registros_nulos

Unnamed: 0,track_name,track_artist,track_popularity,track_album_name,track_album_release_date,playlist_name,playlist_genre,playlist_subgenre,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
8151,,,0,,2012-01-05,HIP&HOP,rap,southern hip hop,0.714,0.821,6,-7.635,1,0.176,0.041,0.0,0.116,0.649,95.999,282707
9282,,,0,,2017-12-01,GANGSTA Rap,rap,gangster rap,0.678,0.659,11,-5.364,0,0.319,0.0534,0.0,0.553,0.191,146.153,202235
9283,,,0,,2017-12-01,GANGSTA Rap,rap,gangster rap,0.465,0.82,10,-5.907,0,0.307,0.0963,0.0,0.0888,0.505,86.839,206465
19568,,,0,,2012-01-05,Reggaeton viejitoüî•,latin,reggaeton,0.675,0.919,11,-6.075,0,0.0366,0.0606,0.00653,0.103,0.726,97.017,252773
19811,,,0,,2012-01-05,latin hip hop,latin,latin hip hop,0.714,0.821,6,-7.635,1,0.176,0.041,0.0,0.116,0.649,95.999,282707


In [21]:
saver.guardar_csv(registros_nulos, "registros_nulos.csv")

Archivo guardado exitosamente en: d:\Externado\tercer semestre\Data Mining\Proyecto_Data_Mining_UEC\outputs\tablas\registros_nulos.csv


Los 5 nulos que se observaron en cada una de las tres variables mencionadas anteriormente pertenecen a lo mismos registros, por lo que solo el $0.01522 \%$ de los registros de la base de datos contiene nulos, una proporci√≥n despreciable.

### 2.3.2 Revisi√≥n de formatos incosistentes

In [25]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 32833 entries, 0 to 32832
Data columns (total 20 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   track_name                32828 non-null  str    
 1   track_artist              32828 non-null  str    
 2   track_popularity          32833 non-null  int64  
 3   track_album_name          32828 non-null  str    
 4   track_album_release_date  32833 non-null  str    
 5   playlist_name             32833 non-null  str    
 6   playlist_genre            32833 non-null  str    
 7   playlist_subgenre         32833 non-null  str    
 8   danceability              32833 non-null  float64
 9   energy                    32833 non-null  float64
 10  key                       32833 non-null  int64  
 11  loudness                  32833 non-null  float64
 12  mode                      32833 non-null  int64  
 13  speechiness               32833 non-null  float64
 14  acousticness     

todas las variables tienen el Dtype adecuado