# Data Quality Assessment

Primero vamos a explorar las variables y sus significados, para entender mejor lo que tenemos.

In [1]:
import pandas as pd
import json

In [7]:
# Asignamos el contenido del archivo .json a la variable data
with open('consulta_actual.json', 'r') as file:
    data = json.load(file)

# Usamos los parámetros "record_path" para acceder a la información anidada
# y "meta" para las demas columnas que queremos extraer.
df1 = pd.json_normalize(data=data, record_path=['albums', 'tracks'], 
                        meta=[['albums', 'id'], ['albums', 'name'],
                             ['albums', 'release_date']])

In [8]:
df1.to_csv('consulta_actual.csv', index=False)

In [9]:
df = pd.read_csv('consulta_actual.csv')

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519 entries, 0 to 518
Data columns (total 29 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   id                               519 non-null    object 
 1   name                             519 non-null    object 
 2   disc_number                      519 non-null    int64  
 3   duraction_ms                     519 non-null    int64  
 4   explicit                         519 non-null    bool   
 5   track_number                     519 non-null    int64  
 6   audio_features.danceability      519 non-null    float64
 7   audio_features.energy            519 non-null    float64
 8   audio_features.key               519 non-null    int64  
 9   audio_features.loudness          519 non-null    float64
 10  audio_features.mode              519 non-null    int64  
 11  audio_features.speechiness       519 non-null    float64
 12  audio_features.acousti

In [19]:
columns = list(df.columns)

for column in columns:
    print(column)

disc_number
duration_ms
explicit
track_number
track_popularity
track_id
track_name
audio_features.danceability
audio_features.energy
audio_features.key
audio_features.loudness
audio_features.mode
audio_features.speechiness
audio_features.acousticness
audio_features.instrumentalness
audio_features.liveness
audio_features.valence
audio_features.tempo
audio_features.id
audio_features.time_signature
artist_id
artist_name
artist_popularity
album_id
album_name
album_release_date
album_total_tracks


Exploración de columnas:
- **disc_number:** (entero) Número del disco en que se aloja una pista, es usualmente ya que los álbumes no suelen estar compuestos por más de dos discos.

- **duration_ms:** (entero) Duración de una pista en milisegundos.

- **explicit:** (booleano) True si la pista contiene contentenido explícito o False si no contiene o no se sabe si tiene contenido explícito.
    Prestar atención a este valor, ya que un False no necesariamente indica ausencia de contenido explícito.

- **track_number:** (entero) El número de la pista. Si un álbum tiene varios discos, el número de pista es el número del disco especificado.

- **track_popularity:** (entero) La popularidad de una pista tiene un valor entre 0 y 100, siendo 100 el más popular.<br>
    La popularidad se calcula mediante un algoritmo y se basa, en su mayor parte, en el número total de reproducciones que ha tenido la pista y en lo recientes que son esas reproducciones.<br>
    En términos generales, las canciones que se reproducen mucho ahora tendrán mayor popularidad que las canciones que se reproducen mucho en el pasado.<br>
    Las pistas duplicadas (por ejemplo, la misma pista de una canción y un álbum) se clasifican de forma independiente.<br>
    La popularidad del artista y del álbum se deriva matemáticamente de la popularidad de la pista.<br>
    Hay que tener en cuenta que el valor de popularidad puede retrasarse unos días con respecto a la popularidad real ya que el valor no se actualiza en tiempo real.

- **track_id:** (string) Un ID asignado por Spotify para la pista.

- **track_name:** (string) Nombre de la pista.

- **audio_features.danceability:** (punto flotante) La "*bailabilidad*" describe qué tan adecuada es una pista para bailar en función de una combinación de elementos musicales que incluyen el tempo, la estabilidad del ritmo, la fuerza del ritmo y la regularidad general. Un valor de 0,0 es el menos bailable y 1,0 es el más bailable.

- **audio_features.energy:** (punto flotante) La energía es una medida de 0,0 a 1,0 y representa una medida perceptiva de intensidad y actividad.<br>
    Normalmente, las pistas enérgicas se sienten rápidas, ruidosas y ruidosas. Por ejemplo, el death metal tiene mucha energía, mientras que un preludio de Bach obtiene una puntuación baja en la escala. Las características de percepción que contribuyen a este atributo incluyen rango dinámico, volumen percibido, timbre, velocidad de inicio y entropía general.

- **audio_features.key:** (entero) La clave en la que se encuentra la pista. Los números enteros se asignan a los tonos utilizando la notación estándar de clase de tono.<br>
    Por ejemplo 0 = C, 1 = C♯/D♭, 2 = D, y así sucesivamente.<br>
    Si no se detectó ninguna clave, el valor es -1. **(Prestar atención a este valor)**
    Rango: -1 - 11

- **audio_features.loudness:** (punto flotante) El volumen general de una pista en decibeles (dB).<br>
    Los valores de sonoridad se promedian en toda la pista y son útiles para comparar el volumen relativo de las pistas. El volumen es la cualidad de un sonido que es el principal correlato psicológico de la fuerza física (amplitud). Los valores suelen oscilar entre -60 y 0 db.



- **audio_features.mode:** (entero) Modo indica la modalidad (mayor o menor) de una pista, el tipo de escala de la que se deriva su contenido melódico. El mayor está representado por 1 y el menor es 0.



- **audio_features.speechiness:** (punto flotante) Speechiness detecta la presencia de palabras habladas en una pista.<br>
    Cuanto más exclusivamente hablada sea la grabación (por ejemplo, un programa de entrevistas, un audiolibro, poesía), más cercano a 1,0 será el valor del atributo.<br>
    Los valores superiores a 0,66 describen pistas que probablemente estén compuestas exclusivamente de palabras habladas.<br>
    Los valores entre 0,33 y 0,66 describen pistas que pueden contener música y voz, ya sea en secciones o en capas, incluidos casos como la música rap.<br>
    Los valores inferiores a 0,33 probablemente representen música y otras pistas que no sean de voz.

- **audio_features.acousticness:** (punto flotante) Una medida de confianza de 0,0 a 1,0 sobre si la pista es acústica.<br>
    1.0 representa una alta confianza en que la pista es acústica.

- **audio_features.instrumentalness:** (punto flotante) Predice si una pista no contiene voces.<br>
    Los sonidos "Ooh" y "aah" se tratan como instrumentales en este contexto.<br>
    Las pistas de rap o de palabra hablada son claramente "vocales".<br>
    Cuanto más cerca esté el valor de instrumentalidad de 1,0, mayor será la probabilidad de que la pista no contenga contenido vocal.<br>
    Los valores superiores a 0,5 pretenden representar pistas instrumentales, pero la confianza es mayor a medida que el valor se acerca a 1,0.

- **audio_features.liveness:** (punto flotante) Detecta la presencia de una audiencia en la grabación. Los valores de vida más altos representan una mayor probabilidad de que la pista se haya interpretado en vivo. Un valor superior a 0,8 proporciona una gran probabilidad de que la pista esté activa.

- **audio_features.valence:** (punto flotante) Una medida de 0,0 a 1,0 que describe la positividad musical que transmite una pista.<br>
    Las pistas con valencia alta suenan más positivas (por ejemplo, felices, alegres, eufóricas), mientras que las pistas con valencia baja suenan más negativas (por ejemplo, tristes, deprimidas, enojadas).

- **audio_features.tempo:** (punto flotante) El tempo general estimado de una pista en pulsaciones por minuto (BPM).<br>
    En terminología musical, el tempo es la velocidad o el ritmo de una pieza determinada y se deriva directamente de la duración promedio del tiempo.

- **audio_features.id:**  (string) Un ID asignado por Spotify para la pista. ( controlar si es igual a track_id)

- **audio_features.time_signature:** (punto flotante) Un compás estimado. El tipo de compás (metro) es una convención de notación para especificar cuántos tiempos hay en cada compás (o compás).
    El tipo de compás varía de 3 a 7, lo que indica tipos de compás de "3/4" a "7/4".
    Rango: 3 - 7

- **artist_id:** (string) Un ID asignado por Spotify para el artista.

- **artist_name:** (string) Nombre del artista.

- **artist_popularity:** La popularidad del artista.<br>
     El valor estará entre 0 y 100, siendo 100 el más popular.<br>
     La popularidad del artista se calcula a partir de la popularidad de todas sus pistas.

- **album_id:** (string) Un ID asignado por Spotify para el album.

- **album_name:** (string) Nombre del album.

- **album_release_date:** La fecha en que se lanzó el álbum por primera vez.<br>
    Ejemplo: "1981-12"

- **album_total_tracks:** (entero) Cantidad de pistas en un album.

---

Comprobamos la variable track_number, que en un segundo disco, las pistas arrancan desde 1 y no continúan el conteo del primer disco

In [21]:
cd2 = df[df['disc_number'] == 2]
cd2[['disc_number', 'track_number']]

Unnamed: 0,disc_number,track_number
227,2,1
228,2,2
229,2,3
230,2,4
231,2,5
232,2,6
233,2,7
234,2,8
235,2,9
236,2,10


En este caso el disco dos no arranca con la pista **18**, si no que con la pista **1**.

In [27]:
cd2 = df.iloc[220:235,:]
cd2[['album_name','disc_number', 'track_number']]

Unnamed: 0,album_name,disc_number,track_number
220,folklore: the long pond studio sessions (from ...,1,11
221,folklore: the long pond studio sessions (from ...,1,12
222,folklore: the long pond studio sessions (from ...,1,13
223,folklore: the long pond studio sessions (from ...,1,14
224,folklore: the long pond studio sessions (from ...,1,15
225,folklore: the long pond studio sessions (from ...,1,16
226,folklore: the long pond studio sessions (from ...,1,17
227,folklore: the long pond studio sessions (from ...,2,1
228,folklore: the long pond studio sessions (from ...,2,2
229,folklore: the long pond studio sessions (from ...,2,3


---

### Completeness

In [30]:
df.shape

(539, 27)

In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 539 entries, 0 to 538
Data columns (total 27 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   disc_number                      539 non-null    int64  
 1   duration_ms                      539 non-null    int64  
 2   explicit                         539 non-null    object 
 3   track_number                     539 non-null    int64  
 4   track_popularity                 539 non-null    int64  
 5   track_id                         531 non-null    object 
 6   track_name                       532 non-null    object 
 7   audio_features.danceability      537 non-null    float64
 8   audio_features.energy            537 non-null    float64
 9   audio_features.key               538 non-null    float64
 10  audio_features.loudness          537 non-null    float64
 11  audio_features.mode              539 non-null    int64  
 12  audio_features.speechi

In [31]:
df.isnull().sum()

disc_number                         0
duration_ms                         0
explicit                            0
track_number                        0
track_popularity                    0
track_id                            8
track_name                          7
audio_features.danceability         2
audio_features.energy               2
audio_features.key                  1
audio_features.loudness             2
audio_features.mode                 0
audio_features.speechiness          1
audio_features.acousticness         1
audio_features.instrumentalness     0
audio_features.liveness             1
audio_features.valence              0
audio_features.tempo                1
audio_features.id                   0
audio_features.time_signature       1
artist_id                           0
artist_name                         0
artist_popularity                   0
album_id                            0
album_name                         62
album_release_date                  0
album_total_

El dataset se conforma por 539 filas, pero podemos ver que hay valores nulos, vamos a hacer una exploración de las columnas con datos nulos.

In [37]:
df_null_track_id = df[df.track_id.isnull()]
df_null_track_id[['track_id', 'audio_features.id']]

Unnamed: 0,track_id,audio_features.id
321,,1ZY1PqizIl78geGM4xWlEA
363,,5zytSTR2g0I9psX2Z12ex6
375,,3nRmDz7qGCvsMS30rGGY0x
379,,6aLOekfwbytwWvQftxTEF0
382,,2NlmmAjGYrrjAp0MED5rGx
434,,1IsquhJFJ0qcFZI7FeAEuN
442,,3lm4L3pPL32PFy74dR17OR
445,,0GxW5K0qzrq7L1jwSY5OmY


In [35]:
df_null = df[df.isnull().sum(1) > 0]
df_null

Unnamed: 0,disc_number,duration_ms,explicit,track_number,track_popularity,track_id,track_name,audio_features.danceability,audio_features.energy,audio_features.key,...,audio_features.tempo,audio_features.id,audio_features.time_signature,artist_id,artist_name,artist_popularity,album_id,album_name,album_release_date,album_total_tracks
77,1,191039,False,13,68,1QQii3pa5m8MEda0nbkjfw,,0.661,0.345,4.0,...,125.977,1QQii3pa5m8MEda0nbkjfw,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,1fnJ7k0bllNfL1kVdNVW1A,Midnights (The Til Dawn Edition),2027-05-26,24
91,1,200690,False,3,71,02Zkkf2zMkwRGQjZ7T4p8f,,0.638,0.634,4.0,...,96.953,02Zkkf2zMkwRGQjZ7T4p8f,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,3lS1y25WAhcqJDATJK70Mq,Midnights (3am Edition),2022-10-22,20
104,1,196258,False,16,72,7712gjoih4QoDbXpljEk21,,0.700,0.509,7.0,...,110.947,7712gjoih4QoDbXpljEk21,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,3lS1y25WAhcqJDATJK70Mq,Midnights (3am Edition),2022-10-22,20
321,1,209680,False,8,84,,Gorgeous,0.800,0.535,7.0,...,92.027,1ZY1PqizIl78geGM4xWlEA,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,6DEjYFkNZh67HP7R9PSZvv,reputation,2017-11-10,15
329,1,329160,False,1,42,00vJzaoxM3Eja1doBUhX0P,All Too Well,0.602,0.605,0.0,...,93.061,00vJzaoxM3Eja1doBUhX0P,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,1MPAXuTVL2Ej5x0JHiSPq8,,2017-11-09,46
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
441,1,404680,False,13,48,4DbI1rr4IQ2bc8nejy9ttd,Dear John - Live/2011,0.521,0.386,4.0,...,119.518,4DbI1rr4IQ2bc8nejy9ttd,3.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,6fyR4wBPwLHKcRtxgd4sGh,,2010-10-25,16
442,1,389213,False,14,49,,Enchanted - Live/2011,0.340,0.663,8.0,...,163.678,3lm4L3pPL32PFy74dR17OR,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,6fyR4wBPwLHKcRtxgd4sGh,,2010-10-25,16
443,1,292426,False,15,48,6znB7YZhMJT2B83zfbiyLq,Haunted - Live/2011,0.338,0.818,5.0,...,162.157,6znB7YZhMJT2B83zfbiyLq,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,6fyR4wBPwLHKcRtxgd4sGh,,2010-10-25,16
444,1,376466,False,16,48,5QkzyLUb4ggojNDp8G2OxX,Long Live - Live/2011,0.544,0.728,7.0,...,101.939,5QkzyLUb4ggojNDp8G2OxX,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,6fyR4wBPwLHKcRtxgd4sGh,,2010-10-25,16
