# **Primera parte**
**Enunciado**: 

"El siguiente archivo fue extraído de la API de Spotify taylor_swift_spotify.json y usted deberá crear un script en Python que lo procese y lo deje con el siguiente formato dataset.csv . Para esta primera parte de la prueba solo podrá usar Python y las librerías
Pandas y JSON".

**Entregable**: 

Archivo de Python con la solución del problema.

In [41]:
import pandas as pd
import json

pd.set_option('display.max_columns', None)

## **Solución**
La prueba técnica comienza leyendo y dando formato a un archivo JSON que proviene de la API de Spotify. El formato final que debe tener el archivo JSON es el siguiente

In [42]:
# Leer archivo CSV con el formato final
json_formato = pd.read_csv('Datos/dataset.csv')
json_formato.head(3)

Unnamed: 0,disc_number,duration_ms,explicit,track_number,track_popularity,track_id,track_name,audio_features.danceability,audio_features.energy,audio_features.key,audio_features.loudness,audio_features.mode,audio_features.speechiness,audio_features.acousticness,audio_features.instrumentalness,audio_features.liveness,audio_features.valence,audio_features.tempo,audio_features.id,audio_features.time_signature,artist_id,artist_name,artist_popularity,album_id,album_name,album_release_date,album_total_tracks
0,1,212600,False,1,77,4WUepByoeqcedHoYhSNHRt,Welcome To New York (Taylor's Version),0.757,0.61,7.0,-4.84,1,0.0327,0.00942,3.66e-05,0.367,0.685,116.998,4WUepByoeqcedHoYhSNHRt,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,1o59UpKw81iHR0HPiSkJR0,1989 (Taylor's Version) [Deluxe],2023-10-27,22
1,1,231833,False,2,78,0108kcWLnn2HlH2kedi1gn,Blank Space (Taylor's Version),0.733,0.733,0.0,-5.376,1,0.067,5.0,0.0,0.168,0.701,96.057,0108kcWLnn2HlH2kedi1gn,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,1o59UpKw81iHR0HPiSkJR0,1989 (Taylor's Version) [Deluxe],2023-10-27,22
2,1,231000,False,3,79,3Vpk1hfMAQme8VJ0SNRSkd,Style (Taylor's Version),0.511,0.822,11.0,-4.785,0,0.0397,0.000421,0.0197,0.0899,0.305,94.868,3Vpk1hfMAQme8VJ0SNRSkd,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,1o59UpKw81iHR0HPiSkJR0,1989 (Taylor's Version) [Deluxe],2023-10-27,22


El detalle de cada campo se muestra a continuación. En total debe haber 27 columnas 

In [43]:
# Detalle del formato
json_formato.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 539 entries, 0 to 538
Data columns (total 27 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   disc_number                      539 non-null    int64  
 1   duration_ms                      539 non-null    int64  
 2   explicit                         539 non-null    object 
 3   track_number                     539 non-null    int64  
 4   track_popularity                 539 non-null    int64  
 5   track_id                         531 non-null    object 
 6   track_name                       532 non-null    object 
 7   audio_features.danceability      537 non-null    float64
 8   audio_features.energy            537 non-null    float64
 9   audio_features.key               538 non-null    float64
 10  audio_features.loudness          537 non-null    float64
 11  audio_features.mode              539 non-null    int64  
 12  audio_features.speechi

### **Explorando el archivo JSON**

Los archivos JSON (JavaScript Object Notation) son un formato de texto ligero y fácil de leer que se utiliza ampliamente para el intercambio de datos entre aplicaciones y sistemas, y son especialmente populares en las APIs.

Un archivo JSON se define entre llaves ({}) y los datos se estructuran mediante pares de clave:valor separados por comas. Las claves son cadenas de texto mientras los valores pueden ser cadenas de texto, números flotantes o enteros, booleanos, arrays, objetos (otro JSON) o null. Los arrays se definen utilizando corchetes ([]) y pueden contener valores de cualquier tipo, incluyendo otros arrays u objetos. Un ejemplo de un archivo JSON sencillo sería: '{"name":"John", "age":30, "car":null}'

Para empezas vamos a analizar el archivo JSON leyendolo en modo lectura con el método json.load y explorar un poco su estructura

In [44]:
# Cargar el archivo JSON
with open('Datos/taylor_swift_spotify.json', 'r') as file:
    spotify_json = json.load(file)

Ahora imprimamos los pares clave:valor de alto nivel 

In [None]:
# Inspeccionando pares clave valor a alto nivel
for i in spotify_json.keys():
    print('Clave:Valor -->', i,':', spotify_json[i])

El documento spotify_json sería el primer nivel. Dentro de él observamos que la clave 'albums' contiene una lista de objetos que conforman un segundo nivel. A su vez, 'albums' tiene una clave 'tracks' que contiene otra lista de objetos y conforma un tercer nivel. Finalmente, dentro de 'tracks' existe la clave 'audio_features' que contiene un objeto y forma un cuarto nivel

In [46]:
# Niveles de anidamiento
nivel1 = spotify_json.keys()
nivel2 = spotify_json['albums'][0].keys()
nivel3 = spotify_json['albums'][0]['tracks'][0].keys()
nivel4 = spotify_json['albums'][0]['tracks'][0]['audio_features'].keys()
niveles = [nivel1, nivel2, nivel3, nivel4]

for i, nivel in enumerate(niveles):
    print('Claves nivel', i+1,':', list(nivel))

Claves nivel 1 : ['artist_id', 'artist_name', 'artist_popularity', 'albums']
Claves nivel 2 : ['album_id', 'album_name', 'album_release_date', 'album_total_tracks', 'tracks']
Claves nivel 3 : ['disc_number', 'duration_ms', 'explicit', 'track_number', 'audio_features', 'track_popularity', 'track_id', 'track_name']
Claves nivel 4 : ['danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'id', 'time_signature']


El ultimo objeto dentro de la anidación es el siguiente

In [47]:
# Objeto contenido en la clave 'audio_features'
spotify_json['albums'][0]['tracks'][0]['audio_features']

{'danceability': 0.757,
 'energy': 0.61,
 'key': 7,
 'loudness': -4.84,
 'mode': 1,
 'speechiness': 0.0327,
 'acousticness': 0.00942,
 'instrumentalness': 3.66e-05,
 'liveness': 0.367,
 'valence': 0.685,
 'tempo': 116.998,
 'id': '4WUepByoeqcedHoYhSNHRt',
 'time_signature': 4}

Observamos que tenemos un JSON con listas de objetos anidados, por lo que para pasarlo a formato tabular debemos manejar bien esta estrucutura. Esta tarea la podemos realizar mediante bucles y condicionales o utilizando la función de pandas json_normalize() para aplanarlo de forma más simple, hagamos la segunda

### **Aplanando el archivo**

La forma de aplanar todos los datos contenidos en el JSON hasta el nivel 1 utilizando el método de pandas json_normalize() es la siguiente

In [48]:
df_spotify = pd.json_normalize(
    spotify_json,
    record_path=['albums', 'tracks'],
    meta=['artist_id', 'artist_name','artist_popularity', ['albums','album_id'], ['albums','album_name'], ['albums','album_release_date'], ['albums','album_total_tracks']],
    sep='.'
)

Vamos a desmenuzar cómo llegamos acá. Primero empecamos aplicando el método sobre el archivo JSON puro

In [49]:
pd.json_normalize(
    spotify_json
)

Unnamed: 0,artist_id,artist_name,artist_popularity,albums
0,06HL4z0CvFAxyc27GX,Taylor Swift,120,"[{'album_id': '1o59UpKw81iHR0HPiSkJR0', 'album..."


Vemos que el campo 'albums' contiene una lista de objeto no aplanados (en un segundo nivel), para indicarle que sea aplanado utilizamos el atributo "record_path"

In [50]:
pd.json_normalize(
    spotify_json,
    record_path=['albums'],
).iloc[:1,:]

Unnamed: 0,album_id,album_name,album_release_date,album_total_tracks,tracks
0,1o59UpKw81iHR0HPiSkJR0,1989 (Taylor's Version) [Deluxe],2023-10-27,22,"[{'disc_number': 1, 'duration_ms': 212600, 'ex..."


Observamos que los objetos de 'albums' fueron aplanados, pero no incluyó los campos del primer nivel. Para ello vamos a utilizar el atributo "meta" donde indicamos aquellos campos de nivel superior que queremos agregar y de esta manera tener el JSON aplanado totalmente hasta un segundo nivel 

In [51]:
pd.json_normalize(
    spotify_json,
    record_path=['albums'],
    meta=['artist_id', 'artist_name','artist_popularity']
).iloc[:1,:]

Unnamed: 0,album_id,album_name,album_release_date,album_total_tracks,tracks,artist_id,artist_name,artist_popularity
0,1o59UpKw81iHR0HPiSkJR0,1989 (Taylor's Version) [Deluxe],2023-10-27,22,"[{'disc_number': 1, 'duration_ms': 212600, 'ex...",06HL4z0CvFAxyc27GX,Taylor Swift,120


Sucede que el archivo resultante contiene un campo 'tracks' con una lista de objetos que debemos aplanar (el tercer nivel), para ello nos toca definirle la ruta del campo interno en parentesis así ['albums', 'tracks'] y agregarle todos los campos de nivel superior que queremos incluir usando el mismo principio de ruta de campo interno

In [52]:
pd.json_normalize(
    spotify_json,
    record_path=['albums', 'tracks'],
    meta=['artist_id', 'artist_name','artist_popularity', ['albums','album_id'], ['albums','album_name'], ['albums','album_release_date'], ['albums','album_total_tracks']],
    sep='.'
).iloc[:1,:]

Unnamed: 0,disc_number,duration_ms,explicit,track_number,track_popularity,track_id,track_name,audio_features.danceability,audio_features.energy,audio_features.key,audio_features.loudness,audio_features.mode,audio_features.speechiness,audio_features.acousticness,audio_features.instrumentalness,audio_features.liveness,audio_features.valence,audio_features.tempo,audio_features.id,audio_features.time_signature,artist_id,artist_name,artist_popularity,albums.album_id,albums.album_name,albums.album_release_date,albums.album_total_tracks
0,1,212600,False,1,77,4WUepByoeqcedHoYhSNHRt,Welcome To New York (Taylor's Version),0.757,0.61,7.0,-4.84,1,0.0327,0.00942,3.7e-05,0.367,0.685,116.998,4WUepByoeqcedHoYhSNHRt,4.0,06HL4z0CvFAxyc27GX,Taylor Swift,120,1o59UpKw81iHR0HPiSkJR0,1989 (Taylor's Version) [Deluxe],2023-10-27,22


Observamos que no existe un campo que contenga otra lista de objetos u objetos, por lo que el archivo fue totalmente aplanado. En realidad, en el tercer nivel 'tracks' existe la clave 'audio_features' que contiene un objeto pero que fue automaticamente aplanado por el método ya que no se encontraba dentro de una lista

### **Validando formato**

El JSON aplanado tiene las mismas filas y columnas que el formato

In [53]:
# Comparando dimensiones
print('¿Tienen las mismas dimensiones los dataframes?')
print(json_formato.shape == df_spotify.shape)

¿Tienen las mismas dimensiones los dataframes?
True


Las columnas concuerdan en orden y contenido, pero hay ligeras variaciones en su nombre por lo que las homologamos respecto el formato

In [54]:
# Renombrando columnas segun el formato
dic_columns = dict(zip(df_spotify.columns, json_formato.columns))
df_spotify.rename(columns=dic_columns, inplace=True)

Ahora vamos a verificar la presencia de nulos previo a evalua el tipo de datos

In [55]:
# Comparando prescencia de nulos por columna
null_difereces = []

for col in df_spotify.columns:
    if df_spotify[col].isnull().sum() != json_formato[col].isnull().sum():
        print(f'Diferencia en {col} --> {json_formato[col].isnull().sum()} vs {df_spotify[col].isnull().sum()} nulos (formato vs actual)')
        null_difereces.append(col)

Diferencia en track_id --> 8 vs 4 nulos (formato vs actual)
Diferencia en track_name --> 7 vs 3 nulos (formato vs actual)
Diferencia en audio_features.danceability --> 2 vs 1 nulos (formato vs actual)
Diferencia en audio_features.acousticness --> 1 vs 0 nulos (formato vs actual)
Diferencia en audio_features.tempo --> 1 vs 0 nulos (formato vs actual)
Diferencia en album_name --> 62 vs 46 nulos (formato vs actual)


Observamos que la lectura el JSON generó menor número de nulos respecto al formato CSV dado para el ejercicio. Analizando aquellos registros nulos adicionales que están el dataframe de formato vemos que existen registros nulos que al ser leido desde el JSON se cargaron como ""

In [56]:
# Nulos que deberian estar en el JSON leido
for column in null_difereces:
    print(f'Valores que deberian ser nulos en {column}:', end='')
    display(df_spotify[json_formato[column].isnull()][column].to_frame())

Valores que deberian ser nulos en track_id:

Unnamed: 0,track_id
321,
363,
375,
379,
382,
434,
442,
445,


Valores que deberian ser nulos en track_name:

Unnamed: 0,track_name
77,
91,
104,
391,
396,
401,
408,


Valores que deberian ser nulos en audio_features.danceability:

Unnamed: 0,audio_features.danceability
330,
431,


Valores que deberian ser nulos en audio_features.acousticness:

Unnamed: 0,audio_features.acousticness
431,


Valores que deberian ser nulos en audio_features.tempo:

Unnamed: 0,audio_features.tempo
432,


Valores que deberian ser nulos en album_name:

Unnamed: 0,album_name
329,
330,
331,
332,
333,
...,...
440,
441,
442,
443,


Reemplazando el valor "" por null

In [57]:
# Reemplazar notación de nulos
df_spotify[null_difereces] = df_spotify[null_difereces].replace('', None)

In [58]:
# Verificando que los nulos sean iguales
df_spotify.isnull().sum() == json_formato.isnull().sum()

disc_number                        True
duration_ms                        True
explicit                           True
track_number                       True
track_popularity                   True
track_id                           True
track_name                         True
audio_features.danceability        True
audio_features.energy              True
audio_features.key                 True
audio_features.loudness            True
audio_features.mode                True
audio_features.speechiness         True
audio_features.acousticness        True
audio_features.instrumentalness    True
audio_features.liveness            True
audio_features.valence             True
audio_features.tempo               True
audio_features.id                  True
audio_features.time_signature      True
artist_id                          True
artist_name                        True
artist_popularity                  True
album_id                           True
album_name                         True


Ahora tenemos verificado la presencia de nulos, revisemos el tipo de datos

In [59]:
# Comparando tipo de datos respecto al formato
for i in df_spotify.columns:
    if df_spotify[i].dtype != json_formato[i].dtype:
        print(f'Diferencia en {i}: {json_formato[i].dtype} vs {df_spotify[i].dtype} (formato vs actual)')

Diferencia en audio_features.danceability: float64 vs object (formato vs actual)
Diferencia en audio_features.acousticness: float64 vs object (formato vs actual)
Diferencia en audio_features.tempo: float64 vs object (formato vs actual)
Diferencia en artist_popularity: int64 vs object (formato vs actual)


Como hay diferencia en el tipo de datos, vamos a igualarlos

In [60]:
# Igualando tipo de datos
tipo_datos = json_formato.dtypes
df_spotify = df_spotify.astype(tipo_datos)

In [61]:
# Verificando que los tipos de datos sean iguales
df_spotify.dtypes == json_formato.dtypes

disc_number                        True
duration_ms                        True
explicit                           True
track_number                       True
track_popularity                   True
track_id                           True
track_name                         True
audio_features.danceability        True
audio_features.energy              True
audio_features.key                 True
audio_features.loudness            True
audio_features.mode                True
audio_features.speechiness         True
audio_features.acousticness        True
audio_features.instrumentalness    True
audio_features.liveness            True
audio_features.valence             True
audio_features.tempo               True
audio_features.id                  True
audio_features.time_signature      True
artist_id                          True
artist_name                        True
artist_popularity                  True
album_id                           True
album_name                         True


Ahora vamos a verificar campo a campo para encontrar diferencias entre el formato y el JSON leido

In [62]:
# Comparando campo a campo
for i in json_formato.columns:
    if json_formato[i].equals(df_spotify[i]):
        continue
    else:
        print('Las columnas', i, 'son diferentes')

Las columnas explicit son diferentes
Las columnas audio_features.instrumentalness son diferentes
Las columnas album_total_tracks son diferentes


En los campos 'audio_features.instrumentalness','explicit' y 'album_total_tracks' hay diferencias, exploremos por qué 

In [63]:
# Vista de las columnas en el JSON
df_spotify[['audio_features.instrumentalness','explicit','album_total_tracks']].head(5)

Unnamed: 0,audio_features.instrumentalness,explicit,album_total_tracks
0,3.7e-05,False,22
1,0.0,False,22
2,0.0197,False,22
3,5.6e-05,False,22
4,0.0,False,22


In [64]:
# Vista de las columnas en formato
json_formato[['audio_features.instrumentalness','explicit','album_total_tracks']].head(5)

Unnamed: 0,audio_features.instrumentalness,explicit,album_total_tracks
0,3.66e-05,False,22
1,0.0,False,22
2,0.0197,False,22
3,5.59e-05,False,22
4,0.0,False,22


In [65]:
# Vista de las columnas en el formato
json_formato[['audio_features.instrumentalness','explicit','album_total_tracks']].dtypes

audio_features.instrumentalness    object
explicit                           object
album_total_tracks                 object
dtype: object

In [66]:
# Vista de las columnas en el JSON
df_spotify[['audio_features.instrumentalness','explicit','album_total_tracks']].dtypes

audio_features.instrumentalness    object
explicit                           object
album_total_tracks                 object
dtype: object

In [67]:
# Valores únicos de la columna 'explicit' en el formato
print(json_formato['explicit'].unique())

['False' 'True' 'Si' 'No']


In [68]:
# Valores únicos de la columna 'explicit' en el JSON
print(df_spotify['explicit'].unique())

[False True 'Si' 'No']


In [69]:
# Valores únicos de la columna 'album_total_tracks' en el formato
json_formato['album_total_tracks'].unique()

array(['22', '21', '24', '20', '13', '34', '26', '17', '10', '16', '18',
       '15', '46', '19', '14', '8', 'Thirteen'], dtype=object)

In [70]:
# Valores únicos de la columna 'album_total_tracks' en el JSON
df_spotify['album_total_tracks'].unique()

array([22, 21, 24, 20, 13, 34, 26, 17, 10, 16, 18, 15, 46, 19, 14, 8,
       'Thirteen'], dtype=object)

Con esta exploración se encuentra la causa de la diferencia, para ello hay que entender el tipo de datos 'object' en Pandas. Object es un tipo de datos genérico que puede almacenar cualquier tipo de valor, como valores booleanos, cadenas de texto, números, fechas, etc. Sin embargo, esto puede causar ambigüedad al interpretar los valores de la columna. Por ejemplo, si se observa el valor "True", no se sabe si se trata de un valor booleano True o de una cadena de texto "True"

Para evitar esta ambigüedad, es recomendable convertir los valores a un tipo de datos específico. Vamos a cambiar el tipo de datos de estas columnas para solucionarlo, y adicional realizar unos reemplazos de valores para estandarizar

In [71]:
# Función para convertir valores en notación "x" a notación "e"
def x_to_e(valor):
    valor = str(valor)
    if 'x' in valor:
        valor = valor.replace('x', 'e')
    return valor

In [72]:
# Cambiando tipos de datos
json_formato['audio_features.instrumentalness'] = json_formato['audio_features.instrumentalness'].apply(x_to_e).astype(float).round(6)
df_spotify['audio_features.instrumentalness'] = df_spotify['audio_features.instrumentalness'].apply(x_to_e).astype(float).round(6)

json_formato['explicit'] = json_formato['explicit'].replace({'False': False, 'True': True, 'Si': True, 'No': False}).astype(bool)
df_spotify['explicit'] = df_spotify['explicit'].replace({'False': False, 'True': True, 'Si': True, 'No': False}).astype(bool)

json_formato['album_total_tracks'] = json_formato['album_total_tracks'].replace('Thirteen',13).astype(int)
df_spotify['album_total_tracks'] = df_spotify['album_total_tracks'].replace('Thirteen',13).astype(int)

De esta manera ambos datasets quedan iguales

In [73]:
df_spotify.equals(json_formato)

True