## Importando as libs

In [2]:
import pandas as pd
import json
import datetime as dt
import glob
import os
import numpy as np
import warnings
warnings.filterwarnings("ignore")

## Carregamento e tratamento dos dados

In [3]:
## Lendo outros arquivos com os nomes de artistas e podcasts ======================================= ##
# Atribuindo arquivo a uma variável provisória pra leitura
file = 'data/YourLibrary.json'
# Carregando arquivo
with open(file, encoding='utf-8') as data:
    data = json.load(data)
# criando uma lista apenas com o nome de cada artista usando o método json_normalize
artists = pd.json_normalize(data, 'artists')['name'].tolist()
# criando uma lista apenas com o nome de cada podcasts usando o método json_nomalize
podcasts = list(pd.json_normalize(data, 'shows')['name'])

## Carregando o dados de contendo: nome do artista, nome da musica, milisegundos escutado, etc..
# setando pasta com os arquivos
path = 'data/dataset_Json'                     
todos_arquivos = glob.glob(os.path.join(path, "*.json")) 
# criando um laço para ler todos os arquivos contidos na pasta
dfs = (pd.read_json(arquivo) for arquivo in todos_arquivos)
#concatenando todps ps dfs
df = pd.concat(dfs, ignore_index=True)
# transformando milisegundo em minutos
df['minutos'] = df['msPlayed'].apply(lambda x: x / 60000).astype('float64')
# transformando minutos em horas
df['horas'] = df['minutos'].apply(lambda x: x / 60).astype('float64')
# trasnformando coluna em datetime
df['endTime'] = pd.to_datetime(df['endTime'])
# estraindo apenas a data e atribuindo a uma nova coluna
df.insert(loc=0, column='data', value=pd.to_datetime(df['endTime'].dt.strftime('%d/%m/%Y')))
# removeando colunas 
df.drop(axis=1, columns=['endTime'], inplace=True)
# renomeando colunas
df.rename(columns={'artistName': "artista_podcast",
                   'trackName': 'nome_da_musica'}, inplace=True)
# Fitrando apenas dados do ano 2021
df = df[df['data'] >= "2021-01-01"]
df['data'] = df['data'].dt.strftime("%d/%m/%Y")
# Transformando coluna de data em index
df.index = pd.to_datetime(df['data'])
# filtrando apenas os dados contendo os artistas e podcasts 
df = df.query(f'artista_podcast == {artists} | artista_podcast == {podcasts}')
# transformando df em um novo arquivo csv
df.to_csv('data/spotify_Streaming_History.csv', index=False)

## Horas escutadas por mes

In [4]:
df_horas_escutadas_por_mes= df.resample('m')[['horas']].sum().round().astype(np.int64)
df_horas_escutadas_por_mes.to_csv('data/horas_escutadas_por_mes.csv', index=True)

## As bandas mais escutadas

In [5]:
# criando um novo df a partir de uma query
top_10_bandas = df.query(f'artista_podcast == {artists}')[[
    'data','artista_podcast', 'horas'
]]
# transformando df em um novo arquivo csv
top_10_bandas.to_csv("data/bandas_mais_tocadas.csv", index=False)
top_10_bandas

Unnamed: 0_level_0,data,artista_podcast,horas
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-01-02,01/02/2021,David Bowie,0.070637
2021-01-02,01/02/2021,AC/DC,0.004104
2021-01-02,01/02/2021,David Bowie,0.076318
2021-01-02,01/02/2021,Queen,0.000278
2021-01-02,01/02/2021,Huey Lewis & The News,0.056597
...,...,...,...
2021-09-23,23/09/2021,Aerosmith,0.000114
2021-09-23,23/09/2021,The Rolling Stones,0.066429
2021-09-23,23/09/2021,Arctic Monkeys,0.000208
2021-09-23,23/09/2021,The Rolling Stones,0.000284


## Podcasts mais tocados

In [6]:
# criando uma query apenas com os Podcasts
podcasts_mais_tocados = df.query(f'artista_podcast == {podcasts}')[['data','artista_podcast', 'horas']]
podcasts_mais_tocados.rename(columns={"artista_podcast": "podcasts"}, inplace=True)
# transformando df em um novo arquivo csv
podcasts_mais_tocados.to_csv("data/podcasts_mais_tocados.csv", index=False)
# visualizando dados
podcasts_mais_tocados

Unnamed: 0_level_0,data,podcasts,horas
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-01-01,01/01/2021,Inteligência Ltda.,0.007217
2021-01-04,01/04/2021,Inteligência Ltda.,0.903926
2021-01-04,01/04/2021,NerdCast,0.036900
2021-01-04,01/04/2021,Inteligência Ltda.,0.967833
2021-01-04,01/04/2021,Inteligência Ltda.,0.608189
...,...,...,...
2021-09-17,17/09/2021,Sinapse,0.530589
2021-09-20,20/09/2021,Sinapse,0.040160
2021-09-20,20/09/2021,Sinapse,0.002251
2021-09-21,21/09/2021,NerdCast,1.315678


## Musicas tocadas mais vezes

In [7]:
musica_tocadas_mais_vezes = df.query(f'artista_podcast != {podcasts}')
# concatenando colunas nome_da_musica e artista_podcast
musica_tocadas_mais_vezes['nome_da_musica'] = musica_tocadas_mais_vezes['nome_da_musica'] + " " + "(" +musica_tocadas_mais_vezes['artista_podcast']+ ")"
# removendo coluna artista_podcast
musica_tocadas_mais_vezes.drop(axis=1, columns='artista_podcast', inplace=True)
# # Removendo texto 'Remaster' de cada musica para uma melhor vizualização
musica_tocadas_mais_vezes['nome_da_musica'] = musica_tocadas_mais_vezes['nome_da_musica'].apply(lambda x: x.replace("Remastered", " "))\
                                            .apply(lambda x: x.replace("Remaster", " ")).apply(lambda x: x.replace("-", " "))
# # Salvando dados
musica_tocadas_mais_vezes.to_csv('data/musica_tocadas_mais_vezes.csv', index=True)
musica_tocadas_mais_vezes

Unnamed: 0_level_0,data,nome_da_musica,msPlayed,minutos,horas
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021-01-02,01/02/2021,Starman 2012 (David Bowie),254293,4.238217,0.070637
2021-01-02,01/02/2021,T.N.T. (AC/DC),14774,0.246233,0.004104
2021-01-02,01/02/2021,Rebel Rebel 2016 (David Bowie),274746,4.579100,0.076318
2021-01-02,01/02/2021,Crazy Little Thing Called Love 2011 (Queen),1002,0.016700,0.000278
2021-01-02,01/02/2021,The Power Of Love (Huey Lewis & The News),203750,3.395833,0.056597
...,...,...,...,...,...
2021-09-23,23/09/2021,Sunny Side Of Love (Aerosmith),410,0.006833,0.000114
2021-09-23,23/09/2021,Don't Stop (The Rolling Stones),239146,3.985767,0.066429
2021-09-23,23/09/2021,R U Mine? (Arctic Monkeys),750,0.012500,0.000208
2021-09-23,23/09/2021,Harlem Shuffle 2009 (The Rolling Stones),1023,0.017050,0.000284
