<a href="https://colab.research.google.com/drive/1ZPWjU5vXgulQUjTW4VSHmRH8YIsEKiQH?authuser=1#scrollTo=view-in-github" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise de Dados do Spotify**

## **Objetivo do projeto:**

O objetivo desse projeto é que seja feita uma análise de dados dos álbuns do spotify, passando pelas principais etapas de uma análise de dados. Coleta dos dados, pre-processamento, exploração e visualização dos dados.

Um outro objetivo é que a partir das conclusões feitas da análise dos dados das músicas dos álbuns, seja identificado fatores que ajudam ou contribuem um álbum ou música a ter sucesso e como isso pode ser usado para futuros lançamentos.

## **Etapas do projeto**

* Coleta do dados
   1. Api do spotify
   2. Dicionario dos dados
   3. Importar os pacotes e dataset necessários
   4. Leitura do arquivo

* Limpeza e preparação dos dados
    1. Renomear colunas
    2. Verificar os tipos das colunas
    3. Alterar os tipos de colunas
    4. Verificar dados ausentes
    5. Preencher dados ausentes
    6. Corrigindo dados duplicados
  
* Exploração e visualização dos dados

## **Coleta dos dados**



A coleta de dados é a primeira etapa de todo projeto de Data Science, caso seja optado por não coletar um conjunto de dados já pronto, devemos procurar fontes de dados que possam ser uteis para construir nossa base de dados e das fontes extrair os dados.

Uma das formas mais famosas de coletar dados já prontos para realizar projetos é buscando em fontes confiaveis como kaggle ou portais governamentais, entretanto, o que queremos são dados que dificilmente encontrariamos na internet, além de se tratar de dados de um artista especifico, ainda assim é um artista que não possui grande popularidade.

A primeira alternativa de coletarmos os dados seria fazendo o uso de web scraping, web scraping como o proprio nome já diz é a coleta de dados da web, ou raspagem web, sendo uma forma de mineração que permite a extração de dados de sites da web, convertendo-os em informação estruturada para posterior análise. Porém, com meu pouco conhecimento em web scraping, não sei se seria possivel coletar os dados do site do Spotify dessa forma.


Por outro lado, temos uma seguda e mais viavel alternativa, apesar de não ser tão conhecida, o Spotify possui uma API onde podemos coletar e usar os dados de todos os artistas cadastrados no spotify ou até mesmo do próprio usuário. Porém, para coletar os dados fornecidos pela API do Spotify é necessário primeiro ter o acesso a API e depois se conectar com API e coletar os dados fornecidos. Logo, para ter acesso a API do Spotify precisamos criar uma aplicação web na [plataforma de desenvolvedores do Spotify](https://developer.spotify.com/dashboard/login) e resgatar o **Client_Id** e **Client_Secret**, feito isso, utilizaremos a biblioteca SpotiPy do Python para se conectar com a API (Através do Client_ID e Client_Secret) e conseguir, finalmente, coletar os dados do Spotify.

A biblioteca SpotiPy tem o objetivo de que o usuário tenha acesso total a todos os dados musicais fornecidos pela plataforma Spotify. Com a biblioteca SpotiPy é possivel coletar as mais diversas informações de um artista do Spotify, seja informações das músicas do artista, dos álbuns ou até mesmo informações de catálogo do Spotify sobre artistas semelhantes ao artista identificado. Atráves
da documentação da biblioteca você pode encontrar outras informações que podem ser possiveis de coletar do spotify e começar a aplicar na prática (https://spotipy.readthedocs.io/en/2.12.0/).

*Agradecimento especial a Dandara Sousa, as dicas passadas através do Linkedin e seu projeto de análise de dados e forró foram muito uteis para a construção desse projeto.*

### **Coletar os dados da API do Spotify com a biblioteca SpotiPy**

####**Criando conexão com a API através do SpotiPy**

A primeira coisa a se fazer é instalar corretamente a biblioteca SpotiPy que será utilizada para se conectar com a API e coletar os dados do Spotify fornecidos

In [None]:
#Instalar a biblioteca
!pip install spotipy

Collecting spotipy
  Downloading spotipy-2.23.0-py3-none-any.whl (29 kB)
Collecting redis>=3.5.3 (from spotipy)
  Downloading redis-5.0.1-py3-none-any.whl (250 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m250.3/250.3 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: redis, spotipy
Successfully installed redis-5.0.1 spotipy-2.23.0


Após isso, já podemos importar as bibliotecas que serão necessárias para coletar os dados, Spotipy e a biblioteca csv para ao final transformar os dados coletados em um arquivo csv.

In [None]:
#Importar as bibliotecas necessárias
import spotipy
import csv



Chegou a hora de conectarmos com a API, para isso, importaremos o pacote de credenciais e passaremos as credenciais da aplicação web que foi criada na plataforma de desenvolvedores do Spotify, sendo o Client Id e Client Secret. A variável spot é o que nos conecta com API e permite coletarmos os dados do Spotify, então será muito útil.

In [None]:
#Credenciais para conectar com a API
from spotipy.oauth2 import SpotifyClientCredentials

spot = spotipy.Spotify(client_credentials_manager = SpotifyClientCredentials(client_id="c7f1dc6cc0ae4d3086797301bd59dc68", client_secret="e71cf5628e4947b6a764e868422db01e"))

A variável **spot** é o que nos conecta com  API e permite coletarmos os dados do Spotify, então será muito útil.

####**Coletando os dados do Spotify fornecidos pela API com SpotiPy**

Para coletar os dados serão criadas funções que ao final serão chamadas ao escolhermos de qual artista queremos coletar os dados.



Logo, a primeira função será uma função que seja responsável por recuperar os dados do artista a partir do seu Nome. O que a função irá fazer é através do método search buscar o nome do artista e a partir disso buscar suas músicas (tracks).

In [None]:
#Função para recuperar dados do artista através do seu Nome
def get_artista_por_nome(coldplay):
    busca = spot.search(coldplay)
    items = busca['tracks']['items']
    if len(items) > 0:
        return items[0]['artists'][0]
    else:
        return None

A partir do artista determinado na função anterior, é preciso criar uma função que recupere o ID do artista, para casos de artista com o mesmo nome, então o ID é algo único do artista cadastro no Spotify e assim não coletaremos os dados de um outro artista

In [None]:
#A partir do artista determinado na função anterior, recuperamos o seu ID
def get_id_do_artista(artist):
    return artist['id']

Com o ID do artista em mãos as coisa ficam mais fáceis e podemos recuperar os nomes de músicas e álbuns que pertencem a ele no Spotify.

O próximo passo é utilizar o ID do artista para construir uma função que retorne tanto os dados do artista, como os álbuns que pertencem a ele no Spotify, ou seja, os dados coletados serão os das músicas que pertencem aos álbuns do artista. Neste caso, repare que no método Limit, eu determinei um limite de 3 álbuns, porém a quantidade pode ser maior de acordo com o número de álbuns que o artista possui no spotify



In [None]:
#Função que irá retornar os dados do artista, através do seu ID
#Ficar atento ao limite

def get_dados_do_artista(id):

  #Retornar albuns do artista
  albuns_do_artista = spot.artist_albums(id, country = 'BR', limit=3)
  albuns = {}

  for i in range(len(albuns_do_artista['items'])):
    id = albuns_do_artista['items'][i]['id']
    name = albuns_do_artista['items'][i]['name']
    albuns[id] = name

  return albuns

Após retornar os álbuns que pertencem ao Artista, ainda é preciso realizar o mais importante, coletar os dados as músicas que fazem parte dos álbuns e os seus dados

In [None]:
#Função para retornar os dados das músicas dos álbuns
def get_dados_dos_albuns(album_id, album_name):
  spotify_album = {}

  #Recuperar as músicas dos álbuns
  tracks = spot.album_tracks(album_id)

  for n in range(len(tracks['items'])):
    id_track = tracks['items'][n]['id']
    track = spot.track(id_track)
    spotify_album[id_track] = {}

    #As variaveis (dados) que estou buscando das músicas
    spotify_album[id_track]['album'] = album_name
    spotify_album[id_track]['track_number'] = track['track_number']
    spotify_album[id_track]['name'] = track['name']
    spotify_album[id_track]['popularity'] = track['popularity']






  return spotify_album


Observe que determinei quais os dados que eu queria coletar das músicas, sendo eles: Nome do álbum que a música pertence, posição da música no álbum, nome da música e a escala da sua popularidade. O código irá retornar um dicionário com as músicas e os seus dados.

Por último, porém não menos importante, precisamos construir uma função que aplique a coleta dos dados á todos os álbuns do artista que solicitamos recuperar.

In [None]:
#Função para retornar os dados de todos os albuns

def get_dados_de_todos_albuns(albums_ids_names):
  spotify_albums = []
  albums_names = []
  for id, name in albums_ids_names.items():
    if name not in albums_names:
      albums_names.append(name)
      dados_dos_albuns = get_dados_dos_albuns(id,name)
    for item in dados_dos_albuns.items():
      spotify_albums.append(item[1])
  return spotify_albums

Para finalizar, será utilizada a biblioteca csv, para que possamos transformar todos os dados coletados dos álbuns em um arquivo CSV.

In [None]:
#Para poder analisar os dados coletados, precisamos criar uma Func p/ transformar todos os dados coletados em um arquivo CSV
def convert_to_csv(filepath, name):
  keys = filepath[0].keys()
  print(keys)
  csv_name = ''+ name + '.csv'
  with open(csv_name, 'w') as output_file:
    dict_writer = csv.DictWriter(output_file, keys)
    dict_writer.writeheader()
    dict_writer.writerows(filepath)
  return

Após construir a função para converter os dados das músicas dos álbuns coletados em um arquivo CSV, só falta escolher qual será o artista que iremos coletar os dados.

In [None]:
#Agora o mais importante, precisamos determinar de qual artista queremos coletar os dados e fazer a coleta
name = "Coldplay"

artista = get_artista_por_nome(name)

#Se encontrar o artista no spotify:
if artista:
  id_do_artista = get_id_do_artista(artista)
  dados_do_artista = get_dados_do_artista(id_do_artista)
  dados_dos_albuns = get_dados_de_todos_albuns(dados_do_artista)
  convert_to_csv(dados_dos_albuns, 'Coldplay')

else:
  logger.error("Can't find artist: %s", artista)

dict_keys(['album', 'track_number', 'name', 'popularity'])


Neste caso, eu coletei os dados do artista Coldplay, porém como a popularidade das músicas podem alterar diariamente, para não interferir na análise, era preciso utilizar um conjunto de dados de um dia especifico, por esse motivo foi utilizado o conjunto de dados do dia 26-06-2020.

### **O artista ColdPlay**

![Coldplay](https://spinoff.com.br/entrete/wp-content/uploads/2022/04/coldplay-home.jpg)

Fundada em 1996 na Inglaterra pelo vocalista e pianista Chris Martin e o guitarrista Jonny Buckland no University College London. Coldplay vendeu mais de 100 milhões de discos e singles em todo o mundo, tornando-os um dos artistas musicais com mais vendas em todo o mundo. Eles ganharam vários prêmios ao longo de sua carreira, incluindo nove Brit Awards, sete MTV Video Music Awards, oito MTV Europe Music Awards e sete Grammy Awards de 35 indicações. Os três primeiros álbuns da banda — Parachutes (2000), A Rush of Blood to the Head (2002) e X&Y (2005) — estão entre os álbuns mais vendidos da história das paradas do Reino Unido.

### **Dicionario dos dados**

Algumas coisas precisam ser definidas para que a análise fique clara e todos possam entender, então:

O Spotify disponibiliza a popularidade de uma faixa, então obviamente usaremos a popularidade da faixa como uma de nossas variaveis para análise, mas como é feito o cálculo da populariade?. O cálculo da popularidade é feito pelo número de ouvintes daquela música e que na API é definida assim:

*Popularidade da faixa: O valor estará entre 0 e 100, sendo 100 o mais popular. A popularidade é calculada e baseia-se na maior parte no número total de reproduções que a faixa teve e quão recentes foram estas reproduções. Logo, as músicas que estão sendo tocadas com uma maior frequência atualmente terão uma popularidade maior do que as músicas que foram muito tocadas no passado.*

Lembre-se disso, vai ser muito importante pra nossa análise.



**Informações sobre as variáveis**


É importante saber o que cada variável (coluna) significa e a importância delas para o conjunto de dados, para ter um entendimento inicial dos dados. Se o conjunto de dados for da web, normalmente deve ter allguma descrição no site, caso seja um conjunto de dados da empresa, é importante conversar com o pessoal da área de negocios, que normalmente são os que tem um maior entendimento do conjunto de dados. Também não pode ficar de fora uma conversa com alguém especialista no assunto que envolve o conjunto de dados, tendo em vista que é preciso além de entender os dados, entender o meio em que os dados estão envolvidos, para se construir hipoteses e tirar conclusões.

Como eu mesmo fui o responsável por coletar esse conjunto de dados, não encontrei nenhuma informação disponivel sobre as variaveis, porém, o meu entendimento como usuario do spotify foi util o bastante para entender e criar hipoteses sobre o conjunto de dados, além de conhecer, entender e acompanhar as músicas do artista Coldplay.

* album = Nome do albúm
* album_type = Música ou Albúm (Como os dados coletados foram apenas dos álbuns, o tipo sempre será albúm)
* track_number = Posição da música no albúm
* id_track = ID da música no Spotify
* name = Nome da música
* popularity = Popularidade da música
* explicit = A música é explicita ou não
* duration_ms  = Duração da música
* release_date = Data de Lançamento da música
* artists = Nome do artista responsavel pela música


### **Importar os pacotes e datasets necessário**



As bibliotecas que foram utilizadas são as bibliotecas consideradas essenciais para uma análise de dados, sendo Pandas a principal delas, tendo em vista a necessidade de manipular e analisar os dados.

In [None]:
#importar os pacotes necessarios
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#Configurar o notebook
sns.set_style('whitegrid');

#Alterando estilo do matplolib
plt.style.use('ggplot')

### **Leitura do arquivo**

Antes de tudo, deve ser feita uma leitura do arquivo que será utilizado, retirando algumas informações básicas, como: "Como os dados estão separados?", "Qual o tamanho do arquivo", "Quantos registros possuem?", "Vai demorar para o Google colab ler o arquivo?". Essas perguntas são importantes para quando necessario importar o conjunto de dados com o Pandas.

Abrindo o arquivo Coldplay.csv, obviamente, foi possivel identificar que se trata de um arquivo no formato CSV, os dados estão separados por "," e o conjunto possue 55 linhas, ou seja, se trata de um conjunto de dados pequeno e o Google colab não terá muitos problemas para ler o arquivo.

In [None]:
#Importando o conjunto de dados
df = pd.read_csv('/content/coldplay_albums.csv')

Em alguns casos reais, onde é trabalhado com conjuntos de dados maiores e conseguentemente mais pesados, essa etapa de importar os dados pode ser mais trabalhosa, por exigir outros parametros, como header, skiprows, skipfooter, delimiter e entre outros, para que a importação do conjunto de dados ocorra.

Como antes mesmo de importar o conjunto de dados, foi feita uma leitura, eu sei que o conjunto de dados possue 55 linhas, porém, será que a leitura dos dados foi corretamente? Então o primeiro entendimento dos dados será quantas linhas e colunas o conjunto de dados possue.

In [None]:
#Numero de linhas e colunas
print(f'Número de linhas ou variaveis {df.shape[0]}')
print(f'Número de entradas ou colunas {df.shape[1]}')

Número de linhas ou variaveis 15
Número de entradas ou colunas 4


Se observado, a leitura dos dados foi feita de maneira correta e agora sabemos que o conjunto de dados possue 55 linhas ou variaveis e 4 entradas ou colunas. Por mais que pareça algo simples e insignificante, essas informações dão uma noção e entendimento importante para as proximas etapas, como a etapa de deletar colunas ou dados que não serão usados na análise.

## **Limpeza e preparação dos dados**

A etapa de pre-processamento dos dados ou limpeza e preparação dos dados é uma das mais importantes de todo projeto de Data Science ou Machine Learning. Nessa etapa, os dados precisam ser manipulados e tratados, sendo a biblioteca Pandas a principal por desempenhar esse papel. A etapa se dá de forma continua, podendo acontecer durante todo o projeto e não apenas em sua fase especifica, também é a etapa que mais demanda tempo do cientista ou analista de dados, "será que a demanda maior de tempo seja por se tratar da mais importante?". O pre-processamento de dados envolve muito tratamento dos dados e nem tudo será visto nesse projeto.


A limpeza e manipulação dos dados nesse projeto pode parecer algo muito simples e que inicialmente não tem significado, porém, nos casos reais os dados dificilmente virão tratados, limpos e organizados. Por isso, tanto se fala que essa etapa é a etapa que mais se demanda tempo. Sendo a responsável por fazer uma amostra limpa dos dados, para que assim os dados possam ser utilizados em etapas futuras, como na analise exploratoria dos dados, onde os dados precisam estar limpos e organizados para ganharem significados.

A biblioteca Pandas além de ser a principal biblioteca do Python para se manipular e tratar os dados, como será visto na etapa de pré-processamento dos dados. Também é a melhor biblioteca do Python para analisar os dados e por isso grande parte do projeto foi realizado com o uso do Pandas, tendo em vista que o objetivo do projeto é justamente analisar os dados do spotify do artista Coldplay. Algumas das atividades que fazem da biblioteca Pandas tão util para manipulação e analise de dados, são:

* Objeto DataFrame para manipulação de dados com indexação integrada.
* Ferramentas para ler e gravar dados entre estruturas de dados na memória e diferentes formatos de arquivo.
* Alinhamento de dados e tratamento integrado de dados ausentes.
* Remodelagem e dinamização de conjuntos de dados.
* Inserção e exclusão de colunas de estrutura de dados.
* Grupo por mecanismo, permitindo operações dividir-aplicar-combinar em conjuntos de dados.
* Combinação e junção de conjuntos de dados.


### **Deletando colunas**

A primeira etapa que sempre costumo realizar no pré-processamento de dados é a de deletar os dados, ou melhor, deletar as colunas. Dependendo do seu tamanho, um conjunto de dados em muito dos casos possuem colunas que não são uteis para o objetivo do projeto, até mesmo mais de dez colunas que estão ali apenas ocupando um espaço. Consequentemente, os dados dessas colunas só estão ocupando espaço de memoria e dificultando a análise dos dados.

In [None]:
#As colunas que pertencem ao conjunto de dados
df.columns

Index(['nome_do_album', 'nome_da_faixa', 'posicao_da_faixa', 'popularidade'], dtype='object')

O conjunto de dados dos albums retirado do spotify do artista contém colunas que não são uteis para o objetivo do projeto. Colunas como duração da música e se a música é explicita ou não, que não são uteis o projeto, porém seriam interessantes se o objetivo do projeto fosse criar um modelo de Machine Learning. Outras colunas como id da música, data de lançamento e artistas que comporão, também serão deletadas.

Antes de deletar as colunas, mesmo que tenha sido feita uma leitura do arquivo antes do mesmo ser importado para a análise, é importante que novamente se avalie como os dados estão se comportando, quais são as primeiras e ultimas linhas do conjunto de dados e como cada coluna está representada. Perguntas como essas são importante por começarem a dar um entendimento e informação sobre o conjunto de dados e se chegar na análise exploratoria já com boas ideias de hipoteses.  

In [None]:
#As 5 primeiras linhas do conjunto de dados
df.head()

Unnamed: 0,nome_do_album,nome_da_faixa,posicao_da_faixa,popularidade
0,Music Of The Spheres,2021-10-15,06mXfvDsRZNfnsGZvX2zpb,https://open.spotify.com/album/06mXfvDsRZNfnsG...
1,Everyday Life,2019-11-22,2FeyIYDDAQqcOJKOKhvHdr,https://open.spotify.com/album/2FeyIYDDAQqcOJK...
2,Live in Buenos Aires,2018-12-07,19CvkGjYpifkdwgVJSbog2,https://open.spotify.com/album/19CvkGjYpifkdwg...
3,A Head Full of Dreams,2015-12-04,3cfAM8b8KqJRoIzt3zLKqw,https://open.spotify.com/album/3cfAM8b8KqJRoIz...
4,Ghost Stories Live 2014,2014-11-21,1hNS0RsxPTFjmKXCgmjSLS,https://open.spotify.com/album/1hNS0RsxPTFjmKX...


In [None]:
#As 5 últimas linhas
df.tail()

Unnamed: 0,nome_do_album,nome_da_faixa,posicao_da_faixa,popularidade
10,Viva La Vida or Death and All His Friends,2008-05-26,1CEODgTmTwLyabvwd7HBty,https://open.spotify.com/album/1CEODgTmTwLyabv...
11,X&Y,2005-06-07,4E7bV0pzG0LciBSWTszra6,https://open.spotify.com/album/4E7bV0pzG0LciBS...
12,Live 2003,2003-11-01,3JMOZD2qixTTLRW9I6JuF4,https://open.spotify.com/album/3JMOZD2qixTTLRW...
13,A Rush of Blood to the Head,2002-08-08,0RHX9XECH8IVI3LNgWDpmQ,https://open.spotify.com/album/0RHX9XECH8IVI3L...
14,Parachutes,2000-07-10,6ZG5lRT77aJ3btmArcykra,https://open.spotify.com/album/6ZG5lRT77aJ3btm...


In [None]:
#Uma amostra de 5 registros (linhas) dos dados
df.sample(5)

Unnamed: 0,nome_do_album,nome_da_faixa,posicao_da_faixa,popularidade
4,Ghost Stories Live 2014,2014-11-21,1hNS0RsxPTFjmKXCgmjSLS,https://open.spotify.com/album/1hNS0RsxPTFjmKX...
1,Everyday Life,2019-11-22,2FeyIYDDAQqcOJKOKhvHdr,https://open.spotify.com/album/2FeyIYDDAQqcOJK...
10,Viva La Vida or Death and All His Friends,2008-05-26,1CEODgTmTwLyabvwd7HBty,https://open.spotify.com/album/1CEODgTmTwLyabv...
13,A Rush of Blood to the Head,2002-08-08,0RHX9XECH8IVI3LNgWDpmQ,https://open.spotify.com/album/0RHX9XECH8IVI3L...
12,Live 2003,2003-11-01,3JMOZD2qixTTLRW9I6JuF4,https://open.spotify.com/album/3JMOZD2qixTTLRW...


O Pandas é uma biblioteca que suas ações em sua maioria podem ser realizadas de diversas formas, ou seja, pode ser utilizado mais de um método ou atributo para realizar algo. Logo, é importante que sejam mantidas boas práticas ao usar a biblioteca. Um exemplo é que para deletar as colunas, poderia ser utilizado o método drop() ou o método copy(). Veja:

* df = df.drop([‘coluna1’, 'coluna2', 'coluna3'], axis = ‘columns’)

Dessa forma, as colunas são deletadas permanentemente do conjunto de dados e posteriormente, se necessario, eu não consegueria trabalhar com as colunas.

Por isso, a forma que considero melhor de se deletar as colunas é após ter sido feita uma análise de quais colunas são importantes para o objetivo do projeto. Selecionar as colunas que se deseja utilizar com CTRL + C através do atributo **df.columns** e posteriormente passar um array com os nomes das colunas que desejamos e na ordem desejada, através do método **.copy()**. Assim, as outras colunas serão omitidas e não deletadas.

In [None]:
#Selecionando as colunas com CTRL + C
df.columns

Index(['nome_do_album', 'nome_da_faixa', 'posicao_da_faixa', 'popularidade'], dtype='object')

In [None]:
#Novas colunas
df.columns

Index(['nome_do_album', 'nome_da_faixa', 'posicao_da_faixa', 'popularidade'], dtype='object')

### **Renomeando colunas**

Como já dito anteriormente, um dataset dificilmente irá vim organizado e limpo, sendo um dos principais problemas ao receber um dataset que não seja da internet, onde em sua maioria os dados já vem organizados e sim um dataset de um caso real, é a forma incorreta de como os dados e variaveis estão registrados no dataset. Sendo  necessário fazer toda manipulação dos dados, engenharia de recursos, renomeação de variáveis e etc... Apesar dos dados do dataset que estou utilizando não apresentar muito desses problemas, as colunas além de estarem em inglês, seu nome não deixa claro do que se trata a coluna. Por esses motivos, é interessante sempre manter o nome das colunas de forma que remeta claramente do que se trata a coluna, para que futuramente tenha facilidade quando for necessario usar a coluna para fazer alguma análise.

In [None]:
#Renomeando as colunas
df.columns = ['nome_do_album', 'nome_da_faixa',  'posicao_da_faixa', 'popularidade']

In [None]:
#As três primeiras linhas do dataset
df.head(3)

Unnamed: 0,nome_do_album,nome_da_faixa,posicao_da_faixa,popularidade
0,Music Of The Spheres,2021-10-15,06mXfvDsRZNfnsGZvX2zpb,https://open.spotify.com/album/06mXfvDsRZNfnsG...
1,Everyday Life,2019-11-22,2FeyIYDDAQqcOJKOKhvHdr,https://open.spotify.com/album/2FeyIYDDAQqcOJK...
2,Live in Buenos Aires,2018-12-07,19CvkGjYpifkdwgVJSbog2,https://open.spotify.com/album/19CvkGjYpifkdwg...


Com as colunas renomeadas, quando for necessario chamar o nome da coluna para realizar uma análise ou outra tarefa, ficará tudo mais fácil. Vale ressaltar que também é importante sempre manter o nome das colunas com letras minúsculas e se necessário separar, que seja com o _, para também facilitar as tarefas que serão realizadas posteriormente com as colunas.

### **Verificar dados ausentes**

Os dados ausentes em sua maioria podem ocorrer devido a não-resposta, ou seja, nenhuma informação foi registrada para uma variável, sendo mais um dos problemas de sujeira que pode aparecer em um dataset, que assim como outros problemas da etapa de limpeza e preparação dos dados que aqui já foi dito, os dados ausentes precisam ser limpados e tratados, de modo que deixem de ser dados ausentes e passem a ganhar significado. Dessa forma, antes de limpar e tratar os dados ausentes, primeiro é preciso identificar se existe a presença de dados ausentes ou faltantes no dataset.

Para identificar a presença de dados ausentes, eu poderia ter usado o método isnull(), porém para sempre manter as boas práticas ao utilizar a biblioteca pandas, é interessante utilizar o método isna(), devido que o final "na" do método remete ao dropna e fillna, que são metodos que também trabalham de alguma forma com dados ausentes.

In [None]:
#Identificando a presença de dados ausentes
df.isna().sum()

Nome do Álbum         0
Data de Lançamento    0
ID do Álbum           0
URL do Álbum          0
dtype: int64

O dataset do artista Coldplay que foi retirado do spotify não possui dados ausentes, porém, muita das vezes uma coluna pode ter o registro de dados e os dados ainda assim serem dados ausentes (ocultos), ou seja, é informado pelo método que o conjunto de dados não possui valores ausentes ou nulos, por todos os dados estarem registrados, entranto, esse registro de dados não tem valor significativo e os dados não passam nenhuma informação util. Casos como esse de dados ausentes ocultos, acontece em sua maioria quando quem coleta os dados e constroi o dataset não  tem o valor ou informação exata e faz o registro de dados com um valor qualquer, como 0.

A melhor solução para casos como esse é analisar com calma os primeiros, ultimos e amostras aleatórias dos registros, averiguando se os dados realmente passam alguma informação e significado, já que não temos dados ausentes.

In [None]:
import pandas as pd

# Função para obter as 10 melhores músicas de um artista
def get_top_tracks(artist_id):
    top_tracks = spot.artist_top_tracks(artist_id)
    tracks_data = []

    for track in top_tracks['tracks'][:10]:  # Obtém as 10 melhores músicas
        track_data = {
            'Nome da Música': track['name'],
            'Popularidade': track['popularity'],
            'ID da Música': track['id'],
        }
        tracks_data.append(track_data)

    return pd.DataFrame(tracks_data)

# Substitua 'Nome do Artista' pelo artista desejado
artist_name = 'Coldplay'
result = spot.search(artist_name, type='artist')
artist = result['artists']['items'][0]

# Obtém o DataFrame das 10 melhores músicas
top_tracks_df = get_top_tracks(artist['id'])

# Exibe o DataFrame
print(top_tracks_df)

             Nome da Música  Popularidade            ID da Música
0                    Yellow            91  3AJwUDP919kvQ9QcozQPxg
1              Viva La Vida            88  1mea3bSkSGXuIRvnydlB5b
2  Something Just Like This            87  6RUKPb4LETWmmr3iAEQktW
3                    Sparks            88  7D0RhFcb3CrfPuTJ0obrod
4       A Sky Full of Stars            87  0FDzzruyVECATHXKHFs9eJ
5             The Scientist            87  75JFxkI2RXiU7L9VXzMkle
6                  Paradise            85  6nek1Nin9q48AVZcWs9e9D
7                   Fix You            85  7LVHVU3tWfcxj5aiPFEW4Q
8               My Universe            80  46HNZY1i7O6jwTA7Slo2PI
9      Hymn for the Weekend            85  3RiPr603aXAoi4GHyXx0uy


In [None]:
#Os 10 últimos registros
df.tail(10)

Unnamed: 0,Nome do Álbum,Data de Lançamento,ID do Álbum,URL do Álbum
5,Ghost Stories,2014-05-19,2G4AUqfwxcV1UdQjm2ouYr,https://open.spotify.com/album/2G4AUqfwxcV1UdQ...
6,Live 2012,2012-11-19,2OkEsqGTfu8PWRrNHzfr0m,https://open.spotify.com/album/2OkEsqGTfu8PWRr...
7,Mylo Xyloto,2011-10-24,2R7iJz5uaHjLEVnMkloO18,https://open.spotify.com/album/2R7iJz5uaHjLEVn...
8,LeftRightLeftRightLeft (Live),2009-05-15,3pboBm7GTa6V5dFXXCt52b,https://open.spotify.com/album/3pboBm7GTa6V5dF...
9,Viva La Vida (Prospekt's March Edition),2008-11-24,4XTT0NcNHyvl6h9JX2AfEi,https://open.spotify.com/album/4XTT0NcNHyvl6h9...
10,Viva La Vida or Death and All His Friends,2008-05-26,1CEODgTmTwLyabvwd7HBty,https://open.spotify.com/album/1CEODgTmTwLyabv...
11,X&Y,2005-06-07,4E7bV0pzG0LciBSWTszra6,https://open.spotify.com/album/4E7bV0pzG0LciBS...
12,Live 2003,2003-11-01,3JMOZD2qixTTLRW9I6JuF4,https://open.spotify.com/album/3JMOZD2qixTTLRW...
13,A Rush of Blood to the Head,2002-08-08,0RHX9XECH8IVI3LNgWDpmQ,https://open.spotify.com/album/0RHX9XECH8IVI3L...
14,Parachutes,2000-07-10,6ZG5lRT77aJ3btmArcykra,https://open.spotify.com/album/6ZG5lRT77aJ3btm...


In [None]:
#Amostra aleatória de 10 registros
df.sample(10)

Unnamed: 0,Nome do Álbum,Data de Lançamento,ID do Álbum,URL do Álbum
7,Mylo Xyloto,2011-10-24,2R7iJz5uaHjLEVnMkloO18,https://open.spotify.com/album/2R7iJz5uaHjLEVn...
5,Ghost Stories,2014-05-19,2G4AUqfwxcV1UdQjm2ouYr,https://open.spotify.com/album/2G4AUqfwxcV1UdQ...
14,Parachutes,2000-07-10,6ZG5lRT77aJ3btmArcykra,https://open.spotify.com/album/6ZG5lRT77aJ3btm...
11,X&Y,2005-06-07,4E7bV0pzG0LciBSWTszra6,https://open.spotify.com/album/4E7bV0pzG0LciBS...
13,A Rush of Blood to the Head,2002-08-08,0RHX9XECH8IVI3LNgWDpmQ,https://open.spotify.com/album/0RHX9XECH8IVI3L...
8,LeftRightLeftRightLeft (Live),2009-05-15,3pboBm7GTa6V5dFXXCt52b,https://open.spotify.com/album/3pboBm7GTa6V5dF...
2,Live in Buenos Aires,2018-12-07,19CvkGjYpifkdwgVJSbog2,https://open.spotify.com/album/19CvkGjYpifkdwg...
0,Music Of The Spheres,2021-10-15,06mXfvDsRZNfnsGZvX2zpb,https://open.spotify.com/album/06mXfvDsRZNfnsG...
3,A Head Full of Dreams,2015-12-04,3cfAM8b8KqJRoIzt3zLKqw,https://open.spotify.com/album/3cfAM8b8KqJRoIz...
10,Viva La Vida or Death and All His Friends,2008-05-26,1CEODgTmTwLyabvwd7HBty,https://open.spotify.com/album/1CEODgTmTwLyabv...


### **Verificar os tipos de colunas**

Assim como pode ser feito registro de dados sem nenhum significado, por quem constroi o dataset, as colunas também podem ser preenchidas de forma incorreta, ou seja, uma coluna que trata-se de uma coluna do tipo inteira, pode estar como coluna do tipo float ou até mesmo string.

In [None]:
#Verificando os tipos das colunas
df.dtypes

Nome do Álbum         object
Data de Lançamento    object
ID do Álbum           object
URL do Álbum          object
dtype: object

In [None]:
#Quantidade de tipos das colunas
df.dtypes.value_counts()

object    4
dtype: int64

Agora eu sei quais são os tipos das minhas colunas, mas ainda é preciso confirmar se os tipos foram registrados corretamente e para isso é preciso visualizar novamente os registros de dados de cada coluna, com atenção! Saber quais são os tipos das colunas e como manipulá-los é de extrema importância para a etapa futura de exploração dos dados.

In [None]:
#Visualizando novamente os dados
df.sample(5)

Unnamed: 0,Nome do Álbum,Data de Lançamento,ID do Álbum,URL do Álbum
0,Music Of The Spheres,2021-10-15,06mXfvDsRZNfnsGZvX2zpb,https://open.spotify.com/album/06mXfvDsRZNfnsG...
2,Live in Buenos Aires,2018-12-07,19CvkGjYpifkdwgVJSbog2,https://open.spotify.com/album/19CvkGjYpifkdwg...
3,A Head Full of Dreams,2015-12-04,3cfAM8b8KqJRoIzt3zLKqw,https://open.spotify.com/album/3cfAM8b8KqJRoIz...
7,Mylo Xyloto,2011-10-24,2R7iJz5uaHjLEVnMkloO18,https://open.spotify.com/album/2R7iJz5uaHjLEVn...
8,LeftRightLeftRightLeft (Live),2009-05-15,3pboBm7GTa6V5dFXXCt52b,https://open.spotify.com/album/3pboBm7GTa6V5dF...


### **Corrigindo dados duplicados**

Outra tarefa importante da etapa de limpeza e preparação de dados é a correção de dados duplicados, por mais que esse dataset do spotify do artista Coldplay não possua dados duplicados, é comum encontrar em alguns conjuntos de dados. Os valores duplicados na maioria dos conjuntos de dados são encontrados com frequência e dependendo da análise que será feita, esses valores podem alterar o resultado final.

#### **Verificando valores duplicados**

Por se tratar de um dataset com diversas músicas e números, é importante verificar se o dataset possui dados duplicados, para que a análise e os insights não sejam interferidos. Para identificar a presença de outliers, irei utilizar o método duplicated() que devolve uma Series booleana informando True se possui algum valor duplicado e False caso contrário.

In [None]:
#Verificando valores duplicados
df.duplicated().value_counts()

False    15
dtype: int64

O dataset não possui dados duplicados como mencionado anteriormente, porém, caso fosse identificado a presença de dados duplicados, seria necessário remover todos os valores repetidos, fazendo o uso do método drop_duplicates().

### **Outliers**

Os outliers, são os famosos "pontos fora da curva" ou observações que não parecem seguir o mesmo padrão dos demais dados. Normalmente acarretados de distribuições diferentes, serem erros da coleta de dados, como aqui já foi visto, erros de medição ou outro fator. Identificar e tratar os outliers é de suma importância, devido que os outliers influenciam diretamente nas análises e nos algoritmos, ao apresentar comportamento distoante do resto do data set. Impactando tanto na média, como na variância, funções de perda e custo.

Após os outliers terem sido identificados, sua remoção ou transformação só deve ser feita se realmente fizer sentido, logo, deve ser levado em consideração que alguns outliers são dados autenticos e devem ser estudados com atenção, para saber se de fato deve ser feita sua remoção.

##**Gravar arquivo CSV do notebook para criar aplicação/dashboard**

Agora irei gravar o notebook da análise em um arquivo no formato CSV para criar a aplicação/dashboard com Python.

In [None]:
#Salvando o notebook em um arquivo no formato csv
df.to_csv('projetoBigDataSpotify.csv')

## **Referências**

https://towardsdatascience.com/getting-started-to-data-analysis-with-python-pandas-with-titanic-dataset-a195ab043c77

https://pt.qwe.wiki/wiki/Missing_data

https://dandaramcsousa.github.io/2020/05/20/tutorial-api-spotify.html

https://itl.nist.gov/div898/handbook/eda/eda.htm

