<a href="https://colab.research.google.com/github/PadawanXXVI/spotify-data-storytelling/blob/main/spotify.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üéì Spotify Data Storytelling ‚Äî Semana 2  
## Coleta, Limpeza e Transforma√ß√£o de Dados

**Curso:** Tecnologia em Ci√™ncia de Dados ‚Äî Faculdade de Tecnologia e Inova√ß√£o Senac DF  
**Professor:** Alexsander Holanda Barreto  
**Autor:** Anderson de Matos Guimar√£es  

---

### üéØ Objetivo da Semana 2
Esta etapa foca na **coleta via API do Spotify**, seguida por **limpeza, transforma√ß√£o e an√°lise explorat√≥ria inicial**.  
O resultado final ser√° um **dataset tratado (`spotify_semana2_tratado.csv`)** e um **relat√≥rio parcial** descrevendo metodologia e insights.

---

### üß© Etapas desta semana
1. Instala√ß√£o e importa√ß√£o de bibliotecas.  
2. Autentica√ß√£o segura na API.  
3. Coleta de faixas por g√™neros brasileiros.  
4. Diagn√≥stico e inspe√ß√£o inicial.  
5. Limpeza, padroniza√ß√£o e cria√ß√£o de colunas derivadas.  
6. Exporta√ß√£o dos datasets bruto e tratado.  
7. Gera√ß√£o do relat√≥rio parcial.


In [27]:
# üõ†Ô∏è Instala√ß√£o da biblioteca Spotipy (interface oficial da API do Spotify)
!pip install spotipy --quiet

print("‚úÖ Spotipy instalada com sucesso!")


‚úÖ Spotipy instalada com sucesso!


In [28]:
# ‚öôÔ∏è Importa√ß√£o de bibliotecas necess√°rias
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials
from datetime import datetime

print("‚úÖ Bibliotecas importadas com sucesso!")


‚úÖ Bibliotecas importadas com sucesso!


## üîê Autentica√ß√£o Segura na API do Spotify  

Para garantir seguran√ßa e reprodutibilidade, as credenciais ficam armazenadas em vari√°veis de ambiente:  
- `SPOTIPY_CLIENT_ID`  
- `SPOTIPY_CLIENT_SECRET`  

Essas chaves s√£o obtidas no [Spotify Developer Dashboard](https://developer.spotify.com/dashboard).


In [29]:
# üîê Autentica√ß√£o segura usando secrets do Google Colab
from google.colab import userdata
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials

# üîé Recupera as chaves armazenadas em "Secrets"
client_id = userdata.get('SPOTIPY_CLIENT_ID')
client_secret = userdata.get('SPOTIPY_CLIENT_SECRET')

# ‚úÖ Teste de autentica√ß√£o
try:
    auth_manager = SpotifyClientCredentials(client_id=client_id, client_secret=client_secret)
    sp = spotipy.Spotify(auth_manager=auth_manager)
    sp.search(q="genre:pop", type="track", limit=1)
    print("üéß Autentica√ß√£o realizada com sucesso via Colab Secrets!")
except Exception as e:
    print(f"‚ùå Falha na autentica√ß√£o: {e}")


üéß Autentica√ß√£o realizada com sucesso via Colab Secrets!


In [30]:
# üåé Descoberta autom√°tica de categorias Spotify (Brasil)
print("üîé Coletando categorias dispon√≠veis no Spotify Brasil...")

# Busca at√© 50 categorias dispon√≠veis
categorias_data = sp.categories(country="BR", limit=50)
categorias = {c["name"]: c["id"] for c in categorias_data["categories"]["items"]}

print(f"‚úÖ Total de categorias encontradas: {len(categorias)}\n")
print("üìã Categorias dispon√≠veis no Brasil:")
for nome in categorias.keys():
    print("-", nome)

# üß© Filtra categorias claramente musicais
categorias_musicais = [
    c for c in categorias.keys()
    if any(x in c.lower() for x in [
        "pop", "rock", "hip", "r&b", "dance", "latin", "metal", "jazz",
        "soul", "folk", "acoustic", "instrumental", "electronic",
        "country", "alternative", "blues", "gospel", "indie", "k-pop",
        "mpb", "sertanejo", "forr√≥", "funk", "samba", "pagode"
    ])
]

print(f"\nüé∂ Categorias musicais identificadas automaticamente ({len(categorias_musicais)}):")
print(categorias_musicais)

# üîÅ Substitui a lista manual de g√™neros pela autom√°tica
generos_validos = categorias_musicais


üîé Coletando categorias dispon√≠veis no Spotify Brasil...
‚úÖ Total de categorias encontradas: 50

üìã Categorias dispon√≠veis no Brasil:
- Made For You
- New Releases
- Hip-Hop
- Country
- Pop
- Latin
- Charts
- Rock
- R&B
- Dance/Electronic
- Indie
- Fall
- Halloween
- Diwali
- Workout
- Mood
- Party
- Student
- Love
- Disney
- Netflix
- Chill
- Sleep
- Discover
- Jazz
- Metal
- Christian & Gospel
- M√∫sica Mexicana
- Happy Holidays
- Classical
- Decades
- Kids & Family
- In the car
- At Home
- EQUAL
- Spotify CLASSICS
- GLOW
- Frequency
- TV & Movies
- Trending
- Folk & Acoustic
- K-pop
- Punk
- Blues
- Soul
- Alternative
- Anime
- Instrumental
- RADAR
- Fresh Finds

üé∂ Categorias musicais identificadas automaticamente (17):
['Hip-Hop', 'Country', 'Pop', 'Latin', 'Rock', 'R&B', 'Dance/Electronic', 'Indie', 'Jazz', 'Metal', 'Christian & Gospel', 'Folk & Acoustic', 'K-pop', 'Blues', 'Soul', 'Alternative', 'Instrumental']


In [31]:
# üéß Coleta autom√°tica de faixas musicais via API do Spotify (Brasil)

# 1Ô∏è‚É£ Lista de categorias musicais definidas dinamicamente
generos_validos = categorias_musicais
print(f"üéØ Total de g√™neros a serem coletados: {len(generos_validos)}\n")

# 2Ô∏è‚É£ Estruturas de armazenamento
all_tracks = []
resumo = []

# 3Ô∏è‚É£ Loop de coleta
for genero in generos_validos:
    print(f"üé∂ Buscando faixas da categoria: {genero}")
    try:
        results = sp.search(q=f"genre:{genero}", type="track", limit=50, market="BR")
        tracks = results["tracks"]["items"]

        # Caso nenhuma faixa seja encontrada
        if len(tracks) == 0:
            print(f"‚ö†Ô∏è Nenhum resultado encontrado para: {genero}")
            continue

        # Pagina√ß√£o ‚Äî coleta at√© 500 resultados por categoria
        offset = 50
        while results["tracks"]["next"] and offset < 500:
            results = sp.next(results["tracks"])
            tracks.extend(results["tracks"]["items"])
            offset += 50

        # Estrutura√ß√£o dos dados
        for item in tracks:
            all_tracks.append({
                "genero": genero,
                "faixa": item["name"],
                "artista": item["artists"][0]["name"],
                "album": item["album"]["name"],
                "data_lancamento": item["album"]["release_date"],
                "popularidade": item["popularity"],
                "duracao_ms": item["duration_ms"]
            })

        resumo.append({"genero": genero, "qtd_faixas": len(tracks)})
        print(f"‚úÖ {len(tracks)} faixas coletadas para {genero}")

    except Exception as e:
        print(f"‚ùå Erro ao coletar g√™nero {genero}: {e}")

# 4Ô∏è‚É£ Consolida√ß√£o em DataFrame
df_raw = pd.DataFrame(all_tracks)
df_resumo = pd.DataFrame(resumo).sort_values("qtd_faixas", ascending=False)

print("\nüìä Resumo da coleta por g√™nero:")
display(df_resumo)

# 5Ô∏è‚É£ Exporta√ß√£o do dataset bruto
os.makedirs("/content/data", exist_ok=True)
df_raw.to_csv("/content/data/spotify_raw.csv", index=False)
print(f"üíæ Dataset bruto exportado com sucesso! {len(df_raw)} faixas salvas em /content/data/spotify_raw.csv")


üéØ Total de g√™neros a serem coletados: 17

üé∂ Buscando faixas da categoria: Hip-Hop
‚úÖ 100 faixas coletadas para Hip-Hop
üé∂ Buscando faixas da categoria: Country
‚úÖ 100 faixas coletadas para Country
üé∂ Buscando faixas da categoria: Pop
‚úÖ 100 faixas coletadas para Pop
üé∂ Buscando faixas da categoria: Latin
‚úÖ 100 faixas coletadas para Latin
üé∂ Buscando faixas da categoria: Rock
‚úÖ 100 faixas coletadas para Rock
üé∂ Buscando faixas da categoria: R&B
‚úÖ 100 faixas coletadas para R&B
üé∂ Buscando faixas da categoria: Dance/Electronic
‚úÖ 100 faixas coletadas para Dance/Electronic
üé∂ Buscando faixas da categoria: Indie
‚úÖ 100 faixas coletadas para Indie
üé∂ Buscando faixas da categoria: Jazz
‚úÖ 100 faixas coletadas para Jazz
üé∂ Buscando faixas da categoria: Metal
‚úÖ 100 faixas coletadas para Metal
üé∂ Buscando faixas da categoria: Christian & Gospel
‚úÖ 100 faixas coletadas para Christian & Gospel
üé∂ Buscando faixas da categoria: Folk & Acoustic
‚úÖ 100 faix

Unnamed: 0,genero,qtd_faixas
0,Hip-Hop,100
1,Country,100
2,Pop,100
3,Latin,100
4,Rock,100
5,R&B,100
6,Dance/Electronic,100
7,Indie,100
8,Jazz,100
9,Metal,100


üíæ Dataset bruto exportado com sucesso! 1700 faixas salvas em /content/data/spotify_raw.csv


## üßπ Fase 2 ‚Äî Limpeza e Transforma√ß√£o dos Dados (Semana 2)

Nesta etapa, realizamos o tratamento do dataset coletado pela API do Spotify.
As principais tarefas incluem:
- Verificar a integridade dos dados (ausentes, duplicados e tipos inconsistentes);
- Corrigir formata√ß√µes de datas e dura√ß√µes;
- Normalizar vari√°veis num√©ricas;
- Exportar a base tratada para as an√°lises explorat√≥rias da pr√≥xima semana.

Esta fase √© crucial para garantir **qualidade, consist√™ncia e confiabilidade** na an√°lise de dados musicais.


In [32]:
# üìÇ Importa o dataset bruto salvo na fase anterior
import pandas as pd

df_raw = pd.read_csv("/content/data/spotify_raw.csv")

print(f"‚úÖ Dataset carregado com sucesso: {df_raw.shape[0]} linhas √ó {df_raw.shape[1]} colunas")
display(df_raw.head())


‚úÖ Dataset carregado com sucesso: 1700 linhas √ó 7 colunas


Unnamed: 0,genero,faixa,artista,album,data_lancamento,popularidade,duracao_ms
0,Hip-Hop,Barcode,Icaki,–û—Ç—Ä–µ–ø–∫–∞,2019-08-08,0,135724
1,Hip-Hop,Problems,Blake Rules,Sorry for Being Amazing,2017-06-20,0,244610
2,Hip-Hop,Hypnotic State,Factor,Gaya,2013-11-01,0,381743
3,Hip-Hop,–•–∞—Ä–∞–∫—Ç–µ—Ä–∏—Å—Ç–∏–∫–∞,Nonamerz,Piratka Mixtape,2008,0,115746
4,Hip-Hop,503 (Radio Edit),Cool Nutz,503,2019-12-11,0,225296


In [33]:
# üîç Estrutura geral e estat√≠sticas b√°sicas
print("üìã Estrutura do dataset bruto:")
print()
print(f"Dimens√µes: {df_raw.shape[0]} linhas √ó {df_raw.shape[1]} colunas\n")
print(df_raw.info())
print("\nüìà Estat√≠sticas descritivas iniciais:")
display(df_raw.describe(include='all'))


üìã Estrutura do dataset bruto:

Dimens√µes: 1700 linhas √ó 7 colunas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1700 entries, 0 to 1699
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   genero           1700 non-null   object
 1   faixa            1700 non-null   object
 2   artista          1700 non-null   object
 3   album            1700 non-null   object
 4   data_lancamento  1700 non-null   object
 5   popularidade     1700 non-null   int64 
 6   duracao_ms       1700 non-null   int64 
dtypes: int64(2), object(5)
memory usage: 93.1+ KB
None

üìà Estat√≠sticas descritivas iniciais:


Unnamed: 0,genero,faixa,artista,album,data_lancamento,popularidade,duracao_ms
count,1700,1700,1700,1700,1700,1700.0,1700.0
unique,17,1480,834,1281,1027,,
top,Hip-Hop,Escape,Linkin Park,The Life of a Showgirl + Acoustic Collection,2025-11-07,,
freq,100,4,34,19,21,,
mean,,,,,,53.425294,222684.8
std,,,,,,32.222223,84814.62
min,,,,,,0.0,12399.0
25%,,,,,,26.75,171865.2
50%,,,,,,67.0,210931.0
75%,,,,,,77.0,253366.2


In [34]:
# üßº Limpeza e padroniza√ß√£o
df = df_raw.copy()

# 1Ô∏è‚É£ Remover duplicatas
df.drop_duplicates(subset=["faixa", "artista", "album"], inplace=True)

# 2Ô∏è‚É£ Corrigir formato de data
df["data_lancamento"] = pd.to_datetime(df["data_lancamento"], errors="coerce")

# 3Ô∏è‚É£ Converter dura√ß√£o para minutos
df["duracao_min"] = (df["duracao_ms"] / 60000).round(2)

# 4Ô∏è‚É£ Normalizar a popularidade entre 0 e 1
df["popularidade_norm"] = df["popularidade"] / 100

# 5Ô∏è‚É£ Remover linhas com dados ausentes cr√≠ticos
df.dropna(subset=["genero", "faixa", "artista", "album"], inplace=True)

print("‚úÖ Limpeza conclu√≠da. Estrutura atualizada:")
print(df.info())


‚úÖ Limpeza conclu√≠da. Estrutura atualizada:
<class 'pandas.core.frame.DataFrame'>
Index: 1542 entries, 0 to 1699
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   genero             1542 non-null   object        
 1   faixa              1542 non-null   object        
 2   artista            1542 non-null   object        
 3   album              1542 non-null   object        
 4   data_lancamento    1449 non-null   datetime64[ns]
 5   popularidade       1542 non-null   int64         
 6   duracao_ms         1542 non-null   int64         
 7   duracao_min        1542 non-null   float64       
 8   popularidade_norm  1542 non-null   float64       
dtypes: datetime64[ns](1), float64(2), int64(2), object(4)
memory usage: 120.5+ KB
None


In [35]:
# üßæ Diagn√≥stico final
print("ü©∂ Valores nulos restantes por coluna:")
print(df.isna().sum())

print("\nüìä Estat√≠sticas descritivas ap√≥s tratamento:")
display(df.describe(include='all'))


ü©∂ Valores nulos restantes por coluna:
genero                0
faixa                 0
artista               0
album                 0
data_lancamento      93
popularidade          0
duracao_ms            0
duracao_min           0
popularidade_norm     0
dtype: int64

üìä Estat√≠sticas descritivas ap√≥s tratamento:


Unnamed: 0,genero,faixa,artista,album,data_lancamento,popularidade,duracao_ms,duracao_min,popularidade_norm
count,1542,1542,1542,1542,1449,1542.0,1542.0,1542.0,1542.0
unique,17,1480,834,1281,,,,,
top,Hip-Hop,Escape,Taylor Swift,The Life of a Showgirl + Acoustic Collection,,,,,
freq,100,4,33,19,,,,,
mean,,,,,2014-02-27 18:43:58.509316608,51.9131,225155.8,3.752633,0.519131
min,,,,,1952-04-01 00:00:00,0.0,12399.0,0.21,0.0
25%,,,,,2009-11-05 00:00:00,0.0,174653.0,2.91,0.0
50%,,,,,2019-05-31 00:00:00,66.0,212466.5,3.54,0.66
75%,,,,,2024-03-06 00:00:00,77.0,255124.5,4.25,0.77
max,,,,,2025-11-07 00:00:00,100.0,1188466.0,19.81,1.0


In [36]:
# üíæ Exporta o dataset tratado
os.makedirs("/content/data", exist_ok=True)
df.to_csv("/content/data/spotify_semana2_tratado.csv", index=False)

print(f"üíæ Dataset tratado salvo com sucesso em /content/data/spotify_semana2_tratado.csv ({df.shape[0]} registros)")


üíæ Dataset tratado salvo com sucesso em /content/data/spotify_semana2_tratado.csv (1542 registros)


## üìä Relat√≥rio Parcial ‚Äî Semana 2 (Coleta, Limpeza e Transforma√ß√£o)

Nesta semana, foi realizada a coleta autom√°tica de **1.700 faixas musicais**
distribu√≠das em **17 g√™neros**, por meio da API do Spotify (Spotipy).

O dataset passou por um processo de limpeza e transforma√ß√£o, com destaque para:
- Remo√ß√£o de duplicatas e registros inconsistentes;
- Convers√£o da data de lan√ßamento para formato `datetime`;
- Cria√ß√£o de colunas derivadas: dura√ß√£o em minutos e popularidade normalizada;
- Padroniza√ß√£o dos tipos de dados para futura an√°lise explorat√≥ria.

O dataset resultante, `spotify_semana2_tratado.csv`, est√° pronto para a **Fase 3 ‚Äî An√°lise Explorat√≥ria e Visualiza√ß√£o**, onde ser√£o aplicadas t√©cnicas estat√≠sticas e gr√°ficos para interpretar padr√µes musicais e comportamentos de consumo.


## üöÄ Pr√≥ximos Passos (Semana 3 ‚Äì An√°lise e Visualiza√ß√£o)

Na pr√≥xima etapa, realizaremos:

- An√°lise explorat√≥ria (EDA) detalhada com Pandas, Seaborn e Plotly;
- Visualiza√ß√µes de distribui√ß√£o de popularidade, dura√ß√£o e artistas mais frequentes;
- Correla√ß√µes entre g√™neros e popularidade m√©dia;
- Introdu√ß√£o de storytelling anal√≠tico assistido por IA (Engenharia de Prompt).

O objetivo √© traduzir os dados tratados em **insights visuais e narrativas interpretativas** sobre o consumo musical no Brasil.
