<a href="https://colab.research.google.com/github/PadawanXXVI/spotify-data-storytelling/blob/main/spotify.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üéì Spotify Data Storytelling ‚Äî Semana 2  
## Fase 2 ‚Äî Coleta, Limpeza e Transforma√ß√£o de Dados

**Curso:** Ci√™ncia de Dados ‚Äî Faculdade de Tecnologia e Inova√ß√£o Senac DF  
**Disciplina:** Projeto Interdisciplinar  
**Professor:** Prof. Alexander Barreto  
**Autor:** Anderson de Matos Guimar√£es  

---

## üìò Apresenta√ß√£o

Este notebook documenta a **segunda fase do projeto Spotify Data Storytelling**, que tem como objetivo:
1. Conectar-se √† **API oficial do Spotify** por meio de autentica√ß√£o segura;
2. Realizar a **coleta automatizada de dados musicais** (g√™neros e faixas populares no Brasil);
3. Efetuar a **limpeza, padroniza√ß√£o e transforma√ß√£o dos dados**;
4. Gerar o dataset tratado que servir√° de base para a **an√°lise visual e storytelling (Semana 3)**.

---

## üåç Relev√¢ncia Acad√™mica e Comercial

O projeto une **fundamentos de Engenharia de Dados, Estat√≠stica e Visualiza√ß√£o Anal√≠tica** com foco em:
- Compreender **padr√µes de consumo musical no Brasil**;  
- Aplicar metodologias **CRISP-DM e boas pr√°ticas reprodut√≠veis**;  
- Gerar valor **comercial e cient√≠fico**, permitindo que dados musicais fundamentem decis√µes estrat√©gicas em curadoria, marketing e recomenda√ß√£o.

---


In [12]:
# ‚öôÔ∏è Instala√ß√£o das depend√™ncias necess√°rias
!pip install spotipy pandas numpy matplotlib seaborn plotly

# üì¶ Importa√ß√£o das bibliotecas
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from datetime import datetime
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials
from google.colab import userdata

print("‚úÖ Bibliotecas instaladas e importadas com sucesso!")


‚úÖ Bibliotecas instaladas e importadas com sucesso!


In [13]:
# üîë Autentica√ß√£o via vari√°veis seguras do Google Colab
client_id = userdata.get("SPOTIPY_CLIENT_ID")
client_secret = userdata.get("SPOTIPY_CLIENT_SECRET")

if not client_id or not client_secret:
    raise ValueError("‚ùå Erro: Vari√°veis de autentica√ß√£o n√£o encontradas no ambiente.")

auth_manager = SpotifyClientCredentials(client_id=client_id, client_secret=client_secret)
sp = spotipy.Spotify(auth_manager=auth_manager)

print("üîê Autentica√ß√£o com a API Spotify conclu√≠da com sucesso!")


üîê Autentica√ß√£o com a API Spotify conclu√≠da com sucesso!


In [14]:
# üéß Coleta de faixas populares no Brasil por g√™nero musical

generos_validos = [
    "sertanejo", "sertanejo universit√°rio", "forr√≥", "mpb", "bossa nova",
    "samba", "pagode", "funk", "rap", "trap", "pop", "rock",
    "indie", "gospel", "eletr√¥nica", "country", "reggae", "jazz", "blues"
]

print(f"üéØ Total de g√™neros para coleta: {len(generos_validos)}\n")

all_tracks = []
resumo = []

for genero in generos_validos:
    print(f"üé∂ Coletando faixas do g√™nero: {genero}")
    try:
        results = sp.search(q=f"genre:{genero}", type="track", limit=50, market="BR")
        tracks = results["tracks"]["items"]

        if len(tracks) == 0:
            print(f"‚ö†Ô∏è Nenhum resultado para o g√™nero: {genero}")
            continue

        for item in tracks:
            all_tracks.append({
                "genero": genero,
                "faixa": item["name"],
                "artista": item["artists"][0]["name"],
                "album": item["album"]["name"],
                "data_lancamento": item["album"]["release_date"],
                "popularidade": item["popularity"],
                "duracao_ms": item["duration_ms"]
            })

        resumo.append({"genero": genero, "qtd_faixas": len(tracks)})

    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao coletar o g√™nero {genero}: {e}")

# ‚úÖ Cria√ß√£o dos DataFrames
df_raw = pd.DataFrame(all_tracks)
df_resumo = pd.DataFrame(resumo).sort_values("qtd_faixas", ascending=False)

print(f"\n‚úÖ Coleta conclu√≠da: {len(df_raw)} faixas coletadas.")
display(df_resumo)


üéØ Total de g√™neros para coleta: 19

üé∂ Coletando faixas do g√™nero: sertanejo
üé∂ Coletando faixas do g√™nero: sertanejo universit√°rio
üé∂ Coletando faixas do g√™nero: forr√≥
üé∂ Coletando faixas do g√™nero: mpb
üé∂ Coletando faixas do g√™nero: bossa nova
üé∂ Coletando faixas do g√™nero: samba
üé∂ Coletando faixas do g√™nero: pagode
üé∂ Coletando faixas do g√™nero: funk
üé∂ Coletando faixas do g√™nero: rap
üé∂ Coletando faixas do g√™nero: trap
üé∂ Coletando faixas do g√™nero: pop
üé∂ Coletando faixas do g√™nero: rock
üé∂ Coletando faixas do g√™nero: indie
üé∂ Coletando faixas do g√™nero: gospel
üé∂ Coletando faixas do g√™nero: eletr√¥nica
üé∂ Coletando faixas do g√™nero: country
üé∂ Coletando faixas do g√™nero: reggae
üé∂ Coletando faixas do g√™nero: jazz
üé∂ Coletando faixas do g√™nero: blues

‚úÖ Coleta conclu√≠da: 950 faixas coletadas.


Unnamed: 0,genero,qtd_faixas
0,sertanejo,50
1,sertanejo universit√°rio,50
2,forr√≥,50
3,mpb,50
4,bossa nova,50
5,samba,50
6,pagode,50
7,funk,50
8,rap,50
9,trap,50


In [15]:
# üíæ Exporta dataset bruto para an√°lise posterior
os.makedirs("/content/data", exist_ok=True)
df_raw.to_csv("/content/data/spotify_raw.csv", index=False)
print("üíæ Dataset bruto salvo em /content/data/spotify_raw.csv")


üíæ Dataset bruto salvo em /content/data/spotify_raw.csv


In [16]:
# üìä Diagn√≥stico inicial
print("üîç Estrutura inicial do dataset bruto:\n")
print(f"Dimens√µes: {df_raw.shape[0]} linhas e {df_raw.shape[1]} colunas\n")
df_raw.info()

print("\nüìà Estat√≠sticas descritivas iniciais:")
display(df_raw.describe(include='all'))


üîç Estrutura inicial do dataset bruto:

Dimens√µes: 950 linhas e 7 colunas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 950 entries, 0 to 949
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   genero           950 non-null    object
 1   faixa            950 non-null    object
 2   artista          950 non-null    object
 3   album            950 non-null    object
 4   data_lancamento  950 non-null    object
 5   popularidade     950 non-null    int64 
 6   duracao_ms       950 non-null    int64 
dtypes: int64(2), object(5)
memory usage: 52.1+ KB

üìà Estat√≠sticas descritivas iniciais:


Unnamed: 0,genero,faixa,artista,album,data_lancamento,popularidade,duracao_ms
count,950,950,950,950,950,950.0,950.0
unique,19,833,444,750,638,,
top,sertanejo,"Augusta, ang√©lica e consola√ß√£o",Tom Z√©,The Life of a Showgirl,2024-05-28,,
freq,50,7,42,11,13,,
mean,,,,,,27.001053,212332.618947
std,,,,,,36.160149,74401.422298
min,,,,,,0.0,15482.0
25%,,,,,,0.0,170674.0
50%,,,,,,0.0,205099.5
75%,,,,,,68.0,242925.5


In [17]:
# üßπ Limpeza e padroniza√ß√£o dos dados
df = df_raw.copy()

# Remo√ß√£o de duplicados
df.drop_duplicates(subset=["faixa", "artista", "album"], inplace=True)

# Convers√£o de tipos
df["data_lancamento"] = pd.to_datetime(df["data_lancamento"], errors="coerce")
df["popularidade"] = pd.to_numeric(df["popularidade"], errors="coerce")

# Padroniza√ß√£o textual
for col in ["faixa", "artista", "album", "genero"]:
    df[col] = df[col].astype(str).str.strip().str.title()

print("üßΩ Limpeza conclu√≠da. Dataset padronizado com sucesso!")


üßΩ Limpeza conclu√≠da. Dataset padronizado com sucesso!


In [18]:

# ü©∫ Diagn√≥stico p√≥s-tratamento
print("\nüìã Estrutura final do dataset tratado:")
df.info()

print("\nüìà Estat√≠sticas descritivas ap√≥s tratamento:")
display(df.describe())

print("\nü©∂ Nulos restantes:")
display(df.isnull().sum())



üìã Estrutura final do dataset tratado:
<class 'pandas.core.frame.DataFrame'>
Index: 890 entries, 0 to 941
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   genero           890 non-null    object        
 1   faixa            890 non-null    object        
 2   artista          890 non-null    object        
 3   album            890 non-null    object        
 4   data_lancamento  845 non-null    datetime64[ns]
 5   popularidade     890 non-null    int64         
 6   duracao_ms       890 non-null    int64         
dtypes: datetime64[ns](1), int64(2), object(4)
memory usage: 55.6+ KB

üìà Estat√≠sticas descritivas ap√≥s tratamento:


Unnamed: 0,data_lancamento,popularidade,duracao_ms
count,845,890.0,890.0
mean,2013-04-26 07:06:02.130177536,26.449438,212694.71236
min,1905-06-19 00:00:00,0.0,15482.0
25%,2009-06-01 00:00:00,0.0,170059.25
50%,2019-05-24 00:00:00,0.0,205825.0
75%,2022-07-18 00:00:00,68.0,243081.5
max,2025-10-31 00:00:00,100.0,602394.0
std,,35.963271,75073.78059



ü©∂ Nulos restantes:


Unnamed: 0,0
genero,0
faixa,0
artista,0
album,0
data_lancamento,45
popularidade,0
duracao_ms,0


In [19]:
# üé® Visualiza√ß√£o explorat√≥ria (corrigida e validada)
import matplotlib.pyplot as plt
import seaborn as sns

if "popularidade_norm" in df.columns and "duracao_min" in df.columns:
    plt.figure(figsize=(10,5))
    sns.histplot(df["popularidade_norm"], bins=20, kde=True, color="royalblue")
    plt.title("Distribui√ß√£o da Popularidade Normalizada")
    plt.xlabel("Popularidade Normalizada (0‚Äì1)")
    plt.ylabel("Frequ√™ncia")
    plt.show()

    plt.figure(figsize=(10,5))
    sns.scatterplot(x="duracao_min", y="popularidade_norm", data=df, alpha=0.6, color="darkgreen")
    plt.title("Dura√ß√£o (min) √ó Popularidade Normalizada")
    plt.xlabel("Dura√ß√£o (minutos)")
    plt.ylabel("Popularidade Normalizada")
    plt.show()
else:
    print("‚ö†Ô∏è As colunas derivadas ainda n√£o est√£o dispon√≠veis para visualiza√ß√£o.")


‚ö†Ô∏è As colunas derivadas ainda n√£o est√£o dispon√≠veis para visualiza√ß√£o.


In [20]:
# üíæ Exporta√ß√£o do dataset tratado
output_path = "/content/data/spotify_semana2_tratado.csv"
df.to_csv(output_path, index=False)

print(f"üíæ Dataset tratado exportado com sucesso: {output_path}")


üíæ Dataset tratado exportado com sucesso: /content/data/spotify_semana2_tratado.csv
