In [1]:
!pip install selenium pandas webdriver-manager



In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
import pandas as pd
import re
import time
import os
from datetime import datetime, timedelta

# Caminho base para salvar os arquivos .csv
caminho_base = r"C:\Users\Lucas\Documents\Coding\analise_duracao_spotify\data\raw"
os.makedirs(caminho_base, exist_ok=True)  # Garante que a pasta exista

# Função auxiliar para extrair ID da faixa
def extrair_id_da_url(url):
    match = re.search(r"track/([a-zA-Z0-9]+)", url)
    return match.group(1) if match else None

# Função para gerar todas as quintas-feiras a partir de uma data inicial
def gerar_datas_semanas(data_inicio):
    datas = []
    data = datetime.strptime(data_inicio, "%Y-%m-%d")
    while data.year == data.year:  # interrompe quando mudar de ano
        datas.append(data.strftime("%Y-%m-%d"))
        data += timedelta(days=7)
        if data.year != int(data_inicio[:4]):
            break
    return datas

# COOKIES copiados manualmente
cookies = [
    {"name": "sp_dc", "value": "AQDxm6TXrQ-ty0EdgXwelq3AoXrj_CjGexaSyyV0y2Qwqc4AdZ8-rNX3W7zzQvefWy6UEexOQGYVBYJU00Rl2qWTIuFiP7roQgh3LKmPTu2QWCJhyF6avpWgJkqh8jseShK34izszjOKdLTw95FFgzhZsY09z3Vts964HOSI6KQ5m8G1-g4eT68khOkSZbbiECBDd-2SHnT-5bCbpSs"},
    {"name": "sp_key", "value": "b3ea6f30-9af1-4a9f-96c4-19bd434c715d"},
    # Outros, se necessário
]

# Inicia navegador sem headless
options = webdriver.ChromeOptions()
# options.add_argument("--headless")
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# Acessa domínio para injetar cookies
driver.get("https://charts.spotify.com")
time.sleep(3)
for cookie in cookies:
    driver.add_cookie(cookie)

# Define os anos e datas de início
anos_datas = {
    2017: "2017-01-05",
    2018: "2018-01-04",
    2019: "2019-01-03",
    2020: "2020-01-02",
    2021: "2021-01-07",
    2022: "2022-01-06",
    2023: "2023-01-05",
    2024: "2024-01-04"
}

for ano, data_inicio in anos_datas.items():
    print(f"\n⏳ Coletando dados de {ano}...")
    todas_datas = gerar_datas_semanas(data_inicio)
    lista_ids = []

    for data_alvo in todas_datas:
        url = f"https://charts.spotify.com/charts/view/regional-br-weekly/{data_alvo}"
        try:
            driver.get(url)
            time.sleep(4)
            elementos = driver.find_elements(By.CSS_SELECTOR, 'a[href^="https://open.spotify.com/track/"]')
            links = list(set([el.get_attribute("href") for el in elementos]))
            ids = [extrair_id_da_url(link) for link in links if link]
            for id in ids:
                lista_ids.append({"date": data_alvo, "track_id": id})
            print(f"✅ {data_alvo} - {len(ids)} faixas")
        except Exception as e:
            print(f"⚠️ Erro em {data_alvo}: {e}")

    # Salva CSV do ano na pasta data/raw
    df = pd.DataFrame(lista_ids)
    nome_arquivo = os.path.join(caminho_base, f"spotify_charts_ids_{ano}.csv")
    df.to_csv(nome_arquivo, index=False)
    print(f"📁 Arquivo salvo: {nome_arquivo}")

driver.quit()



⏳ Coletando dados de 2017...
✅ 2017-01-05 - 200 faixas
✅ 2017-01-12 - 200 faixas
✅ 2017-01-19 - 200 faixas
✅ 2017-01-26 - 200 faixas
✅ 2017-02-02 - 200 faixas
✅ 2017-02-09 - 200 faixas
✅ 2017-02-16 - 200 faixas
✅ 2017-02-23 - 200 faixas
✅ 2017-03-02 - 200 faixas
✅ 2017-03-09 - 200 faixas
✅ 2017-03-16 - 200 faixas
✅ 2017-03-23 - 200 faixas
✅ 2017-03-30 - 200 faixas
✅ 2017-04-06 - 200 faixas
✅ 2017-04-13 - 200 faixas
✅ 2017-04-20 - 200 faixas
✅ 2017-04-27 - 200 faixas
✅ 2017-05-04 - 200 faixas
✅ 2017-05-11 - 200 faixas
✅ 2017-05-18 - 200 faixas
✅ 2017-05-25 - 200 faixas
✅ 2017-06-01 - 200 faixas
✅ 2017-06-08 - 200 faixas
✅ 2017-06-15 - 200 faixas
✅ 2017-06-22 - 200 faixas
✅ 2017-06-29 - 200 faixas
✅ 2017-07-06 - 200 faixas
✅ 2017-07-13 - 200 faixas
✅ 2017-07-20 - 196 faixas
✅ 2017-07-27 - 200 faixas
✅ 2017-08-03 - 200 faixas
✅ 2017-08-10 - 200 faixas
✅ 2017-08-17 - 200 faixas
✅ 2017-08-24 - 200 faixas
✅ 2017-08-31 - 200 faixas
✅ 2017-09-07 - 200 faixas
✅ 2017-09-14 - 200 faixas
✅ 2017-0