
# üé• FASE 1 ‚Äì Coleta de Coment√°rios do YouTube  
**Projeto:** An√°lise de Sentimentos em Coment√°rios de V√≠deos  
**Etapa do CRISP-DM:** Data Acquisition  

Este notebook coleta coment√°rios dos v√≠deos mais visualizados de um canal do YouTube, aplicando boas pr√°ticas de pagina√ß√£o, detec√ß√£o de idioma e exporta√ß√£o em CSV.
    

In [None]:

# ============================================================
# 1Ô∏è‚É£ Importa√ß√£o das bibliotecas
# ============================================================
from googleapiclient.discovery import build
import pandas as pd
import time, os
from dotenv import load_dotenv
from langdetect import detect, DetectorFactory
import matplotlib.pyplot as plt

# Garante reprodutibilidade na detec√ß√£o de idioma
DetectorFactory.seed = 0
    

In [None]:

# ============================================================
# 2Ô∏è‚É£ Configura√ß√µes iniciais e conex√£o com a API
# ============================================================
load_dotenv()
api_key = os.getenv("YOUTUBE_API_KEY")
channel_id = os.getenv("CHANNEL_ID")

youtube = build("youtube", "v3", developerKey=api_key)
print("‚úÖ Conex√£o estabelecida com a API do YouTube!")
    

In [None]:

# ============================================================
# 3Ô∏è‚É£ Fun√ß√£o para extrair coment√°rios com pagina√ß√£o e tratamento de erros
# ============================================================
def extrair_comentarios(video_id, max_comments=1000):
    comentarios, token = [], None
    try:
        while True:
            response = youtube.commentThreads().list(
                part="snippet",
                videoId=video_id,
                maxResults=100,
                textFormat="plainText",
                pageToken=token
            ).execute()

            for item in response.get("items", []):
                texto = item["snippet"]["topLevelComment"]["snippet"]["textDisplay"]
                comentarios.append(texto)

            token = response.get("nextPageToken")
            if not token or len(comentarios) >= max_comments:
                break
            time.sleep(0.5)
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao buscar coment√°rios do v√≠deo {video_id}: {e}")
    return comentarios[:max_comments]
    

In [None]:

# ============================================================
# 4Ô∏è‚É£ Coleta dos v√≠deos mais visualizados do canal
# ============================================================
def coletar_comentarios_canal(channel_id, max_videos=5):
    search = youtube.search().list(
        part="id,snippet",
        channelId=channel_id,
        maxResults=max_videos,
        order="viewCount",
        type="video"
    ).execute()

    dados = []
    for item in search["items"]:
        video_id = item["id"]["videoId"]
        titulo = item["snippet"]["title"]
        coments = extrair_comentarios(video_id)
        for c in coments:
            try:
                idioma = detect(c)
            except:
                idioma = "indefinido"
            dados.append({
                "video_id": video_id,
                "video_titulo": titulo,
                "comentario": c,
                "idioma": idioma,
                "data_coleta": pd.Timestamp.now().strftime("%Y-%m-%d")
            })
    return pd.DataFrame(dados)
    

In [None]:

# ============================================================
# 5Ô∏è‚É£ Execu√ß√£o principal da coleta
# ============================================================
df = coletar_comentarios_canal(channel_id)
print("‚úÖ Coleta conclu√≠da!")
print(f"Total de v√≠deos analisados: {df['video_id'].nunique()}")
print(f"Total de coment√°rios coletados: {len(df)}")
    

In [None]:

# ============================================================
# 6Ô∏è‚É£ Tratamento final e exporta√ß√£o
# ============================================================
df.drop_duplicates(inplace=True)
df.to_csv("comentarios_top5.csv", index=False, encoding="utf-8-sig")

print("üìÇ Arquivo exportado: comentarios_top5.csv")
print(f"Linhas salvas: {len(df)}")
    

In [None]:

# ============================================================
# 7Ô∏è‚É£ EDA b√°sica ‚Äì estat√≠sticas descritivas
# ============================================================
df['tamanho'] = df['comentario'].astype(str).str.len()
print("\nüìä Estat√≠sticas b√°sicas do tamanho dos coment√°rios:")
print(df['tamanho'].describe())

plt.figure(figsize=(6,3))
df['tamanho'].plot(kind='hist', bins=30, color='steelblue', edgecolor='black')
plt.title("Distribui√ß√£o do Tamanho dos Coment√°rios")
plt.xlabel("N√∫mero de caracteres")
plt.ylabel("Frequ√™ncia")
plt.show()
    


---
‚úÖ **Notebook finalizado com sucesso!**  
Coment√°rios coletados, limpos e salvos para uso na Fase 2 (An√°lise de Sentimentos).

Pr√≥xima etapa: aplica√ß√£o de modelos de NLP (BERT em portugu√™s) para classificar os coment√°rios como positivos, negativos ou neutros.
    