# üé• YouTube - Pipeline de Coleta de Coment√°rios

Este notebook implementa a **pipeline de coleta de dados** do projeto *An√°lise de Sentimentos em Coment√°rios do YouTube*.  
Aqui s√£o coletados os coment√°rios dos v√≠deos de um canal do YouTube utilizando a API oficial, estruturando a base de dados para an√°lise posterior.

üìå **Etapa:** Pipeline 1 ‚Äì Coleta de Dados  
üìå **Pr√≥xima etapa:** Pipeline 2 ‚Äì An√°lise de Sentimentos


## üîß 1. Importa√ß√£o das bibliotecas

As bibliotecas abaixo permitem a conex√£o com a API do YouTube, o carregamento de vari√°veis de ambiente e a manipula√ß√£o dos dados coletados.


In [4]:
# Bibliotecas para coleta e organiza√ß√£o dos dados
from googleapiclient.discovery import build
from dotenv import load_dotenv
import pandas as pd
import os
import time


## ‚öôÔ∏è 2. Configura√ß√µes iniciais

Esta se√ß√£o carrega as vari√°veis de ambiente e define os par√¢metros principais para a coleta.

- `YOUTUBE_API_KEY` ‚Üí Chave da API do YouTube.
- `CHANNEL_ID` ‚Üí Canal que ser√° analisado.
- O notebook coleta, por padr√£o, os **5 v√≠deos mais visualizados** do canal.


In [5]:
import os
from dotenv import load_dotenv

# üîê Carregar vari√°veis do arquivo .env
load_dotenv()

# Leitura das vari√°veis de ambiente
API_KEY = os.getenv("YOUTUBE_API_KEY")
CHANNEL_ID = os.getenv("CHANNEL_ID")

# Defini√ß√£o fixa de v√≠deos a coletar (5 mais visualizados)
MAX_VIDEOS = 5

# Valida√ß√£o das vari√°veis
if not API_KEY or not CHANNEL_ID:
    raise ValueError("‚ö†Ô∏è Verifique se o arquivo .env cont√©m YOUTUBE_API_KEY e CHANNEL_ID corretamente configurados.")

print("‚úÖ Vari√°veis carregadas com sucesso!")


‚úÖ Vari√°veis carregadas com sucesso!


## üîå 3. Conex√£o com a API do YouTube

Nesta etapa √© criada a conex√£o com a API oficial do YouTube, utilizando a biblioteca `googleapiclient`.


In [6]:
from googleapiclient.discovery import build

try:
    youtube = build("youtube", "v3", developerKey=API_KEY)
    print("‚úÖ Conex√£o estabelecida com a API do YouTube!")
except Exception as e:
    print("‚ùå Erro ao conectar √† API do YouTube. Verifique sua chave e conex√£o com a internet.")
    raise e


‚úÖ Conex√£o estabelecida com a API do YouTube!


## üéØ 4. Buscar v√≠deos do canal

Esta etapa busca os **5 v√≠deos mais visualizados** do canal informado, com base no par√¢metro `viewCount`.  
Os resultados incluem o ID e o t√≠tulo de cada v√≠deo, que ser√£o usados na coleta de coment√°rios.


In [7]:
video_data = []

try:
    search_response = youtube.search().list(
        part="id,snippet",
        channelId=CHANNEL_ID,
        maxResults=MAX_VIDEOS,
        order="viewCount",   # üîÑ alterado: busca os v√≠deos mais visualizados
        type="video"
    ).execute()

    for item in search_response["items"]:
        video_data.append({
            "video_id": item["id"]["videoId"],
            "titulo": item["snippet"]["title"]
        })

    print("‚úÖ V√≠deos encontrados:")
    for i, v in enumerate(video_data, 1):
        print(f"{i}. {v['titulo']} (ID: {v['video_id']})")

except Exception as e:
    print("‚ùå Erro ao buscar v√≠deos do canal.")
    raise e


‚úÖ V√≠deos encontrados:
1. A √©tica √© a arte da conviv√™ncia! #shorts  #clovisdebarros (ID: U4YP4L7daAg)
2. O que √© √©tica? - Cl√≥vis de Barros (ID: DB-egMDjlr8)
3. N√£o se perca em quem voc√™ √©! #shorts #clovisdebarros (ID: p4zJu5-N4bI)
4. O amor n√£o define a vida! | Cl√≥vis de Barros (ID: GfGsTw1CItU)
5. As concep√ß√µes do amor - Cl√≥vis de Barros (ID: 6lJ8tS0BkYM)


## üí¨ 5. Fun√ß√£o para extrair coment√°rios

A fun√ß√£o abaixo busca **todos os coment√°rios dispon√≠veis** de um v√≠deo espec√≠fico.  
Utiliza pagina√ß√£o (`nextPageToken`) para superar o limite de 100 coment√°rios por requisi√ß√£o.


In [8]:
def extrair_comentarios(video_id, max_comments=1000):
    """
    Extrai coment√°rios de um v√≠deo do YouTube, com suporte a pagina√ß√£o.

    Par√¢metros:
    - video_id (str): ID do v√≠deo a ser analisado.
    - max_comments (int): n√∫mero m√°ximo de coment√°rios a coletar (padr√£o = 1000).
    """
    comentarios = []
    next_page_token = None

    print(f"\nüîç Coletando coment√°rios do v√≠deo: {video_id}")

    while len(comentarios) < max_comments:
        try:
            response = youtube.commentThreads().list(
                part="snippet",
                videoId=video_id,
                maxResults=100,
                textFormat="plainText",
                pageToken=next_page_token
            ).execute()

            for item in response.get("items", []):
                texto = item["snippet"]["topLevelComment"]["snippet"]["textDisplay"]
                comentarios.append(texto)

            next_page_token = response.get("nextPageToken")
            if not next_page_token:
                break

        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao buscar coment√°rios do v√≠deo {video_id}: {e}")
            break

    print(f"‚úÖ {len(comentarios)} coment√°rios coletados do v√≠deo {video_id}")
    return comentarios


## üßæ Encerramento da Pipeline de Coleta

A coleta de coment√°rios foi conclu√≠da com sucesso.  
Os dados foram extra√≠dos via API do YouTube, estruturados em DataFrame e exportados em formato CSV.  

‚û°Ô∏è A pr√≥xima etapa (Pipeline 2) ser√° dedicada √† **an√°lise de sentimentos**, aplicando modelos de NLP em portugu√™s sobre os coment√°rios coletados.
