# **Processamento de Linguagem Natural [2025-Q3]**
Prof. Alexandre Donizeti Alves

### **PROJETO PR√ÅTICO** [LangChain + Grandes Modelos de Linguagem]


O **PROJETO PR√ÅTICO** deve ser feito utilizando o **Google Colab** com uma conta sua vinculada ao Gmail. O link do seu notebook armazenado no Google Drive e o link de um reposit√≥rio no GitHub devem ser enviados usando o seguinte formul√°rio:

> https://forms.gle/D4gLqP1iGgyn2hbH8


**IMPORTANTE**: A submiss√£o deve ser feita at√© o dia **07/12 (domingo)** APENAS POR UM INTEGRANTE DA EQUIPE, at√© √†s 23h59. Por favor, lembre-se de dar permiss√£o de ACESSO IRRESTRITO para o professor da disciplina.

### **EQUIPE**

---

**POR FAVOR, PREENCHER OS INTEGRANDES DA SUA EQUIPE:**


**Integrante 01:** Henrique Carvalho Candido ‚Äì 11201811467 
**Integrante 02**: Igor Yudi Oshiro ‚Äì 12201811



### **GRANDE MODELO DE LINGUAGEM (*Large Language Model - LLM*)**

---

Cada equipe deve selecionar um Grande Modelo de Linguagem (*Large Language Model - LMM*).



Por favor, informe os dados do LLM selecionada:

>


**LLM**: OpenAI ‚Äì GPT-4.1 Mini

>

**Link para a documenta√ß√£o oficial**: https://platform.openai.com/docs/models/gpt-4.1-mini



### **API (Opcional)**
---

Por favor, informe os dados da API selecionada:

**API**: Youtube Data API V3 - CommentThreads

**Site oficial**: https://developers.google.com/youtube/v3?hl=pt-br

**Link para a documenta√ß√£o oficial**: https://developers.google.com/youtube/v3/docs/commentThreads/list



### **DESCRI√á√ÉO**
---

Implementar um `notebook` no `Google Colab` que fa√ßa uso do framework **`LangChain`** (obrigat√≥rio) e de um **LLM** aplicando, no m√≠nimo, DUAS t√©cnicas de PLN. As t√©cnicas podem ser aplicada em qualquer c√≥rpus obtido a partir de uma **API** ou a partir de uma p√°gina Web.

O **LLM** e a **API** selecionados devem ser informados na seguinte planilha:

> https://docs.google.com/spreadsheets/d/1iIUZcwnywO7RuF6VEJ8Rx9NDT1cwteyvsnkhYr0NWtU/edit?usp=sharing

>
As seguintes t√©cnicas de PLN podem ser usadas:

*   Corre√ß√£o Gramatical
*   Classifica√ß√£o de Textos
*   An√°lise de Sentimentos
*   Detec√ß√£o de Emo√ß√µes
*   Extra√ß√£o de Palavras-chave
*   Tradu√ß√£o de Textos
*   Sumariza√ß√£o de Textos
*   Similaridade de Textos
*   Reconhecimento de Entidades Nomeadas
*   Sistemas de Perguntas e Respostas
>

**IMPORTANTE:** √â obrigat√≥rio usar o e-mail da UFABC.


### **CRIT√âRIOS DE AVALIA√á√ÉO**
---


Ser√£o considerados como crit√©rios de avalia√ß√£o os seguintes pontos:

* Uso do framework **`LangChain`**.

* Escolha e uso de um **LLM**.

* Escolha e uso de uma **API** ou **P√°gina Web**.

* Projeto dispon√≠vel no Github.

* Apresenta√ß√£o (5 a 10 minutos).

* Criatividade no uso do framework **`LangChain`** em conjunto com o **LLM** e a **API**.




**IMPORTANTE**: todo o c√≥digo do notebook deve ser executado. C√≥digo sem execu√ß√£o n√£o ser√° considerado.

### **IMPLEMENTA√á√ÉO**
---

In [None]:
# ============================================
# IMPORTS DO SISTEMA E TERCEIROS
# ============================================
import os
import json
import requests
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime

# ============================================
# GOOGLE API
# ============================================
from googleapiclient.discovery import build

# ============================================
# LANGCHAIN (ATUALIZADO 2025)
# ============================================
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_groq import ChatGroq
from langchain_openai import ChatOpenAI

# ============================================
# REPORTLAB PARA GERA√á√ÉO DE PDF
# ============================================
from reportlab.platypus import (
    SimpleDocTemplate,
    Paragraph,
    Spacer,
    Table,
    TableStyle,
    Image
)
from reportlab.lib.pagesizes import A4
from reportlab.lib.styles import getSampleStyleSheet
from reportlab.lib import colors

# ============================================
# VISUALIZA√á√ÉO E NUVEM DE PALAVRAS
# ============================================
from wordcloud import WordCloud

In [None]:
# ============================================================
# CONFIGURA√á√ÉO DAS CHAVES DE API
# ============================================================

YOUTUBE_API_KEY = os.getenv("YOUTUBE_API_KEY")
GROQ_API_KEY = os.getenv("GROQ_API_KEY")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [None]:
# ============================================================
# CONFIGURA√á√ÉO DO LLM (Groq ‚Äî modelos gratuitos)
# ============================================================

def get_llm(provider="groq"):
    """
    Retorna o LLM escolhido.
    - provider="groq" ‚Üí modelo Groq (padr√£o)
    - provider="openai" ‚Üí modelo OpenAI Mini 1
    """

    if provider == "openai":
        return ChatOpenAI(
            model="gpt-4.1-mini",   
            temperature=0.1
        )

    # Groq (padr√£o)
    return ChatGroq(
        model="llama-3.1-8b-instant",
        temperature=0.1
    )

parser = StrOutputParser()

In [None]:
# ============================================================
# FUN√á√ÉO: Converter emojis em palavras
# ============================================================

EMOJI_MAP = {
    # ALEGRIA / FELICIDADE
    "üòÇ": "risada", "ü§£": "risada", "üòÖ": "risada nervosa", "üòÅ": "feliz",
    "üòÑ": "feliz", "üòä": "feliz", "üòÉ": "feliz", "üôÇ": "feliz leve",
    "üòÜ": "muita risada", "üòé": "confiante", "ü§©": "empolgado", "ü•≥": "celebrando",
    "üò∫": "feliz",

    # AMOR / CARINHO
    "üòç": "amor", "ü•∞": "carinho", "üòò": "beijo", "üòó": "beijo leve",
    "üòª": "amor", "‚ù§Ô∏è": "amor", "üíì": "amor", "üíó": "amor",
    "üíñ": "amor", "üíò": "amor", "üíù": "carinho", "üíï": "carinho",
    "üíû": "carinho", "üíü": "afeto", "üíå": "amor", "üíô": "amor",
    "üíö": "amor", "üíõ": "amor", "üíú": "amor", "üß°": "amor",
    "ü©∑": "amor", "‚ú®": "brilho", "ü§ó": "abra√ßo",

    # TRISTEZA
    "üò¢": "triste", "üò≠": "chorando", "ü•∫": "suplica", "‚òπÔ∏è": "triste",
    "üòû": "desapontado", "üòî": "triste", "üòü": "preocupado",

    # RAIVA
    "üò°": "raiva", "üò†": "raiva", "ü§¨": "muita raiva",

    # SURPRESA
    "üò±": "surpresa", "üòÆ": "surpresa", "üòØ": "surpresa", "üò≤": "surpresa",

    # MEDO / ANSIEDADE
    "üò®": "medo", "üò∞": "ansiedade", "üò•": "angustia", "ü•π": "emo√ß√£o forte",

    # NOJO
    "ü§¢": "nojo", "ü§Æ": "nojo extremo",

    # NEUTRO / PENSATIVO
    "üòê": "neutro", "üòë": "neutro", "ü§î": "pensativo", "ü§®": "duvida",

    # M√ÉOS / GESTOS
    "üôè": "gratid√£o", "üëç": "positivo", "üëé": "negativo", "üëè": "aplausos",
    "üôå": "celebra√ß√£o", "ü§ù": "parceria", "‚úåÔ∏è": "paz", "üëå": "ok",
    "ü§≤": "oferta",

    # ANIMAIS
    "üê∂": "cachorro", "üêï": "cachorro", "üê±": "gato", "üêà": "gato",
    "üêæ": "patinhas",

    # FOGO / FESTA / M√öSICA
    "üî•": "incr√≠vel", "üéâ": "festa", "üéä": "celebra√ß√£o", "üéµ": "musica",
    "üé∂": "musica", "üé§": "microfone", "üéß": "audio", "üéº": "melodia",

    # OUTROS
    "üíÄ": "chocado", "ü§°": "palha√ßada", "üåü": "estrela", "‚≠ê": "estrela",
    "üí•": "impacto",
}


def emoji_to_text(text: str) -> str:
    for emoji, word in EMOJI_MAP.items():
        text = text.replace(emoji, f" {word} ")
    return text.strip()

In [None]:
# ============================================================
# PROMPTS ‚Äî Fun√ß√µes de PLN
# ============================================================

def build_chains(llm_model):

    # Sentimento
    sentiment_prompt = PromptTemplate(
        input_variables=["text"],
        template="""
                Classifique o sentimento predominante expresso no coment√°rio abaixo,
                considerando que se trata de um coment√°rio sobre uma m√∫sica.
                Avalie o tom geral da mensagem, a inten√ß√£o emocional do autor e o impacto impl√≠cito,
                incluindo poss√≠veis indica√ß√µes dadas por emojis ou express√µes afetivas.

                Escolha APENAS uma das tr√™s op√ß√µes:
                - positivo   (elogios, carinho, satisfa√ß√£o, emo√ß√£o boa, nostalgia afetiva)
                - negativo   (cr√≠ticas, frustra√ß√£o, inc√¥modo, rejei√ß√£o, emo√ß√£o ruim)
                - neutro     (informativo, amb√≠guo ou sem carga emocional clara)

                Coment√°rio:
                {text}

                Regra: responda APENAS com uma das palavras acima, sem explica√ß√µes adicionais.
            """
        )

    emotion_prompt = PromptTemplate(
        input_variables=["text"],
        template="""
            Classifique a emo√ß√£o dominante expressa no coment√°rio abaixo.
            Considere o contexto de coment√°rios sobre m√∫sicas, incluindo rea√ß√µes √† melodia,
            letra, voz, mem√≥ria afetiva, nostalgia e sentimentos sugeridos por emojis
            j√° convertidos em texto.

            A resposta deve ser EXATAMENTE uma das emo√ß√µes da lista principal:

            alegria
            amor
            nostalgia
            saudade
            tristeza
            melancolia
            raiva
            surpresa
            inspira√ß√£o
            reflex√£o
            neutro

            Regras obrigat√≥rias:
            - escolha somente UMA palavra da lista;
            - n√£o use frases, justificativas ou varia√ß√µes;
            - n√£o invente emo√ß√µes fora da lista.

            Coment√°rio:
            {text}

            Resposta:
        """
    )

    # Keywords
    keywords_prompt = PromptTemplate(
        input_variables=["text"],
        template="""
            Extraia entre **5 e 10 palavras-chave realmente significativas** do coment√°rio abaixo.

            O objetivo √© identificar elementos centrais do coment√°rio, considerando que ele trata de uma m√∫sica. Portanto, priorize palavras relacionadas a:

            - emo√ß√µes (ex: nostalgia, alegria, tristeza)
            - temas mencionados (ex: saudade, lembran√ßa, supera√ß√£o)
            - experi√™ncia pessoal (ex: inf√¢ncia, momento, vida)
            - elementos musicais (ex: melodia, voz, letra, ritmo, guitarra)
            - aprecia√ß√£o ou cr√≠tica (ex: incr√≠vel, poderoso, marcante)
            - impacto afetivo ou sensorial (ex: arrepio, energia, vibe)

            ============================================================
            REGRAS OBRIGAT√ìRIAS (SIGA √Ä RISCA):
            ============================================================

            1) N√£o extraia palavras gen√©ricas demais  
            (ex.: m√∫sica, v√≠deo, coisa, muito, bom, legal, a√≠).

            2) N√ÉO incluir:
            - artigos, pronomes ou conectivos (o, a, que, de, com‚Ä¶)
            - emojis
            - n√∫meros
            - repeti√ß√£o da mesma palavra
            - trechos longos ou frases inteiras
            - palavras sem valor sem√¢ntico real

            3) Extraia apenas palavras isoladas (1 palavra cada),  
            sempre no **singular**, sem hashtags.

            4) As palavras-chave devem capturar O ESSENCIAL do coment√°rio:
            ‚Äî emo√ß√µes centrais  
            ‚Äî temas mencionados  
            ‚Äî experi√™ncia afetiva  
            ‚Äî elementos musicais

            5) Responda SOMENTE com as palavras-chave,  
            separadas por v√≠rgula, sem coment√°rios extras.

            ============================================================
            Coment√°rio:
            {text}

            Responda SOMENTE com as palavras-chave (5 a 10 termos):
        """
    )


    # Resumo final (para todos os coment√°rios)
    summary_prompt = PromptTemplate(
        input_variables=["text"],
        template="""
            Gere um resumo claro, objetivo e bem estruturado sobre o conjunto de coment√°rios abaixo,
            considerando especificamente o contexto de coment√°rios sobre m√∫sicas. 
            Leve em conta que usu√°rios costumam expressar emo√ß√µes intensas, mem√≥rias pessoais,
            sensa√ß√µes despertadas pela melodia ou pela letra, identifica√ß√£o com o artista,
            e rea√ß√µes afetivas t√≠picas desse ambiente.

            Sua an√°lise deve identificar:

            - principais opini√µes e percep√ß√µes dos usu√°rios sobre a m√∫sica, letra, melodia, artista ou impacto emocional;
            - emo√ß√µes predominantes e padr√µes emocionais recorrentes (ex.: nostalgia, saudade, alegria, como√ß√£o);
            - tend√™ncias gerais de sentimento (positivo, negativo ou neutro) relacionadas √† experi√™ncia musical;
            - temas centrais mencionados, como lembran√ßas, relacionamentos, fases da vida, performance do artista, qualidade da produ√ß√£o ou significado pessoal;
            - contrastes relevantes entre grupos de coment√°rios (ex.: f√£s antigos vs. novos ouvintes, experi√™ncias pessoais diferentes).

            Use linguagem direta, s√≠ntese precisa e foco nas informa√ß√µes realmente relevantes.

            Texto analisado:
            {text}

            Retorne UM √öNICO par√°grafo de at√© 10 linhas, sem listas e evitando repeti√ß√µes.
        """
    )

    # Classifica√ß√£o do contexto (tipo de rela√ß√£o com a m√∫sica)
    context_prompt = PromptTemplate(
        input_variables=["text"],
        template="""
            Classifique o COMPORTAMENTO do coment√°rio em rela√ß√£o √† m√∫sica do v√≠deo.

            A classifica√ß√£o deve ser EXCLUSIVA ‚Äî escolha apenas UMA op√ß√£o ‚Äî e considerar o foco principal do que a pessoa escreveu.

            ======================================================
            CATEGORIAS PERMITIDAS (escolha SOMENTE uma):
            ======================================================

            1) **sobre_a_musica**
            Quando o coment√°rio fala diretamente sobre:
            - a m√∫sica, letra, melodia, ritmo, harmonia;
            - a performance do artista;
            - opini√£o, cr√≠tica ou elogio sobre o som;
            - produ√ß√£o musical, qualidade do √°udio, clipe.

            Exemplos:
            - "Essa m√∫sica √© perfeita!"
            - "O refr√£o √© muito forte."
            - "O vocal dele t√° incr√≠vel."

            2) **experiencia_pessoal**
            Quando o coment√°rio relata uma mem√≥ria, hist√≥ria ou situa√ß√£o da vida relacionada √† m√∫sica.

            Exemplos:
            - "Essa m√∫sica marcou minha adolesc√™ncia."
            - "Ouvi essa m√∫sica no meu casamento."
            - "Me lembra meu pai que j√° faleceu."

            3) **trecho_de_letra**
            Quando o coment√°rio cont√©m um trecho da m√∫sica, mesmo que modificado levemente.
            N√£o importa se a pessoa n√£o cita que √© letra ‚Äî identifique pelo conte√∫do.

            Exemplos:
            - "I've given up, I'm sick of feeling!"
            - "Walk on home boy!"
            - "S√≥ as antigas v√£o lembrar‚Ä¶"

            4) **off_topic**
            Quando o coment√°rio N√ÉO tem rela√ß√£o com a m√∫sica.
            Inclui:
            - memes aleat√≥rios;
            - pol√≠tica, religi√£o, futebol;
            - conversa paralela com outros usu√°rios;
            - perguntas nada a ver;
            - emojis sem contexto;
            - spam.

            Exemplos:
            - "Quem mais veio por causa do TikTok?"
            - "Brasil 7x1 Alemanha."
            - "Algu√©m sabe qual √© o nome do cachorro?"

            ======================================================
            REGRAS OBRIGAT√ìRIAS
            ======================================================

            - Escolha APENAS UMA op√ß√£o.
            - N√ÉO explique sua escolha, N√ÉO adicione texto extra.
            - Se houver mistura de elementos, escolha o TEMA PRINCIPAL do coment√°rio.
            - Se o coment√°rio tiver letra + opini√£o ‚Üí classifique como **trecho_de_letra**.
            - Se o coment√°rio for s√≥ emojis:  
                - Se forem claramente emocionais ‚Üí classifique como **sobre_a_musica**.  
                - Se forem aleat√≥rios ‚Üí **off_topic**.

            ======================================================
            Coment√°rio a classificar:
            {text}

            Responda SOMENTE com uma das op√ß√µes:
            sobre_a_musica, experiencia_pessoal, trecho_de_letra, off_topic
    """
    )

    # Detec√ß√£o de idioma (melhorada para contexto de m√∫sica)
    language_prompt = PromptTemplate(
        input_variables=["text"],
        template="""
            Identifique o idioma principal do coment√°rio abaixo.

            IMPORTANTE:
            - Considere que muitos coment√°rios de YouTube sobre m√∫sicas podem conter:
                * trechos da letra,
                * nomes de artistas,
                * palavras repetidas,
                * express√µes informais,
                * g√≠rias multil√≠ngues,
                * emojis.
            - Nesses casos, identifique o idioma predominante da frase como um todo.
            - Se houver mistura, escolha o idioma da maior parte do texto.

            Responda SOMENTE com o c√≥digo ISO-639-1:
            - pt, en, es, fr, de, it, etc.

            Coment√°rio:
            {text}

            Responda exclusivamente com o c√≥digo do idioma, sem frases adicionais.
        """
    )

    # Tradu√ß√£o autom√°tica (especializada para coment√°rios de m√∫sica)
    translate_prompt = PromptTemplate(
        input_variables=["text", "lang"],
        template="""
            Voc√™ receber√° um coment√°rio de YouTube sobre uma m√∫sica, junto com o idioma detectado.

            Se o idioma for "pt":
                - N√ÉO traduza.
                - N√ÉO reescreva.
                - Retorne o texto exatamente como est√°.

            Caso contr√°rio:
                - Traduza o coment√°rio para o portugu√™s brasileiro.
                - Mantenha o sentido original, o tom emocional e o estilo do autor.
                - Preserve:
                    * g√≠rias
                    * express√µes culturais
                    * nomes pr√≥prios
                    * termos musicais (chorus, beat, flow, vocals, harmony)
                    * trechos de letra de m√∫sica (sem adaptar)
                - Se houver palavras de v√°rios idiomas no mesmo coment√°rio,
                traduza apenas o que for do idioma detectado como predominante.

            Idioma detectado: {lang}
            Coment√°rio original:
            {text}

            Responda somente com o texto final traduzido ou preservado.
        """
    )

    return {
        "sentiment": sentiment_prompt | llm_model | parser,
        "emotion": emotion_prompt | llm_model | parser,
        "keywords": keywords_prompt | llm_model | parser,
        "summary": summary_prompt | llm_model | parser,
        "context": context_prompt | llm_model | parser,
        "language": language_prompt | llm_model | parser,
        "translate": translate_prompt | llm_model | parser,
    }

LLM_MODEL = get_llm(provider="openai")
CHAINS = build_chains(LLM_MODEL)

In [None]:
# ============================================================
# COLETA DE COMENT√ÅRIOS DO YOUTUBE
# ============================================================

def extract_youtube_comments(
    video_id: str,
    max_comments: int = 50,
    order: str = "relevance"
):
    """
    Coleta coment√°rios de um v√≠deo do YouTube usando a API oficial.

    Par√¢metros:
    -----------
    video_id : str
        ID do v√≠deo no YouTube (ex: 'TAqZb52sgpU').
    
    max_comments : int, opcional (default=50)
        Quantidade m√°xima de coment√°rios a serem coletados.
        A API retorna at√© 100 por p√°gina, ent√£o a fun√ß√£o pagina automaticamente.

    order : str, opcional (default="relevance")
        Ordena√ß√£o dos coment√°rios retornados pela API:
            - "relevance": mais relevantes (padr√£o do YouTube)
            - "time": mais recentes
            - "rating": melhores avaliados (likes)

    Retorno:
    --------
    comments : list[dict]
        Lista de coment√°rios estruturados com:
        - ID do coment√°rio
        - Autor
        - Texto
        - Data de publica√ß√£o
        - Likes
        - URL direto para o coment√°rio
        - ID do v√≠deo

    order : str
        Retorna a ordena√ß√£o usada (permite salvar no PDF para registro).
    """

    # Inicializa o cliente da API do YouTube
    youtube = build("youtube", "v3", developerKey=os.getenv("YOUTUBE_API_KEY"))
    
    comments = []  # Lista final de coment√°rios coletados

    # Primeira requisi√ß√£o ‚Äî coleta os primeiros 100 resultados
    request = youtube.commentThreads().list(
        part="snippet",
        videoId=video_id,
        textFormat="plainText",
        maxResults=100,   # Limite da API por p√°gina
        order=order       # Ordena√ß√£o configur√°vel
    )

    # Executa a requisi√ß√£o inicial
    response = request.execute()

    # Continua coletando enquanto existir resposta e n√£o atingir o limite
    while response and len(comments) < max_comments:

        # Percorre cada coment√°rio retornado na p√°gina atual
        for item in response.get("items", []):
            
            snippet = item["snippet"]["topLevelComment"]["snippet"]

            # Cria estrutura de dados padronizada
            comments.append({
                "comment_id": item["snippet"]["topLevelComment"]["id"],
                "author": snippet.get("authorDisplayName"),
                "text": snippet.get("textDisplay", ""),
                "published_at": snippet.get("publishedAt"),
                "like_count": snippet.get("likeCount", 0),

                # Gera link direto para o coment√°rio (YouTube padr√£o)
                "comment_url": (
                    f"https://www.youtube.com/watch?v={video_id}&lc="
                    f"{item['snippet']['topLevelComment']['id']}"
                ),

                "video_id": video_id,
            })

            # Interrompe se j√° alcan√ßou o n√∫mero desejado
            if len(comments) >= max_comments:
                break

        # Se n√£o existe pr√≥xima p√°gina, encerra coleta
        if "nextPageToken" not in response:
            break

        # Pagina para pr√≥xima requisi√ß√£o
        response = youtube.commentThreads().list(
            part="snippet",
            videoId=video_id,
            textFormat="plainText",
            maxResults=100,
            pageToken=response["nextPageToken"],
            order=order
        ).execute()

    # Retorna lista completa e ordena√ß√£o usada (para registro no relat√≥rio)
    return comments, order


In [None]:
# ============================================================
# PROCESSAMENTO INDIVIDUAL DE CADA COMENT√ÅRIO
# ============================================================

def process_comment(text: str):
    """
    Processa um √∫nico coment√°rio do YouTube aplicando toda a cadeia de NLP:
    - Expans√£o de emojis em palavras
    - Detec√ß√£o de idioma
    - Tradu√ß√£o (quando necess√°rio)
    - Classifica√ß√£o de sentimento
    - Identifica√ß√£o de emo√ß√£o dominante
    - Extra√ß√£o de palavras-chave
    - Classifica√ß√£o do contexto (tipo de coment√°rio)

    Retorna um dicion√°rio padronizado contendo todas essas informa√ß√µes.
    """

    # ------------------------------------------
    # 1) Expans√£o de emojis para palavras √∫teis
    # ------------------------------------------
    # Exemplo:
    # "This song ‚ù§Ô∏èüî•" ‚Üí "This song amor incr√≠vel"
    # Isso melhora muito a an√°lise sem√¢ntica.
    text_expanded = emoji_to_text(text)

    # ------------------------------------------
    # 2) Detectar o idioma predominante
    # ------------------------------------------
    # O LLM identifica idioma considerando g√≠rias,
    # trechos de letra, emojis e mistura de idiomas.
    lang = CHAINS["language"].invoke({"text": text_expanded}).strip().lower()

    # ------------------------------------------
    # 3) Tradu√ß√£o autom√°tica (somente se n√£o for PT)
    # ------------------------------------------
    # O texto √© traduzido para PT-BR para padronizar toda a an√°lise
    # e permitir que sentimento/emocÃß√£o funcionem melhor.
    translated = CHAINS["translate"].invoke({
        "text": text_expanded,
        "lang": lang
    }).strip()

    # ------------------------------------------
    # 4) Classifica√ß√µes de NLP (sentimento, emo√ß√£o, contexto, keywords)
    # ------------------------------------------
    sentiment = CHAINS["sentiment"].invoke({"text": translated}).strip().lower()
    emotion = CHAINS["emotion"].invoke({"text": translated}).strip().lower()
    keywords = CHAINS["keywords"].invoke({"text": translated}).strip()
    context = CHAINS["context"].invoke({"text": translated}).strip().lower()

    # ------------------------------------------
    # 5) Retorna tudo padronizado
    # ------------------------------------------
    return {
        "emoji_expanded": text_expanded,   # texto original expandido com palavras no lugar de emojis
        "language": lang,                  # idioma detectado (pt, en, es‚Ä¶)
        "translated": translated,          # coment√°rio traduzido ou preservado em PT
        "sentiment": sentiment,            # positivo / negativo / neutro
        "emotion": emotion,                # uma emo√ß√£o dominante (alegria, nostalgia etc.)
        "keywords": keywords,              # 5‚Äì10 keywords relevantes
        "context": context                 # sobre_a_musica / letra / experiencia / off_topic
    }


In [None]:
# ============================================================
# AN√ÅLISE COMPLETA DOS COMENT√ÅRIOS (com logs detalhados)
# ============================================================

def analyze_comments(comments):
    """
    Aplica o pipeline completo de processamento (NLP) para cada coment√°rio coletado.

    O pipeline inclui:
        - expans√£o de emojis
        - detec√ß√£o de idioma
        - tradu√ß√£o (quando necess√°rio)
        - classifica√ß√£o de sentimento
        - identifica√ß√£o de emo√ß√£o dominante
        - extra√ß√£o de palavras-chave
        - classifica√ß√£o do contexto

    Par√¢metros:
    -----------
    comments : list[dict]
        Lista de coment√°rios retornados pela coleta.

    Retorno:
    --------
    list[dict]
        Lista de coment√°rios enriquecidos com todas as an√°lises.
    """

    enriched_data = []

    print("\n=== INICIANDO AN√ÅLISE DOS COMENT√ÅRIOS ===\n")

    for idx, c in enumerate(comments, start=1):

        # -------------------------------------------------------
        # 1) Valida√ß√£o do coment√°rio antes do processamento
        # -------------------------------------------------------
        if not isinstance(c, dict):
            print(f"‚ö† Ignorado: coment√°rio inv√°lido (n√£o √© dict): {c}")
            continue

        if "text" not in c or not isinstance(c["text"], str):
            print(f"‚ö† Ignorado: estrutura inesperada ou texto ausente: {c}")
            continue

        raw_text = c["text"].strip()
        if raw_text == "":
            print(f"‚ö† Ignorado: coment√°rio vazio.")
            continue

        # -------------------------------------------------------
        # 2) Processamento completo (fun√ß√£o NLP)
        # -------------------------------------------------------
        try:
            processed = process_comment(raw_text)
        except Exception as e:
            print(f"‚ùå ERRO ao analisar coment√°rio {idx}: {e}")
            continue

        # -------------------------------------------------------
        # 3) Combina dados originais + dados processados
        # -------------------------------------------------------
        enriched = {**c, **processed}
        enriched_data.append(enriched)

        # -------------------------------------------------------
        # 4) Logs amig√°veis para acompanhamento
        # -------------------------------------------------------
        print(f"[{idx}/{len(comments)}] Coment√°rio analisado:")
        print(f"Texto original: {raw_text[:120]}")  # limita para n√£o explodir o log
        print(
            f"‚Üí Sentimento: {processed['sentiment']} | "
            f"Emo√ß√£o: {processed['emotion']} | "
            f"Contexto: {processed['context']}"
        )
        print("-" * 70)

    print("\n=== AN√ÅLISE COMPLETA ===\n")

    return enriched_data

In [None]:
# ============================================================
# RESUMO FINAL
# ============================================================

def generate_final_summary(analyzed_comments):
    combined = "\n".join([c["translated"] for c in analyzed_comments])
    return CHAINS["summary"].invoke({"text": combined}).strip()

In [None]:
# ============================================================
# ESTAT√çSTICAS DOS COMENT√ÅRIOS ANALISADOS
# ============================================================

def generate_stats(analyzed_comments):
    """
    Calcula estat√≠sticas fundamentais (distribui√ß√µes)
    para apoiar an√°lises quantitativas dos coment√°rios.

    A fun√ß√£o recebe a lista de coment√°rios j√° enriquecidos
    com sentimento, emo√ß√£o, contexto, idioma etc.,
    e cria um DataFrame para gerar contagens de cada categoria.

    Retorna um dicion√°rio estruturado contendo:
        - sentiment_counts : distribui√ß√£o de positivo / neutro / negativo
        - emotion_counts   : emo√ß√µes predominantes (alegria, nostalgia‚Ä¶)
        - context_counts   : tipo de coment√°rio (m√∫sica, letra, pessoal‚Ä¶)
        - language_counts  : idiomas encontrados
    """

    # Criamos um DataFrame para facilitar opera√ß√µes tabulares
    df = pd.DataFrame(analyzed_comments)

    # Constru√≠mos o dicion√°rio de estat√≠sticas,
    # sempre verificando se a coluna existe no DataFrame.
    stats = {
        "sentiment_counts": df["sentiment"].value_counts().to_dict() 
            if "sentiment" in df else {},

        "emotion_counts": df["emotion"].value_counts().to_dict() 
            if "emotion" in df else {},

        "context_counts": df["context"].value_counts().to_dict() 
            if "context" in df else {},

        "language_counts": df["language"].value_counts().to_dict() 
            if "language" in df else {}
    }

    # Retornamos apenas o dicion√°rio;
    # salvar em disco √© responsabilidade de outra fun√ß√£o.
    return stats


In [None]:
# ============================================================
# FUN√á√ïES DE SALVAMENTO DE ARQUIVOS
# ============================================================

def save_json(filename, data):
    """
    Salva qualquer estrutura Python (dict, list, etc.)
    em formato JSON com indenta√ß√£o e UTF-8 preservado.
    """
    with open(filename, "w", encoding="utf-8") as f:
        json.dump(data, f, indent=4, ensure_ascii=False)


# ============================================================
# SALVAMENTO ORGANIZADO POR V√çDEO
# ============================================================

def save_outputs_for_video(video_id, comments, analyzed, resumo, stats):
    """
    Salva todos os arquivos essenciais gerados durante o processamento
    de um v√≠deo espec√≠fico. A estrutura criada segue o padr√£o:

        youtube_comments/
            ‚îî‚îÄ‚îÄ <video_id>/
                ‚îú‚îÄ‚îÄ comentarios_youtube_<video_id>.json
                ‚îú‚îÄ‚îÄ comentarios_analisados_<video_id>.json
                ‚îî‚îÄ‚îÄ stats_resumo_<video_id>.json

    O objetivo √© manter tudo bem organizado e agrupado por v√≠deo,
    facilitando futuras consultas, auditorias ou reprocessamentos.
    """

    # Cria a pasta do v√≠deo se ainda n√£o existir
    base_dir = f"youtube_comments/{video_id}"
    os.makedirs(base_dir, exist_ok=True)

    # ----------------------------------------------
    # 1) Coment√°rios brutos coletados da API
    # ----------------------------------------------
    save_json(
        f"{base_dir}/comentarios_youtube_{video_id}.json",
        comments
    )

    # ----------------------------------------------
    # 2) Coment√°rios analisados (com tradu√ß√µes,
    #    sentimentos, emo√ß√µes, contexto etc.)
    # ----------------------------------------------
    save_json(
        f"{base_dir}/comentarios_analisados_{video_id}.json",
        analyzed
    )

    # ----------------------------------------------
    # 3) Estat√≠sticas agregadas do v√≠deo
    # ----------------------------------------------
    save_json(
        f"{base_dir}/stats_resumo_{video_id}.json",
        stats
    )

    # Estat√≠sticas (mant√©m JSON)
    with open(f"{base_dir}/stats_resumo_{video_id}.json", "w", encoding="utf-8") as f:
        json.dump(stats, f, indent=4, ensure_ascii=False)

In [None]:
def generate_pdf_report(video_id, resumo, stats, analyzed, order_used):
    """
    Gera um relat√≥rio PDF completo consolidando:
        - Thumbnail do v√≠deo
        - Link direto para o YouTube
        - Ordem de coleta dos coment√°rios
        - Resumo geral da an√°lise
        - Estat√≠sticas (sentimento, emo√ß√£o, contexto, idioma)
        - Wordcloud de palavras-chave
        - Gr√°fico de distribui√ß√£o de contextos
        - Lista completa de coment√°rios analisados

    O objetivo √© criar um documento final de alta qualidade,
    organizado visualmente e informativamente.
    """

    base_dir = f"youtube_comments/{video_id}"
    os.makedirs(base_dir, exist_ok=True)

    file_path = f"{base_dir}/relatorio_{video_id}.pdf"

    # ------------------------------------------------------------
    # CONFIGURA√á√ÉO DO DOCUMENTO PDF
    # ------------------------------------------------------------
    doc = SimpleDocTemplate(
        file_path,
        pagesize=A4,
        leftMargin=40, rightMargin=40,
        topMargin=40, bottomMargin=40,
        title=f"Relat√≥rio de An√°lise - {video_id}",
    )

    styles = getSampleStyleSheet()
    story = []  # lista de blocos que comp√µem o PDF

    # ============================================================
    # SE√á√ÉO 1 ‚Äî CAPA / THUMBNAIL DO V√çDEO
    # ============================================================
    story.append(Paragraph("<b>Capa do V√≠deo</b>", styles["Heading2"]))
    story.append(Spacer(1, 6))

    thumb_path = f"{base_dir}/thumbnail_{video_id}.jpg"
    thumb_urls = [
        f"https://img.youtube.com/vi/{video_id}/maxresdefault.jpg",
        f"https://img.youtube.com/vi/{video_id}/hqdefault.jpg",
    ]

    # Tenta baixar a melhor thumbnail dispon√≠vel
    downloaded = False
    for url in thumb_urls:
        try:
            r = requests.get(url, timeout=10)
            if r.status_code == 200 and len(r.content) > 1000:
                with open(thumb_path, "wb") as img:
                    img.write(r.content)
                downloaded = True
                break
        except:
            pass

    if downloaded:
        try:
            img = Image(thumb_path)
            img._restrictSize(450, 250)  # Limita tamanho no PDF
            story.append(img)
        except Exception as e:
            print(f"‚ö† Erro ao inserir thumbnail no PDF: {e}")
            story.append(Paragraph("<i>Thumbnail indispon√≠vel</i>", styles["BodyText"]))
    else:
        story.append(Paragraph("<i>Thumbnail n√£o encontrada</i>", styles["BodyText"]))

    story.append(Spacer(1, 20))

    # ============================================================
    # SE√á√ÉO 2 ‚Äî T√çTULO, LINK DO V√çDEO E ORDEM DE COLETA
    # ============================================================
    story.append(Paragraph(
        f"<b>Relat√≥rio de An√°lise de Coment√°rios ‚Äì V√≠deo {video_id}</b>",
        styles["Title"]
    ))
    story.append(Spacer(1, 12))

    video_url = f"https://www.youtube.com/watch?v={video_id}"
    story.append(Paragraph(f'<a href="{video_url}">{video_url}</a>', styles["BodyText"]))
    story.append(Spacer(1, 8))

    story.append(Paragraph(
        f"<i>Ordem de coleta dos coment√°rios: <b>{order_used}</b></i>",
        styles["BodyText"]
    ))
    story.append(Spacer(1, 20))

    # ============================================================
    # SE√á√ÉO 3 ‚Äî RESUMO GERAL DA AN√ÅLISE
    # ============================================================
    story.append(Paragraph("<b>Resumo Geral</b>", styles["Heading2"]))
    story.append(Spacer(1, 6))
    story.append(Paragraph(resumo, styles["BodyText"]))
    story.append(Spacer(1, 20))

    # ============================================================
    # SE√á√ÉO 4 ‚Äî TABELA DE ESTAT√çSTICAS
    # ============================================================
    story.append(Paragraph("<b>Estat√≠sticas de Coment√°rios</b>", styles["Heading2"]))
    story.append(Spacer(1, 8))

    def fmt_counts(d):
        """Formata dicion√°rios em texto leg√≠vel."""
        return "‚Äî" if not d else ", ".join([f"{k}: {v}" for k, v in d.items()])

    stats_table = [
        ["M√©trica", "Distribui√ß√£o"],
        ["Sentimentos", fmt_counts(stats.get("sentiment_counts", {}))],
        ["Emo√ß√µes", fmt_counts(stats.get("emotion_counts", {}))],
        ["Contextos", fmt_counts(stats.get("context_counts", {}))],
        ["Idiomas", fmt_counts(stats.get("language_counts", {}))],
    ]

    table = Table(stats_table, colWidths=[130, 350])
    table.setStyle(TableStyle([
        ("BACKGROUND", (0, 0), (-1, 0), colors.HexColor("#4B5563")),
        ("TEXTCOLOR", (0, 0), (-1, 0), colors.white),
        ("FONTNAME", (0, 0), (-1, 0), "Helvetica-Bold"),
        ("ALIGN", (0, 0), (-1, -1), "LEFT"),
        ("BACKGROUND", (0, 1), (-1, -1), colors.whitesmoke),
        ("GRID", (0, 0), (-1, -1), 0.25, colors.black),
    ]))

    story.append(table)
    story.append(Spacer(1, 20))

    # ============================================================
    # SE√á√ÉO 5 ‚Äî WORDCLOUD (NUVEM DE PALAVRAS)
    # ============================================================
    story.append(Paragraph("<b>Nuvem de Palavras (Keywords)</b>", styles["Heading2"]))
    story.append(Spacer(1, 6))

    all_keywords = []
    for c in analyzed:
        if c.get("keywords"):
            all_keywords.extend([kw.strip() for kw in c["keywords"].split(",")])

    wc_text = " ".join(all_keywords) if all_keywords else "vazio"

    wc = WordCloud(width=800, height=400, background_color="white").generate(wc_text)
    wc_path = f"{base_dir}/wordcloud_{video_id}.png"
    wc.to_file(wc_path)

    story.append(Image(wc_path, width=400, height=200))
    story.append(Spacer(1, 20))

    # ============================================================
    # SE√á√ÉO 6 ‚Äî GR√ÅFICO DE CONTEXTO
    # ============================================================
    story.append(Paragraph("<b>Distribui√ß√£o de Contextos</b>", styles["Heading2"]))
    story.append(Spacer(1, 6))

    context_counts = stats.get("context_counts", {})

    plt.figure(figsize=(6, 3))
    plt.bar(context_counts.keys(), context_counts.values())
    plt.title("Contextos dos Coment√°rios")
    plt.tight_layout()

    ctx_path = f"{base_dir}/context_chart_{video_id}.png"
    plt.savefig(ctx_path)
    plt.close()

    story.append(Image(ctx_path, width=400, height=200))
    story.append(Spacer(1, 20))

    # ============================================================
    # SE√á√ÉO 7 ‚Äî LISTA COMPLETA DE COMENT√ÅRIOS ANALISADOS
    # ============================================================
    story.append(Paragraph("<b>Lista Completa de Coment√°rios</b>", styles["Heading2"]))
    story.append(Spacer(1, 10))

    for idx, c in enumerate(analyzed, start=1):
        text = c.get("translated") or c.get("text") or ""
        lang = c.get("language", "")

        block = (
            f"<b>{idx}.</b> "
            f"{f'[{lang}] ' if lang else ''}{text}"
            f"<br/><i>Sentimento:</i> {c.get('sentiment', '‚Äî')} | "
            f"<i>Emo√ß√£o:</i> {c.get('emotion', '‚Äî')} | "
            f"<i>Contexto:</i> {c.get('context', '‚Äî')}"
        )

        story.append(Paragraph(block, styles["BodyText"]))
        story.append(Spacer(1, 6))

    story.append(Spacer(1, 20))

    # ============================================================
    # SE√á√ÉO 8 ‚Äî RODAP√â
    # ============================================================
    story.append(Paragraph(
        f"<i>Total de coment√°rios analisados: {len(analyzed)}</i>",
        styles["BodyText"]
    ))
    story.append(Spacer(1, 6))

    story.append(Paragraph(
        f"<i>Relat√≥rio gerado em {datetime.now().strftime('%d/%m/%Y %H:%M')}</i>",
        styles["BodyText"]
    ))

    # ------------------------------------------------------------
    # FINALIZA O PDF
    # ------------------------------------------------------------
    doc.build(story)
    print(f"üìÑ PDF gerado com sucesso: {file_path}")


In [None]:
# ============================================================
# EXECU√á√ÉO PRINCIPAL
# ============================================================

if __name__ == "__main__":
    import time

    # Lista de v√≠deos que ser√£o analisados
    VIDEO_IDS = [
        "ZpUYjpKg9KY",  # Exemplo: Raimundos - Quero ver o Oco
        "3IcyRLeZDIs",
        # "TAqZb52sgpU",
        # "AkFqg5wAuFk",
    ]

    print("\n===============================================")
    print(" INICIANDO PROCESSAMENTO DOS V√çDEOS DO YOUTUBE ")
    print("===============================================\n")

    for vid in VIDEO_IDS:
        inicio_video = time.time()
        print(f"Iniciando processamento do v√≠deo: {vid}")
        print("-----------------------------------------------")

        try:
            # ------------------------------------------------------------
            # 1) COLETA DE COMENT√ÅRIOS
            # ------------------------------------------------------------
            comments, order_used = extract_youtube_comments(
                vid,
                max_comments=30
            )
            print(f"Coment√°rios coletados: {len(comments)}")

            # Se n√£o houver coment√°rios, ignora o v√≠deo
            if len(comments) == 0:
                print("Nenhum coment√°rio encontrado. Prosseguindo para o pr√≥ximo v√≠deo.")
                continue

            # ------------------------------------------------------------
            # 2) AN√ÅLISE DOS COMENT√ÅRIOS
            # ------------------------------------------------------------
            analyzed = analyze_comments(comments)
            print("An√°lise conclu√≠da.")

            # ------------------------------------------------------------
            # 3) GERA√á√ÉO DO RESUMO GERAL
            # ------------------------------------------------------------
            resumo = generate_final_summary(analyzed)
            print("Resumo geral gerado.")

            # ------------------------------------------------------------
            # 4) C√ÅLCULO DAS ESTAT√çSTICAS
            # ------------------------------------------------------------
            stats = generate_stats(analyzed)
            print("Estat√≠sticas calculadas.")

            # ------------------------------------------------------------
            # 5) SALVAMENTO DOS RESULTADOS EM ARQUIVOS
            # ------------------------------------------------------------
            save_outputs_for_video(
                video_id=vid,
                comments=comments,
                analyzed=analyzed,
                resumo=resumo,
                stats=stats
            )
            print("Arquivos JSON salvos.")

            # ------------------------------------------------------------
            # 6) GERA√á√ÉO DO RELAT√ìRIO PDF CONSOLIDADO
            # ------------------------------------------------------------
            generate_pdf_report(
                video_id=vid,
                resumo=resumo,
                stats=stats,
                analyzed=analyzed,
                order_used=order_used
            )
            print("Relat√≥rio PDF gerado com sucesso.")

        except Exception as e:
            print(f"Erro ao processar o v√≠deo {vid}: {e}")
            continue

        # Tempo total do v√≠deo
        fim_video = time.time()
        print(f"Tempo total: {fim_video - inicio_video:.2f} segundos")
        print(f"Finalizado: youtube_comments/{vid}")
        print("-----------------------------------------------")

    print("\nProcessamento conclu√≠do para todos os v√≠deos.\n")
