In [7]:
# Lista de coment√°rios fict√≠cios do Reddit com e sem express√µes de dor/problemas
comentarios_reddit = [
    # Coment√°rios que expressam dores/problemas
    "Estou tendo dores de cabe√ßa terr√≠veis h√° semanas e nenhum rem√©dio parece ajudar. Algu√©m tem alguma sugest√£o?",
    "Meu notebook est√° superaquecendo constantemente e n√£o consigo trabalhar por mais de 30 minutos. J√° perdi v√°rios prazos por causa disso.",
    "A empresa de internet na minha regi√£o √© horr√≠vel. Pago por 100Mbps e recebo menos de 10Mbps nos hor√°rios de pico.",
    "N√£o consigo dormir h√° meses. Tenho tentado de tudo, mas a ins√¥nia est√° afetando meu trabalho e minha vida pessoal.",
    "Estou frustrado com o pre√ßo dos alugu√©is na minha cidade. √â imposs√≠vel encontrar algo decente que caiba no or√ßamento.",
    "Meu celular novo veio com defeito na bateria e a loja se recusa a trocar. Estou indignado com o atendimento ao cliente.",
    "Tenho procurado emprego h√° 6 meses e ainda n√£o consegui nada. As contas est√£o se acumulando e n√£o sei mais o que fazer.",
    "O aplicativo de delivery que uso constantemente aumentou as taxas e agora √© quase invi√°vel pedir comida.",
    "A qualidade dos produtos de supermercado caiu muito e os pre√ßos s√≥ aumentam. Estou pagando mais por menos.",
    "Me sinto sozinho trabalhando em home office, a falta de intera√ß√£o social est√° me deixando deprimido.",
    
    # Coment√°rios neutros ou positivos (sem express√£o de dor/problema)
    "Acabei de terminar essa s√©rie e adorei o final. Algu√©m mais assistiu?",
    "Recomendo esse livro para quem gosta de fic√ß√£o cient√≠fica, a narrativa √© incr√≠vel.",
    "Visitei aquele novo restaurante no centro ontem. A comida √© realmente muito boa.",
    "O √∫ltimo epis√≥dio do podcast foi muito informativo, aprendi v√°rias coisas novas.",
    "Finalmente consegui montar meu setup para home office, ficou exatamente como eu queria.",
    "Completei minha cole√ß√£o de mang√° hoje, me sinto realizado!",
    "Ontem fui ao parque com meu cachorro e encontramos v√°rios outros pets. Foi um dia divertido.",
    "Adoro quando o Reddit me recomenda subreddits interessantes que eu n√£o conhecia.",
    "Algu√©m aqui joga esse novo jogo? Estou procurando pessoas para jogar online.",
    "Compartilhando uma foto do bolo que fiz seguindo aquela receita que postaram aqui semana passada."
]

In [2]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
import sys
import os

sys.path.insert(0, os.path.abspath('..'))
from schemas.classify_schema import ClassifySchema

from dotenv import load_dotenv
import os

# Carregar vari√°veis de ambiente do arquivo .env
load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

# <Prompt>
summary_prompt = ChatPromptTemplate.from_messages(
        [
            (
                "system",
                """Voc√™ √© um analista profissional de coment√°rios e posts do Reddit. 
                   Sua tarefa √© analisar os coment√°rios e posts de alguns usu√°rios e identificar se eles expressam algum tipo de dor ou problema.
                   Quando um coment√°rio/post expressa dor ou problema, a sa√≠da deve ser 'YES'.
                   Quando um coment√°rio/post n√£o expressa dor ou problema, a sa√≠da deve ser 'NO'.
        """,
            ),
            (
                "human",
                """
                Dado esse coment√°rio/post do reddit:

                coment√°rio: "{comentarios_reddit}"

                Me ajude a classificar se esse coment√°rio revela algum problema do usu√°rio/dor ou n√£o.
        """,
            ),
        ]
    )

# <LLM>
llm = ChatOpenAI(
    model="gpt-4o-2024-08-06"
)

# <Chain>
chain = summary_prompt | llm.with_structured_output(ClassifySchema)
    

In [8]:
# Executa a cadeia de prompts
result = chain.invoke({"comentarios_reddit": comentarios_reddit[0]})
result

ClassifySchema(has_problem='YES')

In [None]:
only_problems = [comentarios_reddit[i] for i in range(len(result.has_problem)) if result.has_problem[i] == "YES"]
only_problems

# Retorna apenas os coment√°rios que expressam dores/problemas
only_problems

['Estou tendo dores de cabe√ßa terr√≠veis h√° semanas e nenhum rem√©dio parece ajudar. Algu√©m tem alguma sugest√£o?',
 'Meu notebook est√° superaquecendo constantemente e n√£o consigo trabalhar por mais de 30 minutos. J√° perdi v√°rios prazos por causa disso.',
 'A empresa de internet na minha regi√£o √© horr√≠vel. Pago por 100Mbps e recebo menos de 10Mbps nos hor√°rios de pico.',
 'N√£o consigo dormir h√° meses. Tenho tentado de tudo, mas a ins√¥nia est√° afetando meu trabalho e minha vida pessoal.',
 'Estou frustrado com o pre√ßo dos alugu√©is na minha cidade. √â imposs√≠vel encontrar algo decente que caiba no or√ßamento.',
 'Meu celular novo veio com defeito na bateria e a loja se recusa a trocar. Estou indignado com o atendimento ao cliente.',
 'Tenho procurado emprego h√° 6 meses e ainda n√£o consegui nada. As contas est√£o se acumulando e n√£o sei mais o que fazer.',
 'O aplicativo de delivery que uso constantemente aumentou as taxas e agora √© quase invi√°vel pedir comida.',
 '

## Testing with real reddit comments and posts

In [4]:
import json

with open("../data/comments/comments_and_posts.json", "r", encoding="utf-8") as file:
	comments_and_posts = json.load(file)

comments_and_posts

['What‚Äôs an industry that desperately needs younger generations to start taking over?',
 'Welcome to ',
 'Politics',
 'Government',
 'Farming. There is a generational cliff at the boomers. ',
 'ALL of them.',
 'Trades, almost Every one is aging out quicker than they are being replaced',
 'All blue collar trades, except maybe automotive repair. No one is dumb enough to be an auto tech long term.',
 'Wholesale and distribution is getting pretty old',
 'Elevators and escalators',
 'COBOL/mainframe type work',
 'Machinists. It takes a long time to become good at it, but all the manufacturing industries rely on them.',
 'The car business on the sales side. Once this clown generation of 55+ are out of the industry the experience of buying a car will become much easier, simpler, and transparent.',
 'Advertising. Too many executives are still shouting about bringing back ‚Äòbig magical ideas‚Äô and long-form TV ads',
 'Accounting. 75% of CPAs are 55 and older. Most CPAs work with large busin

In [None]:
from tqdm import tqdm

only_problems = []

for comment in tqdm(comments_and_posts):
    result_for_comment = chain.invoke({"comentarios_reddit": comment})

    if result_for_comment.has_problem == "YES":
        only_problems.append(comment)
        print(f"Coment√°rio com problema encontrado: {comment}")

# Salva os coment√°rios que expressam dores/problemas em um novo arquivo JSON
with open("../data/comments/comments_with_problems.json", "w", encoding="utf-8") as file:
    json.dump(only_problems, file, ensure_ascii=False, indent=4)

print(f"Total de coment√°rios com problemas: {len(only_problems)}")

In [11]:
len(comments_and_posts), len(only_problems)

(1850, 588)