Exercício 4 - Meta Prompting para Análise de Sentimento

Crie uma aplicação que colete as manchetes de um portal de notícias de sua escolha. 

Utilize a técnica de Meta Prompting para instruir um LLM a categorizar cada manchete em positiva, neutra e negativa, numa estratégia de few-shot (com exemplos de outras manchetes). Estruture o resultado em JSON e crie um gráfico de barras com a quantidade de manchetes em cada categoria. Interprete o resultado.

In [None]:
import requests
from bs4 import BeautifulSoup
from langchain_google_genai import ChatGoogleGenerativeAI
from pydantic import BaseModel

def get_headlines():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/91.0.4472.124'
    }
    
    response = requests.get('https://g1.globo.com', headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    headlines = soup.find_all('a', class_='feed-post-link')
    
    return [h.text.strip() for h in headlines]

lista_manchetes = []
headlines = get_headlines()
for h in headlines:
    lista_manchetes.append(h)



llm = ChatGoogleGenerativeAI(model="gemini-pro", google_api_key="AIzaSyDUm58IAr5Ufp6kTw-HWRKnIoU0hBBI-qc")

messages = [
    {"role": "user", "content": f"""
Instruções: Classifique as seguintes manchetes de um site de noticias como "Positiva", "Neutra" ou "Negativa". Exemplos: 
Positiva: 
"Motociclista ajuda catador a puxar carrinho pesado em rua íngreme de SP" 

Neutra: 
"O produto chegou, mas não era exatamente o que eu esperava." "A experiência foi ok, nada de especial, mas também não houve problemas." "O site é bom, mas poderia ser mais rápido." 

Negativos: 
"Acusado de tentar matar socialite no Rio, ex-motorista é procurado" 

Agora, classifique a seguinte lista de manchetes, enumerando cada uma com sua respectiva classificação: 
{lista_manchetes}
"""}
]

resposta = llm.invoke(messages).content

print(f"Resposta: {resposta}")


# Análise da resposta:
# As resposta da LLM foram condizentes, de fato todas as manchetes são negativas, apenas a número 9, que gera uma dupla interpretação se é negativa ou netra
# mas de forma geral os resultados foram muito satisfatórios e condizentes

Resposta: 1. PF põe Bolsonaro no centro do plano golpista; acompanhe em tempo real - Negativa
2. Braga Netto aprovou plano com assassinatos de Lula e Moraes, diz PF - Negativa
3. Golpe não ocorreu por falta de apoio dos chefes do Exército e da Aeronáutica - Negativa
4. "Operação 142": novo documento golpista estava na sede do PL - Negativa
5. Valdemar e Bolsonaro sabiam de relatório falso sobre urnas, diz PF - Negativa
6. Militares desistiram de plano para matar Moraes por falta de adesão - Negativa
7. Marinha tinha tanques prontos para o golpe, diz militar em mensagens - Negativa
8. Bolsonaro viajou aos EUA para evitar prisão, aponta documento - Negativa
9. "Rasgaram o documento que o 01 assinou", dizem militares - Negativa


Exercício 5 - Base de dados The Simpsons

Baixe a base de dados com os episódios do The Simpsons no Kaggle. Utilize os códigos de referência do curso para combinar todos os arquivos CSVs num único dataset. Utilize a biblioteca tiktoken com a codificação cl100k_base para descrever a quantidade de tokens por episódios e temporada. 

Quantos tokens em média tem um episódio? E temporada? Qual foi a temporada e o episódio com mais tokens? Faça uma análise descritiva.
Utilize a técnica de Prompt Chaining para fazer uma análise descritiva das avaliações do IMDB e da audiência dos episódios. Justifique os prompts gerados.

In [None]:
import pandas as pd
import numpy as np
import tiktoken
from langchain_google_genai import ChatGoogleGenerativeAI
import json

df_script = pd.read_csv(r'data\simpsons_script_lines.csv', low_memory=False)
df_episodes = pd.read_csv(r'data\simpsons_episodes.csv', low_memory=False)
df_characters = pd.read_csv(r'data\simpsons_characters.csv', low_memory=False)
df_locations = pd.read_csv(r'data\simpsons_locations.csv', low_memory=False)

df_script.set_index('id', inplace=True)
df_characters['id'] = df_characters['id'].astype(str)

df_characters = df_characters.add_prefix('character_')
df_locations = df_locations.add_prefix('location_')
df_episodes = df_episodes.add_prefix('episode_')

dados = (
    df_script.merge(df_episodes, left_on='episode_id', right_on='episode_id')
             .merge(df_characters, left_on='character_id', right_on='character_id', how='left')
             .merge(df_locations, left_on='location_id', right_on='location_id', how='left')
)
dados['spoken_words'] = dados['spoken_words'].fillna('').astype(str)

def estimar_tokens(texto):
    encoder = tiktoken.get_encoding("cl100k_base")
    tokens = encoder.encode(texto)
    return len(tokens)

def episodios(dados):

    tokens_por_episodio = {}
    lista_episodios = dados['episode_id'].unique()

    for episodio in lista_episodios:
        dados_filtrados = dados[dados['episode_id'] == episodio]
        texto_episodio = ' '.join(dados_filtrados['spoken_words'])
        num_tokens = estimar_tokens(texto_episodio)
        tokens_por_episodio[episodio] = num_tokens


    media_tokens_por_episodio = np.mean(list(tokens_por_episodio.values()))
    episodio_max_tokens = max(tokens_por_episodio, key=tokens_por_episodio.get)
    max_tokens = tokens_por_episodio[episodio_max_tokens]

    print(f"Média de tokens por episódio: {media_tokens_por_episodio:.2f}")
    print(f"Episódio com mais tokens: {episodio_max_tokens}")
    print(f"Número de tokens no episódio com mais tokens: {max_tokens}")

def temporada(dados):

    tokens_por_temporada = {}
    lista_temporada = dados['episode_season'].unique()

    for temporada in lista_temporada:
        dados_filtrados = dados[dados['episode_season'] == temporada]
        texto_episodio = ' '.join(dados_filtrados['spoken_words'])
        num_tokens = estimar_tokens(texto_episodio)
        tokens_por_temporada[temporada] = num_tokens


    media_tokens_por_episodio = np.mean(list(tokens_por_temporada.values()))
    episodio_max_tokens = max(tokens_por_temporada, key=tokens_por_temporada.get)
    max_tokens = tokens_por_temporada[episodio_max_tokens]

    print(f"Média de tokens por temporada: {media_tokens_por_episodio:.2f}")
    print(f"Temporada com mais tokens: {episodio_max_tokens}")
    print(f"Número de tokens na temporada com mais tokens: {max_tokens}")


dados_avaliacao = dados.copy()
dados_avaliacao = dados_avaliacao[["episode_id", "episode_imdb_rating", "episode_imdb_votes", "episode_views"]]
dados_avaliacao.to_csv("data/data_llm.csv", sep=';', index=None)

def analise_python():

    prompt_start = """
    You are a data scientist specialized in analysing entertainment content. You are working on the show series
    "The Simpsons", investigating patterns in the series series_data. 
    How can we get metrics about episode ratings ('episode_imdb_rating', 'episode_imdb_votes')
    and audiences ('episode_views') in data_llm.csv, considering it a CSV file
    splitted by ';' with columns:

    - episode_id: episode unique identifier
    - episode_imdb_rating: episode with the IMDB rating 
    - episode_imdb_votes: episode with the number of voters
    - episode_views: total number of episode views.

    Generate a list of 5 analyses that can be implemented given the available series_data, as a JSON file:

        {[
    {'Name':'analysis name',
     'Objective': 'what we need to analyze',
     'Method': 'how we analyze it'
    }
        ]}

    Remember to give the answer only as a JSON file, ready to use in code in Python using json.loads
    """
    llm = ChatGoogleGenerativeAI(model="gemini-pro", google_api_key="AIzaSyDUm58IAr5Ufp6kTw-HWRKnIoU0hBBI-qc")
    
    # Prompt 1
    response = llm.invoke(prompt_start)
    clean_response = response.content
    analysis = json.loads(clean_response.replace("```json\n",'').replace("\n```",''))
    
    # Prompt 2
    prompt_code = f"""
    You are a data scientist specialized in analysing entertainment content. You are working on the show series
    "The Simpsons", investigating patterns in the series series_data. 
    How can we evaluate the relationship between episode ratings ('episode_imdb_rating', 'episode_imdb_votes')
    and audiences ('episode_views') in "data/data_llm.csv", considering it a CSV file
    splitted by ';' with columns:

        - episode_id: episode unique identifier
        - episode_imdb_rating: episode with the IMDB rating 
        - episode_imdb_votes: episode with the number of voters
        - episode_views: total number of episode views.

    Implement all the analysis described below in python.
    Output only the code, no need for explanations. And the code must have plots
    ## ANALYSIS
    {analysis[0]}
"""
    response_2 = llm.invoke(prompt_code)

    print(analysis)
    print("""
      --------------------------------------------
      """)
    print(response_2.content)
    





episodios(dados)
print("""
      --------------------------------------------
      """)
temporada(dados)
print("""
      --------------------------------------------
      """)
analise_python()


# Análise prompts inicial:

# Contextualização clara: Define o modelo como um especialista no tema.
# Descrição detalhada: Explica o formato e conteúdo dos dados.
# Estrutura da saída: Pede um JSON pronto para uso.
# Foco na praticidade: Exige análises com nome, objetivo e método.
# Instrução direta: Solicita apenas a saída no formato específico, evitando explicações extras.


# Análise prompt de código:

# Contextualização específica: Define o modelo como cientista de dados especializado em entretenimento.
# Detalhamento dos dados: Fornece o formato do CSV e a descrição das colunas.
# Foco nas relações: Pede para avaliar a correlação entre métricas específicas.
# Saída exclusivamente em código: Solicita apenas código Python com gráficos, sem explicações, garantindo praticidade e aplicabilidade direta.
# Instrução clara de tarefas: Reforça o uso de plots e a implementação completa das análises descritas.

  from .autonotebook import tqdm as notebook_tqdm


Média de tokens por episódio: 3336.25
Episódio com mais tokens: 1
Número de tokens no episódio com mais tokens: 4303

      --------------------------------------------
      
Média de tokens por temporada: 72378.85
Temporada com mais tokens: 7
Número de tokens na temporada com mais tokens: 89642

      --------------------------------------------
      
[{'Name': 'Top Rated Episodes', 'Objective': 'Identify the episodes with the highest IMDB ratings.', 'Method': 'Sort the episodes by their IMDB ratings in descending order.'}, {'Name': 'Most Popular Episodes', 'Objective': 'Determine the episodes with the most IMDB votes.', 'Method': 'Sort the episodes by their number of IMDB votes in descending order.'}, {'Name': 'Most Viewed Episodes', 'Objective': 'Find the episodes with the highest number of views.', 'Method': 'Sort the episodes by their number of views in descending order.'}, {'Name': 'Episodes with High Ratings and Views', 'Objective': 'Identify the episodes that have both high I

Exercício 6 - Classificação de Sentimento com Few-Shot Learning

Implemente um modelo de classificação de sentimentos em Python para categorizar trechos de diálogo dos Simpsons como “Positivo”, “Neutro” ou “Negativo”. Use a técnica de few-shot learning, incluindo 5 exemplos por categoria no prompt. Selecione o episódio número 92 (episode_id) da temporada 5 (episode_season). Utilize a técnica de batch-prompting para classificar múltiplas falas num único prompt. Responda às perguntas:

Quantas chamadas ao LLM foram necessárias?
Qual é a distribuição de fala por categoria?
Avaliando 5 falas de cada classe, qual é a acurácia do modelo?
Qual foi a precisão do modelo para cada classe?

In [None]:
import pandas as pd
from langchain_google_genai import ChatGoogleGenerativeAI
import json

df_script = pd.read_csv(r'data\simpsons_script_lines.csv', low_memory=False)
df_episodes = pd.read_csv(r'data\simpsons_episodes.csv', low_memory=False)
df_characters = pd.read_csv(r'data\simpsons_characters.csv', low_memory=False)
df_locations = pd.read_csv(r'data\simpsons_locations.csv', low_memory=False)

df_script.set_index('id', inplace=True)
df_characters['id'] = df_characters['id'].astype(str)

df_characters = df_characters.add_prefix('character_')
df_locations = df_locations.add_prefix('location_')
df_episodes = df_episodes.add_prefix('episode_')

dados = (
    df_script.merge(df_episodes, left_on='episode_id', right_on='episode_id')
             .merge(df_characters, left_on='character_id', right_on='character_id', how='left')
             .merge(df_locations, left_on='location_id', right_on='location_id', how='left')
)
dados['spoken_words'] = dados['spoken_words'].fillna('').astype(str)
dados = dados[(dados["episode_id"] == 92) & (dados["episode_season"] == 5)]
dados = dados[["episode_id", "episode_season", "spoken_words"]]

sentencas = dados["spoken_words"].to_list()
sentencas_filtradas = [sentenca for sentenca in sentencas if sentenca.strip() != '']

# Dividir em lotes
batch_size = 10  # Defina o tamanho do lote
batches = [sentencas_filtradas[i:i + batch_size] for i in range(0, len(sentencas_filtradas), batch_size)]
prompt = """
You are an expert in human communication and marketing, specialized in sentiment analysis.
You have to classify lines from a cartoon show as negative, neutral and positive as defined below:
- positive: happy, constructive, hopefull, joy and similar lines.
- negative: sad, destructive, hopeless, angressive and similar lines.
- neutral: indifferent, objetive, formal and lines classified neigher as positive or negative.

Some pre-classified lines from this show are listed here:

# positive = [
    "that life is worth living",
    "i am the champions i am the champions no time for losers cause i am the champions of the worlllld",
    "eh you must be bart simpson well you look like youve got a strong young back",
    "I am not a bad guy! I work hard, and I love my kids. So why should I spend half my Sunday hearing about how I am going to Hell?",
    "You are Lisa Simpson. The smartest, kindest, most wonderful person I ve ever met."

]


# negative = [
    "i dont think theres anything left to say",
    "we came to this retreat because i thought our marriage was in trouble but i never for a minute thought it was in this much trouble homer how can you expect me to believe",
    "oh thats my brother asa he was killed in the great war held a grenade too long",
    "I am so stupid. Why does everything I touch turn to garbage?",
    "You tried your best, and you failed miserably. The lesson is: never try."
]


# neutral = [
    "wheres mr bergstrom",
    "would you have to do extra work",
    "oh please dad i want this more than anything in the world",
    "Whats for dinner tonight?",
    "I will see you after school."
]

Given this information, classify the sentiment of the following lines as positive, negative, or neutral. Your response must be in JSON format ready to use in a Python code to json.dumps(), so dont use any invalid caracter or estructure.
The expected response must be in this format JSON, no need to give explanations only the JSON:
[
    {
      "Index_text": "0",
      "sentiment": "positive"
    },
    {
      "Index_text": "5",
      "sentiment": "negative"
    },
    {
      "Index_text": "12",
      "sentiment": "neutral"
    }
]
"""
llm = ChatGoogleGenerativeAI(model="gemini-pro", google_api_key="AIzaSyDUm58IAr5Ufp6kTw-HWRKnIoU0hBBI-qc")


results = []

for i, batch in enumerate(batches):
  start_index = i * batch_size
  
  prompt_2 = f"""
  {prompt}

  The following list of sentences starts with the index {start_index}.
  When generating the JSON, ensure that the 'Index_text' field reflects this starting point and increments sequentially from {start_index}.
  Given the following information, classify the list. Ensure that the structure is valid and properly terminated to avoid errors when passing it to json.dumps(). Remove all special characters from the given list and retain only alphabetic characters in the text structure of the JSON. Ensure the result contains only letters and no punctuation marks or special symbols within the sentences. 
  Example: 
  Right: dont
  Wrong: don\'t
  Use always the right example to put only letter in the json

  {batch}
  """

  response = llm.invoke(prompt_2)
  clean_response = response.content
  analysis = clean_response.replace("```json\n",'').replace("\n```",'').replace("\n", "").replace("\\'", "'").replace(" ", "").replace("```JSON\n",'').strip()
  last_comma_index = analysis.rfind(',')
  s_cortada = analysis[:last_comma_index]
  s_cortada = s_cortada + "}" + "]"
  print(s_cortada)
  analysis_v2 = json.loads(s_cortada)



  results.extend(analysis_v2)
  start_index += len(batch)




df_final = pd.DataFrame(sentencas_filtradas)
df_analise = pd.DataFrame(results)

df_final['Index_text'] = df_final.index.astype(str)
df_analise['Index_text'] = df_analise['Index_text'].astype(str)
df_final = df_final.merge(df_analise[['Index_text', 'sentiment']], on='Index_text', how='left')
df_final = df_final.rename(columns={'sentiment': 'analise'})

print(df_final['analise'].value_counts())
df_final


# Análise

# Essa chamada foi a melhor que consegui até então, mas mesmo passando em grupos menores de 10 'batches' ele as vezes se confunde e passa mais respostas ou menos
# A distribuição por fala por categoria, são bem distribuídas, mas predominando as falas negativas.
# Acurácia:
# Total = A acurácia foi de 118/220 = 53%
# Positivas: 27/65 = 41% de acurácia
# Negativas: 37/84 = 44% de acurácia
# Neutras: 54/71 = 76% de acurácia
# O único problema é que ele não classificou 31 falas.

[{"Index_text":"0","sentiment":"negative"},{"Index_text":"1","sentiment":"negative"},{"Index_text":"2","sentiment":"negative"},{"Index_text":"3","sentiment":"positive"},{"Index_text":"4","sentiment":"negative"},{"Index_text":"5","sentiment":"negative"},{"Index_text":"6","sentiment":"neutral"},{"Index_text":"7","sentiment":"negative"},{"Index_text":"8","sentiment":"neutral"},{"Index_text":"9"}]
[{"Index_text":"10","sentiment":"negative"},{"Index_text":"11","sentiment":"neutral"},{"Index_text":"12","sentiment":"positive"},{"Index_text":"13","sentiment":"negative"},{"Index_text":"14","sentiment":"neutral"},{"Index_text":"15","sentiment":"negative"},{"Index_text":"16","sentiment":"neutral"},{"Index_text":"17","sentiment":"neutral"},{"Index_text":"18","sentiment":"negative"},{"Index_text":"19"}]
[{"Index_text":"20","sentiment":"negative"},{"Index_text":"21","sentiment":"negative"},{"Index_text":"22","sentiment":"neutral"},{"Index_text":"23","sentiment":"negative"},{"Index_text":"24","sentim

Unnamed: 0,0,Index_text,analise
0,Can't talk. Robbed. Go hell.,0,negative
1,Dad! We've been robbed!,1,negative
2,"Wake up, Dad! Wake up! There was a burglar and...",2,negative
3,Woo hoo!,3,positive
4,And our portable TV!,4,negative
...,...,...,...
246,Hmmm. I guess we're not gonna find anything.,239,
247,"Uh, how're we gonna get outta here?",240,negative
248,We'll dig our way out!,241,positive
249,"No, no! Dig up, stupid!",242,negative


Exercício 7 - Resumo Episódio

Assista ao episódio “Homer, o vigilante” (ou leia as falas dos personagens), número 92 (episode_id) da temporada 5 (episode_season) e faça um resumo de aproximadamente 500 tokens (meça a quantidade usando o modelo do exercício 5), explicando o que acontece e como termina o episódio.

In [55]:
import numpy as np
import tiktoken

resumo_ex_7 = """
Springfield is shaken by a wave of mysterious crimes, causing alarm throughout the town. A skilled thief begins stealing various valuable items from the homes of Springfield’s citizens, and soon, the entire community is on edge. The Simpson family becomes one of the victims: the thief breaks into their house during the night and takes Lisa’s beloved saxophone, the television, and several other important objects. This string of robberies causes widespread panic, with the townspeople growing increasingly worried about their safety. As expected, Chief Wiggum proves completely incompetent at solving the case, offering no real solutions to the growing crisis.

Frustrated by the lack of action from the local police force, Homer takes matters into his own hands. He decides to form a community watch patrol, enlisting the help of several citizens who are equally concerned. Homer, eager for a sense of control, declares himself the leader of the group. However, his newfound power quickly goes to his head. He starts abusing his position of authority, using the patrol to enforce ridiculous rules and pursue personal vendettas. For instance, Homer begins harassing children who are simply selling lemonade and claims to be "protecting" the public from harmless activities. Despite the community patrol’s considerable efforts, the robberies continue unabated, and the criminals are still on the loose.

Meanwhile, the thief’s identity is finally revealed to the public. It turns out to be Malloy, a charming and friendly elderly man who resides in Springfield. Lisa, ever the observant one, is the first to notice his suspicious behavior when he subtly begins bragging about the crimes he has committed. The Simpson family confronts Malloy, and after some prodding, he admits to being behind the robberies. He is promptly arrested by the police, but with his silver tongue, Malloy manages to convince Homer, Wiggum, and several other citizens that he has hidden a massive treasure in a mysterious location, one that would make him even wealthier than before.

Seduced by the allure of hidden treasure, the citizens of Springfield eagerly follow Malloy’s directions and head to the indicated location. The search begins, with everyone frantically digging and hunting for the supposed treasure. As the entire town is distracted by this pursuit, Malloy is left alone and, ironically, finds the perfect opportunity to escape from his prison cell. Using his wit and charm, he manages to break free, leaving the townspeople to realize that they’ve been completely duped by his lies.

In the end, Malloy escapes unpunished, and Springfield eventually returns to normal.
"""


def estimar_tokens(texto):
    encoder = tiktoken.get_encoding("cl100k_base")  
    tokens = encoder.encode(texto)
    return len(tokens)

def episodio(resumo):

    num_tokens = estimar_tokens(resumo)
    media_tokens_por_episodio = np.mean(num_tokens)

    print(f"Média de tokens por episódio: {media_tokens_por_episodio:.2f}")


episodio(resumo_ex_7)

Média de tokens por episódio: 525.00


Exercício 8 - Resumos Complexos com Chunks de Texto

Crie um prompt para resumir o episódio número 92 (episode_id) da temporada 5 (episode_season) usando o princípio de divisão para contornar limitações de tokens. Utilize o processo de chunks para separar o episódio em janelas de 100 falas, com sobreposição de 25 falas por janela. Utilize o LLM para resumir cada um dos chunks. Posteriormente, crie um segundo prompt com os resumos dos chunks instruindo o LLM a gerar o resumo final. Quantos chunks foram necessários? Avalie o resultado do resumo final e de cada chunk quanto à veracidade e coerência.

In [50]:
import google.generativeai as genai
from google.generativeai.types import HarmCategory, HarmBlockThreshold
import pandas as pd
from langchain_google_genai import ChatGoogleGenerativeAI
import json

df_script = pd.read_csv(r'data\simpsons_script_lines.csv', low_memory=False)
df_episodes = pd.read_csv(r'data\simpsons_episodes.csv', low_memory=False)
df_characters = pd.read_csv(r'data\simpsons_characters.csv', low_memory=False)
df_locations = pd.read_csv(r'data\simpsons_locations.csv', low_memory=False)

df_script.set_index('id', inplace=True)
df_characters['id'] = df_characters['id'].astype(str)

df_characters = df_characters.add_prefix('character_')
df_locations = df_locations.add_prefix('location_')
df_episodes = df_episodes.add_prefix('episode_')

dados = (
    df_script.merge(df_episodes, left_on='episode_id', right_on='episode_id')
             .merge(df_characters, left_on='character_id', right_on='character_id', how='left')
             .merge(df_locations, left_on='location_id', right_on='location_id', how='left')
)


class ChunkSummary:
    def __init__(self, model_name, apikey, text, window_size, overlap_size):
        
        self.text = text if isinstance(text, list) else [text]
        self.window_size = window_size
        self.overlap_size = overlap_size
        self.chunks = self._split_into_chunks()
        self.lista_chunks = self._get_lista_chunks() 
        
        # Configurar modelo
        self.model = ChatGoogleGenerativeAI(
            model=model_name,
            google_api_key=apikey,
            system_instruction=self._generate_prompt_base(),
            generation_config={
                'temperature': 0.2,
                'top_p': 0.8,
                'top_k': 20,
                'max_output_tokens': 1000,
            },
            safety_settings={
                HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_NONE,
                HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_NONE,
                HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_NONE,
                HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_NONE,
            },
        )

    def _generate_prompt_base(self):
        return """
        You are an editor assistant from the "The Simpsons" show.
        You will receive the #subtitles# from real episodes in the format:
        <location>, <character> said: <character line>
        
        You must create a summary of the #subtitles#, pointing out the most
        relevant information, jokes, and key players in the story. Bear in mind
        that the summary must describe how the episode started, which key
        points are relevant along the story, and its grand finale.
        The summary output must be written as a plain JSON with field 'summary'.
        """

    def _split_into_chunks(self):
        n, m = self.window_size, self.overlap_size
        chunks = [self.text[i:i + n] for i in range(0, len(self.text), n - m)]
        print(f"Número de Chunks criados: {len(chunks)}")
        return chunks
    
    def _get_lista_chunks(self):
        lista_chunks = []
        for chunk in self.chunks:
            lista_chunks.append(chunk)
        return lista_chunks  # Retorna 'lista_chunks'

    def _summarize_chunk(self, chunk):
        prompt = f"#subtitles#\n{'\n'.join(chunk)}\n######\nSummarize it."
        response = self.model.invoke(prompt)
        return response.content

    def summarize(self):
        print("Summarizing chunks...")
        chunk_summaries = [self._summarize_chunk(chunk) for chunk in self.chunks]

        # Criar o prompt final
        prompt = f"""
        You are an editor working on The Simpsons show. You must summarize
        a show episode considering the other summaries from parts of the episode.
        The partitioned summaries are listed below:
        {'- ' + '\n- '.join(chunk_summaries)}
        ######
        The summary must describe the details in the story, like jokes, and details
        on what happens in the end with the key characters.
        Write a final summary based on the partitioned summaries in JSON format with
        the field 'summary'.
        """
        print("Final summarization...")
        response = self.model.invoke(prompt)
        return response.content


episode_season = 5
episode_id = 92
X = (dados[(dados.episode_season == episode_season) &
          (dados.episode_id == episode_id)].sort_values('number')
)

X['line'] = (X['location_normalized_name'].fillna('') + ', ' + 
             X['character_normalized_name'].fillna('') + ' said: ' + 
             X['normalized_text'].fillna('')
)

summarizer = ChunkSummary(
    model_name="gemini-pro",
    apikey="AIzaSyDUm58IAr5Ufp6kTw-HWRKnIoU0hBBI-qc",
    text = X['line'].tolist(),
    window_size = 100,
    overlap_size = 25
)

episode_summary = summarizer.summarize()
resumo_ex_8 = json.loads(episode_summary.replace("```json\n",'').replace("\n```",''))
chunks_utilizados = summarizer.lista_chunks
print(chunks_utilizados)
print(resumo_ex_8)

Número de Chunks criados: 4
Summarizing chunks...
Final summarization...
[['simpson home,  said: ', 'simpson home, bart simpson said: dad weve been robbed', 'simpson home, lisa simpson said: wake up dad wake up there was a burglar and he took my saxophone', 'simpson home, homer simpson said: woo hoo', 'simpson home, bart simpson said: and our portable tv', 'simpson home, homer simpson said: ', 'simpson home, marge simpson said: and my necklace', 'simpson home, homer simpson said: eh thats no big loss', 'simpson home, marge simpson said: homer that necklace was a priceless bouvier family heirloom', 'simpson home, homer simpson said: oh youve probably got a whole drawer full of em', 'simpson home, marge simpson said: well yes i do but theyre all heirlooms too', 'simpson home, bart simpson said: the burglar even took my stamp collection', 'simpson home, lisa simpson said: you had a stamp collection', 'simpson home, marge simpson said: ', 'simpson home, nelson muntz said: stamp collection 

Exercício 9 - Avaliação de Resumos de LLMs

Utilize as métricas BLEU e ROUGE para comparar os resultados dos prompts do exercício 8 com o seu resumo, feito no exercício 7 (utilize qualquer LLM para traduzir entre inglês e portugês se necessário). Aplique as métricas, tanto ao resumo final, quanto ao resumo de cada chunk. Interprete as métricas considerando que o seu resumo é o gabarito. Os resumos (final e de cada chunk) convergem? Quais informações foram omitidas entre os dois resumos?

In [None]:
from sacrebleu.metrics import BLEU
from rouge import Rouge

# BLEU
bleu_scorer = BLEU()

hypothesis_1 = list(resumo_ex_8.values())
hypothesis_2 = chunks_utilizados
reference_1 = resumo_ex_7 

score_bleu_1 = bleu_scorer.sentence_score(hypothesis_1[0], references=[reference_1])
print("-----------------------------------------------------")
print("BLEU Score resumo completo:", score_bleu_1.score / 100)
print("-----------------------------------------------------")

for i in range(0, 4):
    valores = hypothesis_2[i]
    resultado_hipoteses = ' '.join(valores[::])

    score_bleu_2 = bleu_scorer.sentence_score(resultado_hipoteses, references=[reference_1])
    print(f"BLEU Score chunk {i}:", score_bleu_2.score / 100) 

# ROUGE
rouge_scorer = Rouge()

score_rouge_1 = rouge_scorer.get_scores(hypothesis_1, [reference_1])

print("-----------------------------------------------------")
print("Rouge para resumo completo")
print('ROUGE-L-F:', score_rouge_1[0]["rouge-l"]["f"])
print('ROUGE-L-R:', score_rouge_1[0]["rouge-l"]['r'])
print('ROUGE-L-P:', score_rouge_1[0]["rouge-l"]['p'])

print("-----------------------------------------------------")

for i in range(0, 4):
    valores = hypothesis_2[i]
    resultado_hipoteses = ' '.join(valores[::])

    score_rouge_2 = rouge_scorer.get_scores([resultado_hipoteses], [reference_1])
    print("Rouge para chunks")
    print(f'ROUGE-L-F, chunk {i}:', score_rouge_2[0]["rouge-l"]["f"])
    print(f'ROUGE-L-R, chunk {i}:', score_rouge_2[0]["rouge-l"]['r'])
    print(f'ROUGE-L-P, chunk {i}:', score_rouge_2[0]["rouge-l"]['p'])

# Análise:
# BLEU sugere que a qualidade do resumo gerado é baixa, pois a correspondência entre as palavras geradas e as do gabarito é limitada.
# ROUGE indica um desempenho mais promissor, especialmente no resumo completo, mas ainda com bastante espaço para melhorar, especialmente em termos de recall.
# A diferença entre o resumo completo e os chunks sugere que a geração de texto está tendo mais dificuldade em lidar com partes menores do texto.

It is recommended to enable `effective_order` for sentence-level BLEU.
It is recommended to enable `effective_order` for sentence-level BLEU.
It is recommended to enable `effective_order` for sentence-level BLEU.
It is recommended to enable `effective_order` for sentence-level BLEU.
It is recommended to enable `effective_order` for sentence-level BLEU.


-----------------------------------------------------
BLEU Score resumo completo: 0.009591144265038399
-----------------------------------------------------
BLEU Score chunk 0: 0.00374419789988251
BLEU Score chunk 1: 0.0025237041517719465
BLEU Score chunk 2: 0.0024700639349818816
BLEU Score chunk 3: 0.0056360325157425815
-----------------------------------------------------
Rouge para resumo completo
ROUGE-L-F: 0.23204419487179884
ROUGE-L-R: 0.16091954022988506
ROUGE-L-P: 0.4158415841584158
-----------------------------------------------------
Rouge para chunks
ROUGE-L-F, chunk 0: 0.11697574425611687
ROUGE-L-R, chunk 0: 0.15708812260536398
ROUGE-L-P, chunk 0: 0.09318181818181819
Rouge para chunks
ROUGE-L-F, chunk 1: 0.12352940703464552
ROUGE-L-R, chunk 1: 0.16091954022988506
ROUGE-L-P, chunk 1: 0.10023866348448687
Rouge para chunks
ROUGE-L-F, chunk 2: 0.10795454078871566
ROUGE-L-R, chunk 2: 0.14559386973180077
ROUGE-L-P, chunk 2: 0.08577878103837472
Rouge para chunks
ROUGE-L-F, chunk 3

Exercício 10 - Chain of Thoughts para Codificação

Exporte o resultado da análise de sentimento do exercício 6 para um arquivo CSV. Agora, construa uma série de prompts com a técnica chain of thoughts para construir uma aplicação streamlit que faça a leitura do resultado da análise de sentimento e faça um gráfico de pizza mostrando a proporção de falas de categoria do episódio. Divida o problema em três prompts e execute o código final. O LLM foi capaz de implementar a aplicação? Qual foi o objetivo de cada prompt?

RESPOSTA: ex_10.py