# Primeiros Passos com o Gemini

Gemini é o mais recente Chatbot e LLM da Google, capaz de lidar com texto, imagem, vídeo e código ao mesmo tempo. Ele pode ser acessado por este [site](https://gemini.google.com/) ou pela sua [API](https://ai.google.dev/gemini-api/docs/get-started?hl=pt-br). 

No contexto deste notebook, vamos fazer o uso do recurso de perguntas textuais (*tweets* simples) e perguntas com imagens (*tweets* com imagens), sem necessitar de conversas multi-turnos, ou *embeddings*. Todos os acessos são baseados na versão de Abril de 2024 do guia [Acessando o Gemini API: Python](https://ai.google.dev/gemini-api/docs/get-started/python).

## Bibliotecas Necessárias

É uma boa prática, manter todos as bilbiotecas necessárias no começo do notebook. Assim, se houver alguma dependência ou biblioteca faltante no ambiente de execução do usuário, já é possível identificar na primeira célula.

In [1]:
import pathlib
import textwrap
import PIL.Image
import requests
import time
import os
import pandas as pd
import google.generativeai as genai
from tqdm import tqdm
from IPython.display import display
from IPython.display import Markdown

## Carga de Dados

Esta seção serve para carregarmos em um DataFrame todas os nossos *tweets* formatados e então, explorá-los com o Gemini.

In [2]:
# dados de entrada (pasta e arquivo)
data_input_folder = 'Tweets Formatados'
data_input_filename = '[Formatado] - Resultado FLU x SCO.csv'

In [3]:
tweets = pd.read_csv(f'{data_input_folder}/{data_input_filename}', sep=',')

In [4]:
tweets.head(10)

Unnamed: 0,Nome do Usuário,Perfil do Twitter,Tweet Original,URL Imagem Anexada,Timestamp Data de Postagem,Link do Tweet Original,Link da Resposta,Link do Perfil do Twitter,Conteúdo da Resposta,Timestamp Data de Postagem da Resposta
0,Fluminense F.C.,@FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,2024-05-01T21:00:32.000Z,https://twitter.com/FluminenseFC/status/178577...,,,,
1,Fluminense F.C.,@FluminenseFC,,https://pbs.twimg.com/media/GMhaHcRXEAA0c6X?fo...,,,,https://twitter.com/FluminenseFC,VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! \n\nARIAS...,
2,el anjo,@matandosuacurio,,,,,https://twitter.com/matandosuacurio/status/178...,https://twitter.com/matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,2024-05-02T19:43:40.000Z
3,RSP tips,@RSPtips,,,,,https://twitter.com/RSPtips/status/17857785435...,https://twitter.com/RSPtips,fora diniz,2024-05-01T21:09:17.000Z
4,pedro karl,@karl_ffc,,,,,https://twitter.com/karl_ffc/status/1785776841...,https://twitter.com/karl_ffc,"Que exibição maravilhosa, vitória pra convence...",2024-05-01T21:02:31.000Z
5,Aedo Dias,@AedoDias,,,,,https://twitter.com/AedoDias/status/1785777178...,https://twitter.com/AedoDias,"Apesar do resultado, mais um jogo ruim do time...",2024-05-01T21:03:52.000Z
6,lucas,@elicepsv,,,,,https://twitter.com/elicepsv/status/1785777254...,https://twitter.com/elicepsv,tô convencido que contra o galo vai ser no máx...,2024-05-01T21:04:10.000Z
7,Richard Moedas,@21RichardFFC,,,,,https://twitter.com/21RichardFFC/status/178577...,https://twitter.com/21RichardFFC,Parabéns por fazer a sua obrigação nesse jogo ...,2024-05-01T21:01:30.000Z
8,Annaᶠᶠᶜ - #FORADINIZ,@tuitaabea,,https://pbs.twimg.com/media/GMhaQ67WgAExfS6?fo...,,,https://twitter.com/tuitaabea/status/178577650...,https://twitter.com/tuitaabea,FOI O TERANS PORRA,2024-05-01T21:01:10.000Z
9,Felippe Silva,@lippetchow,,,,,https://twitter.com/lippetchow/status/17857767...,https://twitter.com/lippetchow,"Estagiário, avisa o Diniz que o Felipe Andrade...",2024-05-01T21:02:12.000Z


## Configuração do Ambiente

Podemos acessar de formas distintas a API do Gemini, como parte de um app, site, notebooks...Independente da forma que escolher, é preciso configurar as credenciais de acesso. Na verdade, em Python, somente uma credencial é necessária, a *API Key*, que pode ser obtida no site da [Google AI Studio](https://aistudio.google.com/app/apikey?hl=pt-br).  

Em posse da chave gerada, em projetos pessoais e locais, você pode colocar sua chave diretamente em uma variável. Contudo, em contextos de projetos maiores, onde mais de uma pessoa pode acessar os recursos do Gemini, idealmente, cada usuário teria sua própria *API Key*. Para simplificar, vamos gerar a chave e colá-la na variável ***USER_API_KEY***

In [5]:
USER_API_KEY = 'AIzaSyCb-JKI6LAJHr3nD5027UzTaebvJYP56-U'

In [6]:
# configura a conexão com o Gemini
genai.configure(api_key=USER_API_KEY)

## Modelos Disponíveis

De acordo com o seu plano na Google, você pode ter acesso a mais ou menos modelos. Por exemplo, o Gemini Ultra só pode ser acessado com a assinatura do Gemini Advanced (atualmente custando R$ 96.99/mês). 

Nesta seção, veremos quais modelos estão disponíveis e escolheremos um para nossas consultas. Na assinatura gratuita, os modelos mais atualizados e poderosos são o ***gemini-pro*** e ***gemini-pro-vision***.

In [7]:
print("Modelos Disponíveis com sua API Key:")
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(f">{m.name.split('models/')[1]}<")

Modelos Disponíveis com sua API Key:
>gemini-1.0-pro<
>gemini-1.0-pro-001<
>gemini-1.0-pro-latest<
>gemini-1.0-pro-vision-latest<
>gemini-1.5-pro-latest<
>gemini-pro<
>gemini-pro-vision<


In [8]:
# escolha do modelo
model_image = genai.GenerativeModel('gemini-pro-vision')
model_text = genai.GenerativeModel('gemini-pro')

## Consultando o Gemini

Com credenciais definidas e modelo escolhido, basta chamar a API do Gemini através das função ***generate_content***, que dá suporte a perguntas com texto somente, bem como a inclusão de imagens.

Ao final desta seção, devemos ter um dicionário com o perfil de quem postou, o *tweet*, o sentimento dele e os principais tópicos que o descrevem.

In [9]:
tweets_analyzed = {}

In [10]:
# inicializa o dicionário com todos os usuários
for idx, username in enumerate(tweets.iloc[2:]['Perfil do Twitter']):
    username_idx = f"{username}_{idx + 2}" # evita que tenhamos o mesmo usuário duplicado
    tweets_analyzed[username_idx] = {
        'Perfil': username.split("@")[1],
        'Tweet': None,
        'Sentimento': None,
        'Tópicos': None
    }

### Funções Úteis

Seção para consolidar as funções criadas para ajudar no desenvolvimento das consultas no Gemini

In [11]:
def format_output(text):
  '''Função para formatar a resposta padrão do Gemini para algo consistente e legível'''
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

In [12]:
def create_folder(folder_name):
    '''Função para checar e criar, caso não exista, uma pasta no diretório de execução do notebook'''
    # checamos se a pasta de destino existe, caso contrário, criamos
    if not os.path.exists(folder_name):
        try:
            os.makedirs(folder_name)
            # print(f"Pasta '{folder_name}' criada com sucesso!")
            return True
        except:
            # print(f"Erro na criação da pasta '{folder_name}'!")
            return False
    else:
        # print(f"Pasta '{folder_name}' já existe!")
        return True

In [13]:
def request_tweet_image(image_url, image_folder, username):
    '''Função para retornar um objeto de imagem associada ao tweet'''
    
    # envia uma requisição do tipo GET pra URL
    response = requests.get(image_url)
    
    # checamos se a respsota  foi ok (200)
    if response.status_code == 200:
        # recupera o conteúdo da resposta, no caso, os dados da imagem
        image_data = response.content

        if create_folder(image_folder):
            # definimos o caminho da imagem que queremos salvar
            file_path = f"{image_folder}/[Tweet Image] {username}.png"
        else:
            file_path = f"image.png"
            
        # salva a imagem no caminho especificado
        with open(file_path, "wb") as file:
            file.write(image_data)
            
        # print(f"Imagem do Tweet de {username} foi baixada e salva com sucesso!")
        return True
    else:
        # print(f"Erro ao baixar a imagem do Tweet de {username}:", response.status_code)
        return False

In [14]:
def valid_answer(response):
    '''
        Função para checar se a resposta dada viola algum critério de segurança do Gemini. Se ferir, temos que descartar aquela resposta.
        No geral, queremos que o motivo de parada do prompt seja natural, código 1. Caso contrário, não teremos acesso.
        https://ai.google.dev/api/python/google/ai/generativelanguage/Candidate/FinishReason
    '''
    if len(response.candidates) == 0:
        return False
    else:
        if response.candidates[0].finish_reason == 1:
            return True
        else:
            return False

### Análise de Sentimento com o Gemini

Nesta seção, realizaremos a análise de sentimento para cada um dos *tweets* disponíveis.

In [15]:
def gemini_sentiment_prompt(original, reply, image=None):
    '''
        Função para lidar com os dois tipos diferentes de prompt para 
        analisar sentimento de um tweet com o Gemini, com ou sem imagem
    '''
    if image is None:
        response = model_text.generate_content(
            f"Determine o sentimento do tweet: '{reply}' em relação a este tweet: '{original}'. \
            A pontuação deve ser SOMENTE UM NÚMERO entre -1 e 1, representando negatividade, neutralidade ou positividade, \
            com precisão de até duas casas decimais. Não se extenda."
        )
    else:
        response = model_image.generate_content([
            f"Determine o sentimento do tweet: '{reply}' em relação a este tweet: '{original}'. \
            A pontuação deve ser um NÚMERO entre -1 e 1, representando negatividade, neutralidade ou positividade, \
            com precisão de até duas casas decimais. Não se extenda.", image]
        )

    return response

In [16]:
original_tweet = tweets.iloc[0]['Tweet Original']
print(f"O Tweet original desta análise foi: '{original_tweet}'")

O Tweet original desta análise foi: 'VEEEEEEENNNNCEEEE O FLUMINEEEENSEEE! 

ARIAS E LIMA MARCAM, O FLU FAZ 2 A 0 NO SAMPAIO CORRÊA E SAI NA FRENTE NA TERCEIRA FASE DA COPA DO BRASIL! VAAAMMMOS, TRICOLOR!'


In [17]:
image_folder = 'Imagens do Twitter'
create_folder(image_folder)

True

In [18]:
for idx, row in tqdm(tweets.iloc[2:].iterrows(), total=len(tweets.iloc[2:])):    
    username_idx = f"{row['Perfil do Twitter']}_{idx}" # chave para preencher os dados do tweet de um usuário
    tweets_analyzed[username_idx]['Tweet'] = row['Conteúdo da Resposta']
        
    if pd.isna(row['URL Imagem Anexada']):
        # caso de tweet sem imagem
        response = gemini_sentiment_prompt(original_tweet, row['Conteúdo da Resposta'])
        if valid_answer(response):
            tweets_analyzed[username_idx]['Sentimento'] = format_output(response.text)
        pass
    else:
        # tweet com imagem
        if request_tweet_image(row['URL Imagem Anexada'], image_folder, username_idx):
            # processamos a imagem
            image = PIL.Image.open(f"{image_folder}/[Tweet Image] {username_idx}.png")
            response = gemini_sentiment_prompt(original_tweet, row['Conteúdo da Resposta'], image)
            if valid_answer(response):
                tweets_analyzed[username_idx]['Sentimento'] = format_output(response.text)
        else:
            # imagem não foi baixada, seguimos só com texto    
            response = gemini_sentiment_prompt(original_tweet, row['Conteúdo da Resposta'])
            if valid_answer(response):
                tweets_analyzed[username_idx]['Sentimento'] = format_output(response.text)
            
    time.sleep(5)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [15:18<00:00,  5.96s/it]


### Tópicos do Tweet com o Gemini

Nesta seção, realizaremos uma 'modelagem' de tópicos, na verdade, vamos tentar extrair os termos principais e que resumem cada um dos *tweets*, de modo que teremos poucas palavras representando um *tweet* maior.

In [19]:
def gemini_topic_prompt(original, reply, image=None):
    '''
        Função para lidar com os dois tipos diferentes de prompt para 
        pegar os tópicos de um tweet com o Gemini, com ou sem imagem
    '''
    if image is None:
        response = model_text.generate_content(
            f"Dado este tweet de resposta: '{reply}' a este tweet original: '{original}', \
              forneça uma uma expressão coerente com no máximo 3 palavras que resuma a resposta dada."

        )
    else:
        response = model_image.generate_content([
            f"Dado este tweet com imagem e resposta: '{reply}' a este tweet original: '{original}', \
            forneça uma uma expressão coerente com no máximo 3 palavras que resuma a resposta dada.", image]
        )
    
    return response

In [20]:
for idx, row in tqdm(tweets.iloc[2:].iterrows(), total=len(tweets.iloc[2:])):            
    username_idx = f"{row['Perfil do Twitter']}_{idx}" # chave para preencher os dados do tweet de um usuário
        
    if pd.isna(row['URL Imagem Anexada']):
        # caso de tweet sem imagem
        response = gemini_topic_prompt(original_tweet, row['Conteúdo da Resposta'])
        if valid_answer(response):
            tweets_analyzed[username_idx]['Tópicos'] = format_output(response.text)
    else:
        # tweet com imagem
        if request_tweet_image(row['URL Imagem Anexada'], image_folder, username_idx):
            # processamos a imagem
            image = PIL.Image.open(f"{image_folder}/[Tweet Image] {username_idx}.png")
            response = gemini_topic_prompt(original_tweet, row['Conteúdo da Resposta'], image)
            if valid_answer(response):
                tweets_analyzed[username_idx]['Tópicos'] = format_output(response.text)
            
        else:
            # imagem não foi baixada, seguimos só com texto    
            response = gemini_topic_prompt(original_tweet, row['Conteúdo da Resposta'])
            if valid_answer(response):
                tweets_analyzed[username_idx]['Tópicos'] = format_output(response.text)
            
    time.sleep(5)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [16:25<00:00,  6.40s/it]


### Salvar Dados

Com os sentimentos e tópicos extraídos, podemos salvar nossos dados para etapa de análise dos resultados produzidos. 

Como o conteúdo de alguma de nossas respostas, vamos descartar *tweets* sem sentimento ou tópico informado.

#### Criação do DataFrame

Vamos criar um DataFrame a partir do dicionário ***tweets_analyzed*** preenchido.

In [21]:
# variáveis para construção do dataframe
users_list = []
tweets_list = []
sentiments_list = []
topics_list = []

In [22]:
# recupera os valores de cada entrada no nosso dicionário
for user_idx in list(tweets_analyzed.keys()):
    tweet_info = tweets_analyzed[user_idx]
    users_list.append(tweet_info['Perfil'])
    tweets_list.append(tweet_info['Tweet'])
    if tweet_info['Sentimento'] is None:
        sentiments_list.append(tweet_info['Sentimento'])
    else:
        sentiments_list.append(float(tweet_info['Sentimento'].data.split("> ")[1].replace(",", "."))) # remove ">" de identação e converte para float

    if tweet_info['Tópicos'] is None:
        topics_list.append(tweet_info['Tópicos'])
    else:
        topics_list.append(tweet_info['Tópicos'].data.split("> ")[1]) # remove o ">" de identação

In [23]:
# inicializa novo dataframe
tweets_analyzed_df = pd.DataFrame({
    'Perfil': users_list,
    'Tweet': tweets_list,
    'Sentimento': sentiments_list,
    'Tópico': topics_list,
})

In [24]:
tweets_analyzed_df.head()

Unnamed: 0,Perfil,Tweet,Sentimento,Tópico
0,matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,0.87,Milagre sem gols
1,RSPtips,fora diniz,-1.0,Sai Diniz
2,karl_ffc,"Que exibição maravilhosa, vitória pra convence...",0.89,Irônica e provocativa
3,AedoDias,"Apesar do resultado, mais um jogo ruim do time...",-0.36,Elogio a Felipe Andrade
4,elicepsv,tô convencido que contra o galo vai ser no máx...,-0.85,Vitória esperada do Flamengo


#### Remoção de Entradas sem Conteúdo

Vamos descartar *tweets* que ficaram sem sentimento ou tópico definido.

In [25]:
total_tweets_analyzed = len(tweets_analyzed_df)

In [26]:
tweets_analyzed_df.dropna(subset=["Sentimento", 'Tópico'], inplace=True, ignore_index=True)

In [27]:
total_tweets_analyzed_filtered = len(tweets_analyzed_df)

In [28]:
tweets_analyzed_df.head()

Unnamed: 0,Perfil,Tweet,Sentimento,Tópico
0,matandosuacurio,Um milagre aconteceu um jogo sem tomar gol,0.87,Milagre sem gols
1,RSPtips,fora diniz,-1.0,Sai Diniz
2,karl_ffc,"Que exibição maravilhosa, vitória pra convence...",0.89,Irônica e provocativa
3,AedoDias,"Apesar do resultado, mais um jogo ruim do time...",-0.36,Elogio a Felipe Andrade
4,elicepsv,tô convencido que contra o galo vai ser no máx...,-0.85,Vitória esperada do Flamengo


In [29]:
print(f'{total_tweets_analyzed - total_tweets_analyzed_filtered} tweets foram descartados sem sentimento ou tópico definido!')

5 tweets foram descartados sem sentimento ou tópico definido!


#### Salvar DataFrame

Com o DataFrame tratado, vamos apenas salvá-lo como *CSV*.

In [30]:
# dados de saída (pasta e arquivo)
data_output_folder = 'Tweets Analisados'
data_output_filename = '[Analisado] - Resultado FLU x SCO.csv'

In [31]:
# checamos se a pasta de destino existe, caso contrário, criamos
if not os.path.exists(data_output_folder):
    os.makedirs(data_output_folder)
    print(f"Pasta '{data_output_folder}' criada com sucesso!")
else:
    print(f"Pasta '{data_output_folder}' já existe!")

Pasta 'Tweets Analisados' já existe!


In [32]:
tweets_analyzed_df.to_csv(f"{data_output_folder}/{data_output_filename}", sep=",", index=False)