<a href="https://colab.research.google.com/github/lariyumi/ProjetoPraticoPLN/blob/main/C%C3%B3pia_de_2024_Q2_PLN_PROJETO_PR%C3%81TICO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processamento de Linguagem Natural [2024-Q2]**
Prof. Alexandre Donizeti Alves

### **PROJETO PRÁTICO** [LangChain + Grandes Modelos de Linguagem + API]


O **PROJETO PRÁTICO** deve ser feito utilizando o **Google Colab** com uma conta sua vinculada ao Gmail. O link do seu notebook, armazenado no Google Drive, o link de um repositório no GitHub e o link de um vídeo do projeto em execução detalhando os principais resultados da atividade, devem ser enviados usando o seguinte formulário:

> https://forms.gle/D4gLqP1iGgyn2hbH8


**IMPORTANTE**: A submissão deve ser feita até o dia **08/09 (domingo)** APENAS POR UM INTEGRANTE DA EQUIPE, até às 23h59. Por favor, lembre-se de dar permissão de ACESSO IRRESTRITO para o professor da disciplina de PLN.

### **EQUIPE**

---

**POR FAVOR, PREENCHER OS INTEGRANDES DA SUA EQUIPE:**


**Integrante 01:**

`Por favor, informe o seu nome completo e RA:` Derick Yudji Sato - 11202231905

**Integrante 02:**

`Por favor, informe o seu nome completo e RA:` Júlia de Oliveira Rodrigues - 11202230721

**Integrante 03:**

`Por favor, informe o seu nome completo e RA:` Larissa Yumi Ohashi - 11202231795

### **GRANDE MODELO DE LINGUAGEM (*Large Language Model - LLM*)**

---

Cada equipe deve selecionar um Grande Modelo de Linguagem (*Large Language Model - LMM*). Cada modelo pode ser escolhido por até 5 equipes.



Por favor, informe os dados do LLM selecionada:

>


**LLM**: Cohere (modelo: command-r-plus)

>

**Link para a documentação oficial**: https://docs.cohere.com



### **API**
---

Por favor, informe os dados da API selecionada:

**API**: Dog API

**Site oficial**: https://dogapi.dog/

**Link para a documentação oficial**: https://dogapi.dog/docs/api-v2






**IMPORTANTE**: cada **API** pode ser usada por até 4 equipes.

### **DESCRIÇÃO**
---

Implementar um `notebook` no `Google Colab` que faça uso do framework **`LangChain`** (obrigatório) e de um **LLM** aplicando, no mínimo, DUAS técnicas de PLN. As técnicas podem ser aplicada em qualquer córpus obtido a partir de uma **API** ou a partir de uma página Web.

O **LLM** e a **API** selecionados devem ser informados na seguinte planilha:

> https://docs.google.com/spreadsheets/d/1iIUZcwnywO7RuF6VEJ8Rx9NDT1cwteyvsnkhYr0NWtU/edit?usp=sharing

>
As seguintes técnicas de PLN podem ser usadas:

*   Correção Gramatical
*   Classificação de Textos
*   Análise de Sentimentos
*   Detecção de Emoções
*   Extração de Palavras-chave
*   Tradução de Textos
*   Sumarização de Textos
*   Similaridade de Textos
*   Reconhecimento de Entidades Nomeadas
*   Sistemas de Perguntas e Respostas
>

**IMPORTANTE:** É obrigatório usar o e-mail da UFABC.


### **CRITÉRIOS DE AVALIAÇÃO**
---


Serão considerados como critérios de avaliação os seguintes pontos:

* Uso do framework **`LangChain`**.

* Escolha e uso de um **LLM**.

* Escolha e uso de uma **API**.

* Vídeo (5 a 10 minutos).

* Criatividade no uso do framework **`LangChain`** em conjunto com o **LLM** e a **API**.




**IMPORTANTE**: todo o código do notebook deve ser executado. Código sem execução não será considerado.

### **IMPLEMENTAÇÃO**
---

Começamos instalando as bibliotecas que serão necessárias para o projeto

In [None]:
!pip install langchain-cohere -q U

Para esse projeto, decidimos usar uma API chamada DogAPI para obter informações de raças de cachorros. Começaremos fazendo a tradução dos textos que a API nos devolve sobre algumas raças.

In [None]:
import os
from google.colab import userdata
from langchain_cohere import ChatCohere
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
import requests
import pandas as pd
from IPython.display import Markdown

#Definimos as chaves da API Cohere, que é o LLM que iremos utilizar para a execução desse projeto
os.environ["COHERE_API_KEY"] = userdata.get('COHERE_API_KEY')

#Definimos a url da API (Dog API) de onde tiraremos as informações de raças de cachorros que serão manipuladas e usadas
url = "https://dogapi.dog/api/v2/breeds"

#Relizamos uma requisição à API e pegamos os dados que ela nos retorna
response = requests.get(url)
dados = response.json()

#Transforma os dados que recebemos em json em uma tabela
df = pd.json_normalize(dados['data'])

#Juntamos as descrições de cada raça em uma única variável
descricao_racas = ""
for descricao in df['attributes.description']:
  descricao_racas += descricao
  descricao_racas += '\n'

#Definimos o modelo do Cohere que usaremos
modelo = ChatCohere(model="command-r-plus")

#Definimos o que queremos que seja executado pelo LLM
system_template = "Traduza o texto passado para o idioma {idioma}"

#Definimos um prompt_template, que vai receber o system_template que definimos anteriormente e a descrição das raças, que seria a entrada do usuário.
#Nesse caso em específico, a entrada do usuário seria o texto a ser traduzido
prompt_template = ChatPromptTemplate.from_messages(
    [("system", system_template), ("user", descricao_racas)]
)

#Transforma o output do LLM em uma string
parser = StrOutputParser()

#Definimos uma cadeia (ou em inglês, chain, que é basicamente uma sequência de chamadas de LLMs ou ferramentas, por exemplo, em sequência)
cadeia = prompt_template | modelo | parser

#Executamos a chain definida anteriormente e guardamos sua resposta na variável resposta
resposta = cadeia.invoke({'idioma': 'português'})

#Exibimos a resposta
Markdown(resposta)

O Cão Pastor do Cáucaso é uma raça grande e poderosa de cão originária da região das Montanhas do Cáucaso. Esses cães são de grande porte, com uma grossa dupla camada para protegê-los do frio. Eles têm uma postura real, com um ar orgulhoso e confiante. São altamente inteligentes e leais, o que os torna excelentes cães de guarda. São corajosos e alertas, com um instinto de proteger sua família e propriedade. São altamente treináveis, mas exigem treinamento firme e consistente.

O Bouvier des Flandres é uma raça grande e poderosa de cão originária da região de Flandres, na Bélgica. Esses cães são de porte muito grande, com uma grossa dupla camada de pêlo duro. Eles têm uma postura digna, mas enérgica, o que os torna excelentes cães de trabalho. São altamente inteligentes e treináveis, com um instinto de proteger sua família e propriedade. São corajosos e leais, com uma natureza independente que os torna bem adequados para o trabalho de pastoreio e guarda.

O Grand Basset Griffon Vendéen é uma raça de médio porte de cão de caça originária da região de Vendéen, na França. Esses cães são de tamanho médio, com uma longa e desgrenhada pelagem. Eles têm uma personalidade enérgica e alegre, com um instinto de caça e rastreamento. São altamente treináveis e inteligentes, mas exigem treinamento firme e consistente para serem obedientes. São leais e dedicados à sua família, mas podem ser teimosos e independentes às vezes.

O Hokkaido é uma raça de médio porte de cão originária da ilha de Hokkaido, no Japão. Esses cães são de tamanho médio, com uma grossa dupla camada de pêlo para protegê-los do frio. Eles têm uma postura digna e leal, o que os torna excelentes cães de guarda e de companhia. São inteligentes e treináveis, mas exigem treinamento firme e consistente para serem obedientes. São corajosos e alertas, com um instinto de proteger sua família e propriedade.

O Terrier Japonês é uma pequena raça de terrier do Japão. Esses cães são pequenos em tamanho, com uma curta e desgrenhada pelagem. Eles têm uma personalidade animada e enérgica, com um instinto de caça. São altamente inteligentes e treináveis, mas exigem treinamento firme e consistente para serem obedientes. São leais e dedicados à sua família, com uma natureza independente que os torna bem adequados para o trabalho de pastoreio e guarda.

O Sabujo de Hanôver é uma raça de médio porte de cão de caça originária da região de Hanôver, na Alemanha. Esses cães são de tamanho médio, com uma curta e desgrenhada pelagem. Eles têm uma personalidade amigável e enérgica, com um instinto de caça e rastreamento. São altamente inteligentes e treináveis, mas exigem treinamento firme e consistente para serem obedientes. São leais e dedicados à sua família, mas podem ser teimosos e independentes às vezes.

O Spaniel Tibetano é uma pequena raça de spaniel do Tibete. Esses cães são pequenos em tamanho, com uma curta e sedosa pelagem. Eles têm uma personalidade alegre e afetuosa, o que os torna excelentes cães de companhia. São altamente treináveis e inteligentes, com um instinto de proteger sua família e propriedade. São leais e dedicados à sua família, mas podem ser teimosos e independentes às vezes.

O Border Collie é uma raça de médio porte de cão de pastoreio originária das fronteiras da Inglaterra e da Escócia. Esses cães são de tamanho médio, com uma grossa dupla camada de pêlo para protegê-los do frio. Eles têm uma personalidade enérgica e inteligente, com um instinto de pastoreio e trabalho. São altamente treináveis e obedientes, mas exigem treinamento firme e consistente para serem obedientes. São leais e dedicados à sua família, com uma natureza independente que os torna bem adequados para o trabalho de pastoreio e guarda.

O Retriever de Pêlo Encaracolado é uma grande raça de cão de busca originária da Inglaterra. Esses cães são de grande porte, com uma pelagem encaracolada. Eles têm uma postura digna e enérgica, o que os torna excelentes cães de trabalho. São altamente inteligentes e treináveis, com um instinto de buscar caça. São leais e dedicados à sua família, com uma natureza independente que os torna bem adequados para o trabalho de busca e guarda.

O Terrier Skye é uma pequena raça de terrier originária da Ilha de Skye, na Escócia. Esses cães são pequenos em tamanho, com uma longa e desgrenhada pelagem. Eles têm uma postura digna e independente, com um instinto de caça. São altamente inteligentes e treináveis, mas exigem treinamento firme e consistente para serem obedientes. São leais e dedicados à sua família, mas podem ser teimosos e independentes às vezes.

Em seguida, vamos ver a similaridade na descrição de duas raças diferentes

> Adicionar aspas



In [None]:
#Colocamos as descrições das raças em uma matriz
matriz_descricoes = [descricao for descricao in df['attributes.description']]

#Criamos um dicionário para assim conseguir pegar cada texto da descrição de raça separadamente. Assim, conseguimos selecionar quais descrições queremos comparar
descricoes = {f'descricao{i+1}': texto for i, texto in enumerate(matriz_descricoes)}

#Definimos o que queremos que seja executado pelo LLM
system_template2 = "Analise o quão similar os dois textos passados são entre si. Dê uma pontuação de 0 a 10 com base em sua similaridade. Cite também de que raças o texto tá falando. Devolva os nomes das raças em português"

#Nesse caso, a entrada do usuário são os textos que queremos comparar e analisar a similaridade
prompt_template2 = ChatPromptTemplate.from_messages(
    [("system", system_template2), ("user", "Textos: {texto1} e {texto2}")]
)

cadeia2 = prompt_template2 | modelo | parser

resposta2 = cadeia2.invoke({'texto1': descricoes['descricao1'], 'texto2': descricoes['descricao6']})

Markdown(resposta2)

Pontuação de similaridade: 6/10

Ambos os textos descrevem raças de cães com características distintas, mas apresentam algumas similaridades. Ambos enfatizam a inteligência, a lealdade e a necessidade de treinamento firme e consistente. No entanto, as raças diferem em tamanho, tipo de pelagem, personalidade e origem geográfica.

Raças:

1. Caucasian Shepherd Dog (Cão Pastor do Cáucaso)
2. Hanoverian Scenthound (Sabujos de Hanover)

Por último, definiremos uma classe para nos ajudar na extração da informação de descrições de raças de cachorro.

In [None]:
from typing import Optional

from langchain_core.pydantic_v1 import BaseModel, Field

#Definimos uma classe Cachorro, que vai ter os atributos raça, origem, porte, pelagem e personalidade
class Cachorro(BaseModel):
  """Informações sobre um cachorro."""

  raca: Optional[str] = Field(
    default=None, description="A raça do cachorro"
  )
  origem: Optional[str] = Field(
    default=None, description="De onde a raça de cão é originário"
  )
  porte: Optional[str] = Field(
    default=None, description="Porte do cachorro"
  )
  pelagem: Optional[str] = Field(
      default=None, description="Características da pelagem do cachorro"
  )
  personalidade: Optional[str] = Field(
    default=None, description="Características de como esses cachorros agem e se comportam"
  )

In [None]:
prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "Você é especializado em extrair informações de textos."
            "Extraia as informações do texto, retornando nulo caso não achar um valor adequado para o atributo que você está procurando."
        ),
        (
            "human",
            "{texto}"
        ),
    ]
)

cadeia3 = prompt | modelo.with_structured_output(schema = Cachorro)

#Passamos como o texto da entrada do humano uma das descrições definidas anteriormente no dicionário
resposta3 = cadeia3.invoke({'texto': descricoes['descricao8']})

#Como a resposta nesse caso é um objeto da classe Cachorro, acessamos seus atributos e vemos se a extração de informação foi bem sucedida
Markdown("Raça: " + resposta3.raca + " - Origem: " + resposta3.origem + " - Porte: " + resposta3.porte + " - Pelagem: " + resposta3.pelagem + " - Personalidade: " + resposta3.personalidade)

Raça: Border Collie - Origem: fronteiras da Inglaterra e da Escócia - Porte: médio - Pelagem: grossa e dupla - Personalidade: energética e inteligente