# Estudo de Caso 3 - Identificação de Anomalias em Texto com Pytorch

O objetivo deste Jupyter Notebook é utilizar um modelo de machine learning com inteligência artificial para identificar frases que contém ou não fake news. Para isso, será utilizado liguagem Python e o Pytorch. 

## 1. Instalação dos Pacotes

In [1]:
# Versão da linguagem Python
from platform import python_version
print('A versão da linguagem Python utilizada neste Jupyter Notebook é: ', python_version())

A versão da linguagem Python utilizada neste Jupyter Notebook é:  3.9.13


In [2]:
# Instala versão do Pytorch
!pip install -q torch==2.0.0

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchvision 0.14.0 requires torch==1.13.0, but you have torch 2.0.0 which is incompatible.


In [3]:
# Instala versão do Transformers
!pip install -q transformers==4.28.1

In [4]:
# Carga dos pacotes
import torch
import sklearn
import numpy as np
from transformers import BertTokenizer, BertForSequenceClassification
from torch.utils.data import DataLoader, Dataset
from sklearn.model_selection import train_test_split

In [5]:
# Mostra somente mensagens de erro
from transformers import logging
logging.set_verbosity_error()

In [6]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Estudo de Caso 3 - Análise de Texto" --iversions

Author: Estudo de Caso 3 - Análise de Texto

numpy       : 1.21.5
transformers: 4.28.1
torch       : 2.0.0
sklearn     : 1.0.2



## 2. Construção da Classe de Tokenização dos Dados

In [7]:
# Classe para tokenização dos dados
class TokenizaDados(Dataset):
    
    # Método construtor
    def __init__(self, texts, labels, tokenizer, max_length):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length
        
    # Método para calcular o comprimento do texto (cada sentença)
    def __len__(self):
        return len(self.text)
    
    # Método para obter um item tokenizado
    def __getitem__(self, idx):
        
        # Obtém o índice do texto e do label
        text = self.texts[idx]
        label = self.labels[idx]
        
        # Aplica a tokenização
        inputs = self.tokenizer.encode_plus(text,
                                           add_special_tokens = True,
                                           max_length = self.max_length,
                                           padding = 'max_length',
                                           truncation = True,
                                           return_tensors = 'pt')
        
        return {
            'input_ids': inputs['input_ids'].squeeze(0),
            'attention_mask': inputs['attention_mask'].squeeze(0),
            'label': torch.tensor(label)
        }