#### **Deep & Reinforcement Learning**

#### **Observa√ß√µes**

##### Classificando not√≠cias com Redes Neurais Recorrentes üì∞
Imagine que temos o desafio de organizar diversos tipos de not√≠cias por assuntos, como voc√™ faria? Basicamente podemos classificar uma not√≠cia dado algum contexto, por exemplo:

"Pela quarta rodada do Campeonato Italiano, a Roma n√£o tomou conhecimento do Empoli neste domingo e venceu pela primeira vez na competi√ß√£o."

Com base nesse contexto, poderiamos classificar essa not√≠cia como do tipo "Esportes", certo? E por que sabemos disso? Bem, podemos observar algumas palavrinhas chaves tal como "campeonato" e "competi√ß√£o".

Nessa aula, temos o desafio de ensinar uma rede neural recorrente realizar esse tipo de trabalho! Classificar not√≠cias com base em textos.

Como bem j√° sabemos, as redes neurais recorrentes aprende com ela mesma (assim como n√≥s humanos aprendemos com nossos erros). Basicamente, esse tipo de arquitetura aprende n√£o s√≥ com os dados de entrada mas tamb√©m com as pr√≥prias sa√≠das da rede (muito parecido com um looping de aprendizado, por isso chamamos de redes recorrentes). Como nesse cen√°rio precisamos de uma sequ√™ncia de palavras para fazer sentido ao contexto, as RNNs podem ser uma boa alternativa! Vamos codar? üòÄ

##### **Limpeza dos dados** üßπ

Antes de iniciar as etapas de pr√©-processamento que citei anteriormente, vamos precisar limpar os dados. Vamos ciar uma fun√ß√£o que realize a etapa de limpeza do texto utilizando alguns REGEX, remo√ß√£o de stop words e lematizar algumas palavras.

Para contextuallizar o que fazem essas t√©cnicas, vamos falar um pouquinho mais sobre elas.

**Regex**  
Pode ser definida como uma **forma flex√≠vel de identificar determinada cadeia de caractere** para nosso interesse. Uma cadeia pode ser um caractere espec√≠fico, uma palavra ou um padr√£o.
No Python, o m√≥dulo **re** prov√™ um analisador sint√°tico que permite o uso de tais express√µes. Os padr√µes definidos atrav√©s de caracteres que tem significado especial para o analisador.

**Stop-words**  
Essa t√©cnica consiste na **remo√ß√£o de ru√≠dos** do texto que s√£o menos evidentes que pontua√ß√µes, como os conectivos ‚Äúque‚Äù, ‚Äúo‚Äù, ‚Äúa‚Äù, ‚Äúde‚Äù, entre outros. Normalmente √© um conjunto composto por artigos, adv√©rbios, preposi√ß√µes e alguns verbos.

**Lematiza√ß√£o**  
Basicamente √© um processo que determina uma √∫nica ‚Äúraiz‚Äù para a palavra, independente de suas diferen√ßas superficiais.

##### **Entrando no preparo dos dados!** üìè

**Tokeniza√ß√£o e vetoriza√ß√£o**  

**Tokeniza√ß√£o**  
A tokeniza√ß√£o √© uma etapa inicial no processo de NLP para dividir frases de texto em palavras ou tokens menores. Por exemplo: "O time venceu a partida" ficaria "o", "time", "venceu", "a", "partida".

E porque precisamos tokenizar?

√â necess√°rio para identficar cada uma das palavras contidas na base.

**Vetoriza√ß√£o**  
A m√°quina n√£o entende texto ou palavras, portanto, dados de texto ou tokens devem ser **convertidos em √≠ndices de palavras ou vetores de palavras** para processar texto e construir modelos. Por exemplo,  "o: 1", "time: 2", "venceu: 3", "a: 4", "partida: 5".

##### **Como criar ambientes para evitar conflito:**
https://github.com/RicardViana/fiap-data-viz-and-production-models/blob/main/Roteiro%20para%20cria%C3%A7%C3%A3o%20de%20ambiente.pdf

#### **Conte√∫do - Bases e Notebook da aula**

Github:  
https://github.com/FIAP/Pos_Tech_DTAT/tree/DeepLearning

ou

https://github.com/FIAP/Pos_Tech_DTAT/tree/main


#### **Importa√ß√£o de bibliotecas**

In [None]:
#Importar biblioteca completa
import config
import tensorflow as tf
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re
import nltk
nltk.download('wordnet')

#Importar algo especifico de uma biblioteca
from nltk.corpus import stopwords
from wordcloud import STOPWORDS
from nltk.stem.wordnet import WordNetLemmatizer
from tensorflow import keras
from keras.callbacks import ModelCheckpoint
from sklearn.model_selection import train_test_split, cross_val_score
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical
from sklearn.preprocessing import LabelEncoder
from keras.layers import Embedding, Flatten, Dense, Dropout
from keras.layers import Conv1D, SimpleRNN, Bidirectional, MaxPooling1D, GlobalMaxPool1D, LSTM, GRU
from keras.models import Sequential
from keras.regularizers import L1L2
from keras.src.legacy.preprocessing.text import Tokenizer


#### **Fun√ß√µes (def)**

In [None]:
# regex para limpar o texto
def limpeza_texto(text):
    
    whitespace = re.compile(r"\s+")                            # encontrando espa√ßos em branco
    user = re.compile(r"(?i)@[a-z0-9_]+")                      # encontrar men√ß√µes de usu√°rios, exemplo @usuario
    text = whitespace.sub(' ', text)                           # substitui espa√ßos em branco por ' '
    text = user.sub('', text)                                  # remove todas as men√ß√µes de usu√°rio encontradas no texto
    text = re.sub(r"\[[^()]*\]","", text)                      # remove o conte√∫do dentro de colchetes, incluindo os colchetes
    text = re.sub("\d+", "", text)                             # remove todos os d√≠gitos num√©ricos do texto
    text = re.sub(r'[^\w\s]','',text)                          # remove todos os caracteres que n√£o s√£o palavras (letras e n√∫meros) ou espa√ßos em branco.
    text = re.sub(r"(?:@\S*|#\S*|http(?=.*://)\S*)", "", text) # remove men√ß√µes de usu√°rio, hashtags e URLs.
    text = text.lower()                                        # texto para minusculo

    # removendo as stop words
    text = [word for word in text.split() if word not in list(STOPWORDS)]

    # word lemmatization
    sentence = []
    for word in text:
        lemmatizer = WordNetLemmatizer()
        sentence.append(lemmatizer.lemmatize(word,'v'))

    return ' '.join(sentence)

#### **Aula 4 - Redes recorrentes**

In [None]:
# Criar o DF com a base BBC TEXT
link = "https://raw.githubusercontent.com/RicardViana/fiap-Deep-Learning-and-unstructured-data/refs/heads/main/bbc-text.csv"
df = pd.read_csv(link, sep=",")

# Fazer uma copia do DF caso precise consultar os dados originais
df_2 = df.copy()

In [None]:
# Ver o data frame
df.head()

In [None]:
# Ver a qtd de linhas e colunas
df.shape

In [None]:
# Ver os dados unico da category
df['category'].nunique()

In [None]:
# Ver os dados unico 
set(df['category'])

In [None]:
# Ver a distribui√ß√£o da category em um grafico 
plt.figure(figsize=(8,3))
sns.countplot(data=df, x='category', hue='category')
plt.title("Total de not√≠cias por classe", size=15)
plt.xlabel("Catgorias das classes", size=14)
plt.xticks(rotation=25)
plt.ylabel("N√∫mero de not√≠cias", size=14)
plt.show()

In [None]:
# Comparar o texto antes e depois da limpeza
print("Texto antes da limpeza:\n",df['text'][0])
print("---"*100)
print("Texto depois da limpeza:\n",limpeza_texto(df['text'][0]))

In [None]:
# Aplicando a fun√ß√£o no dataframe inteiro
df['text'] = df['text'].apply(limpeza_texto)

In [None]:
# comprimento do total de caracteres antes e depois da limpeza dos dados de texto
antigo_total_caracter = df_2['text'].apply(len).sum()
novo_total_caracter = df['text'].apply(len).sum()

print(f"Tamanho de caracteres antes da limpeza: {antigo_total_caracter}")
print(f"Tamanho de caracteres depois da limpeza: {novo_total_caracter}")

In [None]:
# workflow de tokeniza√ß√£o e vetoriza√ß√£o
# codifica√ß√£o one-hot de n√≠vel de palavra para dados de amostra

samples = list(df['text'][:5].values)  # amostras dos primeiros cinco documentos do nosso conjunto de dados

token_index = {} # cria um √≠ndice de tokens nos dados
for sample in samples:
    for word in sample.split():
        if word not in token_index:
            token_index[word] = len(token_index) + 1 # atribuindo √≠ndice exclusivo para cada palavra √∫nica

max_length = 15 # Define um valor m√°ximo para o comprimento das sequ√™ncias. Todas as sequ√™ncias ter√£o esse comprimento, e as palavras adicionais ser√£o truncadas se necess√°rio

results = np.zeros(shape=(len(samples),   # resultados ser√£o armazenados neste array multidimensional de zeros com as dimens√µes obtidas pelo tamanho das amostras e o tamanho m√°ximo de comprimento
                          max_length,     # Esta matriz ser√° usada para armazenar a codifica√ß√£o one-hot das palavras em cada sequ√™ncia de amostra
                          max(token_index.values()) +1))

print("Shape de resultados armazenados:", results.shape)
print("√çndice de token de palavras √∫nicas: \n", token_index)

# criando a matriz one hot econdig
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i,j,index] = 1

In [None]:
# Aplicando LabelEncoder nas categorias para converter r√≥tulos de classes de texto ou categorias em n√∫meros inteiros
X = df['text']
encoder = LabelEncoder()
y = encoder.fit_transform(df['category'])

print("tamanho dos dados de entrada: ", X.shape)
print("tamanho da vari√°vel alvo: ", y.shape)

# Seprando os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

# Criando a tokeniza√ß√£o
# Tendo agora as palavras em uma grande lista (1000), usamos a classe Tokenizer para tokeniza√ß√£o das palavras e cria√ß√£o de um vocabul√°rio
# com as 1000 palavras mais frequentes no texto(par√¢metro num_words do Tokenizer):
tokenizer = Tokenizer(num_words=1000, oov_token='<00V>')  # OOV = out of vocabulary (fora de vocabul√°rio)
tokenizer.fit_on_texts(X_train) # construindo o √≠ndice de palavras

# Preenchimento de dados de entrada de texto X_train
train_seq = tokenizer.texts_to_sequences(X_train) #converte strings em listas inteiras
train_padseq = pad_sequences(train_seq, maxlen=200) # preenche as listas de inteiros para o tensor de inteiros 2D
# maxlen define o comprimento m√°ximo desejado para as sequ√™ncias ap√≥s o preenchimento (padding)

# preenchimento de dados de entrada de texto X_test
test_seq = tokenizer.texts_to_sequences(X_test)
test_padseq = pad_sequences(test_seq, maxlen=200)

word_index = tokenizer.word_index
max_words = 1500  # n√∫mero total de palavras a serem consideradas na camada de incorpora√ß√£o
total_words = len(word_index)
maxlen = 200 # comprimento m√°ximo da sequ√™ncia
y_train = to_categorical(y_train, num_classes=5)
y_test = to_categorical(y_test, num_classes=5)
print("Tamanho do √≠ndice de palavras:", total_words)