### Preparação do ambiente

In [None]:
# Instalação de dependências
%pip install -r requirements.txt

In [1]:
import tensorflow
import pandas as pd
from typing import List, Tuple
import numpy as np
import regex
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Model
from tensorflow.keras.layers import LSTM, Embedding, Dense, TimeDistributed, Dropout, Bidirectional, Input
from sklearn.model_selection import train_test_split

### Loading e pre processamento dos dados

In [2]:
# Definição de caminhos dos arquivos de corpus
train_file = "Penn Treebank/Secs0-18 - training"
dev_file   = "Penn Treebank/Secs19-21 - development"
test_file  = "Penn Treebank/Secs22-24 - testing"

In [3]:
# ------------------------------
# Funções de pré-processamento do texto
def carregar_corpus(caminho_arquivo: str) -> str:
    """
    Lê o arquivo completo em utf-8 e retorna como string.
    """
    with open(caminho_arquivo, "r", encoding="utf-8") as f:
        return f.read()

def dividir_em_sentencas(texto: str) -> List[str]:
    """
    Divide o texto em sentenças, assumindo uma sentença por linha.
    """
    return texto.strip().split("\n")

def processar_sentenca(sentenca: str) -> List[Tuple[str, str]]:
    """
    Separa tokens de formato palavra_TAG em pares (palavra, tag).
    Converte para lowercase, exceto nomes próprios (NNP, NNPS).
    """
    tokens = sentenca.strip().split()
    pares = []
    for token in tokens:
        if "_" in token:
            palavra, tag = token.rsplit("_", 1)
            if not(tag == 'NNP' or tag == 'NNPS'):
                palavra = palavra.lower()
            pares.append((palavra, tag))
    return pares

def construir_dataframe(sentencas: List[str]) -> pd.DataFrame:
    """
    Cria um DataFrame 'longo' com colunas:
    sentenca (ID), palavra, tag e posicao_na_sentenca.
    """
    dados = []
    for sent_id, sentenca in enumerate(sentencas):
        palavras_tags = processar_sentenca(sentenca)
        for posicao, (palavra, tag) in enumerate(palavras_tags):
            dados.append({
                "sentenca": sent_id + 1,
                "palavra": palavra,
                "tag": tag,
                "posicao_na_sentenca": posicao
            })

    return pd.DataFrame(dados)

In [4]:
# Carregando e processando os datasets
texto_raw_train = carregar_corpus(train_file)
texto_raw_dev = carregar_corpus(dev_file)
texto_raw_teste = carregar_corpus(test_file)
sentencas_train = dividir_em_sentencas(texto_raw_train + texto_raw_dev + texto_raw_teste)
df_treino = construir_dataframe(sentencas_train)
df_treino.fillna(method="ffill", inplace=True)

# Primeiras linhas
df_treino.head()

  df_treino.fillna(method="ffill", inplace=True)


Unnamed: 0,sentenca,palavra,tag,posicao_na_sentenca
0,1,Pierre,NNP,0
1,1,Vinken,NNP,1
2,1,",",",",2
3,1,61,CD,3
4,1,years,NNS,4


#### Vocabulário e lista de tags

In [None]:
vocab = df_treino["palavra"].unique().tolist()
vocab.append("<PAD>") # Padding
vocab.append("<UNK>") # Palavras desconhecidas

vocab

In [6]:
tags = df_treino["tag"].unique().tolist()

tags

['NNP',
 ',',
 'CD',
 'NNS',
 'JJ',
 'MD',
 'VB',
 'DT',
 'NN',
 'IN',
 '.',
 'VBZ',
 'VBG',
 'CC',
 'VBD',
 'VBN',
 'RB',
 'TO',
 'PRP',
 'RBR',
 'WDT',
 'VBP',
 'RP',
 'PRP$',
 'JJS',
 'POS',
 '``',
 'EX',
 "''",
 'WP',
 ':',
 'JJR',
 'WRB',
 '$',
 'NNPS',
 'WP$',
 '-LRB-',
 '-RRB-',
 'PDT',
 'RBS',
 'FW',
 'UH',
 'SYM',
 'LS',
 '#']

#### Separar em sentenças

In [7]:
def ler_sentencas(dados):
    agg = lambda sentenca: [(w, p) for w, p in zip(sentenca["palavra"].values.tolist(), sentenca["tag"].values.tolist())]
    agrupado = dados.groupby("sentenca").apply(agg)
    sentencas = [sentenca for sentenca in agrupado]
    return sentencas

In [8]:
sentencas_treino = ler_sentencas(df_treino)

  agrupado = dados.groupby("sentenca").apply(agg)


In [9]:
sentencas_treino[0]

[('Pierre', 'NNP'),
 ('Vinken', 'NNP'),
 (',', ','),
 ('61', 'CD'),
 ('years', 'NNS'),
 ('old', 'JJ'),
 (',', ','),
 ('will', 'MD'),
 ('join', 'VB'),
 ('the', 'DT'),
 ('board', 'NN'),
 ('as', 'IN'),
 ('a', 'DT'),
 ('nonexecutive', 'JJ'),
 ('director', 'NN'),
 ('Nov.', 'NNP'),
 ('29', 'CD'),
 ('.', '.')]

### Geração de embeddings

In [10]:
# Convertendo palavras e tags em números
vocab2id = {w: i for i, w in enumerate(vocab)}
tag2id = {t: i for i, t in enumerate(tags)}

In [None]:
vocab2id

In [None]:
tag2id

In [13]:
max_len = 50
unk_id = vocab2id['<UNK>']
pad_id = vocab2id['<PAD>']

X_indices = [
    [vocab2id.get(palavra, unk_id) for palavra, _ in sentenca]
    for sentenca in sentencas_treino
]
X = pad_sequences(sequences=X_indices, maxlen=max_len, padding="post", value=pad_id)

y_indices = [
    [tag2id[tag] for _, tag in sentenca]
    for sentenca in sentencas_treino
]
y = pad_sequences(sequences=y_indices, maxlen=max_len, padding="post", value=tag2id["."])
y = [to_categorical(seq, num_classes=len(tags)) for seq in y]

#### Separação em conjunto de treino e teste

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

### Definição de arquiteturas

#### LSTM

##### Modelo

In [15]:
input_uni = Input(shape=(max_len,))
modelo_uni = Embedding(input_dim=len(vocab), output_dim=100, input_length=max_len)(input_uni)
modelo_uni = Dropout(0.2)(modelo_uni)
modelo_uni = LSTM(units=64, return_sequences=True, recurrent_dropout=0.2)(modelo_uni)
modelo_uni = Dropout(0.3)(modelo_uni)
modelo_uni = LSTM(units=32, return_sequences=True, recurrent_dropout=0.1)(modelo_uni)
modelo_uni = Dense(128, activation='relu')(modelo_uni)
modelo_uni = Dropout(0.2)(modelo_uni)
out_uni = TimeDistributed(Dense(len(tags), activation="softmax"))(modelo_uni)

modelo_uni = Model(input_uni, out_uni) # Modelo completo

modelo_uni.summary()



In [16]:
modelo_uni.compile(
    optimizer="adam", 
    loss="categorical_crossentropy", 
    metrics=["accuracy"]
)

##### Treino

In [17]:
history = modelo_uni.fit(
    X_train, 
    np.array(y_train),
    batch_size=32, 
    epochs=3, 
    validation_split=0.2, 
    verbose=1
)

Epoch 1/3
[1m985/985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m69s[0m 65ms/step - accuracy: 0.6737 - loss: 1.2767 - val_accuracy: 0.9560 - val_loss: 0.1673
Epoch 2/3
[1m985/985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m63s[0m 64ms/step - accuracy: 0.9562 - loss: 0.1622 - val_accuracy: 0.9735 - val_loss: 0.0903
Epoch 3/3
[1m985/985[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m65s[0m 66ms/step - accuracy: 0.9770 - loss: 0.0800 - val_accuracy: 0.9759 - val_loss: 0.0793


##### Salvar Modelo

In [18]:
import pickle

# Salvar o modelo treinado
with open('lstm_uni_model_1.pkl', 'wb') as f:
    pickle.dump(modelo_uni, f)

print("Modelo salvo com sucesso em 'lstm_uni_model_1.pkl'")

Modelo salvo com sucesso em 'lstm_uni_model_1.pkl'


##### Teste demonstrativo

In [19]:
def predict_tags_lstm(texto, vocab2id, vocab, tags, modelo_lstm, max_len):
    # Tokenização
    tokens = regex.findall(r"\w+|[^\w\s]", texto.lower(), regex.UNICODE)

    # Tokens para índices
    unk_id = vocab2id['<UNK>']
    pad_id = vocab2id['<PAD>']
    ids_tokens = [vocab2id.get(token, unk_id) for token in tokens]

    # Padding
    sequencia_preenchida = pad_sequences(maxlen=max_len, sequences=[ids_tokens], padding="post", value=pad_id)

    # Predição
    predicao = modelo_lstm.predict(np.array([sequencia_preenchida[0]]))
    indices_tags = np.argmax(predicao, axis=-1)

    # Resultado
    resultado_tags = []
    for i, token_text in enumerate(tokens):
        indice_tag = indices_tags[0][i]
        tag = tags[indice_tag]
        resultado_tags.append((token_text, tag))
    return resultado_tags

In [20]:
texto = "I am testing my modelo, finally it works!"
predict_tags_lstm(texto, vocab2id, vocab, tags, modelo_uni, max_len)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 653ms/step


[('i', 'PRP'),
 ('am', 'VBP'),
 ('testing', 'VBG'),
 ('my', 'PRP$'),
 ('modelo', 'NN'),
 (',', ','),
 ('finally', 'RB'),
 ('it', 'PRP'),
 ('works', 'VBZ'),
 ('!', '.')]

#### Bidirectional LSTM

##### Modelo

In [21]:
input_bi = Input(shape=(max_len,))
modelo_bi = Embedding(input_dim=len(vocab), output_dim=50, input_length=max_len)(input_bi)
modelo_bi = Dropout(0.3)(modelo_bi)
modelo_bi = Bidirectional(LSTM(units=50, return_sequences=True, recurrent_dropout=0.1))(modelo_bi)
out_bi = TimeDistributed(Dense(len(tags), activation="softmax"))(modelo_bi)

modelo_bi = Model(input_bi, out_bi) # Modelo completo

modelo_bi.summary()

In [22]:
modelo_bi.compile(
    optimizer="adam", 
    loss="categorical_crossentropy", 
    metrics=["accuracy"]
)

##### Treino

In [23]:
history = modelo_bi.fit(X_train, 
    np.array(y_train), 
    batch_size=16, 
    epochs=3, 
    validation_split=0.2, 
    verbose=1
)

Epoch 1/3
[1m1969/1969[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 39ms/step - accuracy: 0.8002 - loss: 0.8202 - val_accuracy: 0.9788 - val_loss: 0.0690
Epoch 2/3
[1m1969/1969[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m77s[0m 39ms/step - accuracy: 0.9831 - loss: 0.0562 - val_accuracy: 0.9831 - val_loss: 0.0527
Epoch 3/3
[1m1969/1969[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m79s[0m 40ms/step - accuracy: 0.9882 - loss: 0.0365 - val_accuracy: 0.9834 - val_loss: 0.0511


##### Salvar Modelo

In [24]:
import pickle

# Salvar o modelo treinado
with open('lstm_bi_model_1.pkl', 'wb') as f:
    pickle.dump(modelo_bi, f)

print("Modelo salvo com sucesso em 'lstm_bi_model_1.pkl'")

Modelo salvo com sucesso em 'lstm_bi_model_1.pkl'


##### Teste demonstrativo

In [25]:
texto = "I am testing my modelo, finally it works!"
predict_tags_lstm(texto, vocab2id, vocab, tags, modelo_bi, max_len)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 655ms/step


[('i', 'PRP'),
 ('am', 'VBP'),
 ('testing', 'VBG'),
 ('my', 'PRP$'),
 ('modelo', 'NNS'),
 (',', ','),
 ('finally', 'RB'),
 ('it', 'PRP'),
 ('works', 'VBZ'),
 ('!', '.')]