# Script para aplicar a lematização nas bases de palavras classificadas, a fim de gerar uma nova base  com todas as variações de uma palavra, não só sua forma canonica.


In [None]:
!pip install spacy pyinflect --quiet
!python -m spacy download en_core_web_sm

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/703.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m266.2/703.5 kB[0m [31m5.5 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m696.3/703.5 kB[0m [31m10.2 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m703.5/703.5 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m100.5 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Col

In [None]:
# Importar o drive para importar o arquivo das pastas
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
import time
import spacy
import pyinflect

# Carrega o modelo spaCy
nlp = spacy.load("en_core_web_sm")

In [None]:

# Função para gerar formas morfossintáticas (incluindo a palavra original)
def get_flexed_forms(word):
    doc = nlp(word)
    token = doc[0]
    forms = set()

    # Adiciona a palavra original
    forms.add(word)

    # Lema
    lemma = token.lemma_
    forms.add(lemma)

    # Plural (mesmo que POS não seja NOUN)
    plural = token._.inflect('NNS')
    if plural and plural != word:
        forms.add(plural)

    # Flexões verbais: 3ª pessoa, gerúndio, passado, particípio
    for tense in ['VBZ', 'VBG', 'VBD', 'VBN']:
        inflected = token._.inflect(tense)
        if inflected and inflected != word:
            forms.add(inflected)

    return sorted(forms)

# Caminho da planilha de entrada
FILE_KW = "/content/drive/My Drive/TCC 2025/Base_de_dados/com_ator_saida_palavras_agrupadas_questoes_especificas_sprint_final.csv"

# Lê a planilha
df = pd.read_csv(FILE_KW)

# Verifica se a coluna 'palavra' existe
if 'palavra' not in df.columns:
    raise ValueError("A coluna 'palavra' não foi encontrada no CSV.")

# Remove colunas desnecessárias
colunas_para_remover = ['frequência', 'tipo', 'Validação']
df = df.drop(columns=[col for col in colunas_para_remover if col in df.columns])

# Converte todas as colunas (exceto 'palavra') para int
for col in df.columns:
    if col != 'palavra':
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0).astype(int)

# Lista para armazenar novas linhas
linhas_expandidas = []

# Inicia a contagem de tempo
inicio = time.time()

# Gera novas linhas com as formas flexionadas
for _, row in df.iterrows():
    palavra = row['palavra']
    flexoes = get_flexed_forms(palavra)
    for forma in flexoes:
        nova_linha = row.copy()
        nova_linha['palavra'] = forma
        linhas_expandidas.append(nova_linha)

# Finaliza a contagem de tempo
fim = time.time()
duracao = fim - inicio

# Cria DataFrame final com as novas formas
df_expandidas = pd.DataFrame(linhas_expandidas)

# Remove linhas duplicadas (considerando todas as colunas)
df_expandidas = df_expandidas.drop_duplicates()

# Caminho de saída do CSV
output_path = "/content/drive/My Drive/TCC 2025/Base_de_dados/saida_palavras_flexionadas.csv"
df_expandidas.to_csv(output_path, index=False)

# Exibe resultado
print(f"Arquivo salvo em: {output_path}")
print(f"Tempo total de execução: {duracao:.2f} segundos")


Arquivo salvo em: /content/drive/My Drive/TCC 2025/Base_de_dados/saida_palavras_flexionadas.csv
Tempo total de execução: 2.28 segundos
