<a href="https://colab.research.google.com/github/derektorquette/processamento-de-lingua-natural-ufmg/blob/main/2_distancia_de_edicao_e_segmentacao_e_padronizacao_de_textos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **DISTÂNCIA DE LEVENSHTEIN - EXEMPLO 1**

In [None]:
import editdistance

a = "Bello Horizonte"
b = "Belo Horizonte"

distancia = editdistance.eval(a, b)

print ( "A distância de Levenshtein entre", a, "e", b, "é igual a", distancia)

A distância de Levenshtein entre Bello Horizonte e Belo Horizonte é igual a 1


## **DISTÂNCIA DE LEVENSHTEIN COM NLTK**

In [None]:
from nltk.metrics import *

a = "Bello Horizzonte"
b = "Belo Horizonte"

distancia = edit_distance(a,b)

print("A Distância de Levenshtein entre", a, "e", b, "é igual a", distancia)


A Distância de Levenshtein entre Bello Horizzonte e Belo Horizonte é igual a 2


## **SUBSTITUIÇÃO**

In [None]:
from nltk.metrics import *

a = "Minnas Geraes"
b = "Minas Gerais"

distancia = edit_distance(a,b, substitution_cost= 2)

print("A distância de Levenshtein com substituição entre", a, "e", b, "é igual a", distancia)



A distância de Levenshtein com substituição entre Minnas Geraes e Minas Gerais é igual a 3


##**EXEMPLO DE CORRETOR ORTOGRÁFICO**

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import words

# Baixe os recursos necessários da NLTK
nltk.download('punkt')
nltk.download('words')

# Lista de palavras reconhecidas
palavras_reconhecidas = {"O", "A", "Os", "As", "homem", "homens", "mulher", "mulheres", "é", "são", "inteligente", "inteligentes", "brilhante", "brilhantes"}

def corretor_ortografico(frase):
    # Tokenize a frase em palavras
    tokens = word_tokenize(frase.lower())  # Converter para minúsculas para tornar a comparação de palavras insensível a maiúsculas e minúsculas

    # Verifique cada palavra na frase e corrija-a se necessário
    correcoes = []
    for token in tokens:
        if token not in palavras_reconhecidas and token not in words.words():
            sugestoes = corrigir_palavra(token)
            correcoes.extend(sugestoes)  # Estender a lista de correções com as sugestões
        else:
            correcoes.append(token)

    # Reconstrua a frase corrigida
    frase_corrigida = ' '.join(correcoes)

    return frase_corrigida

def corrigir_palavra(palavra):
    # Se a palavra estiver incorreta, encontre sugestões de correção usando a distância de edição mínima
    sugestoes = []
    for palavra_reconhecida in palavras_reconhecidas:
        if nltk.edit_distance(palavra, palavra_reconhecida) == 1:
            sugestoes.append(palavra_reconhecida)

    if not sugestoes:
        sugestoes.append(palavra)  # Se nenhuma sugestão for encontrada, mantenha a palavra original

    return sugestoes

# Exemplo de uso
frase = "as muleres são brilantes"
frase_corrigida = corretor_ortografico(frase)
print("Frase corrigida:", frase_corrigida)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


Frase corrigida: as mulheres são brilhantes


##**TOKENIZAÇÃO E CAPITALIZAÇÃO (EXEMPLO DE CAPITALIZAÇÃO NO COMENTÁRIO)**

In [None]:
import nltk
# nltk.download ('punkt')
from nltk import tokenize

versos = """No meio do caminho tinha uma pedra
tinha uma pedra no meio do caminho. Guarda-chuva para chuva"""

# para tansformar em minusculas, usar "versos.lower()"

palavras = tokenize.word_tokenize(versos, language='portuguese')

print(len(palavras), palavras, '\n', len(set(palavras)), set(palavras))


18 ['No', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', 'tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho', '.', 'Guarda-chuva', 'para', 'chuva'] 
 12 {'Guarda-chuva', 'meio', 'no', 'tinha', 'pedra', 'uma', 'caminho', '.', 'do', 'chuva', 'para', 'No'}


## **LEMATIZAÇÃO**



In [None]:
import nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print ("rocks :", lemmatizer.lemmatize("rocks"))
print ("corpora:", lemmatizer.lemmatize("corpora"))

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


rocks : rock
corpora: corpus


## **LEMATIZAÇÃO USANDO O SPACY**

In [None]:
!pip install -U pip setuptools wheel
!pip install -U spacy
!pip install -U spacy-lookups-data
!python -m spacy download pt_core_news_sm

In [None]:
import spacy

pln = spacy.load('pt_core_news_sm')

frase = pln("A comida estava gostosa. Todos comeram e gostaram.")

lemas = []
for token in frase:
  lema = token.lemma_
  lemas.append(lema)

print(lemas)

['o', 'comida', 'estar', 'gostoso', '.', 'todo', 'comer', 'e', 'gostar', '.']


##**RADICALIZAÇÃO (STEMMING) - REMOÇÃO DE SUFIXOS**



In [None]:
import nltk
nltk.download('rslp')

raiz = nltk.stem.RSLPStemmer()

print(raiz.stem("a"),
      raiz.stem("comida"),
      raiz.stem("gostaram"))





##**SEGMENTAÇÃO DE FRASES**



In [None]:
import nltk

frases = nltk.data.load('tokenizers/punkt/portuguese.pickle')

musica_jorgeben = """Para que meus inimigos
Tenham mãos e não me toquem
Para que meus inimigos
Tenham pés e não me alcancem"""

frases.tokenize(musica_jorgeben)

['Para que meus inimigos\nTenham mãos e não me toquem\nPara que meus inimigos\nTenham pés e não me alcancem']