## Processamento de Linguagem Natural - NLP

### Corpus

Conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise.

In [3]:
with open('data/artigos.txt', 'r') as f:
    artigos = f.read()

### Tokenização

É o processo de segmentar o texto em execução em frases e palavras. Em essência, é a tarefa de cortar um texto em pedaços chamados **tokens** e, ao mesmo tempo, jogar fora alguns caracteres, como pontuação

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /home/rodolfoscarp/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
def separa_palavras(lista_tokens:list[str])->list[str]:
    # Remove as pontuações
    return [token for token in lista_tokens if token.isalpha()]

In [6]:
tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(tokens)
print(f"O número de palavras é {len(lista_palavras)}")

O número de palavras é 403104


### Normalização

É uma técnica para aumentar a Recordação em virtude das diversas representações de um mesmo conceito. A idéia é esquivar das várias formas de representação de uma palavra associada a um mesmo conceito.

In [7]:
def normalizacao(lista_palavras:list[str])->list[str]:
    return [palavra.lower() for palavra in lista_palavras]

In [8]:
lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:5])

['imagem', 'temos', 'a', 'seguinte', 'classe']


In [9]:
# removendo os valores repetidos
len(set(lista_normalizada))

18465

### Criando o Corretor

#### Corrigindo uma letra faltante

In [10]:
def insere_letras(fatias:tuple[str]):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for e, d in fatias:
        for letra in letras:
            novas_palavras.append(e + letra + d)
            
    return novas_palavras

In [11]:
def gerador_palavras(palavra: str):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))

    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

In [12]:
palavra_exemplo = 'lgica'
palavras_geradas = gerador_palavras(palavra_exemplo)

In [13]:
def corretor(palavra: str):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key=probabilidade)
    
    return palavra_correta

In [14]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia['lógica']

96

In [15]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada] / total_palavras

In [16]:
palavra_corrigida = corretor(palavra_exemplo)
probabilidade_palavra_corrigida = probabilidade(palavra_corrigida)
print(palavra_corrigida, probabilidade_palavra_corrigida)

lógica 0.00023815194093831864


### Função avaliadora

In [17]:
def cria_dados_teste(nome_arquivo:str):
    lista_palavras_teste = []
    with open(nome_arquivo, 'r') as f:
        for linha in f:
            correta, errada = linha.split()
            lista_palavras_teste.append((correta, errada))
        
    return lista_palavras_teste

In [18]:
lista_teste = cria_dados_teste('data/palavras.txt')

In [19]:

def avaliador(testes):
    num_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = acertou / num_palavras
    print(f"taxa acerto: {(taxa_acerto * 100):.2f}% de {num_palavras}")

In [20]:
avaliador(lista_teste)

taxa acerto: 1.08% de 186


#### Corrigindo letra em excesso

In [21]:
def deletando_caracteres(fatias:tuple[str]):
    novas_palavras = []
    
    for e, d in fatias:
        novas_palavras.append(e + d[1:])
            
    return novas_palavras

In [22]:
def gerador_palavras(palavra: str):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))

    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    return palavras_geradas

In [23]:
palavra_exemplo = 'lóigica'
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'àlóigica', 'álóigica', 'âlóigica', 'ãlóigica', 'èlóigica', 'élóigica', 'êlóigica', 'ìlóigica', 'ílóigica', 'îlóigica', 'òlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'ùlóigica', 'úlóigica', 'ûlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'làóigica', 'láóigica', 'lâóigica', 'lãóigica', 'lèóigica', 'léóigica', 'lêóigica', 'lìóigica', 'líóigica', 'lîóigica', 'lòóigica', 'lóóigica', 'lôóigica', 'lõ

In [24]:
avaliador(lista_teste)

taxa acerto: 41.40% de 186


#### Substituindo um letra

In [25]:
def troca_letras(fatias:tuple[str]):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for e, d in fatias:
        for letra in letras:
            novas_palavras.append(e + letra + d[1:])
            
    return novas_palavras

In [26]:
def gerador_palavras(palavra: str):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))

    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letras(fatias)
    return palavras_geradas

In [27]:
avaliador(lista_teste)

taxa acerto: 76.34% de 186


#### Inverter um letra

In [28]:
def inverter_letras(fatias:tuple[str]):
    novas_palavras = []
    for e, d in fatias:
        if len(d) > 1:
            novas_palavras.append(e + d[1] + d[0] + d[2:])
            
    return novas_palavras

In [29]:
def gerador_palavras(palavra: str):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i], palavra[i:]))

    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letras(fatias)
    palavras_geradas += inverter_letras(fatias)
    return palavras_geradas

In [30]:
palavra_exemplo = 'lóigca'
palavras_geradas = gerador_palavras(palavra_exemplo)
corretor(palavra_exemplo)

'lógica'

In [31]:
avaliador(lista_teste)

taxa acerto: 76.34% de 186


#### Avaliando as palavras desconhecidas

In [32]:
vocabulario = set(lista_normalizada)

In [33]:
def avaliador(testes, vocabulario):
    num_palavras = len(testes)
    acertou = 0
    desconhecida = 0

    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            desconhecida += (correta not in vocabulario) 

    taxa_acerto = acertou / num_palavras
    taxa_deconhecida = desconhecida / num_palavras

    print(f"Taxa de acerto: {(taxa_acerto * 100):.2f}% de {num_palavras}.")
    print(f"Desconhecida: {(taxa_deconhecida * 100):.2f}%.")

In [34]:
avaliador(lista_teste, vocabulario)

Taxa de acerto: 76.34% de 186.
Desconhecida: 6.99%.


#### Gerar de palavaras turbinado

In [35]:
def gerador_tubinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

In [36]:
palavra_exemplo = 'lóiigica'

palavras_geradas = gerador_tubinado(gerador_palavras(palavra_exemplo))

'lógica' in palavras_geradas

len(palavras_geradas)

691744

##### Melhorando desempenho corretor turbinado

In [44]:
def novocorretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinadas = gerador_tubinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinadas)
    candidatos = [palavra]

    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)

    palavra_correta = max(candidatos, key=probabilidade)

    return palavra_correta

In [45]:
palavra_exemplo = 'lóiigica'
novocorretor(palavra_exemplo)

'lógica'

#### Função avaliadora do novo corretor

In [46]:
def avaliador_novocorretor(testes, vocabulario):
    num_palavras = len(testes)
    acertou = 0
    desconhecida = 0

    for correta, errada in testes:
        palavra_corrigida = novocorretor(errada)
        desconhecida += (correta not in vocabulario) 
        if palavra_corrigida == correta:
            acertou += 1            

    taxa_acerto = acertou / num_palavras
    taxa_deconhecida = desconhecida / num_palavras

    print(f"Taxa de acerto: {(taxa_acerto * 100):.2f}% de {num_palavras}.")
    print(f"Desconhecida: {(taxa_deconhecida * 100):.2f}%.")

In [48]:
vocabulario = set(lista_normalizada)
avaliador_novocorretor(lista_teste, vocabulario)

Taxa de acerto: 55.38% de 186.
Desconhecida: 6.45%.
