# Corretor Ortográfico: Aplicando técnicas de NLP
__Professor:__ Thiago G. Santos<br>
__Disponível:__ <a href="https://cursos.alura.com.br/course/nlp-corretor-ortografico" target=blank>ALURA</a><br>
__Conteúdo:__<br>
- Aprenda conceitos fundamentais do processamento de linguagem natural.
- Saiba o que está por trás dos corretores ortográficos (spell checker).
- Crie um corretor de palavras do zero, utilizando Python.
- Utilize o NLTK uma das principais bibliotecas Python para NLP.
- Aprenda o que são tokens e como utilizar NLTK para realizar a fragmentação de um texto.

## 01. Explorando um projeto de NLP

### Explorando o problema

### Importando um corpus textual

In [1]:
with open("data/artigos.txt","r",encoding="utf8") as f:
    artigos = f.read()

artigos[:500]

'\n\n\nimagem \n\nTemos a seguinte classe que representa um usuário no nosso sistema:\n\njava\n\nPara salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:\n\njava \n\nSuponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou'

In [2]:
# Uma forma de verificar o enconding 
#open("data/artigos.txt","r")

CORPUS = Conjunto de dados

### Tokenização

In [3]:
len(artigos)

2605046

In [4]:
len("Olá")

3

In [5]:
texto_exemplo = "Olá, tudo bem?"
tokens = texto_exemplo.split()
tokens

['Olá,', 'tudo', 'bem?']

TOKEN = Cada elemento do meu conjunto de dados

### Exercício: Token - O que são?
Vimos em aula o que é o processo de tokenização e como aplicá-lo em uma string.
Em NLP, o que são os tokens gerados neste processo?

a) Token é uma sequência de caracteres separados por um limitador. Esse limitador é sempre o espaço em branco.<br>
__b) Token é uma sequência de caracteres, separados por um limitador, que pode ser um espaço em branco, pontuação ou quebra de linhas, por exemplo.__<br>
_Parabéns, isso mesmo! Os tokens não necessariamente são apenas palavras, podem ser uma sequência de caracteres alfanuméricos, alfabéticos com pontuações, etc._<br>
c) Tokens são palavras advindas do processo de tokenização de uma frase.

## 02. Utilizando NLTK para tokenizar um texto

### Refinando a tokenização

In [6]:
# Importando as bibliotecas
# !conda install nltk
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\vinicius.barbosa\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [7]:
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)
palavras_separadas

['Olá', ',', 'tudo', 'bem', '?']

### Exercicio: Token - separando uma frase
Nesta aula discutimos sobre o processo de tokenizar uma frase, ou seja, dividi-la em pequenos pedaços. Vimos que há algumas formas de realizar esse processo, uma delas com o split() e a outra utilizando os métodos tokenize da biblioteca NLTK. Levando em consideração o trecho de código abaixo, responda:

import nltk
texto_exemplo = "Olá, tudo bem?"
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)
print(palavras_separadas)COPIAR CÓDIGO
Qual alternativa apresenta corretamente a saída da função print?



a) ['Olá', 'tudo', 'bem']<br>
__b) ['Olá', ',', 'tudo', 'bem', '?']__<br>
_Parabéns, isso mesmo! Quando usamos o word_tokenize() não separamos os tokens levando em conta apenas os espaços, como no split(). É considerada também a separação entre as pontuações.__<br>
c) ['Olá,', 'tudo', 'bem?']

### Separando palavras de tokens

In [8]:
len(palavras_separadas)

5

In [9]:
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [10]:
separa_palavras(palavras_separadas)

['Olá', 'tudo', 'bem']

### Contando palavras do Corpus

In [11]:
#Criando os tokens
lista_tokens = nltk.tokenize.word_tokenize(artigos)
print(f" A quantidade de tokens é: {len(lista_tokens)}")

 A quantidade de tokens é: 515827


In [12]:
#Linmpoando os tokens para apenas palavras
lista_palavras = separa_palavras(lista_tokens)
print(f"A quantidade de palavras é: {len(lista_palavras)}")

A quantidade de palavras é: 403031


### Normalização

In [13]:
print(lista_palavras[:5])

['imagem', 'Temos', 'a', 'seguinte', 'classe']


In [14]:
#Função para normalizar nosso texto
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())
    return lista_normalizada

In [15]:
lista_normalizada = normalizacao(lista_palavras)
lista_normalizada[:5]

['imagem', 'temos', 'a', 'seguinte', 'classe']

In [16]:
print(f"A quantidade de palavras normalizadas é: {len(lista_normalizada)}")

A quantidade de palavras normalizadas é: 403031


### Tipos de palavras

In [17]:
# Função set() retorna um conjunto de dados sem repetição
print(f"A quantidade de palavras normalizadas e sem repetição são: {len(set(lista_normalizada))}")

A quantidade de palavras normalizadas e sem repetição são: 18464


### Exercício: Separando apenas palavras
Vimos que é necessário criar uma lista apenas com as palavras do nosso corpus para “treinar” o corretor ortográfico. Como no processo de tokenização geramos uma lista de sequência de caracteres e não apenas palavras, é preciso gerá-la.

def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavrasCOPIAR CÓDIGO
Considerando o trecho de código acima, assinale a alternativa com a devida entrada lista_tokens da função separa_palavras() para gerar a seguinte lista de saída:

['Olá', 'tudo', 'bem']



a) Para gerar ['Olá', 'tudo', 'bem'] a entrada deve ser ['Olá', ',', 'tudo12', 'bem', '?']<br>
__b) Para gerar ['Olá', 'tudo', 'bem'] a entrada deve ser ['Olá', ',', 'tudo', 'bem', '?']__<br>
_Parabéns, isso mesmo! A função isalpha() verifica se todos os caracteres do token são alfabéticos, se o retorno for verdadeiro ele é armazenado na variável lista_palavras._<br>
c) Para gerar ['Olá', 'tudo', 'bem'] a entrada deve ser ['Olá,', 'tudo', 'bem?']

## 03. Desenvolvendo e testando o corretor

### Detalhando o corretor

### Fatiando strings

In [18]:
lista = "lgica"
(lista[:1],lista[1:])

('l', 'gica')

In [19]:
palavra_exemplo = "lgica"
def gerador_palavras(palavras):
    fatias = []
    for i in range(len(palavras)+1):
        fatias.append((lista[:i],lista[i:]))
    print(fatias)
    #palavras_geradas = insere_letras(fatias)
    #return palavras_geradas

gerador_palavras(palavra_exemplo)

[('', 'lgica'), ('l', 'gica'), ('lg', 'ica'), ('lgi', 'ca'), ('lgic', 'a'), ('lgica', '')]


In [20]:
def insere_letras(fatias):
    return novas_palavras

### Operação de inserção

In [21]:
palavra_exemplo = "lgica"

def insere_letras(fatias):
    novas_palavras =  []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéèêíìîóòõôúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['algica', 'blgica', 'clgica', 'dlgica', 'elgica', 'flgica', 'glgica', 'hlgica', 'ilgica', 'jlgica', 'klgica', 'llgica', 'mlgica', 'nlgica', 'olgica', 'plgica', 'qlgica', 'rlgica', 'slgica', 'tlgica', 'ulgica', 'vlgica', 'wlgica', 'xlgica', 'ylgica', 'zlgica', 'álgica', 'âlgica', 'àlgica', 'ãlgica', 'élgica', 'èlgica', 'êlgica', 'ílgica', 'ìlgica', 'îlgica', 'ólgica', 'òlgica', 'õlgica', 'ôlgica', 'úlgica', 'ùlgica', 'ûlgica', 'çlgica', 'lagica', 'lbgica', 'lcgica', 'ldgica', 'legica', 'lfgica', 'lggica', 'lhgica', 'ligica', 'ljgica', 'lkgica', 'llgica', 'lmgica', 'lngica', 'logica', 'lpgica', 'lqgica', 'lrgica', 'lsgica', 'ltgica', 'lugica', 'lvgica', 'lwgica', 'lxgica', 'lygica', 'lzgica', 'lágica', 'lâgica', 'làgica', 'lãgica', 'légica', 'lègica', 'lêgica', 'lígica', 'lìgica', 'lîgica', 'lógica', 'lògica', 'lõgica', 'lôgica', 'lúgica', 'lùgica', 'lûgica', 'lçgica', 'lgaica', 'lgbica', 'lgcica', 'lgdica', 'lgeica', 'lgfica', 'lggica', 'lghica', 'lgiica', 'lgjica', 'lgkica', 'lglica',

### Exercício: Generalizando o corretor
Nesta aula vimos que podemos construir algoritmos capazes de corrigir os erros de digitação de um usuário. Para simplificar o desenvolvimento desses algoritmos, “fatiamos” nossa palavra em dois lados (esquerdo e direito).

Qual foi a vantagem em fazer a divisão da string em lado esquerdo e direito?

a) A vantagem em se fazer a divisão é trabalhar com os lados separadamente, realizando as operações necessárias em cada um deles, de forma a gerar uma nova palavra que pode ser a correta.<br>
_Aqui estamos afirmando que cada lado gera uma nova palavra, porém não é verdade. A concatenação dos lados mais a operação necessária para o método em desenvolvimento gera uma única palavra._<br>
b) A vantagem em se fazer a divisão é trabalhar com os lados separadamente, realizando as operações necessárias em cada um deles, e então concatená-los para gerar a nova palavra. Apenas o método de inserção de caracteres irá se beneficiar desta divisão.<br>
_Na realidade todos os métodos estudados neste curso irão se beneficiar desta divisão, pois conseguimos pensar nos métodos quase como se fossem operações matemáticas, o que facilita a construção dos algoritmos._<br>
__c) A vantagem em se fazer a divisão é trabalhar com os lados separadamente, realizando as operações necessárias em cada um dos lados e então concatená-los para gerar a nova palavra.<br>__
_Parabéns, realizar essa divisão é útil para todos os métodos que vamos estudar, facilita o desenvolvimento dos algoritmos fazendo com que sejam pensados quase como operações matemáticas._

### Construíndo a função corretor

In [22]:
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas,key=probabilidade)
    return palavra_correta

### Probabilidade das palavras geradas

In [23]:
#frequencia_palavra/total_de_palavras

frequencia = nltk.FreqDist(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6367),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [24]:
frequencia["lógica"]

96

In [25]:
total_palavras = len(lista_normalizada)
total_palavras

403031

In [26]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras

In [27]:
probabilidade("lógica")

0.00023819507680550628

In [28]:
probabilidade("logica")

0.0

In [29]:
corretor(palavra_exemplo)

'lógica'

### Exercício: Adicionando uma nova letra
Quando digitamos, um erro muito comum de acontecer é esquecermos uma das letras de uma palavra. Na aula, utilizamos como exemplo "lgica", quando queríamos ter digitado "lógica".

Qual função devemos utilizar para que o corretor funcione, gerando a palavra esperada, ou seja, "lógica"?

OBS: A entrada da função é uma lista com as fatias da palavra a ser corrigida em lados esquerdo e direito.


a) def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyz'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras<br>
__b) def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras<br>__
_Parabéns, aqui geramos um conjunto de novas palavras, das quais uma será a correta (“lógica”), pois estamos adicionando as letras com e sem acentos entre os lados esquerdo e direito._<br>
c) def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + D)
    return novas_palavras

## 04. Avaliando a qualidade do corretor

### Preparando dados de teste

In [30]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo, "r")
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta, errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste("Data/palavras.txt")
lista_teste

#def avaliador(testes):
#    print("taxa de acerto")

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

### Avaliando o corretor

In [31]:
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    print(f"A taxa de acerto é: {taxa_acerto}% no total {numero_palavras} palavras.")

avaliador(lista_teste)

A taxa de acerto é: 1.08% no total 186 palavras.


### Exercício: Avaliando o corretor
Para acompanharmos a evolução do desenvolvimento do corretor, precisamos medir a qualidade (taxa de acerto). Portanto desenvolvemos em aula a função avaliador(), que calcula a taxa de acerto do nosso corretor.

Agora chegou a hora de praticar: qual das alternativas implementa a função avaliador() de forma a calcular corretamente a taxa de acerto do corretor?

__a) def avaliador(testes):__
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras")

avaliador(lista_teste)

_Parabéns, esta função incrementa corretamente, e o contador acertou calcula a taxa de maneira correta._
<br>
b)
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou -= 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras")

avaliador(lista_teste)
<br>
c)
def avaliador(testes):
    numero_palavras = len(testes)
    acertou = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras, 2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras")

avaliador(lista_teste)

Parabéns, você acertou!

## 05. Incrementando o corretor

### Operação de delete

### Implementando o delete de caracteres

In [32]:
def deletando_caractereres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

In [33]:
#gerador_palavras()

### Exercícios: Deletando caracteres
Outro erro de digitação ocorre quando acrescenta-se um caractere a mais na palavra; o exemplo utilizado no curso foi “lóigica”. Repare que a letra “i” é próxima do “o” no teclado, então, esbarrar no “i” no momento de digitar “lógica” pode gerar esse tipo de erro. Analise o trecho de código e responda:

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(SEU_CÓDIGO)
    return novas_palavrasCOPIAR CÓDIGO
OBS: A entrada da função é uma lista com as fatias da palavra a ser corrigida em lados esquerdo e direito.

Dentre as opções abaixo, qual deve substituir SEU_CÓDIGO para corrigir o erro que está sendo discutido na questão?

a) Como digitamos um caractere a mais, precisamos deletá-lo. Para realizar esta operação devemos substituir SEU_CÓDIGO por E + D - D[0].<br>
b) Como digitamos um caractere a mais, precisamos deletá-lo. Para realizar esta operação devemos substituir SEU_CÓDIGO por E + D[2:].<br>
__c) Como digitamos um caractere a mais, precisamos deletá-lo. Para realizar esta operação devemos substituir SEU_CÓDIGO por E + D[1:].__<br>
_Parabéns, com o trecho E + D[1:] removemos o primeiro caractere do lado direito, visto que ele possui index 0. Portanto, uma das palavras geradas pela função será a correta._

### Avaliando o novo corretor

In [34]:
def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caractereres(fatias)
    return palavras_geradas

palavra_exemplo = "lóigica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'álóigica', 'âlóigica', 'àlóigica', 'ãlóigica', 'élóigica', 'èlóigica', 'êlóigica', 'ílóigica', 'ìlóigica', 'îlóigica', 'ólóigica', 'òlóigica', 'õlóigica', 'ôlóigica', 'úlóigica', 'ùlóigica', 'ûlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'láóigica', 'lâóigica', 'làóigica', 'lãóigica', 'léóigica', 'lèóigica', 'lêóigica', 'líóigica', 'lìóigica', 'lîóigica', 'lóóigica', 'lòóigica', 'lõóigica', 'lô

In [35]:
avaliador(lista_teste)

A taxa de acerto é: 41.4% no total 186 palavras.


### Exercício: Erros do correotor
Nesta aula falamos sobre os erros relacionados a um corretor ortográfico, e vimos que eles podem estar associados a outros fatores além do algoritmo do corretor.

Sobre as fontes de erro do corretor ortográfico desenvolvido, qual das alternativas é a incorreta?

a) O vocabulário do corretor (palavras conhecidas por ele) também é limitante no seu desenvolvimento. Assim como os algoritmos que geram as possíveis palavras corretas, o vocabulário também contribui com o erro do corretor.<br>
__b) Os algoritmos desenvolvidos para gerar as possíveis palavras corretas a partir de uma palavra digitada errada têm limitações, porém não são responsáveis por parte do erro do corretor, que depende apenas do vocabulário dos dados de treinamentos.__<br>
_Parabéns, essa é realmente a alternativa incorreta. O erro associado ao corretor depende significativamente dos algoritmos que serão capazes de gerar a palavra correta._<br>
c) Os algoritmos desenvolvidos para gerar as possíveis palavras corretas a partir de uma palavra digitada errada possuem limitações, portanto uma parte do erro está associada a esta limitação.

## 06. Corrigindo os principais erros de digitação

### Trocando as letras

### Implentando a troca de letras

In [36]:
def insere_letras(fatias):
    novas_palavras =  []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéèêíìîóòõôúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def deletando_caractereres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras
    
def troca_letra(fatias):
    novas_palavras =  []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéèêíìîóòõôúùûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caractereres(fatias)
    palavras_geradas += troca_letra(fatias)
    return palavras_geradas


In [37]:
palavra_exemplo = "lígica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['alígica', 'blígica', 'clígica', 'dlígica', 'elígica', 'flígica', 'glígica', 'hlígica', 'ilígica', 'jlígica', 'klígica', 'llígica', 'mlígica', 'nlígica', 'olígica', 'plígica', 'qlígica', 'rlígica', 'slígica', 'tlígica', 'ulígica', 'vlígica', 'wlígica', 'xlígica', 'ylígica', 'zlígica', 'álígica', 'âlígica', 'àlígica', 'ãlígica', 'élígica', 'èlígica', 'êlígica', 'ílígica', 'ìlígica', 'îlígica', 'ólígica', 'òlígica', 'õlígica', 'ôlígica', 'úlígica', 'ùlígica', 'ûlígica', 'çlígica', 'laígica', 'lbígica', 'lcígica', 'ldígica', 'leígica', 'lfígica', 'lgígica', 'lhígica', 'liígica', 'ljígica', 'lkígica', 'llígica', 'lmígica', 'lnígica', 'loígica', 'lpígica', 'lqígica', 'lrígica', 'lsígica', 'ltígica', 'luígica', 'lvígica', 'lwígica', 'lxígica', 'lyígica', 'lzígica', 'láígica', 'lâígica', 'làígica', 'lãígica', 'léígica', 'lèígica', 'lêígica', 'líígica', 'lìígica', 'lîígica', 'lóígica', 'lòígica', 'lõígica', 'lôígica', 'lúígica', 'lùígica', 'lûígica', 'lçígica', 'líagica', 'líbgica', 'lícgica'

### Exercício: Trocando as letras
Vimos que um possível erro de digitação ocorre quando sem querer trocamos as letras de uma palavra. Quando, por exemplo, digitamos "lígica" no lugar de "lógica", trocando ó por í.

Selecione o código que realizará a correção para esse tipo de erro.

__a) def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras__
_Parabéns, é isso aew! Com essa função trocamos a primeira letra do lado direito da palavra, gerando a palavra correta._<br>
b) def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
  novas_palavras.append(E + letras + D[1:])
    return novas_palavras<br>
c) def troca_letra(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzáâàãéêèẽíîìĩóôõòúûùũç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

### Invertendo as letras

### Codando a inversão de letras

In [55]:
def inverte_letras(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra)+1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caractereres(fatias)
    palavras_geradas += troca_letra(fatias)
    palavras_geradas +=  inverte_letras(fatias)
    return palavras_geradas

In [56]:
palavra_exemplo = "lgóica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['algóica', 'blgóica', 'clgóica', 'dlgóica', 'elgóica', 'flgóica', 'glgóica', 'hlgóica', 'ilgóica', 'jlgóica', 'klgóica', 'llgóica', 'mlgóica', 'nlgóica', 'olgóica', 'plgóica', 'qlgóica', 'rlgóica', 'slgóica', 'tlgóica', 'ulgóica', 'vlgóica', 'wlgóica', 'xlgóica', 'ylgóica', 'zlgóica', 'álgóica', 'âlgóica', 'àlgóica', 'ãlgóica', 'élgóica', 'èlgóica', 'êlgóica', 'ílgóica', 'ìlgóica', 'îlgóica', 'ólgóica', 'òlgóica', 'õlgóica', 'ôlgóica', 'úlgóica', 'ùlgóica', 'ûlgóica', 'çlgóica', 'lagóica', 'lbgóica', 'lcgóica', 'ldgóica', 'legóica', 'lfgóica', 'lggóica', 'lhgóica', 'ligóica', 'ljgóica', 'lkgóica', 'llgóica', 'lmgóica', 'lngóica', 'logóica', 'lpgóica', 'lqgóica', 'lrgóica', 'lsgóica', 'ltgóica', 'lugóica', 'lvgóica', 'lwgóica', 'lxgóica', 'lygóica', 'lzgóica', 'lágóica', 'lâgóica', 'làgóica', 'lãgóica', 'légóica', 'lègóica', 'lêgóica', 'lígóica', 'lìgóica', 'lîgóica', 'lógóica', 'lògóica', 'lõgóica', 'lôgóica', 'lúgóica', 'lùgóica', 'lûgóica', 'lçgóica', 'lgaóica', 'lgbóica', 'lgcóica'

In [59]:
avaliador(lista_teste)

TypeError: avaliador() missing 1 required positional argument: 'vocabulario'

## 07. Criando um corretor turbinado

### Palavras desconhecidas ao vocabulário

In [60]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            desconhecida += (correta not in vocabulario)
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    taxa_desconhecida  = round(desconhecida*100 / numero_palavras, 2)
    print(f"A taxa de acerto é: {taxa_acerto}% no total {numero_palavras} palavras.\nA taxa desconhecida é: {taxa_desconhecida}%.")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

A taxa de acerto é: 76.34% no total 186 palavras.
A taxa desconhecida é: 6.99%.


### Turbinando o gerador de palavras

In [80]:
palavra = "lóiigica"

def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

palavras_g = gerador_turbinado(gerador_palavras(palavra))
"lógica" in palavras_g

True

In [81]:
len(palavras_g)

691744

### Escolhendo os melhores candidatos

In [83]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    #print(f'O tamanho da minha palavra candidata é : {len(candidatos)}')
    palavra_correta = max(candidatos,key=probabilidade)
    return palavra_correta

novo_corretor(palavra)

'lógica'

### Exercício: Distância entre palavras
Desenvolvemos um novo corretor, com o objetivo de ser mais abrangente e corrigir palavras como lóiigica. Observe que sem querer acabamos digitando dois is. Discutimos em aula o conceito de distância entre a palavra correta e aquela digitada de maneira equivocada.

Temos que a palavra correta é lógica, porém digitamos lígicaaa. Qual a distância entre estas palavras?

a) Dois<br>
__b) Três__<br>
_Parabéns, é isso mesmo. A distância entre as palavras está relacionada com a quantidade de operações que precisamos realizar para corrigir uma palavra. Neste caso precisamos trocar a letra í** por **ó e depois remover duas vezes a letra a do final._<br>
c) Um

## 08. Avaliando e interpretando o erro do corretor turbinado

### Avaliando o resultado dos dois corretores

In [88]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    taxa_desconhecida  = round(desconhecida*100 / numero_palavras, 2)
    print(f"A taxa de acerto é: {taxa_acerto}% no total {numero_palavras} palavras.\nA taxa desconhecida é: {taxa_desconhecida}%.")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

A taxa de acerto é: 55.38% no total 186 palavras.
A taxa desconhecida é: 6.99%.


### Avaliando o resultado dos dois corretores cont

In [90]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = novo_corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
        else:
            print(errada + "-" + corretor(errada) + "-" + palavra_corrigida)
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    taxa_desconhecida  = round(desconhecida*100 / numero_palavras, 2)
    print(f"A taxa de acerto é: {taxa_acerto}% no total {numero_palavras} palavras.\nA taxa desconhecida é: {taxa_desconhecida}%.")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

esje-esse-se
sãêo-são-não
dosa-dos-do
eme-em-de
eàssa-essa-esse
daõs-das-da
céda-cada-da
noâ-no-o
enêão-então-não
tĩem-tem-em
nossah-nossa-nosso
teb-tem-de
atĩ-até-a
âem-em-de
foo-foi-o
serr-ser-se
entke-entre-então
van-vai-a
çeus-seus-seu
eû-e-de
temeo-tempo-temos
semre-sempre-ser
elaá-ela-ele
síó-só-se
siàe-site-se
seém-sem-em
peln-pelo-ele
aléra-alura-agora
tdia-dia-da
tuúo-tudo-tipo
jé-é-de
sãô-são-não
odos-dos-do
siua-sua-seu
elpe-ele-esse
teos-temos-os
eũsa-essa-esse
vjmos-vamos-temos
dms-dos-de
cava-java-para
ános-nos-no
èaso-caso-as
túem-tem-em
daáos-dados-dos
nossk-nosso-nosso
tãer-ter-ser
vté-até-é
búm-bem-um
sçerá-será-ser
entró-entre-então
uai-vai-a
sâus-seus-seu
ìeu-seu-de
fual-qual-sua
elal-ela-ele
skó-só-se
secm-sem-em
aluéa-alura-além
dil-dia-de
sód-só-se
eúaa-aeúaa-essa
ró-só-de
dĩaz-adĩaz-da
correptor-corretor-correto
trtica-tática-prática
ewpoderamento-aewpoderamento-ewpoderamento
îgato-gato-fato
cakvalo-acakvalo-carvalho
canelac-acanelac-janela
tênisy-atênisy-tênisy

In [91]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta, errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100 / numero_palavras, 2)
    taxa_desconhecida  = round(desconhecida*100 / numero_palavras, 2)
    print(f"A taxa de acerto é: {taxa_acerto}% no total {numero_palavras} palavras.\nA taxa desconhecida é: {taxa_desconhecida}%.")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

A taxa de acerto é: 76.34% no total 186 palavras.
A taxa desconhecida é: 6.99%.


In [95]:
palavra = "lgica"
print(novo_corretor(palavra))
print(corretor(palavra))


fica
lógica


### Exercício: Erros do corretor turbinado
Nesta aula foi avaliado o resultado do corretor turbinado, e discutimos sobre os motivos dele ter quebrado as expectativas de melhora. Com esta discussão em mente, responda:

Qual das alternativas é a incorreta?


a) Um dos erros do corretor turbinado se associa ao fato dele gerar tanto a possível palavra correta quanto uma variação existente no vocabulário, que apresente maior frequência.<br>
b) Um dos erros associados ao corretor turbinado é a restrição imposta pelo vocabulário do corretor.<br>
__c) O erro do corretor turbinado se deve ao fato dos dados de teste conter muitas palavras erradas, com distância maior, igual ou maior que 3, pois ele corrige palavras com distância de no máximo 2.__<br>
_Parabéns, essa é realmente a alternativa incorreta. A grande maioria dos erros de digitação está a uma operação de distância da palavra correta, e nossos dados de teste tentam representar essa realidade._