# Explorando um projeto de NLP

## Importando um corpus textual

In [1]:
import io

arquivo = io.open("dados/artigos.txt", "r", encoding = "utf-8")
artigos = arquivo.read()
print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


## Tokenização

In [2]:
texto_exemplo = 'Iká, tudo bem ?'

In [3]:
tokens = texto_exemplo.split()

In [4]:
tokens

['Iká,', 'tudo', 'bem', '?']

# Utilizando NLTK para tokenizar um texto

## Refinando a tokenização

In [5]:
import nltk

In [6]:
#nltk.download('punkt')

In [7]:
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)

In [8]:
print(palavras_separadas)

['Iká', ',', 'tudo', 'bem', '?']


## Separando palavras de tokens

In [9]:
len(palavras_separadas)

5

In [10]:
def separa_palavras(lista_tokens):
    lista_palavras = []
    for token in lista_tokens:
        if token.isalpha():
            lista_palavras.append(token)
    return lista_palavras

In [11]:
separa_palavras(palavras_separadas)

['Iká', 'tudo', 'bem']

## Contando palavras do Corpus

In [12]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)

#### Numero de palavras no nosso artigo

In [13]:
print(f'O numero de palavras do nosso artigo é : {len(lista_palavras)}')

O numero de palavras do nosso artigo é : 403106


## Normalização

In [14]:
print(lista_palavras[:5])

['imagem', 'Temos', 'a', 'seguinte', 'classe']


In [15]:
def normalizacao(lista_palavras):
    lista_normalizada = []
    for palavra in lista_palavras:
        lista_normalizada.append(palavra.lower())    
    return lista_normalizada

In [16]:
lista_normalizada = normalizacao(lista_palavras)

In [17]:
lista_normalizada[:5]

['imagem', 'temos', 'a', 'seguinte', 'classe']

## Tipos de palavras

In [18]:
len(set(lista_normalizada))

18465

# Desenvolvendo e testando o corretor

### lado esquerdo + letra + Direito

## Fatiando Strings

In [19]:
lista = 'lgica'
(lista[:1],lista[1:])

('l', 'gica')

## Operacao de insercao

In [20]:
palavra_exemplo = 'lgica'

def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    return palavras_geradas

palavras_geradas = gerador_palavras(palavra_exemplo)

## Construindo a função corretor

In [21]:
frequencia = nltk.FreqDist(lista_normalizada)
total_palavras = len(lista_normalizada)
frequencia.most_common(10)

[('de', 15502),
 ('o', 14056),
 ('que', 12230),
 ('a', 11099),
 ('e', 10501),
 ('para', 7710),
 ('um', 6368),
 ('é', 5899),
 ('uma', 5220),
 ('do', 5124)]

In [22]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras


In [23]:
def corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavra_correta = max(palavras_geradas, key = probabilidade)
    return palavra_correta

In [24]:
corretor(palavra_exemplo)

'lógica'

# Incrementando o corretor

## operacao de delete

In [25]:
def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    return palavras_geradas

palavras_geradas = gerador_palavras("loigica")

In [26]:
print(palavras_geradas)

['aloigica', 'bloigica', 'cloigica', 'dloigica', 'eloigica', 'floigica', 'gloigica', 'hloigica', 'iloigica', 'jloigica', 'kloigica', 'lloigica', 'mloigica', 'nloigica', 'oloigica', 'ploigica', 'qloigica', 'rloigica', 'sloigica', 'tloigica', 'uloigica', 'vloigica', 'wloigica', 'xloigica', 'yloigica', 'zloigica', 'àloigica', 'áloigica', 'âloigica', 'ãloigica', 'èloigica', 'éloigica', 'êloigica', 'ìloigica', 'íloigica', 'îloigica', 'òloigica', 'óloigica', 'ôloigica', 'õloigica', 'ùloigica', 'úloigica', 'ûloigica', 'çloigica', 'laoigica', 'lboigica', 'lcoigica', 'ldoigica', 'leoigica', 'lfoigica', 'lgoigica', 'lhoigica', 'lioigica', 'ljoigica', 'lkoigica', 'lloigica', 'lmoigica', 'lnoigica', 'looigica', 'lpoigica', 'lqoigica', 'lroigica', 'lsoigica', 'ltoigica', 'luoigica', 'lvoigica', 'lwoigica', 'lxoigica', 'lyoigica', 'lzoigica', 'làoigica', 'láoigica', 'lâoigica', 'lãoigica', 'lèoigica', 'léoigica', 'lêoigica', 'lìoigica', 'líoigica', 'lîoigica', 'lòoigica', 'lóoigica', 'lôoigica', 'lõ

# Corrigindo os principais erros de digitação

## Implementando a troca de letras

In [27]:
def troca_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letras(fatias)
    return palavras_geradas

In [28]:
palavras_exemplo = 'lígica'
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['algica', 'blgica', 'clgica', 'dlgica', 'elgica', 'flgica', 'glgica', 'hlgica', 'ilgica', 'jlgica', 'klgica', 'llgica', 'mlgica', 'nlgica', 'olgica', 'plgica', 'qlgica', 'rlgica', 'slgica', 'tlgica', 'ulgica', 'vlgica', 'wlgica', 'xlgica', 'ylgica', 'zlgica', 'àlgica', 'álgica', 'âlgica', 'ãlgica', 'èlgica', 'élgica', 'êlgica', 'ìlgica', 'ílgica', 'îlgica', 'òlgica', 'ólgica', 'ôlgica', 'õlgica', 'ùlgica', 'úlgica', 'ûlgica', 'çlgica', 'lagica', 'lbgica', 'lcgica', 'ldgica', 'legica', 'lfgica', 'lggica', 'lhgica', 'ligica', 'ljgica', 'lkgica', 'llgica', 'lmgica', 'lngica', 'logica', 'lpgica', 'lqgica', 'lrgica', 'lsgica', 'ltgica', 'lugica', 'lvgica', 'lwgica', 'lxgica', 'lygica', 'lzgica', 'làgica', 'lágica', 'lâgica', 'lãgica', 'lègica', 'légica', 'lêgica', 'lìgica', 'lígica', 'lîgica', 'lògica', 'lógica', 'lôgica', 'lõgica', 'lùgica', 'lúgica', 'lûgica', 'lçgica', 'lgaica', 'lgbica', 'lgcica', 'lgdica', 'lgeica', 'lgfica', 'lggica', 'lghica', 'lgiica', 'lgjica', 'lgkica', 'lglica',

## Agrupando as operações do corretor

In [37]:
def insere_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D)
    return novas_palavras

def deletando_caracteres(fatias):
    novas_palavras = []
    for E, D in fatias:
        novas_palavras.append(E + D[1:])
    return novas_palavras

def troca_letras(fatias):
    novas_palavras = []
    letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
    for E, D in fatias:
        for letra in letras:
            novas_palavras.append(E + letra + D[1:])
    return novas_palavras

def inverte_letras(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def gerador_palavras(palavra):
    fatias = []
    for i in range(len(palavra) + 1):
        fatias.append((palavra[:i],palavra[i:]))
    palavras_geradas = insere_letras(fatias)
    palavras_geradas += deletando_caracteres(fatias)
    palavras_geradas += troca_letras(fatias)
    palavras_geradas += inverte_letras(fatias)
    return palavras_geradas

palavra_exemplo = 'ula'
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['aula', 'bula', 'cula', 'dula', 'eula', 'fula', 'gula', 'hula', 'iula', 'jula', 'kula', 'lula', 'mula', 'nula', 'oula', 'pula', 'qula', 'rula', 'sula', 'tula', 'uula', 'vula', 'wula', 'xula', 'yula', 'zula', 'àula', 'áula', 'âula', 'ãula', 'èula', 'éula', 'êula', 'ìula', 'íula', 'îula', 'òula', 'óula', 'ôula', 'õula', 'ùula', 'úula', 'ûula', 'çula', 'uala', 'ubla', 'ucla', 'udla', 'uela', 'ufla', 'ugla', 'uhla', 'uila', 'ujla', 'ukla', 'ulla', 'umla', 'unla', 'uola', 'upla', 'uqla', 'urla', 'usla', 'utla', 'uula', 'uvla', 'uwla', 'uxla', 'uyla', 'uzla', 'uàla', 'uála', 'uâla', 'uãla', 'uèla', 'uéla', 'uêla', 'uìla', 'uíla', 'uîla', 'uòla', 'uóla', 'uôla', 'uõla', 'uùla', 'uúla', 'uûla', 'uçla', 'ulaa', 'ulba', 'ulca', 'ulda', 'ulea', 'ulfa', 'ulga', 'ulha', 'ulia', 'ulja', 'ulka', 'ulla', 'ulma', 'ulna', 'uloa', 'ulpa', 'ulqa', 'ulra', 'ulsa', 'ulta', 'ulua', 'ulva', 'ulwa', 'ulxa', 'ulya', 'ulza', 'ulàa', 'uláa', 'ulâa', 'ulãa', 'ulèa', 'uléa', 'ulêa', 'ulìa', 'ulía', 'ulîa', 'ulòa',

## Melhorando o corretor

In [45]:
palavra = 'lóiigica'
def gerador_turbinado(palavras_geradas):
    novas_palavras = []
    for palavra in palavras_geradas:
        novas_palavras += gerador_palavras(palavra)
    return novas_palavras

palavras_g = gerador_turbinado(gerador_palavras(palavra))
'lógica' in palavras_g

True

In [46]:
len(palavras_g)

691744

In [60]:
def novo_corretor(palavra):
    palavras_geradas = gerador_palavras(palavra)
    palavras_turbinado = gerador_turbinado(palavras_geradas)
    todas_palavras = set(palavras_geradas + palavras_turbinado)
    candidatos = [palavra]
    for palavra in todas_palavras:
        if palavra in vocabulario:
            candidatos.append(palavra)
    palavra_correta = max(candidatos, key = probabilidade)
    return palavra_correta

In [58]:
novo_corretor('lóiigica')

2


'lógica'

# Avaliando a qualidade do corretor

## Preparando dados teste

In [38]:
def cria_dados_teste(nome_arquivo):
    lista_palavras_teste = []
    f = open(nome_arquivo,'r', encoding = 'utf-8')
    for linha in f:
        correta, errada = linha.split()
        lista_palavras_teste.append((correta,errada))
    f.close()
    return lista_palavras_teste

lista_teste = cria_dados_teste("dados/palavras.txt")

In [31]:
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

## Avaliando o corretor

In [69]:
def avaliador(testes, vocabulario):
    numero_palavras = len(testes)
    acertou = 0
    desconhecida = 0
    for correta,errada in testes:
        palavra_corrigida = corretor(errada)
        desconhecida += (correta not in vocabulario)
        if palavra_corrigida == correta:
            acertou += 1
    taxa_acerto = round(acertou*100/numero_palavras,2)
    taxa_desconhecida = round(desconhecida*100/numero_palavras,2)
    print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecidas eh {taxa_desconhecida}%")

In [70]:
vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecidas eh 6.99%
