# Processamento de Linguagem Natural - NLP

### Subindo arquivo

In [1]:
with open("artigos.txt", "r") as f:
    artigos = f.read()

print(artigos[:500])




imagem 

Temos a seguinte classe que representa um usuário no nosso sistema:

java

Para salvar um novo usuário, várias validações são feitas, como por exemplo: Ver se o nome só contém letras, [**o CPF só números**] e ver se o usuário possui no mínimo 18 anos. Veja o método que faz essa validação:

java 

Suponha agora que eu tenha outra classe, a classe `Produto`, que contém um atributo nome e eu quero fazer a mesma validação que fiz para o nome do usuário: Ver se só contém letras. E aí? Vou


## Tokens

### Exemplo de Tokenização

In [2]:
texto_exemplo = "Olá, tudo bem?"
tokens = texto_exemplo.split()
print(len(tokens))
print(tokens)

3
['Olá,', 'tudo', 'bem?']


### nltk - Natural Language Toolkit

In [3]:
import nltk
nltk.download('punkt')
palavras_separadas = nltk.tokenize.word_tokenize(texto_exemplo)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [4]:
print(palavras_separadas)

['Olá', ',', 'tudo', 'bem', '?']


### Função para separar apenas as palavras

In [5]:
def separa_palavras(lista_tokens):
  lista_palavras = []
  for token in lista_tokens:
    if token.isalpha():
      lista_palavras.append(token)
  return lista_palavras

In [6]:
separa_palavras(palavras_separadas)

['Olá', 'tudo', 'bem']

Contando as palavras do corpus

In [7]:
lista_tokens = nltk.tokenize.word_tokenize(artigos)
lista_palavras = separa_palavras(lista_tokens)
print(f'O número de palavras em nosso corpus é {len(lista_palavras)}')

O número de palavras em nosso corpus é 393914


In [8]:
print(lista_palavras[:10])

['imagem', 'Temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no']


**Normalização**

In [9]:
def normalizacao(lista_palavras):
  lista_normalizada = []
  for palavra in lista_palavras:
    lista_normalizada.append(palavra.lower())
  return lista_normalizada

lista_normalizada = normalizacao(lista_palavras)
print(lista_normalizada[:10])

['imagem', 'temos', 'a', 'seguinte', 'classe', 'que', 'representa', 'um', 'usuário', 'no']


In [10]:
len(set(lista_normalizada))

17652

In [11]:
palavra_exemplo = "lgica"

def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E, D in fatias:
    for letra in letras:
      novas_palavras.append(E + letra + D)
  return novas_palavras

def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra) + 1):
    fatias.append((palavra[:i], palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  return palavras_geradas

palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['algica', 'blgica', 'clgica', 'dlgica', 'elgica', 'flgica', 'glgica', 'hlgica', 'ilgica', 'jlgica', 'klgica', 'llgica', 'mlgica', 'nlgica', 'olgica', 'plgica', 'qlgica', 'rlgica', 'slgica', 'tlgica', 'ulgica', 'vlgica', 'wlgica', 'xlgica', 'ylgica', 'zlgica', 'àlgica', 'álgica', 'âlgica', 'ãlgica', 'èlgica', 'élgica', 'êlgica', 'ìlgica', 'ílgica', 'îlgica', 'òlgica', 'ólgica', 'ôlgica', 'õlgica', 'ùlgica', 'úlgica', 'ûlgica', 'çlgica', 'lagica', 'lbgica', 'lcgica', 'ldgica', 'legica', 'lfgica', 'lggica', 'lhgica', 'ligica', 'ljgica', 'lkgica', 'llgica', 'lmgica', 'lngica', 'logica', 'lpgica', 'lqgica', 'lrgica', 'lsgica', 'ltgica', 'lugica', 'lvgica', 'lwgica', 'lxgica', 'lygica', 'lzgica', 'làgica', 'lágica', 'lâgica', 'lãgica', 'lègica', 'légica', 'lêgica', 'lìgica', 'lígica', 'lîgica', 'lògica', 'lógica', 'lôgica', 'lõgica', 'lùgica', 'lúgica', 'lûgica', 'lçgica', 'lgaica', 'lgbica', 'lgcica', 'lgdica', 'lgeica', 'lgfica', 'lggica', 'lghica', 'lgiica', 'lgjica', 'lgkica', 'lglica',

In [12]:
def corretor(palavra):
  palavras_geradas = gerador_palavras(palavra)
  palavra_correta = max(palavras_geradas, key = probabilidade)
  return palavra_correta

In [13]:
frequencia = nltk.FreqDist(lista_normalizada)
frequencia.most_common(10)

[('de', 15494),
 ('o', 13966),
 ('que', 12225),
 ('a', 11034),
 ('e', 10478),
 ('para', 7694),
 ('um', 6346),
 ('é', 5881),
 ('uma', 5202),
 ('do', 5116)]

In [14]:
frequencia["lógica"]

87

In [15]:
total_palavras = len(lista_normalizada)

In [16]:
def probabilidade(palavra_gerada):
    return frequencia[palavra_gerada]/total_palavras

In [17]:
corretor(palavra_exemplo)

'lógica'

In [18]:
def cria_dados_teste(nome_arquivo):
  lista_palavras_teste = []
  f = open(nome_arquivo, "r")
  for linha in f:
    correta, errada = linha.split()
    lista_palavras_teste.append((correta, errada))
  f.close()
  return lista_palavras_teste

lista_teste = cria_dados_teste("palavras.txt")
lista_teste

[('podemos', 'pyodemos'),
 ('esse', 'esje'),
 ('já', 'jrá'),
 ('nosso', 'nossov'),
 ('são', 'sãêo'),
 ('dos', 'dosa'),
 ('muito', 'muifo'),
 ('imagem', 'iômagem'),
 ('sua', 'ósua'),
 ('também', 'tambéùm'),
 ('ele', 'eme'),
 ('fazer', 'èazer'),
 ('temos', 'temfs'),
 ('essa', 'eàssa'),
 ('quando', 'quaôdo'),
 ('vamos', 'vamvos'),
 ('sobre', 'hsobre'),
 ('java', 'sjava'),
 ('das', 'daõs'),
 ('agora', 'agorah'),
 ('está', 'eòtá'),
 ('cada', 'céda'),
 ('mesmo', 'zmesmo'),
 ('nos', 'noâ'),
 ('forma', 'fobma'),
 ('seja', 'sejéa'),
 ('então', 'enêão'),
 ('criar', 'èriar'),
 ('código', 'cóeigo'),
 ('caso', 'casío'),
 ('exemplo', 'áexemplo'),
 ('tem', 'tĩem'),
 ('usuário', 'usuárôio'),
 ('dados', 'dfados'),
 ('python', 'pgthon'),
 ('nossa', 'nossah'),
 ('além', 'alémè'),
 ('assim', 'asõim'),
 ('ter', 'teb'),
 ('até', 'atĩ'),
 ('bem', 'âem'),
 ('design', 'desigen'),
 ('trabalho', 'trabalàho'),
 ('foi', 'foo'),
 ('apenas', 'apenaũ'),
 ('empresa', 'empresà'),
 ('valor', 'valíor'),
 ('será', 'serr')

In [19]:
def avaliador (testes):
  numero_palavras = len(testes)
  acertou = 0
  for correta, errada in testes:
      palavra_corrigida = corretor(errada)
      if palavra_corrigida == correta:
          acertou += 1
  taxa_acerto = round(acertou*100/numero_palavras, 2)
  print(f"{taxa_acerto}% de {numero_palavras} palavras")

avaliador(lista_teste)

1.08% de 186 palavras


In [20]:
def deletando_caracteres(fatias):
  novas_palavras = []
  for E, D in fatias:
      novas_palavras.append(E + D[1:])
  return novas_palavras

In [21]:
def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
      fatias.append((palavra[:i],palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  palavras_geradas += deletando_caracteres(fatias)
  return palavras_geradas

palavra_exemplo = "lóigica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['alóigica', 'blóigica', 'clóigica', 'dlóigica', 'elóigica', 'flóigica', 'glóigica', 'hlóigica', 'ilóigica', 'jlóigica', 'klóigica', 'llóigica', 'mlóigica', 'nlóigica', 'olóigica', 'plóigica', 'qlóigica', 'rlóigica', 'slóigica', 'tlóigica', 'ulóigica', 'vlóigica', 'wlóigica', 'xlóigica', 'ylóigica', 'zlóigica', 'àlóigica', 'álóigica', 'âlóigica', 'ãlóigica', 'èlóigica', 'élóigica', 'êlóigica', 'ìlóigica', 'ílóigica', 'îlóigica', 'òlóigica', 'ólóigica', 'ôlóigica', 'õlóigica', 'ùlóigica', 'úlóigica', 'ûlóigica', 'çlóigica', 'laóigica', 'lbóigica', 'lcóigica', 'ldóigica', 'leóigica', 'lfóigica', 'lgóigica', 'lhóigica', 'lióigica', 'ljóigica', 'lkóigica', 'llóigica', 'lmóigica', 'lnóigica', 'loóigica', 'lpóigica', 'lqóigica', 'lróigica', 'lsóigica', 'ltóigica', 'luóigica', 'lvóigica', 'lwóigica', 'lxóigica', 'lyóigica', 'lzóigica', 'làóigica', 'láóigica', 'lâóigica', 'lãóigica', 'lèóigica', 'léóigica', 'lêóigica', 'lìóigica', 'líóigica', 'lîóigica', 'lòóigica', 'lóóigica', 'lôóigica', 'lõ

In [22]:
avaliador(lista_teste)

41.4% de 186 palavras


In [23]:
def insere_letras(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzàáâãèéêìíîòóôõùúûç'
  for E, D in fatias:
      for letra in letras:
          novas_palavras.append(E + letra + D)
  return novas_palavras

def deletando_caracteres(fatias):
  novas_palavras = []
  for E, D in fatias:
      novas_palavras.append(E + D[1:])
  return novas_palavras

def troca_letra(fatias):
  novas_palavras = []
  letras = 'abcdefghijklmnopqrstuvwxyzáàãâéèêíìóòõôúùûç'
  for E, D in fatias:
      for letra in letras:
          novas_palavras.append(E + letra + D[1:])
  return novas_palavras

def inverte_letra(fatias):
    novas_palavras = []
    for E, D in fatias:
        if len(D) > 1:
            novas_palavras.append(E + D[1] + D[0] + D[2:])
    return novas_palavras

def gerador_palavras(palavra):
  fatias = []
  for i in range(len(palavra)+1):
      fatias.append((palavra[:i],palavra[i:]))
  palavras_geradas = insere_letras(fatias)
  palavras_geradas += deletando_caracteres(fatias)
  palavras_geradas += troca_letra(fatias)
  palavras_geradas +=  inverte_letra(fatias)
  return palavras_geradas

palavra_exemplo = "lgóica"
palavras_geradas = gerador_palavras(palavra_exemplo)
print(palavras_geradas)

['algóica', 'blgóica', 'clgóica', 'dlgóica', 'elgóica', 'flgóica', 'glgóica', 'hlgóica', 'ilgóica', 'jlgóica', 'klgóica', 'llgóica', 'mlgóica', 'nlgóica', 'olgóica', 'plgóica', 'qlgóica', 'rlgóica', 'slgóica', 'tlgóica', 'ulgóica', 'vlgóica', 'wlgóica', 'xlgóica', 'ylgóica', 'zlgóica', 'àlgóica', 'álgóica', 'âlgóica', 'ãlgóica', 'èlgóica', 'élgóica', 'êlgóica', 'ìlgóica', 'ílgóica', 'îlgóica', 'òlgóica', 'ólgóica', 'ôlgóica', 'õlgóica', 'ùlgóica', 'úlgóica', 'ûlgóica', 'çlgóica', 'lagóica', 'lbgóica', 'lcgóica', 'ldgóica', 'legóica', 'lfgóica', 'lggóica', 'lhgóica', 'ligóica', 'ljgóica', 'lkgóica', 'llgóica', 'lmgóica', 'lngóica', 'logóica', 'lpgóica', 'lqgóica', 'lrgóica', 'lsgóica', 'ltgóica', 'lugóica', 'lvgóica', 'lwgóica', 'lxgóica', 'lygóica', 'lzgóica', 'làgóica', 'lágóica', 'lâgóica', 'lãgóica', 'lègóica', 'légóica', 'lêgóica', 'lìgóica', 'lígóica', 'lîgóica', 'lògóica', 'lógóica', 'lôgóica', 'lõgóica', 'lùgóica', 'lúgóica', 'lûgóica', 'lçgóica', 'lgaóica', 'lgbóica', 'lgcóica'

In [24]:
avaliador(lista_teste)

76.34% de 186 palavras


In [25]:
def avaliador(testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  for correta, errada in testes:
      palavra_corrigida = corretor(errada)
      if palavra_corrigida == correta:
          acertou += 1
      else:
          desconhecida += (correta not in vocabulario)
  taxa_acerto = round(acertou*100/numero_palavras, 2)
  taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
  print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecidas é {taxa_desconhecida}%")


vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecidas é 6.99%


In [26]:
palavra = "lóiigica"

def gerador_turbinado(palavras_geradas):
  novas_palavras = []
  for palavra in palavras_geradas:
      novas_palavras += gerador_palavras(palavra)
  return novas_palavras

palavras_g = gerador_turbinado(gerador_palavras(palavra))
"lógica" in palavras_g

True

In [27]:
len(palavras_g)

676760

In [37]:
def novo_corretor(palavra):
  palavras_geradas = gerador_palavras(palavra)
  palavras_turbinado = gerador_turbinado(palavras_geradas)
  todas_palavras = set(palavras_geradas + palavras_turbinado)
  candidatos = [palavra]
  for palavra in todas_palavras:
    if palavra in vocabulario:
      candidatos.append(palavra)
  palavra_correta = max(candidatos, key=probabilidade)
  return palavra_correta

novo_corretor(palavra)

'lógica'

In [38]:
def avaliador(testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  for correta, errada in testes:
    palavra_corrigida = novo_corretor(errada)
    desconhecida += (correta not in vocabulario)
    if palavra_corrigida == correta:
      acertou += 1
    else:
      print(errada + "-" + corretor(errada) + "-" + palavra_corrigida)
  taxa_acerto = round(acertou*100/numero_palavras, 2)
  taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
  print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecidas {taxa_desconhecida}%")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

esje-esse-se
sãêo-são-não
dosa-dos-do
eme-em-de
eàssa-essa-esse
daõs-das-da
céda-cada-da
noâ-no-o
enêão-então-não
tĩem-tem-em
nossah-nossa-nosso
teb-tem-de
atĩ-até-a
âem-em-de
foo-foi-o
serr-ser-se
entke-entre-então
van-vai-a
çeus-seus-seu
eû-e-de
temeo-tempo-temos
semre-sempre-ser
elaá-ela-ele
síó-só-se
siàe-site-se
seém-sem-em
peln-pelo-ele
aléra-alura-agora
tdia-dia-da
jé-é-de
sãô-são-não
odos-dos-do
siua-sua-seu
elpe-ele-esse
teos-temos-os
eũsa-essa-esse
vjmos-vamos-temos
dms-dos-de
cava-java-para
ános-nos-no
èaso-caso-as
túem-tem-em
daáos-dados-dos
nossk-nosso-nosso
tãer-ter-ser
vté-até-é
búm-bem-um
sçerá-será-ser
entró-entre-então
uai-vai-a
sâus-seus-seu
ìeu-seu-de
fual-qual-sua
elal-ela-ele
skó-só-se
secm-sem-em
aluéa-alura-além
dil-dia-de
sód-só-se
eúaa-aeúaa-essa
ró-só-de
dĩaz-adĩaz-da
correptor-corretor-correto
trtica-tática-prática
ewpoderamento-aewpoderamento-ewpoderamento
îgato-gato-fato
cakvalo-acakvalo-carvalho
canelac-acanelac-janela
tênisy-atênisy-tênisy
anciosa-aancio

In [39]:
def avaliador(testes, vocabulario):
  numero_palavras = len(testes)
  acertou = 0
  desconhecida = 0
  for correta, errada in testes:
    palavra_corrigida = corretor(errada)
    desconhecida += (correta not in vocabulario)
    if palavra_corrigida == correta:
      acertou += 1
  taxa_acerto = round(acertou*100/numero_palavras, 2)
  taxa_desconhecida = round(desconhecida*100/numero_palavras, 2)
  print(f"{taxa_acerto}% de {numero_palavras} palavras, desconhecidas {taxa_desconhecida}%")

vocabulario = set(lista_normalizada)
avaliador(lista_teste, vocabulario)

76.34% de 186 palavras, desconhecidas 6.99%


In [46]:
palavra = "Python"
print(novo_corretor(palavra))
print(corretor(palavra))

python
python
