# Corretor Ortográfico utilizando texto de notícias de jornal da web

**Aluno:** Rafhael de Oliveira Martins

De acordo com o [Wikipédia](https://pt.wikipedia.org/wiki/Corretor_ortogr%C3%A1fico), no software, um corretor ortográfico é um recurso de software que verifica erros ortográficos em um texto. Os recursos de verificação ortográfica geralmente são incorporados em software ou serviços, como processador de texto, cliente de e-mail, dicionário eletrônico ou mecanismo de pesquisa.

**Um corretor ortográfico básico realiza os seguintes processos:**

- Ele escaneia o texto e extrai as palavras nele contidas.
- Em seguida, compara cada palavra com uma lista conhecida de palavras escritas corretamente (ou seja, um dicionário). Isso pode conter apenas uma lista de palavras ou também pode conter informações adicionais, como pontos de hifenização ou atributos lexicais e gramaticais.
- Uma etapa adicional é um algoritmo dependente de linguagem para lidar com morfologia. Mesmo para um idioma levemente flexionado como o inglês, o corretor ortográfico precisará considerar diferentes formas da mesma palavra, como plurais, formas verbais, contrações e possessivos. Para muitas outras linguagens, como aquelas que apresentam aglutinação e declinação e conjugação mais complexas, essa parte do processo é mais complicada.

## Referências utilizadas
- https://github.com/ViniViniAntunes/Corretor_Ortografico_NLP
- https://towardsdatascience.com/build-a-spelling-corrector-program-in-python-46bc427cf57f
- https://huggingface.co/oliverguhr/spelling-correction-english-base?text=ze+shop+is+cloed+due+to+covid+19

In [3]:
# Importa Bibliotecas.
import time
import re

import pandas as pd
import numpy as np

import psycopg2
import sqlalchemy  
from sqlalchemy import create_engine

from textblob import Word
from textblob import TextBlob

# from goose3 import Goose

# import spacy
# !spacy download pt_core_news_sm -q

# # fazer a carga
# nlp = spacy.load('pt_core_news_sm')

import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

# Parametros do Pandas, limitando a quantidade máxima e a largura das colunas.
pd.set_option('max_colwidth', 5000)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Usuario\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
path = "dados/"

## 1 - Base de dados

### 1.1 - URLs de notícias do Jornal Correio Braziliense

In [81]:
# Consultando dados anteriores no BD.
engine = create_engine(f'postgresql://{user}:{password}@{host}/{dbname}')
conn = engine.connect()

df_base = pd.read_sql('''select * from tb_url_noticias;''', conn)
print(df_base.shape)

conn.close()

(8635, 6)


In [93]:
# Verificando dados ausentes ou nulos.
df_base.isnull().sum()

ID_NOTICIA       0
DATA_EXTRACAO    0
DESC_JORNAL      0
DESC_TEMA        0
URL_NOTICIA      0
FLAG_EXTRAIDA    0
dtype: int64

In [94]:
# Primeiros dados.
df_base.head()

Unnamed: 0,ID_NOTICIA,DATA_EXTRACAO,DESC_JORNAL,DESC_TEMA,URL_NOTICIA,FLAG_EXTRAIDA
0,3,2022-09-24,correiobraziliense,home,https://www.correiobraziliense.com.br/politica/2022/09/5039139-tse-identifica-rs-605-milhoes-em-doacoes-suspeitas.html,True
1,4,2022-09-24,correiobraziliense,home,https://www.correiobraziliense.com.br/cidades-df/2022/09/5039108-confira-a-agenda-dos-candidatos-ao-gdf-para-este-sabado.html,True
2,261,2022-10-05,correiobraziliense,opiniao,https://www.correiobraziliense.com.br//opiniao/2022/10/5041502-artigo-o-brasil-mudou.html,True
3,1639,2022-10-13,correiobraziliense,home,https://www.correiobraziliense.com.br/cbforum/testedopezinho.html,True
4,2156,2022-10-17,correiobraziliense,tecnologia,https://www.correiobraziliense.com.br/tecnologia/2022/10/5044373-ia-vence-os-obstaculos.html,True


In [96]:
# Últimos dados.
df_base.tail()

Unnamed: 0,ID_NOTICIA,DATA_EXTRACAO,DESC_JORNAL,DESC_TEMA,URL_NOTICIA,FLAG_EXTRAIDA
8630,8632,2022-12-08,correiobraziliense,esportes,https://www.correiobraziliense.com.br/esportes/2022/12/5057617-tecnico-da-croacia-faz-jogo-de-esconde-com-tite-sosa-e-o-misterio.html,True
8631,8633,2022-12-08,correiobraziliense,esportes,https://www.correiobraziliense.com.br/esportes/2022/12/5057613-modric-revela-que-o-plano-e-levar-a-croacia-alem-das-quartas-de-final.html,True
8632,8634,2022-12-08,correiobraziliense,economia,https://www.correiobraziliense.com.br/economia/2022/12/5057600-moveinfra-anuncia-rs-783-bilhoes-para-investimento-em-infraestrutura.html,True
8633,8635,2022-12-08,correiobraziliense,economia,https://www.correiobraziliense.com.br/economia/2022/12/5057624-apos-encontro-com-haddad-guedes-reforca-defesa-de-novo-marco-fiscal.html,True
8634,8636,2022-12-08,correiobraziliense,economia,https://www.correiobraziliense.com.br/economia/2022/12/5057740-atraso-na-coleta-do-censo-traz-riscos-a-qualidade-da-informacao-diz-sindicato.html,True


In [97]:
# Notícias por data.
df_base.DATA_EXTRACAO.value_counts()

2022-10-05    304
2022-10-13    296
2022-10-10    295
2022-11-29    197
2022-10-07    195
             ... 
2022-12-03     75
2022-10-23     74
2022-10-16     66
2022-10-29     64
2022-09-24     45
Name: DATA_EXTRACAO, Length: 64, dtype: int64

In [98]:
# notícias por jornal.
df_base.DESC_JORNAL.value_counts()

correiobraziliense    8635
Name: DESC_JORNAL, dtype: int64

In [99]:
# notícias por tema do jornal.
df_base.DESC_TEMA.value_counts()

home                  1668
cidades-df            1090
diversao-e-arte       1049
brasil                 885
esportes               829
politica               758
mundo                  634
economia               555
ciencia-e-saude        300
concursos              218
opiniao                209
euestudante            206
revista-do-correio      67
holofote                64
tecnologia              61
turismo                 40
comunidadeei             2
Name: DESC_TEMA, dtype: int64

### 1.2 - Textos de notícias do Jornal Correio Braziliense

In [13]:
# Consultando dados anteriores no BD.
engine = create_engine(f'postgresql://{user}:{password}@{host}/{dbname}')
conn = engine.connect()

df = pd.read_sql('''select * from tb_texto_noticias;''', conn)
print(df.shape)

conn.close()

(8635, 6)


In [14]:
# Primeiros dados.
df.head()

Unnamed: 0,ID_NOTICIA,URL,DATA_PUBLICACAO,AUTOR,TITULO,TEXTO
0,1,https://www.correiobraziliense.com.br/politica/2022/09/5039152-bolsonaro-e-lula-jogam-as-cartas-para-reta-final-da-campanha-eleitoral.html,2022-09-24-0303:55:00-10800,"{""'Ingrid Soares, Victor Correia'""}",Bolsonaro e Lula jogam as cartas para reta final da campanha eleitoral,"A oito dias das eleições, os dois principais candidatos à Presidência, Jair Bolsonaro (PL) e Luiz Inácio Lula da Silva (PT), jogam os últimos lances para a semana final antes do primeiro turno de votação, em 2 de outubro. Mas, se na campanha petista a recomendação é de calçar as ""sandálias da humildade"" e evitar a euforia da cada vez maior possibilidade de vitória no primeiro turno, na do presidente acendeu a luz de emergência.\n\nO comitê de campanha tenta uma correção de rumo por causa das seguidas diminuições no percentual de votos apontado pelas pesquisa de opinião. A mais recente, do Datafolha, divulgada na última quinta-feira, mostrou que Bolsonaro está parado com 33% — Lula foi a 47%.\n\nFontes da campanha do presidente concluíram que, ao ser impedida a utilização, pelo Tribunal Superior Eleitoral (TSE), das imagens do 7 de Setembro e do discurso na Assembleia Geral das Nações Unidas, frustraram-se os ganhos políticos que eram esperados. Assim, o investimento, agora, passa a ser nas viagens aos maiores colégios eleitorais, como São Paulo, Minas Gerais e Rio de Janeiro, e ao Nordeste, na tentativa de aumentar o desgaste da imagem de Lula.\n\nBolsonaro também continuará batendo firme na corrupção durante os governos do PT e enfatizará que o ex-presidente esteve preso por causa disso. O primeiro passo dessa estratégia será dado, hoje, no debate entre os postulantes ao Palácio do Planalto, no SBT, do qual o presidente participará, mas o petista, não.\n\nAinda assim, atacar Lula e o PT com todas as forças pode não dar tração suficiente a Bolsonaro. Integrantes da campanha lamentam que ele não tem conseguido atrair novos eleitores por pregar apenas para sua base fiel. Além disso, já detectaram que voltar a atacar as urnas eletrônicas e ressuscitar a necessidade do voto impresso — como defendem alguns dos seus principais auxiliares — nada agrega ao presidente numericamente. Ao contrário: membros menos radicais do QG bolsonarista acreditam que isso só afasta os indecisos, além de não tirar um único voto dos adversários.\n\nPara reforçar o apoio a aliados locais — e fazer com que alguns dos mais bem colocados consigam lhe devolver em votos esse atrelamento —, Bolsonaro tem feito, diariamente, lives pelas redes sociais. Mas até mesmo esta estratégia apresenta problemas, pois integrantes do governo avaliam que colar à imagem do presidente pode trazer prejuízos nesta reta final.\n\nPara piorar, emergem sinais de dentro do bunker bolsonarista de que a derrota está muito próxima. Como o que passou o coordenador da campanha e ministro da Casa Civil, Ciro Nogueira, que na última quinta-feira anunciou que entraria em férias para colaborar na eleição da ex-mulher, Iracema Portela, a vice-governadora do Piauí. A iniciativa repercutiu pessimamente entre os apoiadores do presidente e dentro do governo, e ele voltou atrás horas depois.\n\nJá a campanha de Lula amarra as pontas soltas para a semana decisiva. Mirando nos votos úteis, nos indecisos e tentando reduzir a abstenção, na segunda-feira ocorre o ""último grande ato"" do petista em São Paulo, com direito a tapete vermelho para artistas. O comício terá participações presenciais e à distância, com nomes como Anitta, Caetano Veloso — que anunciou voto no petista, abandonando o presidenciável Ciro Gomes (PDT) —, Ludmilla e Chico Buarque.\n\nO objetivo do evento é dar uma demonstração de força e de apoio entre diferentes segmentos — a chamada ""frente ampla"" que Lula vem tentando costurar desde a pré-campanha. Na última segunda, ele conseguiu reunir em uma mesma mesa ex-presidenciáveis de espectros antagônicos, como Luciana Genro (PSol), Marina Silva (Rede) e o economista Henrique Meirelles (União). O petista ainda somou ao seu leque de apoios a nota do ex-presidente Fernando Henrique Cardoso recomendando o voto em candidatos comprometidos com a defesa do Estado Democrático de Direito, com as igualdades e com a defesa do meio ambiente — tudo que Bolsonaro tem se mostrado contrário.\n\nEntre os estrategistas da chapa, o maior alvo no momento é a vitória no primeiro turno. As pesquisas divulgadas nesta semana, como a Datafolha de quinta, mostraram um crescimento do petista e uma chance concreta para liquidar a disputa. Segundo o instituto, o ex-presidente subiu de 45% para 47% das intenções de voto, atingindo ainda 50% dos votos válidos. ""Devemos estimular a campanha do Voto por Democracia, Voto Pelo Brasil, para a vitória no primeiro turno!"", disse ao Correio o ex-governador do Piauí e coordenador da campanha de Lula, Wellington Dias, sobre a reta final.\n\nEm paralelo ao ""showmício"" da segunda-feira, o PT mobilizou sua militância, em reunião na última quinta-feira, para realizar ""mobilização máxima nas ruas"" hoje e amanhã. A orientação da sigla é a realização de ""caminhadas, carreatas, bandeiraços e adesivações"", com o objetivo de dar visibilidade a Lula e estimular o ""comparecimento do eleitorado"" nas eleições. Isso porque, de acordo com uma fonte próxima ao setor jurí..."
1,2,https://www.correiobraziliense.com.br/politica/2022/09/5039144-disputa-pelo-voto-entre-lula-e-bolsonaro-divide-igrejas-pentecostais.html,2022-09-24-0303:55:00-10800,"{""'Correio Braziliense'""}",Disputa pelo voto entre Lula e Bolsonaro divide igrejas pentecostais,"A disputa pelo voto cristão por Jair Bolsonaro (PL), candidato à reeleição, e por Luiz Inácio Lula da Silva (PT) está rachando as igrejas evangélicas. Enquanto as cúpulas das denominações abraçaram o bolsonarismo e tentam influenciar o voto dos fiéis, evangélicos jovens e de baixa renda rompem com grandes congregações e declaram apoio ao petista. Jovens, mulheres e eleitores de periferia, onde Lula se sai melhor, lideram o movimento. Há, ainda, casos de fiéis que, cansados do debate político, se afastaram dos cultos.\n\nNa avaliação do diretor do Observatório Evangélico, Vinicius do Valle, as igrejas evangélicas passam por um ""efeito bumerangue"" nesta campanha. Ele confirmou que o apoio a Bolsonaro por pastores e a politização dos cultos têm afastado o público. ""Muitos deixaram de ir aos cultos, e tivemos uma reação dos fiéis demonstrando desconforto com a discussão eleitoral nos templos. O evangélico quer ver seus valores na política, mas não concorda com a campanha eleitoral nas igrejas"", observou.\n\nAo mesmo tempo que a diferença nas pesquisas eleitorais entre os dois candidatos mais bem colocados na disputa presidencial cai no segmento, coordenadores das campanhas intensificam as agendas com líderes e eleitores evangélicos. Nas últimas semanas, Lula se encontrou com religiosos, na Região Metropolitana do Rio. Bolsonaro participou de culto do pastor Silas Malafaia, um de seus apoiadores, na capital fluminense.\n\nDo lado dos fiéis, há reclamações sobre o uso político da religião. Eles reclamam do desvio da finalidade das igrejas e de tentativas de imposição de voto por pastores que apoiam Bolsonaro.\n\nUma das insatisfeitas é a ativista Débora Amorim, de 34 anos. Desconfortável com a politização da igreja que frequentava, a Metodista, rompeu com a congregação. Ela foi criada em templos evangélicos e, agora, integra o coletivo Novas Narrativas Evangélicas.\n\nO grupo tem fiéis de diferentes denominações protestantes. Foi criado para defender a liberdade do voto. Uma das suas estratégias é a produção e divulgação de conteúdo nas redes sociais. Nas últimas semanas, lançou as palavras de ordem #LivrePraVotar e ""Deus não tem candidato"".\n\nPara Débora, como a maioria dos evangélicos é formada por mulheres pretas e de periferia, é esse o público simpático à candidatura de Lula. Segundo ela, a tentativa de imposição de valores morais por parte dos pastores midiáticos e de consolidação de uma única narrativa como ""o caminho para a salvação"" tem afastado parte dos fiéis.\n\nUm dos idealizadores do movimento, o advogado Daniel Wanderley destacou que existem inúmeros ""crentes"" dispostos a construir e expressar ""novas narrativas evangélicas"". ""São pessoas que estavam sofrendo represálias e diversos desafios dentro de suas comunidades à medida que o bolsonarismo foi se apropriando e instrumentalizando a fé evangélica. O movimento evangélico é muito mais plural"", explica.\n\nDani Marinho, 24, evangélica da Igreja Batista do Caminho, foi criada ""dentro da Universal"" — liderada por Edir Macedo, apoiador de Bolsonaro. ""Sempre houve a influência da política na igreja, mas hoje está mais escancarada. Há uma tentativa de imposição de um candidato"", afirma.\n\nOs evangélicos representam 31% da população (cerca de 65 milhões de pessoas), segundo pesquisa Datafolha de 2020. De acordo com o Censo Brasileiro, do Instituto Brasileiro de Geografia e Estatísticas (IBGE), 60% (25,3 milhões) dos evangélicos eram pentecostais. Pesquisas mostram que a diferença entre o Lula e Bolsonaro tem recuado, embora permaneça grande. A mais recente rodada do Ipec, de 19 de setembro, mostrou o presidente em estabilidade, com 48% das intenções de voto entre evangélicos. Lula cresceu seis pontos (32%)."
2,3,https://www.correiobraziliense.com.br/politica/2022/09/5039139-tse-identifica-rs-605-milhoes-em-doacoes-suspeitas.html,2022-09-24-0303:55:00-10800,"{""'Correio Braziliense'""}",TSE identifica R$ 605 milhões em doações suspeitas,"Foram identificados pelo Tribunal Superior Eleitoral (TSE) R$ 605 milhões em transferências suspeitas em pouco mais de 59 mil casos potencialmente irregulares. O valor foi detectado em análise da prestação de contas parcial de campanha, entregue pelos candidatos entre os dias 9 e 13 de setembro.\n\nAo todo, foram 59.072 casos de doações ou gastos potencialmente irregulares informados pela Justiça Eleitoral. De acordo com o TSE, os casos agora serão apurados ""com o levantamento de provas materiais e de informações mais aprofundadas"".\n\nA análise é realizada por meio de cruzamento de dados de diferentes órgãos de controle, como o Tribunal de Contas da União (TCU), a Receita Federal, o Conselho de Controle de Atividades Econômicas (Coaf) e a Polícia Federal (PF). O cruzamento permite que o TSE peça a apuração efetiva de cada caso, com a coleta de provas materiais, por exemplo. Os casos são enviados ao MP Eleitoral, que pode aprofundar as investigações e, ao fim, apresentar uma denúncia à Justiça Eleitoral, podendo virar processos caso sejam encontradas evidências.\n\nNo caso dos gastos, chama a atenção dos órgãos de controle quando, por exemplo, há fornecedores com número muito pequeno de funcionários, ou com um dos sócios como beneficiário de programas de transferência de renda, como o Auxílio Brasil. Levantam suspeita também, os casos de empresas criadas neste ano e tendo como sócio algum filiado a partido ou parente de candidato.\n\nNo lado das receitas, o cruzamento dos dados possibilita analisar se o valor doado é compatível com o patrimônio e a situação econômica do doador — se ele está empregado, se é beneficiário de programas sociais e até se ainda está vivo. Em casos negativos, são levantadas suspeitas sobre essas transferências. Foram identificados, por exemplo, seis doadores falecidos e 190 desempregados. ""Ainda despertou o interesse dos analistas 10.296 situações em que um mesmo candidato recebeu numerosas contribuições feitas por diferentes empregados de uma mesma empresa"", informou o TSE.\n\nUma nova rodada de cruzamento de dados ocorrerá após a prestação de contas final do primeiro turno, que deve ser entregue à Corte Eleitoral por todos os candidatos até 2 de novembro."
3,4,https://www.correiobraziliense.com.br/cidades-df/2022/09/5039108-confira-a-agenda-dos-candidatos-ao-gdf-para-este-sabado.html,2022-09-24-0306:00:00-10800,"{""'Correio Braziliense'""}",Confira a agenda dos candidatos ao GDF para este sábado,"Este sábado (24/9) promete ser movimentado para os candidatos ao Governo do Distrito Federal (GDF). Diversas regiões, como Águas Claras, Ceilândia, Samambaia, Vila Telebrasília, Vicente Pires e Sobradinho receberão a visita dos posturantes ao Palácio do Buriti. A menos de 10 dias das eleições, os candidatos buscam conquistar mais eleitores.\n\n9h30 — Visita à feira permanente do Setor O\n\n10h30 — Visita à feira permanente do P Norte\n\n11h — Adesivaço em Águas Claras\n\n12h — Encontro com a comunidade do Núcleo Rural Monjolo, em Planaltina\n\n13h30 — Encontro com colaboradores de empresas do ramo de construção\n\n16h — Encontro político com candidatos a deputado federal e distrital, em Ceilândia\n\n16h30 — Encontro político com candidatos da coligação, em Águas Claras\n\n8h — Visita à feira do produtor de Vicente Pires\n\n10h — Reunião com policiais, na Colônia Agrícola Águas Claras\n\n12h — Almoço com pastores, na Asa Norte (reservado)\n\n16h — Evento com candidata a deputada distrital, em Samambaia Sul\n\n17h — Reunião com apoiadores, em Samambaia Sul\n\n20h30 — Jantar com apoiadores, no Lago Norte\n\n7h — Caminhada na feira do produtor de Vicente Pires\n\n9h30 — Caminhada pelo comércio de Vicente Pires\n\n12h30 — Evento do Senproep, no Parque da Cidade\n\n15h30 — Caminhada pelo comércio de Ceilândia Norte\n\n17h45 — Visita a evento de arte, em Ceilândia\n\n20h30 — Visita a evento de rodoviários, em Ceilândia\n\n22h — Festa do professor do Sinpro-DF, na Vila Planalto\n\n23h30 — Evento no Conic\n\n8h — Visita a projeto social do Instituto Evolução, na Vila Telebrasília\n\n9h30 — Café da manhã no Colégio CIMAN, na Octogonal\n\n11h — Evento no Clube do Congresso, no Lago Norte\n\n12h45 — Almoço no Guará Park\n\n16h — Encontro com apoiadores em Planaltina (DF)\n\n18h30 — Encontro com apoiadores em Sobradinho\n\n19h — Encontro com apoiadores de Sobradinho 2\n\n22h — Visita ao Baile da Saudade, em Brazlândia\n\n10h — Roda de conversa sobre prevenção do suicídio, em Sobradinho\n\n10h30 — Caminhada com candidato a deputado distrital, em Sobradinho\n\n12h — Almoço com candidato a deputado federal, no Noroeste\n\n13h — Ato em Planaltina\n\n13h30 — Ato em Ceilândia\n\n17h — Caminhada na Asa Norte\n\n18h30 — Participação em comício de candidato a deputado distrital\n\n10h — Caminhada na feira permanente e na feira dos importados de Taguatinga\n\n12h — Almoço em restaurante de Taguatinga\n\n13h — Reunião com apoiadores e eleitores, no Park Way\n\n19h — Live em seu canal do YouTube\n\nOs candidatos Leila Barros (PDT) e Coronel Moreno (PTB) não enviaram agenda até o fechamento desta edição"
4,5,https://www.correiobraziliense.com.br/cidades-df/2022/09/5039008-onde-votar-tre-df-anuncia-610-locais-de-votacao-e-67-mil-secoes.html,2022-09-23-0317:46:00-10800,"{""'Pedro Marra'""}","Onde votar? TRE-DF anuncia 610 locais de votação e 6,7 mil seções","O Tribunal Regional Eleitoral do Distrito Federal (TRE-DF) divulgou a lista dos 610 locais de votação e aproximadamente 6,7 mil seções eleitorais para as Eleições de 2022 na capital do país. O Tribunal Superior Eleitoral (TSE) disponibilizou consulta aos locais após as solicitações de transferência temporária.\n\nA consulta pessoal pode ser feita no site da Justiça Eleitoral. O dado também está atualizado no aplicativo e-Título, que informa tanto a zona, seção, local de votação de domicílio eleitoral quanto a zona, seção e local de votação para onde o eleitor pediu transferência temporária. O TRE-DF também disponibilizou a lista com todos os locais de votação. Clique aqui.\n\nA estimativa é que a população do Distrito Federal saiba o resultado do primeiro turno em, no máximo, duas horas, segundo o presidente do Tribunal Regional Eleitoral do Distrito Federal (TRE-DF), desembargador Roberval Belinati.\n\nO presidente do TRE-DF explicou que, após o fim das votações, os mesários vão encaminhar os votos das eleições aos computadores de totalização do Tribunal Superior Eleitoral (TSE). “Acredito que o resultado vai ser muito rápido. Pode ser que haja um pequeno atraso em razão do congestionamento, mas acho que não vai demorar mais do que duas horas para a conclusão da apuração dos votos aqui no DF”, comentou."


In [15]:
# Últimos dados.
df.tail()

Unnamed: 0,ID_NOTICIA,URL,DATA_PUBLICACAO,AUTOR,TITULO,TEXTO
8630,8632,https://www.correiobraziliense.com.br/esportes/2022/12/5057617-tecnico-da-croacia-faz-jogo-de-esconde-com-tite-sosa-e-o-misterio.html,2022-12-08-0311:40:00-10800,"{""'Marcos Paulo Lima - Enviado especial'""}",Técnico da Croácia faz jogo de esconde com Tite; Sosa é o mistério,"Doha — Sentado ao lado de Luka Modric na bancada da sala de conferências do Qatar National Convention Centre, o QG da Fifa na capital do Catar, o mentor do vice-campeonato da Croácia na Copa do Mundo de 2018, na Rússia, Zlatko Dalic, foi ofuscado pela estrela da companhia Luka Modric. De cabeça baixa, olhando para a mesa na maior parte do tempo, comportava-se com a humildade de quem sabe exatamente a grandeza de cada personagem na hierarquia da seleção adversária do Brasil nesta sexta-feira (9/12), às 12h (de Brasília), no Estádio da Educação, pelas quartas de final da Copa do Mundo Qatar-2022. \n\n\n\nTão misterioso quanto o colega de profissão Tite, Dalic empurrou para o treino da tarde a definição da escalação para o duelo eliminatório contra o Brasil. Curiosamente, a principal dúvida dele diz respeito à lateral esquerda. Contundido, Borna Sosa não enfrentou o Japão nas oitavas de final. A escalação do jogador do Stuttgart estava pendente da atividade de hoje. \n\n\n\n“Estamos aguardando. É importante nos recuperarmos por causa da prorrogação (e dos pênaltis contra o Japão). Vamos treinar com Sosa. Não teremos muitas mudanças”.\n\n\n\nQuestionado se a Croácia atual é superior ao time vice-campeão em 2018, Dalic preferiu não misturar as estações. “Tenho 18 novos jogadores. Há quatro anos, eles atuavam juntos há 10 anos. Não há como comparar. Precisamos de tempo. O que posso dizer que essa mistura fez bem ao Brasil nessa Copa do Mundo”, comemorou o treinador. \n\n\n\nO estilo do Brasil preocupa Dalic. As dancinhas nas comemorações nem tanto. “Não podemos deixar espaço para eles”, advertiu durante a entrevista. Se vacilar, ele sabe que as comemorações com repertório variado voltarão a acontecer ali perto dele, sem censura.\n\n\n\n“Eles têm uma forma própria de comemorar e celebram como estão acostumados. Eles estão fazendo as coisas com muita unidade. Mostram sua tradição, característica. Isso significa que é respeitoso ou desrespeitoso? Não saberia dizer. Eu não gostaria de ver os meus jogadores fazendo isso, mas é a cultura deles. Eles gostam. E podem fazer”, desencanou o treinador."
8631,8633,https://www.correiobraziliense.com.br/esportes/2022/12/5057613-modric-revela-que-o-plano-e-levar-a-croacia-alem-das-quartas-de-final.html,2022-12-08-0311:14:00-10800,"{""'Marcos Paulo Lima - Enviado especial'""}",Modric revela que o plano é levar a Croácia além das quartas de final,"Doha — Eleito melhor do mundo em 2018 após levar a Croácia ao vice na Copa do Mundo disputada na Rússia, o meia Luka Modric entrou na sala de conferências do Qatar National Convention Centre mais gelado do que o ar-condicionado do Quartel General da Fifa. Focado, riu algumas vezes, mas na maioria das respostas usou a voz impostada para se impor diante de cada resposta. A maioria delas sobre o favoritismo do Brasil na partida desta sexta-feira (9/12), às 12h (de Brasília), pelas quartas de final da Copa do Mundo Qatar-2022. \n\n\n\n""Estamos nas quartas de final, mas queremos mais. A maior partida da Copa do Mundo é a próxima. O Brasil é sempre favorito, mas, especialmente nesta Copa, acredito que mereça o favoritismo. Temos que dar o nosso melhor. Se fizermos, teremos chances de vencê-los"", disse.\n\nA Croácia enfrentou o Brasil duas vezes na Copa e perdeu em ambas nas edições de 2006 e 2014. O último confronto foi há quatro anos e meio, na Inglaterra, antes da abertura da Copa do Mundo disputada na Rússia. A Seleção venceu o confronto por 2 x 0. \n\n\n\nNa partida desta sexta, Modric enfrentará atuais e ex-companheiros. Éder Militão, Vinicius Junior e Rodrygo jogam com ele no Real Madrid. Casemiro e Danilo foram parceiros do meia no clube merengue em diferentes conquistas, as maiores na Liga dos Campeões da Europa. \n\n\n\nNa última quarta-feira (7/12), Vinicius Junior elogiou Modric e reconheceu o empenho do croata em ajudá-lo a evoluir. Foi com ele, por exemplo, que aprendeu a dar passe de três dedos. “É muito bom saber que o Vinicius está me elogiando, me parabenizando. Ele é excelente jogador, pessoa muito boa. Tem muita capacidade física. Desde que ele entrou no Real, demonstra isso no clube em todos os jogos e também no vestiário. Está fazendo a mesma coisa nesta Copa”, comentou.\n\n\n\nAutor do gol do título do Real Madrid contra o Liverpool na última Liga dos Campeões e parceiro de ataque do centroavante Benzema no time comandado por Carlo Ancelotti, Vinicius Junior impressiona Modric pelos dribles em velocidade. “É difícil pará-lo. Posso dar conselhos aos meus colegas croatas, mas se puder ajudá-los dando uma dica, para tentar neutralizá-los, claro que vou fazer. Todos nós estamos representando aqui nossas seleções”, lembrou o astro."
8632,8634,https://www.correiobraziliense.com.br/economia/2022/12/5057600-moveinfra-anuncia-rs-783-bilhoes-para-investimento-em-infraestrutura.html,2022-12-08-0312:04:00-10800,"{""'Michelle Portela'""}","MoveInfra anuncia R$ 78,3 bilhões para investimento em infraestrutura","O movimento empresarial de infraestrutura que reúne as cinco principais empresas do setor no país pretende investir R$ 78,4 bilhões em projetos do setor. O lançamento do MoveInfra, com anúncio de recursos e projetos, ocorreu nesta quinta-feira (8), no Brasil 21.\n\nO grupo é formado pelas empresas CCR, EcoRodovias, Rumos, Santos Brasil e Ultracargo. “Nos demos conta de que, para fazer investimentos de forma sustentável, era necessário fazer com a defesa de estratégias que culminaram na criação deste movimento“, diz João Alverto Abreu, presidente do Rumos.\n\nUma das bandeiras defendidas pelo MoveInfra é a reindustrialização baseada na agenda verde. Trata-se de um passo importante em busca da transição energética. “O Brasil pode ser protagonista dessa modernização”, acredita Natália Marcassa, executiva do MoveInfra.\n\nConvidado para o lançamento do MoveInfra, o governador eleito de São Paulo, Tarcísio de Freitas (Republicanos), elogiou a iniciativa empresarial. “É uma iniciativa promissora. O Brasil está diante de uma grande oportunidade [para buscar novos investimentos]”, disse.\n\nFreitas anunciou que deverá autorizar a licitação para a finalização do RodoAnel em março do próximo ano e investir na malha ferroviária do estado.\n\nAssine a newsletter do Correio Braziliense. E fique bem informado sobre as principais notícias do dia, no começo da manhã. Clique aqui.\n\nQuer ficar por dentro sobre as principais notícias do Brasil e do mundo? Siga o Correio Braziliense nas redes sociais. Estamos no Twitter, no Facebook, no Instagram, no TikTok e no YouTube. Acompanhe!"
8633,8635,https://www.correiobraziliense.com.br/economia/2022/12/5057624-apos-encontro-com-haddad-guedes-reforca-defesa-de-novo-marco-fiscal.html,2022-12-08-0312:17:00-10800,"{""'Rosana Hessel'""}","Após encontro com Haddad, Guedes reforça defesa de novo marco fiscal","Após encontro de pouco mais de uma hora com o ex-prefeito de São Paulo Fernando Haddad (PT), nesta quinta-feira (8/12), o ministro da Economia, Paulo Guedes, reforçou, em evento virtual do Tesouro Nacional, a necessidade de mudança do arcabouço fiscal e admitiu que está conversando com a equipe de transição sobre o assunto. E, nesse sentido, ele disse que a pasta tem duas propostas de alternativas ao teto de gastos — regra que limita o aumento das despesas à inflação.\n\nA primeira, dos técnicos do Tesouro, utilizando a dívida pública para o limite das despesas que já foi apresentada e, a segunda, da Secretaria de Política Econômica (SPE) da pasta que ainda está sendo preparada.\n\n“O teto foi mal construído”, disse Guedes na justificativa das constantes mudanças no limite do teto, desde o início do governo. “O Tesouro já apresentou a proposta. A SPE está fazendo outra proposta e estamos conversando com a transição. Vamos seguir aperfeiçoando (o novo arcabouço fiscal)”, afirmou.\n\nNa avaliação do ministro da Economia, as confusões de meta fiscal e variável de controle, que é o teto de gastos, precisam ser corrigidas. “Até se eu pagar o BID (Banco Interamericano de Desenvolvimento), eu furo o teto”, reclamou Guedes, lembrando que, para pagar os organismos internacionais, o governo usa uma conta no exterior que não afeta diretamente o fluxo das contas públicas internas.\n\nAssim que retornou ao hotel onde o presidente eleito Luiz Inácio Lula da Silva (PT) está hospedado, Haddad comentou a reunião, que não teve a participação de nenhum técnico ou assessor de ambos. “Foi excelente”, disse o ex-prefeito e economista, que é o mais cotado para assumir o Ministério da Fazenda, a ser recriado pelo governo Lula. “O plano geral de voo foi tratado tanto com aquilo que ele entende que está legando quanto com o que vamos fazer no ano que vem”, acrescentou.\n\nSegundo o petista, o objetivo é dar continuidade a projetos que estão em andamento e que beneficiem a população. “O Orçamento para o ano que vem não pode ser menor do que o deste ano”, emendou. \n\nAntes de Haddad, Guedes também já esteve reunido com o ex-ministro da Fazenda Nelson Barbosa e o professor da Universidade Estadual de Campinas (Unicamp) Guilherme Mello, integrantes da equipe de transição. O ex-prefeito ainda contou que será montado um cronograma de trabalho entre as duas equipes a partir da próxima semana.\n\nDurante o evento do Tesouro, Guedes voltou a fazer um balanço positivo do atual governo e voltou a criticar os economistas que erraram nas projeções para o crescimento da economia desde a pandemia da covid-19, inclusive, neste ano. “O pessoal errou porque os modelos estavam sendo recalibrados e houve muito barulho político e falsas narrativas”, frisou.\n\nSegundo ele, o Produto Interno Bruto (PIB) deste ano deverá crescer 3%, e, no ano que vem, poderá crescer 2,5%, o previsto nas estimativas da Economia. “O Banco Central vai começar a descer os juros e entrará o componente cíclico”, afirmou ele, sem mencionar os riscos fiscais apontados pelo Banco Central, ontem, no comunicado do Comitê de Política Monetária (Copom), em que deixou a porta aberta para novas altas na taxa básica da economia (Selic), mantida em 13,75% ao ano.\n\nAssine a newsletter do Correio Braziliense. E fique bem informado sobre as principais notícias do dia, no começo da manhã. Clique aqui.\n\nQuer ficar por dentro sobre as principais notícias do Brasil e do mundo? Siga o Correio Braziliense nas redes sociais. Estamos no Twitter, no Facebook, no Instagram, no TikTok e no YouTube. Acompanhe!"
8634,8636,https://www.correiobraziliense.com.br/economia/2022/12/5057740-atraso-na-coleta-do-censo-traz-riscos-a-qualidade-da-informacao-diz-sindicato.html,2022-12-08-0318:10:00-10800,"{""'Agência Estado'""}","Atraso na coleta do Censo traz riscos à qualidade da informação, diz sindicato","O atraso na coleta do Censo Demográfico 2022 ""traz riscos à qualidade da informação"", alertou nesta quinta-feira, 8, o sindicato nacional dos servidores do Instituto Brasileiro de Geografia e Estatística, o ASSIGBE-SN.\n\n""De forma mais imediata, é preciso alertar que o simples prolongamento da coleta traz riscos à qualidade da informação, na medida em que as entrevistas se distanciam da data de referência do censo (31 de julho)"", escreveu o sindicato, em comunicado.\n\nO IBGE informou na última terça-feira, 6, ter prorrogado novamente a coleta em campo do Censo. O prazo foi estendido de dezembro até, no mínimo, o fim de janeiro. O trabalho de levantamento de informações, que teve início em 1º de agosto deste ano, estava previsto inicialmente para ser concluído no fim de outubro.\n\n""Um quarto da população brasileira (cerca de 50 milhões de pessoas), ainda não foi contabilizada pelo Censo 2022. Trata-se de um imenso atraso na operação, tanto em relação ao seu planejamento (era esperado que o Censo terminasse até o final de outubro) quanto se comparado ao recenseamento de 2010, que no mês de novembro já divulgava resultados substanciais"", lamentou o sindicato.\n\nSegundo o ASSIBGE-SN, o problema é sistêmico, uma vez que houve atraso em todas as unidades da federação, sendo possível já vislumbrar que ""o recenseamento só poderá ser concluído com o prosseguimento da coleta nos primeiros meses de 2023"".\n\n""Essa situação não é de modo algum uma surpresa. As dificuldades do Censo revelam o processo de desmonte do IBGE, há muito apontado pela ASSIBGE. Mais especificamente, já em 2019 a ASSIBGE alertava que o corte orçamentário do Censo e a alteração de seu projeto técnico - determinados pelo Ministro Paulo Guedes e acatados pela direção por ele nomeada no IBGE - traziam sérios riscos à operação censitária"", declarou o sindicato.\n\nOs técnicos do IBGE orçaram inicialmente a operação censitária em R$ 3,1 bilhões, para que ocorresse em 2020. No entanto, a verba acabou cortada para R$ 2,3 bilhões, e os questionários foram enxugados.\n\nEm função da pandemia de covid-19, o levantamento foi adiado para 2021, mas acabou inviabilizado naquele ano por falta de destinação de orçamento pelo governo federal. Após decisão do Supremo Tribunal Federal, o governo do presidente Jair Bolsonaro ficou obrigado a disponibilizar recursos para a realização do Censo em 2022.\n\nO sindicato avalia que o orçamento inicialmente proposto, de R$ 3,1 bilhões, precisaria ser corrigido pela inflação para R$3,7 bilhões para que o Censo fosse conduzido de forma adequada.\n\n""Para comparação, em 2010 a população brasileira era 10% menor do que a atual, mas ainda assim o orçamento do Censo de 2010, atualizado pela inflação, equivaleria a R$ 3,4 bilhões em 2022. A desidratação do orçamento implicou na compactação de toda estrutura do Censo: redução das equipes, diminuição na divulgação, corte no número de equipamentos e combustível, e finalmente, redução nos valores pagos aos recenseadores e supervisores"", enumerou o sindicato.\n\nApesar dos esforços para flexibilizar regras de contratação e melhorar a remuneração de recenseadores, o instituto permanece ainda com dificuldades de preencher as vagas necessárias em determinados locais. Como consequência, os dados sobre a população de estados e municípios que serão entregues ao Tribunal de Contas da União (TCU) em 26 de dezembro ainda precisarão ser completados, em parte, com estimativas populacionais feitas com base nos dados do novo censo. As informações sobre contingentes populacionais são usadas no rateio do Fundo de Participação de Estados e Municípios.\n\n""As baixas remunerações dos recenseadores provocaram pouca procura por vagas, alta desistências e produção de questionário em ritmo lento. De um total de cerca de 180 mil recenseadores previstos para estarem trabalhando no auge da operação, apenas 140 mil estavam contratados no mês de outubro, e desse total apenas 95 mil eram considerados produtivos, o que corresponde a 52% do total de vagas disponíveis e previstas para a operação"", avaliou o ASSIBGE-SN.\n\nEm todo o País, o IBGE contava com 60.611 recenseadores em ação no início desta semana, cerca de um terço de todas as vagas disponibilizadas. A redução no quadro de servidores efetivos também é um empecilho ao bom andamento do trabalho censitário, aponta a entidade que representa os funcionários do órgão.\n\n""Enquanto na operação censitária de 2010 o IBGE contava com 7 mil funcionários efetivos, no momento o instituto conta com pouco mais de 4 mil. O quadro reduzido resultou em uma série de gargalos na área técnica, administrativa e de informática. Para organização da rede de coleta censitária, o IBGE teve que contratar trabalhadores temporários para preencher 1.343 vagas para Coordenador de Subárea temporário (CCS) e 31 vaga para Coordenador de Área, postos estratégicos para assegurar agilidade e qualidade no Censo e que eram ocupados, nas edições anteriores, por funcionários do quadro. S..."


In [100]:
# Verificando ausentes ou nulos.
df.isnull().sum()

ID_NOTICIA           0
URL                  0
DATA_PUBLICACAO    147
AUTOR                0
TITULO               0
TEXTO                0
dtype: int64

In [101]:
# # notícias por autor.
df.AUTOR.value_counts()

{"'Correio Braziliense'"}                                                        1153
{"'Agência Estado'"}                                                              782
{"'Observatorio dos Famosos'"}                                                    282
{}                                                                                242
{"'Observatório dos Famosos'"}                                                    196
                                                                                 ... 
{"'Mila Ferreira, Gabriela Ornelas'"}                                               1
{"'Clara Mariz, Hiago Rocha - TV Alterosa e Maicon Costa - Estado de Minas'"}       1
{"'Guy Hedgecoe - Da BBC News em Madri'"}                                           1
{"'Carlos Silva*Isac Mascarenhas*'"}                                                1
{"'Letícia Mori @leticiamori_ - Da BBC News Brasil em São Paulo'"}                  1
Name: AUTOR, Length: 914, dtype: int64

In [104]:
# Maior título de notícia pelo tamanho do título.
tamanho = []
for i in df.TITULO:
    tamanho.append(len(i))
    
max(tamanho)

200

In [105]:
# Maior texto de notícia pelo tamanho do texto.
tamanho = []
for i in df.TEXTO:
    tamanho.append(len(i))
    
max(tamanho)

153350

## 2 - Preparando Corpus

In [16]:
# Salva conteúdo corpus das notícias.
def salva_conteudo_corpus(path, nome_arquivo, texto):
    # Open arquivo '.txt'.
    text_file = open(path+nome_arquivo, "w", encoding='utf-8')
 
    # Write string para o arquivo.
    text_file.write(texto)
 
    # Close arquivo '.txt'.
    text_file.close()

In [36]:
# Junta todo o conteudo das notícias.
conteudo = ''

for linha in range(0, len(df['TEXTO'])):
    conteudo=conteudo+df['TEXTO'][linha]

print("Quantidade de caracteres no corpus: [", len(conteudo), "]")

salva_conteudo_corpus(path, "conteudo_noticias.txt", conteudo)

Quantidade de caracteres no corpus: [ 27273619 ]


In [4]:
# Abrindo o arquivo txt, armazenando o seu conteúdo em uma variável
with open(path+"conteudo_noticias.txt", mode='r', encoding='utf-8') as f:
    conteudo_treino = f.read()

print("Quantidade de caracteres no corpus: [", len(conteudo_treino), "]")
print()
# Mostrando uma parte do conteúdo do arquivo
print(conteudo_treino[:500])

Quantidade de caracteres no corpus: [ 27273619 ]

A oito dias das eleições, os dois principais candidatos à Presidência, Jair Bolsonaro (PL) e Luiz Inácio Lula da Silva (PT), jogam os últimos lances para a semana final antes do primeiro turno de votação, em 2 de outubro. Mas, se na campanha petista a recomendação é de calçar as "sandálias da humildade" e evitar a euforia da cada vez maior possibilidade de vitória no primeiro turno, na do presidente acendeu a luz de emergência.

O comitê de campanha tenta uma correção de rumo por causa das segui


In [5]:
# lowercase - passa o corpus para letras minúsculas.
conteudo_lower = conteudo_treino.lower()
# print(conteudo_lower[:10000])
print("Quantidade de caracteres no corpus: [", len(conteudo_lower), "]")

Quantidade de caracteres no corpus: [ 27273619 ]


In [6]:
# retira pontuações do corpus, permanecendo somentes as palavras.
conteudo_sem_pontuacao = re.sub(r'[^\w\s]', ' ', conteudo_lower)
# print(conteudo[:10000])
print("Quantidade de caracteres no corpus: [", len(conteudo_sem_pontuacao), "]")

Quantidade de caracteres no corpus: [ 27273619 ]


In [7]:
# tokenize o corpus por palavras.
conteudo_tokens = re.findall(r'\w+', conteudo_sem_pontuacao)
# print(conteudo_tokens[:10000])
print("Quantidade total de palvras no corpus: [", len(conteudo_tokens), "]")
print("Quantidade total de palvras unicas no corpus (vocabulário): [", len(set(conteudo_tokens)), "]")

Quantidade total de palvras no corpus: [ 4464813 ]
Quantidade total de palvras unicas no corpus (vocabulário): [ 86481 ]


## 3 - Preparanção do Corretor Ortográfico

### 3.1 -  Palavra com letra faltante (ERRO).

In [25]:
def insere_letras_faltantes(palavra_fatiada):
    """
    Função para inserir letra ou letras faltantes na palavra informada.
    Recebe uma lista de tuplas (esquerdo, direito) que corresponde aos lados
    esquerdo e direito da palavra fatiada em dois.
    """

    # Lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Todas as letras do alfabeto e as vogais acentuadas.
    letras = 'abcedfghijklmnopqrstuvwxyzáâàãéêèíîìóôòõúûùç'

    # Iterando por todas as tuplas da lista recebida
    for esquerdo, direito in palavra_fatiada:
        
        # Iterando por toda letra das variável letras
        for letra in letras:

            # Acrescentando todas as possibilidades de palavras possíveis
            novas_palavras.append(esquerdo + letra + direito)
    
    # Retornando uma lista de possíveis palavras
    return novas_palavras

In [26]:
# Testando a função
print(insere_letras_faltantes([('programa', 'ão')]))

['programaaão', 'programabão', 'programacão', 'programaeão', 'programadão', 'programafão', 'programagão', 'programahão', 'programaião', 'programajão', 'programakão', 'programalão', 'programamão', 'programanão', 'programaoão', 'programapão', 'programaqão', 'programarão', 'programasão', 'programatão', 'programauão', 'programavão', 'programawão', 'programaxão', 'programayão', 'programazão', 'programaáão', 'programaâão', 'programaàão', 'programaãão', 'programaéão', 'programaêão', 'programaèão', 'programaíão', 'programaîão', 'programaìão', 'programaóão', 'programaôão', 'programaòão', 'programaõão', 'programaúão', 'programaûão', 'programaùão', 'programação']


In [27]:
def gera_palavras_1(palavra):
    """
    Função para gerar possíveis palavras de acordo com a palavra passada e fatiada pela lógica.
    """

    # Lista vazia para armazenar as duas fatias de cada palavra.
    fatias = []

    # Iterando por cada letra de cada palavra.
    for i in range(len(palavra) + 1):

        # Armazenando as duas fatias em uma tupla e essa tupla em uma lista.
        fatias.append((palavra[:i], palavra[i:]))

    # Chamando a função 'insere_letras_faltantes' com a lista de tuplas das fatias recém-criadas.
    palavras_geradas = insere_letras_faltantes(fatias)

    # Retornando a lista de possíveis palavras. A palavra correta estará aí no meio.
    return palavras_geradas

In [28]:
# Testando a função
palavras_geradas = gera_palavras_1('programaão')
print("Quantidade de palavra geradas: [", len(palavras_geradas), "]", end="\n\n")
print(palavras_geradas)

Quantidade de palavra geradas: [ 484 ]

['aprogramaão', 'bprogramaão', 'cprogramaão', 'eprogramaão', 'dprogramaão', 'fprogramaão', 'gprogramaão', 'hprogramaão', 'iprogramaão', 'jprogramaão', 'kprogramaão', 'lprogramaão', 'mprogramaão', 'nprogramaão', 'oprogramaão', 'pprogramaão', 'qprogramaão', 'rprogramaão', 'sprogramaão', 'tprogramaão', 'uprogramaão', 'vprogramaão', 'wprogramaão', 'xprogramaão', 'yprogramaão', 'zprogramaão', 'áprogramaão', 'âprogramaão', 'àprogramaão', 'ãprogramaão', 'éprogramaão', 'êprogramaão', 'èprogramaão', 'íprogramaão', 'îprogramaão', 'ìprogramaão', 'óprogramaão', 'ôprogramaão', 'òprogramaão', 'õprogramaão', 'úprogramaão', 'ûprogramaão', 'ùprogramaão', 'çprogramaão', 'parogramaão', 'pbrogramaão', 'pcrogramaão', 'perogramaão', 'pdrogramaão', 'pfrogramaão', 'pgrogramaão', 'phrogramaão', 'pirogramaão', 'pjrogramaão', 'pkrogramaão', 'plrogramaão', 'pmrogramaão', 'pnrogramaão', 'porogramaão', 'pprogramaão', 'pqrogramaão', 'prrogramaão', 'psrogramaão', 'ptrogramaão',

In [29]:
# Mostra a palavra correta que está dentro da lista de possíveis palavra.
for palavra in palavras_geradas:

    # Selecionando a palavra correta
    if palavra == 'programação':

        # Mostrando que a palavra correta está dentro dessa lista
        print("A palavra correta é [", palavra, "]\nEla está dentro da lista na posição [", palavras_geradas.index(palavra), "]")

A palavra correta é [ programação ]
Ela está dentro da lista na posição [ 395 ]


In [30]:
# Calculo da frequência que determinada palavra aparece dentro do corpus. Usando a função FreqDist() da biblioteca nltk. 

# Calcula a frequencia por palavra.
frequencia = nltk.FreqDist(conteudo_tokens)

# Calculando o total de palavras.
total_palavras = len(conteudo_tokens)

# Mostrando as 10 palavras mais comuns da nossa lista_normalizada
frequencia.most_common(10)

[('de', 206086),
 ('a', 146019),
 ('o', 138674),
 ('e', 121862),
 ('que', 99301),
 ('do', 90279),
 ('da', 68367),
 ('em', 64407),
 ('no', 61719),
 ('para', 55206)]

Lembrando que por se tratar de um Corretor Ortográfico, não retiramos as palavras denominadas como `stopwords`: `o, a, os, as, de, da, que, para` e assim por diante. 

In [31]:
def probabilidade_palavra(palavra_gerada):
    """
    Função para calcular a probabilidade de determinada palavra aparecer em nosso corpus.
    """
    # Retorna a probabilidade de determinada palavra aparecer no nosso corpus
    return frequencia[palavra_gerada] / total_palavras

In [32]:
def corretor_palavra_1(palavra_errada):
    """
    Função que recebe uma palavra errada, e retorna a palavra corrigida.
    """
    # Chama a função 'gera_palavras'.
    palavras_geradas = gera_palavras_1(palavra_errada)

    # Selecionando a palavra com maior probabilidade de aparecer em nosso corpus
    # Essa será a palavra correta
    palavra_correta = max(palavras_geradas, key=probabilidade_palavra)

    # Retornando a palavra corrigida
    return palavra_correta

In [36]:
# Testando o corretor.
corretor_palavra_1('programaão')

'programação'

In [37]:
# Testando o corretor.
corretor_palavra_1('test')

'teste'

In [38]:
# Testando o corretor.
corretor_palavra_1('lgica')

'lógica'

### Avaliação do corretor

In [39]:
def cria_dados_teste(nome_arquivo):
    """
    Função que recebe o nome de um arquivo com uma série de palavras digitadas correta e 
    incorretamente para podermos avaliar o nosso corretor.
    """

    # Criando um lista vazia para armazenar as palavras de teste.
    lista_palavras_teste = []

    # Abre o arquivo em mode de leitura.
    f = open(nome_arquivo, 'r', encoding='utf-8')

    # Iterando em toda linha do conteúdo do arquivo de teste.
    for linha in f:
        #print(linha)
        # Separando as palavras digitadas correta e incorretamente avaliarmos.
        correta, errada = linha.split()

        # Armazenando em uma lista as tuplas formadas pelas palavras digitadas correta e incorretamente.
        lista_palavras_teste.append((correta, errada))
    
    # Fechando o arquivo
    f.close()

    # Retornando a lista com as tuplas de palavras digitadas coreta e incorretamante.
    return lista_palavras_teste

In [40]:
# Chamando a função cria_dados_teste() com o nome do arquivo que contém as palavras de teste.
lista_teste = cria_dados_teste('palavras.txt')

In [41]:
def avalia_corretor(testes, corretor_teste):
    """
    Função que recebe uma lista com as tuplas de palavras de teste para avaliar o corretor.
    """

    # Calculando o número de palavras da lista de teste.
    numero_palavras = len(testes)

    # Setando um contador.
    acertou = 0

    # Iterando por cada tupla dentro da lista de teste.
    for correta, errada in testes:

        # Chamando a função corretor() passando cada palavra digitada incorretamente.
        palavra_corrigida = corretor_teste(errada)

        # Conferindo cada palavra para ver se ele conseguiu corrigir.
        if palavra_corrigida == correta:

            # Incrementando o contador.
            acertou += 1
    
    # Calculando a taxa de acerto do nosso corretor.
    taxa_acerto = round(acertou * 100 / numero_palavras, 2)

    # Mostrando a taxa de acerto doe nosso corretor.
    print(f'{taxa_acerto}% de {numero_palavras} palavras')

In [42]:
# Testa corretor.
avalia_corretor(lista_teste, corretor_palavra_1)

2.15% de 186 palavras


### 3.2 -  Palavra com uma letra a mais (ERRO).

In [43]:
def deleta_caracter(fatias):
    """
    Função para deletar um caracter depois que recebe as fatias.
    """

    # Criando uma lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Iterando por todas as tuplas da lista recebida.
    for esquerdo, direito in fatias:

        # Acrescentando todas as possibilidades de palavras possíveis.
        novas_palavras.append(esquerdo + direito[1:])
    
    # Retornando uma lista de possíveis palavras.
    return novas_palavras

In [44]:
# Testando função.
# Criando um exemplo para testarmos a nova função.
exemplo = [('progr', 'samação')]

# Chamando a função deletando_caracter() passando como parâmetro um exemplo.
deleta_caracter(exemplo)

['programação']

In [45]:
def gera_palavras_2(palavra):
    """
    Função para gerar possíveis palavras de acordo com a palavra passada e fatiada pela lógica.
    """

    # Lista vazia para armazenar as duas fatias de cada palavra.
    fatias = []

    # Iterando por cada letra de cada palavra.
    for i in range(len(palavra) + 1):

        # Armazenando as duas fatias em uma tupla e essa tupla em uma lista.
        fatias.append((palavra[:i], palavra[i:]))

    # Chamando a função 'insere_letras_faltantes' com a lista de tuplas das fatias recém-criadas.
    palavras_geradas = insere_letras_faltantes(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += deleta_caracter(fatias)

    # Retornando a lista de possíveis palavras. A palavra correta estará aí no meio.
    return palavras_geradas

In [130]:
# Testa função.
palavras_geradas = gera_palavras_2('progrsamação')

print("Quantidade de palavra geradas: [", len(palavras_geradas), "]", end="\n\n")
print(palavras_geradas)

Quantidade de palavra geradas: [ 585 ]

['aprogrsamação', 'bprogrsamação', 'cprogrsamação', 'eprogrsamação', 'dprogrsamação', 'fprogrsamação', 'gprogrsamação', 'hprogrsamação', 'iprogrsamação', 'jprogrsamação', 'kprogrsamação', 'lprogrsamação', 'mprogrsamação', 'nprogrsamação', 'oprogrsamação', 'pprogrsamação', 'qprogrsamação', 'rprogrsamação', 'sprogrsamação', 'tprogrsamação', 'uprogrsamação', 'vprogrsamação', 'wprogrsamação', 'xprogrsamação', 'yprogrsamação', 'zprogrsamação', 'áprogrsamação', 'âprogrsamação', 'àprogrsamação', 'ãprogrsamação', 'éprogrsamação', 'êprogrsamação', 'èprogrsamação', 'íprogrsamação', 'îprogrsamação', 'ìprogrsamação', 'óprogrsamação', 'ôprogrsamação', 'òprogrsamação', 'õprogrsamação', 'úprogrsamação', 'ûprogrsamação', 'ùprogrsamação', 'çprogrsamação', 'parogrsamação', 'pbrogrsamação', 'pcrogrsamação', 'perogrsamação', 'pdrogrsamação', 'pfrogrsamação', 'pgrogrsamação', 'phrogrsamação', 'pirogrsamação', 'pjrogrsamação', 'pkrogrsamação', 'plrogrsamação', 'pmrogr

In [46]:
# Mostra a palavra correta que está dentro da lista de possíveis palavra.
for palavra in palavras_geradas:

    # Selecionando a palavra correta
    if palavra == 'programação':

        # Mostrando que a palavra correta está dentro dessa lista
        print("A palavra correta é [", palavra, "]\nEla está dentro da lista na posição [", palavras_geradas.index(palavra), "]")

A palavra correta é [ programação ]
Ela está dentro da lista na posição [ 395 ]


In [47]:
def corretor_palavra_2(palavra_errada):
    """
    Função que recebe uma palavra errada, e retorna a palavra corrigida.
    """
    # Chama a função 'gera_palavras'.
    palavras_geradas = gera_palavras_2(palavra_errada)

    # Selecionando a palavra com maior probabilidade de aparecer em nosso corpus
    # Essa será a palavra correta
    palavra_correta = max(palavras_geradas, key=probabilidade_palavra)

    # Retornando a palavra corrigida
    return palavra_correta

### Avaliação do corretor

In [48]:
# Testa corretor.
avalia_corretor(lista_teste, corretor_palavra_2)

45.16% de 186 palavras


### 3.3 -  Palavra com uma letra errada vizinha da letra correta (ERRO - trocando letras).

In [49]:
def troca_caracter(fatias):
    """
    Função que recebe uma lista de tuplas (esquerdo, direito) que corresponde aos lados esquerdo e direito 
    da palavra fatiada em dois.
    """

    # Criando uma lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Todas as letras do alfabeto e as vogais acentuadas.
    letras = 'abcedfghijklmnopqrstuvwxyzáâàãéêèíîìóôòõúûùç'

    # Iterando por todas as tuplas da lista recebida.
    for esquerdo, direito in fatias:

        # Iterando por toda letra das variável letras.
        for letra in letras:

            # Acrescentando todas as possibilidades de palavras possíveis.
            novas_palavras.append(esquerdo + letra + direito[1:])
    
    # Retornando uma lista de possíveis palavras.
    return novas_palavras

In [50]:
# Testando a função
print(troca_caracter([('prog', 'tamação')]))

['progaamação', 'progbamação', 'progcamação', 'progeamação', 'progdamação', 'progfamação', 'proggamação', 'proghamação', 'progiamação', 'progjamação', 'progkamação', 'proglamação', 'progmamação', 'prognamação', 'progoamação', 'progpamação', 'progqamação', 'programação', 'progsamação', 'progtamação', 'proguamação', 'progvamação', 'progwamação', 'progxamação', 'progyamação', 'progzamação', 'progáamação', 'progâamação', 'progàamação', 'progãamação', 'progéamação', 'progêamação', 'progèamação', 'progíamação', 'progîamação', 'progìamação', 'progóamação', 'progôamação', 'progòamação', 'progõamação', 'progúamação', 'progûamação', 'progùamação', 'progçamação']


In [51]:
# Refatorando mais uma vez a função gerador_palavras()
def gera_palavras_3(palavra):
    """
    Função para gerar possíveis palavras de acordo com a palavra passada e fatiada pela lógica.
    """

    # Lista vazia para armazenar as duas fatias de cada palavra.
    fatias = []

    # Iterando por cada letra de cada palavra.
    for i in range(len(palavra) + 1):

        # Armazenando as duas fatias em uma tupla e essa tupla em uma lista.
        fatias.append((palavra[:i], palavra[i:]))

    # Chamando a função 'insere_letras_faltantes' com a lista de tuplas das fatias recém-criadas.
    palavras_geradas = insere_letras_faltantes(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += deleta_caracter(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += troca_caracter(fatias)

    # Retornando a lista de possíveis palavras. A palavra correta estará aí no meio
    return palavras_geradas

In [52]:
# Testa função.
palavras_geradas = gera_palavras_3('progrsamação')

print("Quantidade de palavra geradas: [", len(palavras_geradas), "]", end="\n\n")
print(palavras_geradas)

Quantidade de palavra geradas: [ 1157 ]

['aprogrsamação', 'bprogrsamação', 'cprogrsamação', 'eprogrsamação', 'dprogrsamação', 'fprogrsamação', 'gprogrsamação', 'hprogrsamação', 'iprogrsamação', 'jprogrsamação', 'kprogrsamação', 'lprogrsamação', 'mprogrsamação', 'nprogrsamação', 'oprogrsamação', 'pprogrsamação', 'qprogrsamação', 'rprogrsamação', 'sprogrsamação', 'tprogrsamação', 'uprogrsamação', 'vprogrsamação', 'wprogrsamação', 'xprogrsamação', 'yprogrsamação', 'zprogrsamação', 'áprogrsamação', 'âprogrsamação', 'àprogrsamação', 'ãprogrsamação', 'éprogrsamação', 'êprogrsamação', 'èprogrsamação', 'íprogrsamação', 'îprogrsamação', 'ìprogrsamação', 'óprogrsamação', 'ôprogrsamação', 'òprogrsamação', 'õprogrsamação', 'úprogrsamação', 'ûprogrsamação', 'ùprogrsamação', 'çprogrsamação', 'parogrsamação', 'pbrogrsamação', 'pcrogrsamação', 'perogrsamação', 'pdrogrsamação', 'pfrogrsamação', 'pgrogrsamação', 'phrogrsamação', 'pirogrsamação', 'pjrogrsamação', 'pkrogrsamação', 'plrogrsamação', 'pmrog

In [53]:
# Mostra a palavra correta que está dentro da lista de possíveis palavra.
for palavra in palavras_geradas:

    # Selecionando a palavra correta
    if palavra == 'programação':

        # Mostrando que a palavra correta está dentro dessa lista
        print("A palavra correta é [", palavra, "]\nEla está dentro da lista na posição [", palavras_geradas.index(palavra), "]")

A palavra correta é [ programação ]
Ela está dentro da lista na posição [ 577 ]


In [54]:
def corretor_palavra_3(palavra_errada):
    """
    Função que recebe uma palavra errada, e retorna a palavra corrigida.
    """
    # Chama a função 'gera_palavras'.
    palavras_geradas = gera_palavras_3(palavra_errada)

    # Selecionando a palavra com maior probabilidade de aparecer em nosso corpus
    # Essa será a palavra correta
    palavra_correta = max(palavras_geradas, key=probabilidade_palavra)

    # Retornando a palavra corrigida
    return palavra_correta

### Avaliação do corretor

In [55]:
# Testa corretor.
avalia_corretor(lista_teste, corretor_palavra_3)

79.03% de 186 palavras


### 3.4 -  Palavra com uma letra trocada no lugar da letra correta (ERRO - invertendo letras).

In [56]:
def inverte_caracter(fatias):
    """
    Função que recebe as fatias e inverte os caracteres.
    """

    # Criando uma lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Iterando por todas as tuplas da lista recebida.
    for esquerdo, direito in fatias:
        
        # Selecionando apenas as fatias da direita que têm mais de uma letra, pois, se não, não há o que inverter.
        if len(direito) > 1:
            
            # Acrescentando todas as possibilidades de palavras possíveis.
            novas_palavras.append(esquerdo + direito[1] + direito[0] + direito[2:])
    
    # Retornando uma lista de possíveis palavras.
    return novas_palavras

In [57]:
# Refatorando outra vez a função gerador_palavras()
def gera_palavras_4(palavra):
    """
    Função para gerar possíveis palavras de acordo com a palavra passada e fatiada pela lógica.
    """

    # Lista vazia para armazenar as duas fatias de cada palavra.
    fatias = []

    # Iterando por cada letra de cada palavra.
    for i in range(len(palavra) + 1):

        # Armazenando as duas fatias em uma tupla e essa tupla em uma lista.
        fatias.append((palavra[:i], palavra[i:]))

    # Chamando a função 'insere_letras_faltantes' com a lista de tuplas das fatias recém-criadas.
    palavras_geradas = insere_letras_faltantes(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += deleta_caracter(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += troca_caracter(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += inverte_caracter(fatias)

    # Retornando a lista de possíveis palavras. A palavra correta estará aí no meio
    return palavras_geradas

In [58]:
# Testa função.
palavras_geradas = gera_palavras_4('progrsamação')

print("Quantidade de palavra geradas: [", len(palavras_geradas), "]", end="\n\n")
print(palavras_geradas)

Quantidade de palavra geradas: [ 1168 ]

['aprogrsamação', 'bprogrsamação', 'cprogrsamação', 'eprogrsamação', 'dprogrsamação', 'fprogrsamação', 'gprogrsamação', 'hprogrsamação', 'iprogrsamação', 'jprogrsamação', 'kprogrsamação', 'lprogrsamação', 'mprogrsamação', 'nprogrsamação', 'oprogrsamação', 'pprogrsamação', 'qprogrsamação', 'rprogrsamação', 'sprogrsamação', 'tprogrsamação', 'uprogrsamação', 'vprogrsamação', 'wprogrsamação', 'xprogrsamação', 'yprogrsamação', 'zprogrsamação', 'áprogrsamação', 'âprogrsamação', 'àprogrsamação', 'ãprogrsamação', 'éprogrsamação', 'êprogrsamação', 'èprogrsamação', 'íprogrsamação', 'îprogrsamação', 'ìprogrsamação', 'óprogrsamação', 'ôprogrsamação', 'òprogrsamação', 'õprogrsamação', 'úprogrsamação', 'ûprogrsamação', 'ùprogrsamação', 'çprogrsamação', 'parogrsamação', 'pbrogrsamação', 'pcrogrsamação', 'perogrsamação', 'pdrogrsamação', 'pfrogrsamação', 'pgrogrsamação', 'phrogrsamação', 'pirogrsamação', 'pjrogrsamação', 'pkrogrsamação', 'plrogrsamação', 'pmrog

In [59]:
# Mostra a palavra correta que está dentro da lista de possíveis palavra.
for palavra in palavras_geradas:

    # Selecionando a palavra correta
    if palavra == 'programação':

        # Mostrando que a palavra correta está dentro dessa lista
        print("A palavra correta é [", palavra, "]\nEla está dentro da lista na posição [", palavras_geradas.index(palavra), "]")

A palavra correta é [ programação ]
Ela está dentro da lista na posição [ 577 ]


In [60]:
def corretor_palavra_4(palavra_errada):
    """
    Função que recebe uma palavra errada, e retorna a palavra corrigida.
    """
    # Chama a função 'gera_palavras'.
    palavras_geradas = gera_palavras_4(palavra_errada)

    # Selecionando a palavra com maior probabilidade de aparecer em nosso corpus
    # Essa será a palavra correta
    palavra_correta = max(palavras_geradas, key=probabilidade_palavra)

    # Retornando a palavra corrigida
    return palavra_correta

### Avaliação do corretor

In [61]:
# Testa corretor.
avalia_corretor(lista_teste, corretor_palavra_4)

79.57% de 186 palavras


## 4 - Verificando se o corretor conhece um vocabulário vindo do corpus

In [62]:
def avaliador(testes, vocabulario):
    """
    Função que recebe uma lista com as tuplas de palavras de teste para poder avaliar o nosso corretor.
    """

    # Calculando o número de palavras da lista de teste.
    numero_palavras = len(testes)

    # Setando os contadores.
    acertou = desconhecidas = 0

    # Iterando por cada tupla dentro da lista de teste.
    for correta, errada in testes:

        # Chamando a função corretor() passando cada palavra digitada incorretamente.
        palavra_corrigida = corretor_palavra_4(errada)

        # Incrementando o contador das palavras desconhecidas.
        desconhecidas += (correta not in vocabulario)
        
        # Conferindo cada palavra para ver se ele conseguiu corrigir.
        if palavra_corrigida == correta:

            # Incrementando o contador das palavras corretas.
            acertou += 1
    
    # Calculando a taxa de acerto do nosso corretor.
    taxa_acerto = round(acertou * 100 / numero_palavras, 2)

    # Calculando a taxa de erro referente às palavras desconhecidas.
    taxa_desconhecidas = round(desconhecidas * 100 / numero_palavras, 2)

    # Mostrando a taxa de acerto doe nosso corretor.
    print(f'{taxa_acerto}% de {numero_palavras} das palavras conhecidas\n'
          f'e {taxa_desconhecidas}% das palavras desconhecidas')

In [63]:
# Calculando as palavras conecidas
vocabulario = set(conteudo_tokens)

# Chamando a função avaliador()
avaliador(lista_teste, vocabulario)

79.57% de 186 das palavras conhecidas
e 3.76% das palavras desconhecidas


Corretor Ortográfico está bom pela expectativa de informações disponíveis, acertando `79.57%` das palavras com a base de avaliação/teste, e errando `20.43%`, com isso vemos também que o corretor não conhece cerca de `3.76%` das palavras na base de teste, demonstrando que a base de notícias, não possuem algumas palavras específicas para o modelo.

## 5 - Melhor Corretor

In [13]:
# Calculo da frequência que determinada palavra aparece dentro do corpus. Usando a função FreqDist() da biblioteca nltk. 
# Calcula a frequencia por palavra.
frequencia = nltk.FreqDist(conteudo_tokens)

# Calculando o total de palavras.
total_palavras = len(conteudo_tokens)

# Mostrando as 10 palavras mais comuns da nossa lista_normalizada
frequencia.most_common(10)

[('de', 206086),
 ('a', 146019),
 ('o', 138674),
 ('e', 121862),
 ('que', 99301),
 ('do', 90279),
 ('da', 68367),
 ('em', 64407),
 ('no', 61719),
 ('para', 55206)]

In [14]:
########################### Função insere_letras() ############################
def insere_letras_faltantes(palavra_fatiada):
    """
    Função para inserir letra ou letras faltantes na palavra informada.
    Recebe uma lista de tuplas (esquerdo, direito) que corresponde aos lados
    esquerdo e direito da palavra fatiada em dois.
    """

    # Lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Todas as letras do alfabeto e as vogais acentuadas.
    letras = 'abcedfghijklmnopqrstuvwxyzáâàãéêèíîìóôòõúûùç'

    # Iterando por todas as tuplas da lista recebida
    for esquerdo, direito in palavra_fatiada:
        
        # Iterando por toda letra das variável letras
        for letra in letras:

            # Acrescentando todas as possibilidades de palavras possíveis
            novas_palavras.append(esquerdo + letra + direito)
    
    # Retornando uma lista de possíveis palavras
    return novas_palavras

######################## Função deletando_caracter() ##########################
def deleta_caracter(fatias):
    """
    Função para deletar um caracter depois que recebe as fatias.
    """

    # Criando uma lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Iterando por todas as tuplas da lista recebida.
    for esquerdo, direito in fatias:

        # Acrescentando todas as possibilidades de palavras possíveis.
        novas_palavras.append(esquerdo + direito[1:])
    
    # Retornando uma lista de possíveis palavras.
    return novas_palavras

######################## Função trocando_caracter() ###########################
def troca_caracter(fatias):
    """
    Função que recebe uma lista de tuplas (esquerdo, direito) que corresponde aos lados esquerdo e direito 
    da palavra fatiada em dois.
    """

    # Criando uma lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Todas as letras do alfabeto e as vogais acentuadas.
    letras = 'abcedfghijklmnopqrstuvwxyzáâàãéêèíîìóôòõúûùç'

    # Iterando por todas as tuplas da lista recebida.
    for esquerdo, direito in fatias:

        # Iterando por toda letra das variável letras.
        for letra in letras:

            # Acrescentando todas as possibilidades de palavras possíveis.
            novas_palavras.append(esquerdo + letra + direito[1:])
    
    # Retornando uma lista de possíveis palavras.
    return novas_palavras

####################### Função invertendo_caracter() ##########################
def inverte_caracter(fatias):
    """
    Função que recebe as fatias e inverte os caracteres.
    """

    # Criando uma lista vazia para armazenar as palavras corrigidas.
    novas_palavras = []

    # Iterando por todas as tuplas da lista recebida.
    for esquerdo, direito in fatias:
        
        # Selecionando apenas as fatias da direita que têm mais de uma letra, pois, se não, não há o que inverter.
        if len(direito) > 1:
            
            # Acrescentando todas as possibilidades de palavras possíveis.
            novas_palavras.append(esquerdo + direito[1] + direito[0] + direito[2:])
    
    # Retornando uma lista de possíveis palavras.
    return novas_palavras

######################### Função gerador_palavras() ###########################
# Refatorando outra vez a função gerador_palavras()
def gera_palavras(palavra):
    """
    Função para gerar possíveis palavras de acordo com a palavra passada e fatiada pela lógica.
    """

    # Lista vazia para armazenar as duas fatias de cada palavra.
    fatias = []

    # Iterando por cada letra de cada palavra.
    for i in range(len(palavra) + 1):

        # Armazenando as duas fatias em uma tupla e essa tupla em uma lista.
        fatias.append((palavra[:i], palavra[i:]))

    # Chamando a função 'insere_letras_faltantes' com a lista de tuplas das fatias recém-criadas.
    palavras_geradas = insere_letras_faltantes(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += deleta_caracter(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += troca_caracter(fatias)

    # Acrescentando mais uma função, aqui que o novo corretor começa.
    palavras_geradas += inverte_caracter(fatias)

    # Retornando a lista de possíveis palavras. A palavra correta estará aí no meio
    return palavras_geradas

############################# Função probabilidade_palavra ###############################
def probabilidade_palavra(palavra_gerada):
    """
    Função para calcular a probabilidade de determinada palavra aparecer em nosso corpus.
    """
    # Retorna a probabilidade de determinada palavra aparecer no nosso corpus
    return frequencia[palavra_gerada] / total_palavras

############################# Função corretor_ortografico ###############################
def corretor_ortografico(palavra_errada):
    """
    Função que recebe uma palavra errada, e retorna a palavra corrigida.
    """
    # Chama a função 'gera_palavras'.
    palavras_geradas = gera_palavras(palavra_errada)

    # Selecionando a palavra com maior probabilidade de aparecer em nosso corpus
    # Essa será a palavra correta
    palavra_correta = max(palavras_geradas, key=probabilidade_palavra)

    # Retornando a palavra corrigida
    return palavra_correta

############################# Função avaliador() ###############################
def avaliador(testes, vocabulario):
    """
    Função que recebe uma lista com as tuplas de palavras de teste para poder avaliar o nosso corretor.
    """

    # Calculando o número de palavras da lista de teste.
    numero_palavras = len(testes)

    # Setando os contadores.
    acertou = desconhecidas = 0

    # Iterando por cada tupla dentro da lista de teste.
    for correta, errada in testes:

        # Chamando a função corretor() passando cada palavra digitada incorretamente.
        palavra_corrigida = corretor_ortografico(errada)

        # Incrementando o contador das palavras desconhecidas.
        desconhecidas += (correta not in vocabulario)
        
        # Conferindo cada palavra para ver se ele conseguiu corrigir.
        if palavra_corrigida == correta:

            # Incrementando o contador das palavras corretas.
            acertou += 1
    
    # Calculando a taxa de acerto do nosso corretor.
    taxa_acerto = round(acertou * 100 / numero_palavras, 2)

    # Calculando a taxa de erro referente às palavras desconhecidas.
    taxa_desconhecidas = round(desconhecidas * 100 / numero_palavras, 2)

    # Mostrando a taxa de acerto doe nosso corretor.
    print(f'{taxa_acerto}% de {numero_palavras} das palavras conhecidas\n'
          f'e {taxa_desconhecidas}% das palavras desconhecidas')

In [65]:
# Calculando as palavras conecidas
vocabulario = set(conteudo_tokens)

# Chamando a função avaliador()
avaliador(lista_teste, vocabulario)

79.57% de 186 das palavras conhecidas
e 3.76% das palavras desconhecidas


## 6 - Teste do corretor

In [15]:
# Digite aqui a sua palavra incorreta
teste = 'natrual'

# Mostrando as respostas dos dois corretores
print(f'Entrada =================> {teste}\nResposta do corretor ====> {corretor_ortografico(teste)}')
     

Resposta do corretor ====> natural


In [16]:
# Digite aqui a sua palavra incorreta
teste = 'começande'

# Mostrando as respostas dos dois corretores
print(f'Entrada =================> {teste}\nResposta do corretor ====> {corretor_ortografico(teste)}')

Resposta do corretor ====> começando


In [17]:
# Digite aqui a sua palavra incorreta
teste = 'avaliacão'

# Mostrando as respostas dos dois corretores
print(f'Entrada =================> {teste}\nResposta do corretor ====> {corretor_ortografico(teste)}')

Resposta do corretor ====> avaliação


## 7 - Modelo com a lib TextBlob

### 7.1 - Corretor de palavra em inglês

In [69]:
word = Word('appple')

result = word.spellcheck()

print(result)

[('apple', 1.0)]


In [70]:
word = Word('pythonn')

result = word.spellcheck()

print(result)

[('pythonn', 0.0)]


### 7.2 - Corretor de frase ou texto em inglês

In [71]:
sentence = TextBlob('A sentencee to checkk!')

result = sentence.correct()

print(result)

A sentence to check!


## 8 - Modelo pré-treinado com método `transforms` disponível no HuggingFaces

In [72]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

In [3]:
# tokenizer = AutoTokenizer.from_pretrained("oliverguhr/spelling-correction-english-base")

# model = AutoModelForSeq2SeqLM.from_pretrained("oliverguhr/spelling-correction-english-base")

Downloading: 100%|██████████| 1.74k/1.74k [00:00<00:00, 349kB/s]
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Downloading: 100%|██████████| 558M/558M [02:47<00:00, 3.33MB/s]  


In [74]:
from transformers import pipeline

In [75]:
fix_spelling = pipeline("text2text-generation",model="oliverguhr/spelling-correction-english-base")

print(fix_spelling("lets do a comparsion",max_length=2048))

[{'generated_text': "Let's do a comparison."}]


In [76]:
print(fix_spelling('ze shop is cloed due to covid 19',max_length=2048))

[{'generated_text': 'The shop is closed due to Covid 19.'}]


In [77]:
print(fix_spelling('cloed',max_length=2048))

[{'generated_text': 'Closed.'}]
