Um programa que, a partir de um tema, extrai conteúdo da Wikipedia, resume e adiciona imagens; depois formata e exporta um documento em formato de trabalho escolar.
Digitar um tema e esperar. Depois de um tempo, ter em mãos um arquivo formatado com imagens e conteúdo resumido da Wikipedia. A ideia não é necessariamente ter o resultado final, mas ter algo próximo disso: algo que precisemos apenas fazer algumas alterações pequenas.
- Tenha Python instalado;
- Clone ou baixe o repositório;
- Vá na pasta
requirements
e clique eminstall_all.bat
; isso vai instalar todos os pacotes e bibliotecas necessárias e instalar o pluginpunkt
do módulonltk
. - Execute o arquivo
main.py
e digite o termo de pesquisa, e o percentual de resumo. - Vá para a pasta
pesquisa
criada automaticamente na pasta onde o script foi executado; leia e faça aperfeiçoamentos, se necessário na sua pesquisa automática :)
Algum problema ou sugestão? Abra uma issue
!
Nota: em aperfeiçoamento.
-
O programa recolhe o input do usuário, contendo o tema da pesquisa;
-
A partir desse input, faz a pesquisa automática na Wikipedia;
Usei a biblioteca
wikipedia
para extrair o conteúdo. -
Com o conteúdo dessa pesquisa, limpa espaços e conteúdos indesejados;
-
Com o conteúdo limpo, resume o texto;
Utilizei, como base, uma gist de sumarização do GitHub, clique aqui para ver.
-
Separa o conteúdo em parágrafos e define palavras chave para cada;
Para isso, usei um algoritmo de
Compreensão de Linguagem Natural
por inteligência artificial doIBM Cloud/ Watson
, clique aqui para ver. -
Faz o download de imagens com base em palavras-chave extraídas do resumo;
Usei a API do
Google Cloud Platform
chamadaCustom Search
, clique aqui para ver. -
Com todas as informações, formata um arquivo de texto com as imagens e o conteúdo;
-
Gera e exporta o documento final.