Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Remake - Tarefas #1

Open
34 of 35 tasks
Niaev opened this issue Jul 29, 2020 · 0 comments
Open
34 of 35 tasks

Remake - Tarefas #1

Niaev opened this issue Jul 29, 2020 · 0 comments
Labels
enhancement New feature or request

Comments

@Niaev
Copy link
Owner

Niaev commented Jul 29, 2020

Introdução

  • Especificar tarefas do projeto
  • Criar branch remake no repositório
  • Apagar __init__.py e links.txt na nova branch

Base

  • Criar data/pages.db - arquivo de dados
  • Criar dbbuilder.py - arquivo que cria base de dados
  • Criar tracker.py - arquivo que controla as classes
  • Criar crawler.py - arquivo com a classe Crawler
  • Criar indexer.py - arquivo com a classe Indexer

dbbuilder.py

Arquivo que cria base de dados

  • Importar sqlite3
  • Criar tabela de links
  • Criar tabela de links e conteúdos

tracker.py

Arquivo que controlará as classes.

  • Solicitar seeds - links base para "raspagem"
  • Solicitar profundidade para "raspagem"
  • Iniciar Crawler
  • Criar lista de links
  • Iniciar Indexer
  • Tratar lista de links e armazenar
  • Criar lista de conteúdos
  • Tratar lista de conteúdos e armazenar

crawler.py

Este arquivo deverá conter a classe Crawler e funções relativas à web crawling.

  • Iniciar classe
  • track() - Desenvolver função que busca links em uma página
  • scrape() - Desenvolver função que "raspa" página, buscando por título, descrição e conteúdo principal
  • scrape_list() - Desenvolver função que "raspa" uma lista qualquer de links, fora de Crawler
  • scrape_links() - Desenvolver função que "raspa" todos os links encontrados em track()
  • track_with_depht() - Desenvolver função recursiva que busca links em uma página, com um limite de níveis de profundidade
    scrape_with_depht() - Desenvolver função recursiva que "raspa" uma página e todos os seus links, com limite de níveis de profundidade

indexer.py

Este arquivo deverá conter a classe Indexer e funções relativas ao tratamento de listas de links, excluindo duplicatas, ordenando os links, e armazenando.

  • Iniciar classe
  • removed_duplis() - Desenvolver que remove duplicatas de uma lista e retorna uma nova lista sem duplicatas
  • valid_links() - Desenvolver função que remove links inválidos e retorna uma nova lista apenas com links válidos
  • order_scraped_links() - Desenvolver função que ordena dicionários com conteúdo de páginas raspadas
  • store_links() - Desenvolver função que armazena links em arquivo de dados
  • store_pages() - Desenvolver função que armazena dicionários com conteúdo de páginas raspadas

Finalização

  • Escrever apresentação e documentação no README.md (em inglês)
  • Escrever README_PTBR.md
  • git merge remake

Outras tarefas que não são tão importantes para o desenvolvimento

  • Mudar o nome do respositório (nenhuma sugestão ainda)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

1 participant