You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Criar dbbuilder.py - arquivo que cria base de dados
Criar tracker.py - arquivo que controla as classes
Criar crawler.py - arquivo com a classe Crawler
Criar indexer.py - arquivo com a classe Indexer
dbbuilder.py
Arquivo que cria base de dados
Importar sqlite3
Criar tabela de links
Criar tabela de links e conteúdos
tracker.py
Arquivo que controlará as classes.
Solicitar seeds - links base para "raspagem"
Solicitar profundidade para "raspagem"
Iniciar Crawler
Criar lista de links
Iniciar Indexer
Tratar lista de links e armazenar
Criar lista de conteúdos
Tratar lista de conteúdos e armazenar
crawler.py
Este arquivo deverá conter a classe Crawler e funções relativas à web crawling.
Iniciar classe
track() - Desenvolver função que busca links em uma página
scrape() - Desenvolver função que "raspa" página, buscando por título, descrição e conteúdo principal
scrape_list() - Desenvolver função que "raspa" uma lista qualquer de links, fora de Crawler
scrape_links() - Desenvolver função que "raspa" todos os links encontrados em track()
track_with_depht() - Desenvolver função recursiva que busca links em uma página, com um limite de níveis de profundidade scrape_with_depht() - Desenvolver função recursiva que "raspa" uma página e todos os seus links, com limite de níveis de profundidade
indexer.py
Este arquivo deverá conter a classe Indexer e funções relativas ao tratamento de listas de links, excluindo duplicatas, ordenando os links, e armazenando.
Iniciar classe
removed_duplis() - Desenvolver que remove duplicatas de uma lista e retorna uma nova lista sem duplicatas
valid_links() - Desenvolver função que remove links inválidos e retorna uma nova lista apenas com links válidos
order_scraped_links() - Desenvolver função que ordena dicionários com conteúdo de páginas raspadas
store_links() - Desenvolver função que armazena links em arquivo de dados
store_pages() - Desenvolver função que armazena dicionários com conteúdo de páginas raspadas
Finalização
Escrever apresentação e documentação no README.md (em inglês)
Escrever README_PTBR.md
git merge remake
Outras tarefas que não são tão importantes para o desenvolvimento
Mudar o nome do respositório (nenhuma sugestão ainda)
The text was updated successfully, but these errors were encountered:
Introdução
remake
no repositório__init__.py
elinks.txt
na nova branchBase
data/pages.db
- arquivo de dadosdbbuilder.py
- arquivo que cria base de dadostracker.py
- arquivo que controla as classescrawler.py
- arquivo com a classeCrawler
indexer.py
- arquivo com a classeIndexer
dbbuilder.py
Arquivo que cria base de dados
sqlite3
tracker.py
Arquivo que controlará as classes.
Crawler
Indexer
crawler.py
Este arquivo deverá conter a classe
Crawler
e funções relativas à web crawling.track()
- Desenvolver função que busca links em uma páginascrape()
- Desenvolver função que "raspa" página, buscando por título, descrição e conteúdo principalscrape_list()
- Desenvolver função que "raspa" uma lista qualquer de links, fora deCrawler
scrape_links()
- Desenvolver função que "raspa" todos os links encontrados emtrack()
track_with_depht()
- Desenvolver função recursiva que busca links em uma página, com um limite de níveis de profundidadescrape_with_depht()
- Desenvolver função recursiva que "raspa" uma página e todos os seus links, com limite de níveis de profundidadeindexer.py
Este arquivo deverá conter a classe
Indexer
e funções relativas ao tratamento de listas de links, excluindo duplicatas, ordenando os links, e armazenando.removed_duplis()
- Desenvolver que remove duplicatas de uma lista e retorna uma nova lista sem duplicatasvalid_links()
- Desenvolver função que remove links inválidos e retorna uma nova lista apenas com links válidosorder_scraped_links()
- Desenvolver função que ordena dicionários com conteúdo de páginas raspadasstore_links()
- Desenvolver função que armazena links em arquivo de dadosstore_pages()
- Desenvolver função que armazena dicionários com conteúdo de páginas raspadasFinalização
README.md
(em inglês)README_PTBR.md
git merge remake
Outras tarefas que não são tão importantes para o desenvolvimento
The text was updated successfully, but these errors were encountered: