Skip to content

Repositório dedicado aos estudos realizados com a linguagem de programação Python, com as bibliotecas mais utilizadas para a coleta de dados via web scraping

Notifications You must be signed in to change notification settings

rafaelladuarte/Python_Scraping_web

Repository files navigation

Web Scraping com Python


Descrição

Estudos realizados com a linguagem de programação Python, com as bibliotecas mais utilizadas para a coleta de dados via web scraping. A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação humano-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo.

Principais Bibliotecas utilizadas

  • Urllib

urllib é um pacote que coleta vários módulos especificos para trabalhar com URLs

pip install urllib

Documentacao da Biblioteca

  • RegEx

Um RegEx, ou Expressão Regular, é uma sequência de caracteres que forma um padrão de pesquisa. RegEx pode ser usado para verificar se uma string contém o padrão de pesquisa especificado.

pip install re

Documentacao da Biblioteca

  • Bs4 (BeatifulSoup4)

Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML. Ele funciona com seu analisador favorito para fornecer maneiras idiomáticas de navegar, pesquisar e modificar a árvore de análise. Geralmente economiza horas ou dias de trabalho dos programadores

pip install bs4 

Documentacao da Biblioteca

  • Selenium

Selenium é uma biblioteca, de software livre, sob licença Apache 2.0, usado para automação de testes de software, criar bots, reduzir trabalho manuais e repetitivos e "raspar dados da internet"

pip install selenium

Documentacao da Biblioteca

  • Scrapy

Scrapy é uma estrutura de rastreamento e scraping da web de alto nível, usada para rastrear sites e extrair dados estruturados de suas páginas. Ele pode ser usado para uma ampla gama de finalidades, desde mineração de dados até monitoramento e testes automatizados.

pip install scrapy

Documentacao do Framework

  • Mechanize
  • Scrapemark

About

Repositório dedicado aos estudos realizados com a linguagem de programação Python, com as bibliotecas mais utilizadas para a coleta de dados via web scraping

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published