GitHub - pedrozanineli/pcd.github.io: Desenvolvimento de Web Scraping em Python de estágios, bolsas de estudo, programas de verão, programas de “work and study” para produção de um site.

Projeto Final de Práticas em Ciências de Dados

Desenvolvimento de Web Scraping em Python de estágios, bolsas de estudo, programas de verão, programas de “work and study” para produção de um site

No presente repositório, o arquivo projeto-final.ipynb são as etapas do desenvolvimento do projeto e do desenvolvimento do web scrapping, ao passo de que index.md e programas.md fazem parte da construção do site. Por fim, os arquivos config.yml e o diretório _data estão relacionados com a configuração e dados das páginas, respectivamente. O arquivo Artigo - "Webscrapping" e Programas de Estudo refere-se ao trabalho desenvolvido para o programa elaborado.

Para a realização do projeto, a descrição completa pode ser encontrada no artigo existente no repositório, assim como um Jupyter Notebook com todas as etapas seguidas. De maneira simplificada, a estrutura do projeto é descrita a seguir.

Feedparser

Como ponto de partida, a biblioteca feedparser é utilizada com o intuito de realizar a coleta dos dados a serem inseridos no site, apoiando-se em sites do tipo RSS. Quando um link é passado, é realizado um parse, permitindo o armazenamento em uma variável.

current_feed = feedparser.parse(links[0])

A partir disso, é possível buscar algumas estruturas do site que são do interesse para o desenvolvimento do site, sendo, no caso, o título, o link e a data de publicação da matéria. Para tanto, podemos utilizar o seguinte formato:

current_feed.feed.title,current_feed.feed.link,current_feed.feed.description

Google Translator

Em seguida, levando em consideração que o site é destinado a estudantes brasileiros, é interessante a tradução do texto em inglês para o português, e, para tanto, foi usada a biblioteca Google Translator. Passamos como parâmetro da função translate da biblioteca a string a ser traduzida, seguida do seu destino, isto é, para que língua o texto deve ser traduzido.

trans.translate('Hello, world!',dest='pt').origin
trans.translate('Hello, world!',dest='pt').text

Note que no código acima podemos buscar o texto original com a extensão .origin e o texto em si traduzido com .text.

Implementação do código

Com base no exposto, finalmente podemos realizar a coleta dos dados e realizar uma inserção em um arquivo .csv, com as colunas "name", "date" e "link". No código a seguir, o loop é destinado por passar por todos os elementos encontrados e inserir no arquivo de destino.

for link in links:
    current_feed = feedparser.parse(link)
    for n in range(len(current_feed.entries)-1):
        text = trans.translate((current_feed.entries[n].title),dest='pt').text 
        print(text)
        print(current_feed.entries[n].published[5:16])
        print(current_feed.entries[n].link)
        print()

Uma vez que o arquivo estava pronto, foi possível realizar a atualização de um arquivo já existente neste repositório (\dados\dados.csv) para que os dados desejados pudessem ser usados.

Integração dos dados e site

Com o intuito de integrar os dados no site, foi utilizado o Liquid templating system, que é uma variável construída no próprio Jekyll. Como parte de perfumaria, os dados foram colocados dentro de um retângulo estilizado.

{% for dado in site.data.dados %}

  <div style="margin-bottom:8px;border: 0.5px solid grey;border-radius: 5px;">
    <div style="padding:10px;">
      <strong>{{ dado.name }}</strong><br>
      {{ dado.date }} • <a href="{{ dado.link }}" target="_blank">Link</a>
    </div>
  </div>
{% endfor %}

Trabalho desenvolvido por Artur H. Kimura, Débora V. P. Chaves, Pedro T. Ferreira, Pedro H. M. Zanineli.

Name		Name	Last commit message	Last commit date
Latest commit History 202 Commits
_data		_data
_layouts		_layouts
segredo		segredo
Artigo - _Webscrapping_ e Programas de Estudo.pdf		Artigo - _Webscrapping_ e Programas de Estudo.pdf
README.md		README.md
_config.yml		_config.yml
index.md		index.md
logo.jpeg		logo.jpeg
logo1.png		logo1.png
programas.md		programas.md
projeto-final.ipynb		projeto-final.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto Final de Práticas em Ciências de Dados

Feedparser

Google Translator

Implementação do código

Integração dos dados e site

About

Releases

Packages

Languages

pedrozanineli/pcd.github.io

Folders and files

Latest commit

History

Repository files navigation

Projeto Final de Práticas em Ciências de Dados

Feedparser

Google Translator

Implementação do código

Integração dos dados e site

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages