### Projeto de conclusão de matéria de PCD

Ilum, Escola de Ciência - Professores Daniel R. Cassar; James M. de Almeida

Junho de 2022 - Artur H. Kimura, Débora V. P. Chaves, Pedro T. Ferreira, Pedro H. M. Zanineli

[Link](https://pedrozanineli.github.io/pcd.github.io/) para o site

Projeto semestral da matéria de Práticas de Ciência de Dados, com o desenvolvimento de um webscrapping de oportunidades de estágio, bolsas de estudo, programas de verão e outras experiências, nacionais ou internacionais, que possam agregar no desenvolvimento acadêmico, assim como criação de uma plataforma web com o Github Pages.

### <a id='sumario'>Sumário do presente notebook</a>

Abaixo, é representado as seções do presente arquivo e as seguintes etapas para o desenvolvimento da aplicação.

1. [Instalação das bibliotecas necessárias](#bibliotecas)
2. [Webscrapping com o *feedparser*](#feedparser)
3. [Tradução do texto](#traducao)
4. [Escrita dos dados coletados em arquivo](#escrita)
5. [Upload do arquivo para o Github](#github)
6. [Referências bibliográficas](#referencias)

***

### <a id='bibliotecas'>Instalação das bibliotecas necessárias</a>

**[Voltar](#sumario)**

Três bibliotecas foram necessárias para que o desenvolvimento pudesse acontecer, sendo elas a *feedparser*, a Rest API do Github e a *googletrans*, do Google Translator.

O *feedparser* tem como intuito coletar informações de sites que estejam no formato RSS, sigla para *Rich Site Summary* ou *Really Simple Syndication*, um tipo de XML para exibir um grande volume de informações de maneira resumida.

Já o *PyGithub* será responsável por, depois que coletar os dados por parte do webscrapping, realizar o commit para o Github e possibilitar o seu uso dentro do Github Pages, exibindo o conteúdo no site.

Por fim, a biblioteca *googletrans* fará com que o texto em outra língua possa ser passado para o português.

In [1]:
pip install feedparser



You should consider upgrading via the 'c:\venv\ilumpy\Scripts\python.exe -m pip install --upgrade pip' command.





In [2]:
pip install PyGithub

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\venv\ilumpy\Scripts\python.exe -m pip install --upgrade pip' command.




In [1]:
pip install googletrans




You should consider upgrading via the 'c:\venv\ilumpy\Scripts\python.exe -m pip install --upgrade pip' command.


In [2]:
import feedparser
from github import Github
from googletrans import Translator

***

### <a id='feedparser'>Webscrapping com o *feedparser*</a>

**[Voltar](#sumario)**

Como ponto de partida, iremos definir uma lista para que seja possível adicionar links de sites que sejam feeds que exibam o proposto, de forma a realizar a coleta desses dados. A função *append* é aplicada para adicionar os links.

In [7]:
links = []

links.append('https://www.internqueen.com/news.xml')
links.append('https://www.scholars4dev.com/category/scholarships-list/feed/')


Note que a biblioteca *feedparser* necessita utilizar a função `.parse()` para transformar o conteúdo do site em um tipo aceito pelo módulo.

In [8]:
current_feed = feedparser.parse(links[0])
type(current_feed)

feedparser.util.FeedParserDict

Assim, na célula abaixo é possível perceber que podemos então utilizar algumas funções contidas, de forma com que o título do arquivo RSS seja 'The InternQueen Blog', hospedado em 'https://www.internqueen.com/blog' e não detém descrição.

In [9]:
current_feed.feed.title,current_feed.feed.link,current_feed.feed.description

('The InternQueen Blog', 'https://www.internqueen.com/blog', '')

Podemos buscar inclusive um determinado título a partir de um index especificado na função `.entries()`:

In [10]:
current_feed.entries[0].title,current_feed.entries[0].published

('Looking for Summer Internship Housing?', 'Thu, 24 Feb 2022 21:09:57 +0000')

Percorremos a lista e criamos um feed para cada um dos links, apenas exibindo inicialmente as suas respectivas saídas:

In [11]:
for link in links:
    current_feed = feedparser.parse(link)
    for n in range(len(current_feed.entries)):
        print(current_feed.entries[n].title)
        # Como desejamos apenas a data da publicação, buscamos apenas os caracteres da string que é de interesse
        print(current_feed.entries[n].published[5:16])
        print(current_feed.entries[n].link)
        print()

Looking for Summer Internship Housing?
24 Feb 2022
https://www.internqueen.com/looking-summer-internship-housing

Jobs HIRING NOW!
08 Oct 2021
https://www.internqueen.com/jobs-hiring-now

Katz PR is Hiring a Fall Intern!
04 Oct 2021
https://www.internqueen.com/katz-pr-hiring-fall-intern

"Being At War With Your Body is So Last Season."
17 Sep 2021
https://www.internqueen.com/being-war-your-body-so-last-season

Why Pursuing the Path of Your B.S. is Total BS!
09 Sep 2021
https://www.internqueen.com/why-pursuing-path-your-bs-total-bs

How I MADE MAGIC In The Disney College Program
03 Sep 2021
https://www.internqueen.com/how-i-made-magic-disney-college-program

"DON'T CHANGE YOUR MAJOR" they said....
26 Aug 2021
https://www.internqueen.com/dont-change-your-major-they-said

SEARCHING FOR: Fall 2021 Junior Board
19 Aug 2021
https://www.internqueen.com/searching-fall-2021-junior-board

5 CRUCIAL Things I Wish I Knew Before Starting College
13 Aug 2021
https://www.internqueen.com/5-crucial-thi

***

### <a id='traducao'>Tradução do texto</a>

**[Voltar](#sumario)**

Como o site tem seu desenvolvimento voltado para estudantes brasileiros, faz-se como necessário traduzir o texto para o português. Definimos então uma função para utilizar a função da biblioteca e realizamos alguns testes, de forma com que seja possível observar a grande amplitude que detém.

In [3]:
trans = Translator()

In [5]:
trans.translate('Hello, world!',dest='pt').origin,trans.translate('Hello, world!',dest='pt').text

('Hello, world!', 'Olá Mundo!')

In [15]:
for link in links:
    current_feed = feedparser.parse(link)
    for n in range(len(current_feed.entries)):
        text = trans.translate((current_feed.entries[n].title),dest='pt').text 
        print(text)
        print(current_feed.entries[n].published[5:16])
        print(current_feed.entries[n].link)
        print()

Procurando por moradia de estágio de verão?
24 Feb 2022
https://www.internqueen.com/looking-summer-internship-housing

Empregos contratando agora!
08 Oct 2021
https://www.internqueen.com/jobs-hiring-now

Katz PR está contratando um estagiário de outono!
04 Oct 2021
https://www.internqueen.com/katz-pr-hiring-fall-intern

"Estar em guerra com seu corpo é tão na última temporada."
17 Sep 2021
https://www.internqueen.com/being-war-your-body-so-last-season

Por que seguir o caminho do seu BSé total BS!
09 Sep 2021
https://www.internqueen.com/why-pursuing-path-your-bs-total-bs

Como eu fiz magia no programa da Disney College
03 Sep 2021
https://www.internqueen.com/how-i-made-magic-disney-college-program

"Não mude seu principal", eles disseram ....
26 Aug 2021
https://www.internqueen.com/dont-change-your-major-they-said

Procurando por: outono 2021 Junior Board
19 Aug 2021
https://www.internqueen.com/searching-fall-2021-junior-board

5 coisas cruciais que eu gostaria de saber antes de começa

***

### <a id='escrita'>Escrita dos dados coletados em arquivo</a>

**[Voltar](#sumario)**

A fim de armazernarmos os dados coletados pelo webscrapping, utilizamos a sintaxe da célula abaixo, em que um arquivo de texto denominado "data.txt" é aberto e as informações escritas no mesmo.

In [28]:
with open('dados.csv','w') as file:
    file.write('name,date,link\n')
    for link in links:
        current_feed = feedparser.parse(link)
        
        for n in range(len(current_feed.entries)):
            title = trans.translate((current_feed.entries[n].title),dest='pt').text             
            link = current_feed.entries[n].link
            date = current_feed.entries[n].published[5:16]
            
            content = title + ',' + date + ',' + link
            
            file.write(content)
            file.write('\n')

***

### <a id='github'>Upload do arquivo para o Github</a>

**[Voltar](#sumario)**

Para realizar a conexão dos dados coletados pelo webscrapping e o site, é necessário ter o arquivo com tais informações no repositório do Github Pages em que o site está hospedado. Então, é necessário realizar o acesso da conta para que depois possa ser possível ler os dados armazenados no arquivo "data.txt" por parte do código e então realizar o upload.

In [29]:
# Token
# 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

g = Github('')
repo = g.get_repo('pedrozanineli/pcd.github.io')

In [30]:
with open('dados.csv', 'r') as file:
    content = file.read()

contents = repo.get_contents("_data/dados.csv")
repo.update_file(contents.path, "Atualização Dados", content, contents.sha, branch="main")

{'commit': Commit(sha="e125ff9cf73e95472610d3facab6b44e21ab930d"),
 'content': ContentFile(path="_data/dados.csv")}

***

### <a id='referencias'>Referências bibliográficas</a>

**[Voltar](#sumario)**

[1] Kurt McKee. feedparser - Parse Atom and RSS feeds in Python.

[2] SuHun Han. Googletrans: Free and Unlimited Google translate API for Python.

[3] Vincent Jacques Revision. PyGitHub.