## Consumo de APIS, Scrapers e crawlers
Neste notebook são demonstrados alguns exemplos de consumo de APIs, web scrapping e web crawling.

# Apis

## Consumindo dados da API do IBGE (https://servicodados.ibge.gov.br/api/docs/localidades) - Localidades

In [1]:
import requests
import pandas as pd

estado = "PB"

url = f"https://servicodados.ibge.gov.br/api/v1/localidades/estados/{estado}/distritos"

response = requests.request("GET", url)
resultado = pd.DataFrame(response.json())
resultado

Unnamed: 0,id,nome,municipio
0,250010605,Água Branca,"{'id': 2500106, 'nome': 'Água Branca', 'micror..."
1,250020505,Aguiar,"{'id': 2500205, 'nome': 'Aguiar', 'microrregia..."
2,250030405,Alagoa Grande,"{'id': 2500304, 'nome': 'Alagoa Grande', 'micr..."
3,250040305,Alagoa Nova,"{'id': 2500403, 'nome': 'Alagoa Nova', 'micror..."
4,250050205,Alagoinha,"{'id': 2500502, 'nome': 'Alagoinha', 'microrre..."
...,...,...,...
292,251700110,Mata Virgem,"{'id': 2517001, 'nome': 'Umbuzeiro', 'microrre..."
293,251710005,Várzea,"{'id': 2517100, 'nome': 'Várzea', 'microrregia..."
294,251720905,Vieirópolis,"{'id': 2517209, 'nome': 'Vieirópolis', 'micror..."
295,250550105,Vista Serrana,"{'id': 2505501, 'nome': 'Vista Serrana', 'micr..."


# Scrapers

## Usando a Biblioteca BeautifulSoup

### Pegando informações sobre os últimos editais publicados na página do IFPB

In [2]:
!pip install beautifulsoup4



In [3]:
from bs4 import BeautifulSoup
url = "https://www.ifpb.edu.br/home_2022"
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')
title = soup.title.string
print("Últimos editais do", title)

df_editais = pd.DataFrame(columns={'Edital': [], 'Descricao': [], 'Link': []})
pd.set_option('display.max_colwidth', None)

editais = soup.find_all('div', class_='colecao-editais')[0].find_all('h2')
for i, edital in enumerate(editais):
    titulo = edital.text.replace("\n", "")
    descricao = edital.find_next('p', class_='description').text.replace("\n", "")
    link = edital.a['href']
    df_editais.loc[i] = [titulo, descricao, link]

df_editais

Últimos editais do Portal do IFPB 2022 — Instituto Federal da Paraiba IFPB


Unnamed: 0,Edital,Descricao,Link
0,Edital nº 03/2024 - DGEP,Oferta vaga de remoção interna para Docente de Contabilidade,https://www.ifpb.edu.br/servidor/editais/ano-2024/edital-no-03-2024-dgep
1,Edital n. 8/2024 - Editora IFPB,SELEÇÃO DE REVISORES DE TEXTO VOLUNTÁRIOS,https://www.ifpb.edu.br/prpipg/editais/ano-2024/edital-n-8-2024-editora-ifpb
2,Edital nº 04/2024 - PROEXC,"Processo Seletivo de estudantes para ingresso no Curso FIC de Eletricista de Sistemas de Energias Renováveis (Instalador de Sistemas Fotovoltaicos), a ser ofertado no âmbito do Instituto Federal da Paraíba (IFPB).",https://www.ifpb.edu.br/proexc/editais/extensao/ano-2024/edital-no-04-2024-proexc
3,Edital nº 36/2024 - Professor Substituto do IFPB,"Processo seletivo simplificado, com vistas à contratação de professor substituto, por tempo determinado, para atender às necessidades de excepcional interesse público dos campi do IFPB",https://www.ifpb.edu.br/concursopublico/professor-substituto/vigentes/edital-no-36-2024-professor-substituto-do-ifpb
4,Edital 34/2024 – Programa Mulheres Mil,"Processo Seletivo Simplificado com o objetivo de selecionar profissionais interessados em atuar, na condição de professores bolsistas, nos cursos a serem ofertados pelo Programa Mulheres Mil, na modalidade Educação Presencial.",https://www.ifpb.edu.br/concursopublico/outros-editais/vigentes/edital-34-2024-programa-mulheres-mil


# Crawlers
## Usando a Biblioteca Scrapy

Obtendo dados do site [https://ccsakura.fandom.com/wiki/Clow_Cards](https://ccsakura.fandom.com/wiki/Clow_Cards) e sub-páginas usando a biblioteca [Scrapy](https://scrapy.org/)

In [7]:
%cd "sakura"

[Errno 2] No such file or directory: 'sakura'
/Users/diegopessoa/projects/ifpb/banco-de-dados/MPTI-BD-2024.1/02-apis-scrapers-crawlers/sakura


In [8]:
pwd

'/Users/diegopessoa/projects/ifpb/banco-de-dados/MPTI-BD-2024.1/02-apis-scrapers-crawlers/sakura'

In [None]:
!scrapy crawl clow-cards -o clow-cards.json
!scrapy crawl clow-cards -o sakura-cards.json

In [11]:
import pandas as pd

clow_cards = pd.read_csv("data/clow-cards.csv")
clow_cards

Unnamed: 0,card,card_type,img_url,magic_type,sign
0,The Arrow,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/8/80/ClowArrow.jpg,Western Magic,Sun
1,The Firey,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/1/12/ClowFirey.jpg,,Sun
2,The Fight,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/1/16/ClowFight.jpg,Western Magic,Sun
3,The Erase,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/5/57/ClowErase.jpg,Eastern Magic,Moon
4,The Earthy,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/7/72/ClowEarthy.jpg,Western Magic,Sun
5,The Dream,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/8/88/ClowDream.jpg,Eastern Magic,Moon
6,The Dash,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/2/2c/ClowDash.jpg,Eastern Magic,Moon
7,The Dark,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/5/56/ClowDark.jpg,Eastern Magic,Moon
8,The Create,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/9/9c/ClowCreate.jpg,Western Magic,Sun
9,The Cloud,Clow Card,https://vignette.wikia.nocookie.net/ccs/images/a/a2/ClowCloud.jpg,Eastern Magic,Moon


In [36]:
sakura_cards = pd.read_csv("data/sakura-cards.csv")
sakura_cards

Unnamed: 0,card,card_type,img_url,magic_type,sign
0,The Arrow,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/a/a9/SakuraArrow.jpg,Western Magic,Sun
1,The Wood,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/3/3b/SakuraWood.jpg,Eastern Magic,Moon
2,The Windy,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/8/8a/SakuraWindy.jpg,Eastern Magic,Moon
3,The Wave,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/9/92/SakuraWave.jpg,Eastern Magic,Moon
4,The Watery,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/1/1c/SakuraWatery.jpg,Eastern Magic,Moon
5,The Voice,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/a/a1/SakuraVoice.jpg,Eastern Magic,Moon
6,The Twin,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/e/e9/SakuraTwin.jpg,Western Magic,Sun
7,The Time,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/f/f1/SakuraTime.jpg,Eastern Magic,Moon
8,The Thunder,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/c/c5/SakuraThunder.jpg,Western Magic,Sun
9,The Through,Sakura Card,https://vignette.wikia.nocookie.net/ccs/images/5/5a/SakuraThrough.jpg,Western Magic,Sun
