# Workshop Web Scraping (Semana 2)

Alguns exemplos reais onde a raspagem de dados é utilizada, temo:

* Escorrega o Preço (https://escorregaopreco.com.br/):
* * É um app/extensão para o navegador, que ajuda o consumidor na busca pelos melhores preços, e traz mais ofertas e descontos. Também auxilia a não cair em golpes na internet, analisa em tempo real o preço de um produto na hora em que o cliente vai comprá-lo, informando imediatamente se o item está com bom preço ou está caro. Além disso, oferece o serviço de cupons de desconto em lojas cadastradas.


* (Projeto pessoal) Consulta de Agendamendo de vacinas da Covid (https://github.com/fmassaretto/Consulta-Agendamento-Vacina)
* * É um projeto pessoal que desenvolvi na época em que estava tendo os agendamentos de vacinas contra a Covid, pelo site da prefeitura de Jundiaí. A aplicação de tempo em tempo (de 1h em 1h, por exemplo) buscava no site, se a prefeitura liberou o link para agendar um horário para tomar a vacina, como tinha um limite de vacinas, assim que liberavam o link, a aplicação detectava a mudança e enviava um email ou SMS para algum contato, avisando que poderia agendar.

# **Resoluçao dos desafios da semana 1**

# Desafio 1
Usando o site: https://transparenciainternacional.org.br/ipc/

1. Busque e mostre (Print) todo o conteudo da tabela, nesse caso só temos 1 tabela
2. Guarde em um dicionário (Python: dict), o nome do país, posiçao e a pontução
3. Mostre a posição, os nomes dos países, sua respectiva posição e pontução
4. Mostre a posição do Brasil, Italia e Japão

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
URL = 'https://transparenciainternacional.org.br/ipc/'

page = requests.get(URL)

soup = BeautifulSoup(page.content, 'html.parser') # documentaçæo do BeautisulSoup (Em inglês): https://beautiful-soup-4.readthedocs.io/en/latest/

title = soup.select('title')

table = soup.find('table')
#print(table) # # primeiro objetivo, descomente essa linha (remova o hashtag '#' antes do print) para ver o conteudo da tabela (table)

# # .tbody só retorna o primeiro tbody que encontrar,
# # se quiser todos os tbody tenho que usar o .find_all
tbody = table.tbody

# Guardo na variavel rows todas as linhas (tr) que esta dentro da tag <tbody>
rows = tbody.find_all('tr')

# # Crio um dicionario vazio
perceptions: dict = {}

for row in rows:
  data = row.find_all('td')

  position = data[0].text
  country = data[1].text
  score = data[2].text

  # Crio uma nova dimensão para o dicionario, assim conseguimos chamar dessa forma:
  # perceptions['Italia']['position'] para a posição ou perceptions['Italia']['score']
  # para a pontuação
  perceptions[country] = {} # Segundo objetivo
  perceptions[country]['position'] = position # Segundo objetivo
  perceptions[country]['score'] = score # Segundo objetivo

# print(perceptions['Alemanha']) # # mostrar os valores guardados no dicinario da chave 'Alemanha'

# Terceiro Objetivo
for key in perceptions:
 print(f'Posicao: {perceptions[key]["position"]} - {key} => {perceptions[key]["score"]}')


# print(f'Posicao: {perceptions["Brasil"]["position"]} - "Brasil" => {perceptions["Brasil"]["score"]}')
# print(f'Posicao: {perceptions["Itália"]["position"]} - "Itália" => {perceptions["Itália"]["score"]}')
# print(f'Posicao: {perceptions["Japão"]["position"]} - "Japão" => {perceptions["Japão"]["score"]}')

# **Desafio 2**
Obs.: Mudei o desafio 2 da semana 1 para um mais tranquilo

Busque no site: https://cultura.jundiai.sp.gov.br/agenda-cultural/ todos os evento que estão para acontecer em Jundiaí e forrmate os dados para que fiquem como no exemplo abaixo:


Evento: {Titulo do evento}

Local: {Local do evento}

Data: {Somente a data do evento: dd/mm/YYYY}

Obs. 2: Coloquei aqui uma resoluçao mais simples e outra embaixo mais completa

...

Extra: Calcular e adicionar a quantidade de dias que faltam para o evento contando a partir da data de hoje (Obs.: Será preciso importar a biblioteca datetime), ficando assim:

Evento: {Titulo do evento}

Local: {Local do evento}

Data: {Somente a data do evento: dd/mm/YYYY}

Faltam {x} dias para o evento




---


**Exemplo simples**

In [None]:
import requests
from bs4 import BeautifulSoup

URL = 'https://cultura.jundiai.sp.gov.br/agenda-cultural/'

page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')

news_list = soup.find_all('div', {'class': 'noticia-lista'}) # Busco todas as TAG <div> que tenham o tributo class='noticia-lista'

EVENTS: dict = {} # crio dicionario vazio

# percorro todo os itens da lista news_list
for item in news_list:
  title = item.find('div', {'class': 'titulo-lista'}).text # pego o nome do evento
  local = item.find('div', {'class': 'resumo-lista'}).text # pego o local do evento

  date = item.span.p.text # pego a data, porem vem com outros textos junto, precisaremos filtrar
  date_split = date.strip().split(' ', maxsplit=3) # strip() remove qualquer espaço em branco antes e depois do texto
                                                    # split() divide o texto que vem acima pelos espaços ' ' entre as palavras e cria um array,
                                                          # ex.: 'Dia 22/11/2024 qualquer coisa aqui' ficará ['Dia', '22/11/2024', 'qualquer', 'coisa', 'aqui']

  date = date_split[1] # a data está na posiçao 2 do array
  EVENTS[title] = {'local': local, 'date': date} # adiciono as informaçoes no dicionario

# Mostro as informaçoes do dicionario para cada evento
for event in EVENTS:
  local = EVENTS[event]['local']
  date =  EVENTS[event]['date']

  print('Evento: ', event)
  print('Local: ', local)
  print('Date: ', date)
  print() # print vazio para dar espaço entre os eventos

Evento:  Sexta no Centro – Abertura do 26¬∫ festival Enredan√ßa
Local:  Pra√ßa Marechal Floriano Peixoto (Pra√ßa do Coreto)
Date:  05/04/2024

Evento:  “O Concerto Hobbit”, com a Orquestra Filarm√¥nica de Jundia√≠ (OFJ)‚ÄÇ
Local:  Teatro Polytheama
Date:  05/04/2024

Evento:  “A tal da Dan√ßa Criativa”, com Andressa Rondon
Local:  F√°brica das Inf√¢ncias Japy
Date:  06/04/2024

Evento:  ‚ÄúNovo show‚Äù, com Renato Albani – sess√£o extra
Local:  Teatro Polytheama
Date:  06/04/2024

Evento:  “Novo show”, com Renato Albani
Local:  Teatro Polytheama
Date:  06/04/2024

Evento:  Conta√ß√£o de hist√≥ria ‘O Trovador e o Rei’, com a Cia. A Dois de Teatro
Local:  F√°brica das Inf√¢ncias Japy
Date:  07/04/2024

Evento:  Roblox Rainbow Friends Interativo
Local:  Teatro Polytheama
Date:  07/04/2024

Evento:  26¬∫ Festival Enredan√ßa 2024
Local:  Locais diversos 
Date:  11/04/2024

Evento:  Brincadeiras com o grupo Amorah
Local:  F√°brica das Inf√¢ncias Japy
Date:  13/04/2024

Evento:  Concerto da O

**Exemplo completo, incluindo outras páginas**

In [None]:
import requests
import datetime as dt
from bs4 import BeautifulSoup

EVENTS = {}

for i in range(1, 4):
  if(i == 1):
    URL = 'https://cultura.jundiai.sp.gov.br/agenda-cultural/'
  else:
    URL = f'https://cultura.jundiai.sp.gov.br/agenda-cultural/page/{i}/'

  page = requests.get(URL)
  soup = BeautifulSoup(page.content, 'html.parser')

  news_list = soup.find_all('div', class_='noticia-lista') # aqui é outra forma de buscar o atributo class_='noticia-lista', funciona da mesma forma que no exemplos simples
                                                            # atentar aqui que precisa do underline '_' depois de class

  for item in news_list:
    title = item.find('div', class_='titulo-lista').text
    local = item.find('div', class_='resumo-lista').text

    date = item.span.p.text
    date_split = date.strip().split(' ', maxsplit=3)
    date = date_split[1] # a data está na posiçao 2 do array

    EVENTS[title] = {'local': local, 'date': date}

for event in EVENTS:
  local = EVENTS[event]['local']
  date =  EVENTS[event]['date']

  today = dt.date.today() # pego o dia de hoje no formato: dia/mes/ano
  event_date = dt.datetime.strptime(date, '%d/%m/%Y').date() # formato a data do evento para o formato: dia/mes/ano
  date_difference = event_date - today # Pego a diferença entre a data de hoje e a do evento
  print(f'Evento: {event} \nLocal: {local} \nData: {date} \nFaltam {date_difference.days} dias para o evento', end='\n\n') # outra forma (com f-string) de imprimir os valores na tela
                                                                                                                  # mais informaçoes: https://pythonacademy.com.br/blog/f-strings-no-python

Evento: Sexta no Centro – Abertura do 26¬∫ festival Enredan√ßa 
Local: Pra√ßa Marechal Floriano Peixoto (Pra√ßa do Coreto) 
Data: 05/04/2024 
Faltam 1 dias para o evento

Evento: “O Concerto Hobbit”, com a Orquestra Filarm√¥nica de Jundia√≠ (OFJ)‚ÄÇ 
Local: Teatro Polytheama 
Data: 05/04/2024 
Faltam 1 dias para o evento

Evento: “A tal da Dan√ßa Criativa”, com Andressa Rondon 
Local: F√°brica das Inf√¢ncias Japy 
Data: 27/04/2024 
Faltam 23 dias para o evento

Evento: ‚ÄúNovo show‚Äù, com Renato Albani – sess√£o extra 
Local: Teatro Polytheama 
Data: 06/04/2024 
Faltam 2 dias para o evento

Evento: “Novo show”, com Renato Albani 
Local: Teatro Polytheama 
Data: 06/04/2024 
Faltam 2 dias para o evento

Evento: Conta√ß√£o de hist√≥ria ‘O Trovador e o Rei’, com a Cia. A Dois de Teatro 
Local: F√°brica das Inf√¢ncias Japy 
Data: 07/04/2024 
Faltam 3 dias para o evento

Evento: Roblox Rainbow Friends Interativo 
Local: Teatro Polytheama 
Data: 07/04/2024 
Faltam 3 dias para o evento

Event