## Link Playlist: https://www.youtube.com/playlist?list=PLg3ZPsW_sghSkRacynznQeEs-vminyTQk

## Aula 2 - Requisições HTTP com o módulo requests | Web Scraping com Python

In [None]:
import requests

In [None]:
response = requests.get('https://www.walissonsilva.com/')
print('Status Code:', response.status_code)
print("header")
print(response.headers)

In [None]:
print(response.content)

## Aula 3 - BeautifulSoup: Buscando Notícias na Web | Web Scraping com Python

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
response = requests.get('https://g1.globo.com/')
conteudo = response.content
site = BeautifulSoup(conteudo, 'html.parser')
print(site.prettify())

In [None]:
noticia = site.find('div', attrs={'class': 'feed-post-body'})
print(noticia.prettify())

In [None]:
titulo = noticia.find('a', attrs={'class': 'feed-post-link'})
print(titulo.text)

In [None]:
sub_titulo = noticia.find('a', attrs={'class': 'gui-color-primary'})
print(sub_titulo.text)

## Aula 4 - Automatizando a Busca de Notícias na Web | Web Scraping com Python

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
response = requests.get('https://g1.globo.com/')
content = response.content
site = BeautifulSoup(content, 'html.parser')
lista_noticias = []

In [None]:
# HTML da notícia
noticias = site.findAll('div', attrs={'class': 'feed-post-body'})

for noticia in noticias:

    # Título
    titulo = noticia.find('a', attrs={'class': 'feed-post-link'})
    #print(titulo.text)
    #print(titulo["href"])

    # Subtítulo
    subtitulo = noticia.find('div', attrs={'class':'feed-post-body-resumo'})
    
    if (subtitulo):
        #print(subtitulo.text)
        lista_noticias.append([titulo.text, subtitulo.text, titulo["href"]])
    else:
        lista_noticias.append([titulo.text, '', titulo["href"]])    

In [None]:
lista_noticias

In [None]:
news = pd.DataFrame(lista_noticias, columns=['Titulo','Subtitulo','Link'])
news.to_excel('news.xlsx', index=False)
news

## Aula 5 - Busca Automatizada por Produtos | Web Scraping com Python

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
url_base = "https://lista.mercadolivre.com.br/"

produto_nome = input('Qual Produto voce deseja? ')

response = requests.get(url_base + produto_nome)

site = BeautifulSoup(response.text, 'html.parser')

produtos = site.findAll('div', attrs={'class': 'andes-card ui-search-result shops__cardStyles ui-search-result--core andes-card--flat andes-card--padding-16'})

tabela_produtos = []

In [None]:
for produto in produtos:

    titulo = produto.find('h2', attrs={'class': 'ui-search-item__title'})
    
    link = produto.find('a', attrs={'class':'ui-search-link'})
    
    valor_int = produto.find('span', attrs={'class': 'andes-money-amount__fraction'})
    
    valor_cent = produto.find('span', attrs={'class': 'andes-money-amount__cents andes-money-amount__cents--superscript-24'})
    
    moeda = produto.find('span', attrs={'class':'andes-money-amount__currency-symbol'})

    # print(produto.prettify())
    # print(f'Título do produto: {titulo.text}')
    # print(f"Link do produto: {link['href']}")

    if (valor_cent):
        #print(f'Preço do Produto: {moeda.text} {valor_int.text},{valor_cent.text}')     
        valor_final = f'{moeda.text} {valor_int.text},{valor_cent.text}'
        tabela_produtos.append([titulo.text, valor_final, link['href']])
    else:
        #print(f'Preço do Produto: {moeda.text} {valor_int.text}')       
        valor_final = f'{moeda.text} {valor_int.text},00' 
        tabela_produtos.append([titulo.text, valor_final, link['href']])

    #print('\n')

In [None]:
tab_prod = pd.DataFrame(tabela_produtos, columns=['NOME_PRODUTO', 'VALOR','LINK_PRODUTO'])
tab_prod.to_csv(f'preco_{produto_nome}.csv', sep=';', encoding='utf8', index=False)
tab_prod

## Aula 6 - Primeiros Passos com SELENIUM | Web Scraping com Python

In [None]:
# pip install selenium
# pip install webdriver-manager

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from time import sleep

servico = Service(ChromeDriverManager().install())
navegador = webdriver.Chrome(service=servico)
navegador.get('https://www.walissonsilva.com/cursos')
#navegador.get('https://www.openstreetmap.org/traces')
elemento = navegador.find_element('xpath', '//*[@id="__next"]/div/div/div[1]/div/input')
sleep(3)
elemento.send_keys('data')

## Aula 7 - Integrando o Selenium com o BeautifulSoup: Parte I | Web Scraping com Python

In [4]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from time import sleep
import requests
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = Options()
# options.add_argument('--headless')
options.add_argument('window-size=400,800')
servico = Service(ChromeDriverManager().install())

In [9]:
## Usando o BeautifulSoup
#response = requests.get('https://www.airbnb.com.br') #--> Usando o BeautifulSoup somente com o [requests.get]
#site = BeautifulSoup(response.text, 'html.parser')
#print(site.prettify())

## Usando o Selenium
navegador = webdriver.Chrome(service=servico, options=options)
navegador.get('https://www.airbnb.com.br') #--> Usando o Selenium somente com o [.get]

## Aceitando os cookies
xpath_aceitar_cookies = '/html/body/div[5]/div/div/div[1]/div/div[4]/section/div[2]/div[2]/button'
try:
    botao_aceitar_cookies = WebDriverWait(navegador, 10).until(EC.presence_of_element_located((By.XPATH, xpath_aceitar_cookies)))
    botao_aceitar_cookies.click()
except Exception as e:
    print("Não foi possível aceitar os cookies:", e)

In [3]:
navegador = webdriver.Chrome(service=servico, options=options)

navegador.get('https://www.airbnb.com.br')

xpath_aceitar_cookies = '/html/body/div[5]/div/div/div[1]/div/div[4]/section/div[2]/div[2]/button'
try:
    botao_aceitar_cookies = WebDriverWait(navegador, 10).until(EC.presence_of_element_located((By.XPATH, xpath_aceitar_cookies)))
    botao_aceitar_cookies.click()
except Exception as e:
    print("Não foi possível aceitar os cookies:", e)

sleep(10)
qualquer_lugar = navegador.find_element('xpath','/html/body/div[5]/div/div/div[1]/div/div[3]/div/div[1]/div[2]/div[1]/div/div[1]/div/div/div/div/div[1]/button/div[2]/div[2]/div[1]/span').click()
sleep(10)
local_destino = navegador.find_element('xpath', '//*[@id="/homes-1-input"]')
sleep(5)
local_destino.send_keys('Rio de Janeiro')
local_destino.click()




# place_find = navegador.find_element('xpath', '//*[@id="bigsearch-query-location-input"]')
# place_find.send_keys('Rio de Janeiro')
# sleep(10)
# place_find.click()



# input_place = navegador.find_element('xpath', '/html/body/div[5]/div/div/div[1]/div/div[3]/div[1]/div/div/div/header/div/div[2]/div[1]/div/button[2]/div')
# sleep(2)
# input_place.submit()
# sleep(2)
# search_place = navegador.find_element('xpath','//*[@id="bigsearch-query-location-input"]')
# sleep(2)
# search_place.send_keys('Rio de Janeiro')
# sleep(2)
# search_place.submit()





# input_place = navegador.find_element('xpath', '//*[@id="bigsearch-query-location-input"]')
# 
# input_place.send_keys('São Paulo')

# site = BeautifulSoup(navegador.page_source, 'html.parser')
# print(site.prettify())

ElementNotInteractableException: Message: element not interactable
  (Session info: chrome=115.0.5790.170)
Stacktrace:
#0 0x556f8dbd5613 <unknown>
#1 0x556f8d901386 <unknown>
#2 0x556f8d93a61a <unknown>
#3 0x556f8d9392cc <unknown>
#4 0x556f8d960a32 <unknown>
#5 0x556f8d935bc6 <unknown>
#6 0x556f8d960bfe <unknown>
#7 0x556f8d978d09 <unknown>
#8 0x556f8d960803 <unknown>
#9 0x556f8d93468b <unknown>
#10 0x556f8d93542e <unknown>
#11 0x556f8db96c28 <unknown>
#12 0x556f8db9aaf7 <unknown>
#13 0x556f8dba501c <unknown>
#14 0x556f8db9b723 <unknown>
#15 0x556f8db6a457 <unknown>
#16 0x556f8dbbf628 <unknown>
#17 0x556f8dbbf7b7 <unknown>
#18 0x556f8dbce483 <unknown>
#19 0x7f72f4a99b43 <unknown>
