In [None]:
import requests
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup

In [None]:
class Crawler():
  def __init__(self, url):
    self.url = url
    page = requests.get(url)
    self.soup = BeautifulSoup(page.content, "html.parser")


  def get_reviews(self):
    reviews = []

    for review in self.soup.find_all('span', class_="a-size-base review-text review-text-content"):
      reviews.append(review.text)

    return reviews


  def get_ratings(self):
    ratings = []

    for star_rating in self.soup.find_all('i', class_="review-rating"):
      ratings.append(star_rating.text)

    return ratings[2:]


  def get_titles(self):
    titles = []

    for title in self.soup.find_all('a', class_="a-size-base a-link-normal review-title a-color-base review-title-content a-text-bold"):
      titles.append(title.text)

    return titles


  def get_dates(self):
    dates = []

    for date in self.soup.find_all('span', class_="a-size-base a-color-secondary review-date"):
      dates.append(date.text)

    return dates[2:]


  def update_soup(self, page):
    url = self.url + f'&pageNumber={page}'
    page = requests.get(url)
    self.soup = BeautifulSoup(page.content, "html.parser")


  def build_dataset(self, pages):
    titles = self.get_titles()
    reviews = self.get_reviews()
    ratings = self.get_ratings()
    dates = self.get_dates()

    for page_idx in range(2, pages + 1):
      self.update_soup(page_idx)
      titles.extend(self.get_titles())
      reviews.extend(self.get_reviews())
      ratings.extend(self.get_ratings())
      dates.extend(self.get_dates())

    dataset = pd.DataFrame()
    dataset['title'] = titles
    dataset['review'] = reviews
    dataset['rating'] = ratings
    dataset['date'] = dates 

    

    return dataset


url = "https://www.amazon.com.br/Smartphone-Xiaomi-Redmi-Note-4RAM/product-reviews/B07Y9XWK4M/ref=cm_cr_arp_d_paging_btm_next_2?ie=UTF8&reviewerType=all_reviews"
crawler = Crawler(url)


crawler.get_reviews()

['\n\n  Até agora estou amando o aparelho. Estou bem satisfeita, ainda mais com o ótimo custo benefício dele.Comprei dia 16 e chegou dia 21, entrega extremamente rápida.\n\n',
 '\n\n  Adquiri o produto em 09/11, chegou hoje e para a minha surpresa sem nota fiscal e com o carregador que não é padrão brasileiro o que eu acredito que já configure que o produto não é a versão global. Estou bastante frustrado já que de acordo com a descrição do produto isso é propaganda enganosa.\n\n',
 '\n\n  Comprei o celular no sábado dia 26/10/19 e chegou na terça dia 30/10/19. Entrega muito antes do prazo estabelecido, um ponto positivo. O celular é muito lindo e funcional, gostei muito, dificilmente trocarei de marca. Um ponto negativo é o produto vir sem nota fiscal do vendedor.\n\n',
 '\n\n  Chegou dentro do prazo, bem embalado. Tudo ok, não fosse por uma coisa, o carregador não é o padrão brasileiro(foto), sendo assim se faz necessário usar um adaptador. O manual só tem espanhol. Essas duas coisas 

In [None]:
crawler.get_ratings()

['5,0 de 5 estrelas',
 '1,0 de 5 estrelas',
 '5,0 de 5 estrelas',
 '3,0 de 5 estrelas',
 '5,0 de 5 estrelas',
 '5,0 de 5 estrelas',
 '5,0 de 5 estrelas',
 '5,0 de 5 estrelas',
 '1,0 de 5 estrelas',
 '5,0 de 5 estrelas']

In [None]:
crawler.get_titles()

['\nÓtimo custo benefício.\n',
 '\nNão recebi a versão global e produto veio sem nota.\n',
 '\nBom, bonito e barato. Porém sem nota fiscal!\n',
 '\nBom, no prazo, carregador fora do padrão brasileiro. Sem nota fiscal\n',
 '\nCelular acima das expectativas\n',
 '\nÓtimo produto!\n',
 '\nÓtimo Smartphone\n',
 '\nProduto fantástico\n',
 '\nNão é versão global é versão mexicana\n',
 '\nMuito rápido e lindo\n']

In [None]:
crawler.get_dates()

['Avaliado no Brasil em 25 de outubro de 2019',
 'Avaliado no Brasil em 14 de novembro de 2019',
 'Avaliado no Brasil em 31 de outubro de 2019',
 'Avaliado no Brasil em 19 de novembro de 2019',
 'Avaliado no Brasil em 29 de outubro de 2019',
 'Avaliado no Brasil em 21 de outubro de 2019',
 'Avaliado no Brasil em 22 de outubro de 2019',
 'Avaliado no Brasil em 22 de outubro de 2019',
 'Avaliado no Brasil em 20 de dezembro de 2019',
 'Avaliado no Brasil em 29 de outubro de 2019']

In [None]:
dataset = crawler.build_dataset(pages=1000)
dataset

Unnamed: 0,title,review,rating,date
0,\nÓtimo custo benefício.\n,\n\n Até agora estou amando o aparelho. Estou...,"5,0 de 5 estrelas",Avaliado no Brasil em 25 de outubro de 2019
1,\nNão recebi a versão global e produto veio se...,"\n\n Adquiri o produto em 09/11, chegou hoje ...","1,0 de 5 estrelas",Avaliado no Brasil em 14 de novembro de 2019
2,"\nBom, bonito e barato. Porém sem nota fiscal!\n",\n\n Comprei o celular no sábado dia 26/10/19...,"5,0 de 5 estrelas",Avaliado no Brasil em 31 de outubro de 2019
3,"\nBom, no prazo, carregador fora do padrão bra...","\n\n Chegou dentro do prazo, bem embalado. Tu...","3,0 de 5 estrelas",Avaliado no Brasil em 19 de novembro de 2019
4,\nCelular acima das expectativas\n,\n\n O celular superou totalmente minhas expe...,"5,0 de 5 estrelas",Avaliado no Brasil em 29 de outubro de 2019
...,...,...,...,...
4625,\nTop\n,"\n\n Chegou em um dia e meio, super rápido. A...","5,0 de 5 estrelas",Avaliado no Brasil em 12 de março de 2020
4626,\nMuito bom\n,"\n\n Gostei da capacidade de Armazenamento, t...","5,0 de 5 estrelas",Avaliado no Brasil em 28 de dezembro de 2019
4627,\nPerfeito\n,"\n\n Celular perfeito, bateria excelente e câ...","5,0 de 5 estrelas",Avaliado no Brasil em 4 de abril de 2021
4628,\nMuito bom\n,"\n\n Muito top, tou amando.. entregar muito a...","5,0 de 5 estrelas",Avaliado no Brasil em 12 de agosto de 2020


In [None]:
dataset.to_csv('/content/reviews.csv', index=False)