>#                     Web Scraping de E-commerce

A fim de praticar os bons hábitos de programação, respeitando todos os ordenamentos, realizo uma breve 'raspagem' de Dados em uma <a href="http://books.toscrape.com/">Loja</a> online de Livros e extraio os seguintes Informações: Titulo, Disponibilidade de estoque, Preço, Avaliação.

In [1]:
#Importando algumas bibliotecas
import pandas as pd 
import numpy as np
import requests
import re
from bs4 import BeautifulSoup

In [2]:
def web_search(url_search):
    """Função para extrair, modelar e retornar um DataFrame de uma determinada página web."""
    
    #Defino um user-agent e faço a verificação padrão "robots.txt"
    headers = {"user-agent": "Mozilla/5.0"}
    
    #Recebo a url que terá os seus dados coletados e conecto a mesma 
    url = requests.get(url_search, headers = headers)
    fonte = url.text
    
    #Chamo BeautifulSoup e organizo os dados coletados
    soup = BeautifulSoup(fonte, "lxml-xml")
    
    #Faço algumas extrações específicas utilizando uma Expressão Regular
    preco = soup.find_all("p", {"class":"price_color"})
    estoque = soup.find_all("p", {"class": "instock availability"})
    
    avaliacao=[]
    
    #Crio um iterador a parte para extrair uma tag que requer um pouco mais de 'atenção'
    for a in soup.find_all("p", class_=True):
        avaliacao.append(a["class"])    
    for a in avaliacao:
        if a == 'price_color' and 'instock availability':
            avaliacao.remove('price_color')
            avaliacao.remove('instock availability')
    
    lista_analises=[]
    
    #Realizo uma iteração para limpar e modelar os dados
    for p, e, t in zip(preco, estoque, soup.find_all("a", title=True)):
        
        lista_precos = p.contents[0].text
        lista_precos = lista_precos.replace("Â£", "").replace(".","")

        status_estoque = e.text
        status_estoque = status_estoque.replace("\n","")

        lista_analises.append((t["title"].strip(),status_estoque.strip(),lista_precos.strip()))
    
    #Crio um DataFrame e incluo os dados extraídos e modelados
    df_analise_web = pd.DataFrame(lista_analises, columns=["Titulo","Estoque","Preco"])
    df_analise_web["Preco"] = df_analise_web["Preco"].astype(np.float32)
    df_analise_web["Avaliacao"] = avaliacao

    return df_analise_web

In [3]:
df_analise = web_search("http://books.toscrape.com/")
df_analise

Unnamed: 0,Titulo,Estoque,Preco,Avaliacao
0,A Light in the Attic,In stock,5177.0,star-rating Three
1,Tipping the Velvet,In stock,5374.0,star-rating One
2,Soumission,In stock,5010.0,star-rating One
3,Sharp Objects,In stock,4782.0,star-rating Four
4,Sapiens: A Brief History of Humankind,In stock,5423.0,star-rating Five
5,The Requiem Red,In stock,2265.0,star-rating One
6,The Dirty Little Secrets of Getting Your Dream...,In stock,3334.0,star-rating Four
7,The Coming Woman: A Novel Based on the Life of...,In stock,1793.0,star-rating Three
8,The Boys in the Boat: Nine Americans and Their...,In stock,2260.0,star-rating Four
9,The Black Maria,In stock,5215.0,star-rating One


#### Feito por mim, <a href="https://linkedin.com/in/mario-barcelos"> Mario Barcelos! </a> 