In [126]:
import re
import time
import glob
import requests
import unicodedata
import numpy as np
import pandas as pd
from time import strftime
from bs4 import BeautifulSoup
from selenium import webdriver

# Definição do Problema:
A area de negócio da wine.com gostaria de saber, antes de incluir no mix de produtos, qual o provável rating daquele vinho!

#### Estratégia:
Capturar caracteristicas do produto alvo (Vinho) que sejam facilmente replicaveis para os produtos candidatos. Tais como:

- País
- Premiações
- descrição (ex. Gustativo)
- Quantidade de Mls
- Entre outras

A variável TARGET são os Rating que cada vinho tenha recebido, caso o vinho não tenha avaliação, será considerado Rating 0.

#### Outros Objetivos:

Adicionalmente gostariamos também de responder algumas perguntas com nos dados capturados, tais como:

- Qual os países com vinhos de maiores ratings? Será os franceses melhores?
- E com relação a premiações? Qual a nacionalidade de vinho com maior quantidade de premiações?
- Existe alguma correlação entre quantidade de premiações e ratings?


# 1. Definir funções auxiliares

In [132]:
#Funções Auxiliares

def get_url(url, driver):

    """
    Formula para acessar a url.
    """
    urlpage = url
    driver.get(urlpage)
    time.sleep(30)

def quit_driver(driver):
    """
    Formula para Fechar o driver
    """
    driver.quit()

def removerAcentosECaracteresEspeciais(palavra):

    """
    Função para remoção de acentos e caracteres especiais.
    Creditos para ...
    """

    # Unicode normalize transforma um caracter em seu equivalente em latin.
    nfkd = unicodedata.normalize('NFKD', palavra)
    palavraSemAcento = u"".join([c for c in nfkd if not unicodedata.combining(c)])

    # Usa expressão regular para retornar a palavra apenas com números, letras e espaço
    return re.sub('[^a-zA-Z0-9 \\\]', '', palavraSemAcento)

def merge_csv_folder(prefix, path, memory='no'):

    """
    Formula para concatenar arquivos .csv's dentro de uma determinada pasta.
    """
    if path == '':
        path = input("Por favor digite o endereços dos arquivos?\n")
    path = path.replace('\\','/')
    if path[:-1] != '/':
        path = path + '/'

    file_list = glob.glob(path + '*.csv')

    combined = pd.concat([pd.read_csv(f) for f in file_list], axis=1)
    if memory == 'no':
        combined.to_csv(path + f'combined_{prefix}_{strftime("%Y%m%d-%H%M%S")}.csv', index=False)
    else:
        return combined
    print('Feito')

# 2. Capturar variáveis

- Sku
- Produto
- País
- Mls
- Awards
- Titulo Descrição
- Descrição

In [136]:
#Sku
driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_sku=[]

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)
    resultado = driver.find_elements_by_xpath(".//*[@class='ProductDisplay-content']//*[@class='js-productClick']")
    for result in resultado:
        sku = result.get_attribute('data-product-sku')
        dados_sku.append({'Sku':sku})
quit_driver(driver)
df = pd.DataFrame(dados_sku, columns = ['Sku'])
df.to_csv('csv/sku.csv')

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [137]:
# Variavel Produto
driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_produto=[]    
    

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)
    resultado = driver.find_elements_by_xpath(".//*[@class='ProductDisplay-content']//*[@class='js-productClick']")
    for result in resultado:
        title = result.get_attribute('title')
        dados_produto.append({'Produto':title})

quit_driver(driver)
df = pd.DataFrame(dados_produto, columns =['Produto'])
df = df.apply(lambda x : removerAcentosECaracteresEspeciais(x['Produto']), axis = 1)
df.to_csv('csv/produto.csv')

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [93]:
#País
driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_country=[]    

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)  
    resultado = driver.find_elements_by_xpath("//*[@class='Country']")
 
    for result in resultado:
        country = result.text
        dados_country.append({'Country':country})

quit_driver(driver)
df = pd.DataFrame(dados_country, columns=['Country'])
df = df.apply(lambda x : removerAcentosECaracteresEspeciais(x['Country']), axis = 1)
df.to_csv('csv/country.csv')

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [138]:
#MLs
driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_ml=[]      
   

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)  
    resultado = driver.find_elements_by_xpath("//*[@class='col-xs-6 ProductDisplay-tag']")
    for result in resultado:
        ml = result.text.strip('ML')
        dados_ml.append({'Mls':ml})

quit_driver(driver)
df = pd.DataFrame(dados_ml, columns = ['Mls'])
df.to_csv('csv/mls.csv' )

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [139]:
#Awards
driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_awards=[]      
   

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)  
    resultado = driver.find_elements_by_xpath("//*[@class='ProductDisplay-new-awards col-xs-6']")
    for result in resultado:
        awards = result.text
        dados_awards.append({'Awards':awards})

quit_driver(driver)
df = pd.DataFrame(dados_awards, columns = ['Awards'])
df.to_csv('csv/awards.csv')

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [140]:
#Titulo descricao
driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_titledesc=[]      
   

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)  
    resultado = driver.find_elements_by_xpath("//*[@class='ProductDisplay-descriptionTitle']")
    for result in resultado:
        descTitle = result.text
        dados_titledesc.append({'Titulo_da_Descricao':descTitle})

quit_driver(driver)
df = pd.DataFrame(dados_titledesc, columns= ['Titulo_da_Descricao'])
df = df.apply(lambda x : removerAcentosECaracteresEspeciais(x['Titulo_da_Descricao']), axis=1)
df.to_csv('csv/titleDesc.csv')

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [141]:
#descricao
driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_desc=[]      
   

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)  
    resultado = driver.find_elements_by_xpath("//*[@class='ProductDisplay-descriptionText']")
    for result in resultado:
        desc = result.text
        dados_desc.append({'Descricao':desc})

quit_driver(driver)
df = pd.DataFrame(dados_desc, columns=['Descricao'])
df = df.apply(lambda x : removerAcentosECaracteresEspeciais(x['Descricao']), axis=1)
df.to_csv('csv/descricao.csv')

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [142]:
#Rating

driver = webdriver.Firefox(executable_path='C:/Windows/System32/drivers/DriverData/geckodriver.exe')
dados_rating=[]      
   

for i in range(1,84):
    PAGE = f'https://www.wine.com.br/vinhos/cVINHOS-p{i}.html'
    print(f'Raspando pagina {i}')

    driver.get(PAGE)  
    resultado = driver.find_elements_by_xpath("//*[@class='evaluation']")
    for result in resultado:
        rating = result.text
        dados_rating.append({'Rating':rating})

quit_driver(driver)
df = pd.DataFrame(dados_rating, columns=['Rating'])
df.to_csv('csv/rating.csv')

Raspando pagina 1
Raspando pagina 2
Raspando pagina 3
Raspando pagina 4
Raspando pagina 5
Raspando pagina 6
Raspando pagina 7
Raspando pagina 8
Raspando pagina 9
Raspando pagina 10
Raspando pagina 11
Raspando pagina 12
Raspando pagina 13
Raspando pagina 14
Raspando pagina 15
Raspando pagina 16
Raspando pagina 17
Raspando pagina 18
Raspando pagina 19
Raspando pagina 20
Raspando pagina 21
Raspando pagina 22
Raspando pagina 23
Raspando pagina 24
Raspando pagina 25
Raspando pagina 26
Raspando pagina 27
Raspando pagina 28
Raspando pagina 29
Raspando pagina 30
Raspando pagina 31
Raspando pagina 32
Raspando pagina 33
Raspando pagina 34
Raspando pagina 35
Raspando pagina 36
Raspando pagina 37
Raspando pagina 38
Raspando pagina 39
Raspando pagina 40
Raspando pagina 41
Raspando pagina 42
Raspando pagina 43
Raspando pagina 44
Raspando pagina 45
Raspando pagina 46
Raspando pagina 47
Raspando pagina 48
Raspando pagina 49
Raspando pagina 50
Raspando pagina 51
Raspando pagina 52
Raspando pagina 53
Ra

In [147]:
# Unificando os csv's
wine_dataset = merge_csv_folder(prefix = 'wine_dataset', path='C:/AIM_Program/Semana1_CapturaDeDados/csv/', memory='yes')
wine_dataset.drop(['0','Unnamed: 0'], axis=1, inplace = True)
wine_dataset.head(50)

Unnamed: 0,Awards,FRANCA,Cremoso boa acidez medio corpo elegante,Mls,Champagne Montaudon Brut,Sku,Gustativo
0,,NOVA ZELANDIA,Taninos robustos final persistente,750.0,Chateau Oumsiyat Red Syrah 2015,3170,Gustativo
1,,LIBANO,Corpo de leve para medio taninos macios boa ac...,750.0,Latitud 33 Cabernet Sauvignon 2018,22892,Gustativo
2,,ARGENTINA,Boa acidez jovem fresco,750.0,Dark Horse The Original California Sauvignon B...,22925,Gustativo
3,,ESTADOS UNIDOS,Boa acidez refrescante e equilibrado,750.0,Sovento Sauvignon Blanc 2018,22840,Gustativo
4,,ESPANHA,Leve frutado boa acidez taninos macios,750.0,Finca Ventura DOP Jumilla Monastrell 2018,22855,Gustativo
5,,ESPANHA,Frutado medio corpo acidez agradavel taninos m...,750.0,Senorio de Ayud Cabernet Sauvignon Syrah 2018,22820,Gustativo
6,,ESPANHA,Frutado bela acidez e final agradavel,750.0,Dark Horse The Original California Rose 2018,22834,Gustativo
7,,ESTADOS UNIDOS,Frutado corpo de leve para medio taninos prese...,750.0,Senorio De Ayud Garnacha Syrah 2018,22842,Gustativo
8,,ESPANHA,Taninos aveludados frutado e boa acidez,750.0,Dark Horse The Original Cabernet Sauvignon 2017,22835,Gustativo
9,,ESTADOS UNIDOS,Frutado bom corpo taninos macios acidez agradavel,750.0,Latitud 33 Malbec 2018,22841,Gustativo
