# Importar bibliotecas a serem utilizadas

## Pandas - Biblioteca para manipulação de dados

In [1]:
import pandas as pd

## BeautifulSoap e Selenium - Bibliotecas para web scraping

In [2]:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

## Locale e DateTime - Bibliotecas para manipulação de localização e datas

In [3]:
import locale
import datetime


## Re - Biblioteca para manipulação de expressões regulares

In [4]:
import re


## Bibliotecas matématicas e estatísticas

In [5]:
#Bibliotecas matemáticas e estatísticas
import numpy as np
from scipy.stats import spearmanr
import statistics as sts
from scipy import stats as s

# Inicializar selenium

In [6]:
options = Options() # criar uma instancia do objeto Options
options.add_argument("--headless")  # Executar o script em modo headless (sem interface)
options.add_argument("--window-size=400x800") # Definir o tamanho da janela do navegador

## Inicializar chrome

In [7]:
driver = webdriver.Chrome(options=options)

# Configurar Locale

In [8]:
locale.setlocale(locale.LC_ALL, 'pt_PT.UTF-8') # Definir o idioma do sistema para portugues

'pt_PT.UTF-8'

# Inicialização de variáveis

In [9]:
URL ='https://www.ncrangola.com/loja/particulares/pt/350-informatica#/page-{pagina}' # URL do site


# Funções  auxiliares

In [10]:
''' Função para obter página '''
def get_url(url):
    driver.get(url) #Abrir a URL
    #search_results = driver.find_element_by_xpath('/html/body/div[3]/div[1]/header/div[4]/div/div[1]/div/div[1]/a')
    #search_results.click()
    return driver.page_source  # Obter o conteúdo da página

def click_link(url):
    source = get_url(url) # Obter a página
    site_data = BeautifulSoup(source, 'html.parser') # Transformar o conteúdo da página em um objeto BeautifulSoup
    return BeautifulSoup(site_data.prettify(), 'html.parser') # Retornar o conteúdo da página


'''Funçãão para retornar um array com os produtos'''    
def get_produtos(page_source):
    produtos = [] # Criar um array para armazenar os produtos
    for produto in page_source: # Percorrer todos os produtos
        produtos.append({ 'Nome': produto.h5.get_text().strip(),
                        'Marca': produto.h6.get_text().strip(),
                        'Preco': produto.find('span', attrs={'itemprop':'price'}).text.strip(),
                        'Link': produto.find('a').get('href'),
                        'Imagem': produto.find('img').get('src'),
                        'dataConsulta': datetime.datetime.now()})
                        
    return produtos

# Tratamento dos dados

In [11]:
# Criar um dataframe para armazenar os produtos
df_produtos = pd.DataFrame(columns=['Nome','Marca','Preco','Link','Imagem','dataConsulta'])

In [12]:
   
# Fazer um loop para obter todas as páginas e obter os produtos
for page in range(1,8):
    url = URL.format(pagina=page) # Criar a URL com a página a ser consultada
    data = click_link(url) #Obter o conteúdo da página
    produtos = data.find_all('div', attrs={'class':'produto_geral'}) # Obter todos os produtos
    dataset= get_produtos(produtos) # Obter os produtos
    df_produtos = df_produtos.append(dataset,ignore_index=True) # Adicionar os produtos ao dataframe


In [13]:
df_produtos.count() # Contar o número de produtos

Nome            420
Marca           420
Preco           420
Link            420
Imagem          420
dataConsulta    420
dtype: int64

In [None]:
df_produtos.replace(' ', '', regex=True, inplace=True) # Remover os espaços em branco

In [None]:
# Substituir o símbolo de Kwanza para o símbolo de euro para se adequar ao locale
df_produtos.replace('AKZ', ' €', regex=True, inplace=True) 

In [None]:
# Transformar o preço em float
df_produtos['Preco'] = df_produtos['Preco'].apply(lambda x: locale.atof(x.split()[0]))

In [None]:
# Ver o tipo de dados do DataFrame
df_produtos.dtypes

Nome                    object
Marca                   object
Preco                  float64
Link                    object
Imagem                  object
dataConsulta    datetime64[ns]
dtype: object

In [None]:
# Remover os produtos duplicados
df_produtos.drop_duplicates(subset=['Nome','Marca'], keep='first', inplace=True)

In [None]:
# Mostrar os 5 primeiros produtos
df_produtos.head()

Unnamed: 0,Nome,Marca,Preco,Link,Imagem,dataConsulta
0,TRANSFORMADOR65WTRAVEL,LENOVO,24176.0,https://www.ncrangola.com/loja/particulares/pt/transformadores/12030-transf-lenovo-65w-travel-ac-adapt.html,https://www.ncrangola.com/loja/particulares/15146-home_default/transf-lenovo-65w-travel-ac-adapt.jpg,2021-11-19 14:24:35.045070
1,ADAPTADORUSB3.0TIPO-CPARAVGA,HP,24252.0,https://www.ncrangola.com/loja/particulares/pt/adaptadores/13915-adapt-usb-c-to-vga-hp.html,https://www.ncrangola.com/loja/particulares/16449-home_default/adapt-usb-c-to-vga-hp.jpg,2021-11-19 14:24:35.045257
2,CARTÃODEMEMÓRIASD128GBCL10170RGO!PLUS,KINGSTON,24374.0,https://www.ncrangola.com/loja/particulares/pt/cartoes-de-memoria/18126-mod-sd-card-128gb-cl10-kingston-170r-go-plus.html,https://www.ncrangola.com/loja/particulares/28602-home_default/mod-sd-card-128gb-cl10-kingston-170r-go-plus.jpg,2021-11-19 14:24:35.045516
3,TECLADOCOMFIO300PTPRETO,HP,24403.0,https://www.ncrangola.com/loja/particulares/pt/rato-e-teclado/15358-teclado-hp-usb-300.html,https://www.ncrangola.com/loja/particulares/23320-home_default/teclado-hp-usb-300.jpg,2021-11-19 14:24:35.045709
4,RATOSEMFIOWIRELESSZ4000PRETO,HP,24692.0,https://www.ncrangola.com/loja/particulares/pt/rato-e-teclado/1537-rato-hp-wifi-z4000-preto.html,https://www.ncrangola.com/loja/particulares/20247-home_default/rato-hp-wifi-z4000-preto.jpg,2021-11-19 14:24:35.045891


In [None]:
# Mostrar a contagem de itens em cada coluna
df_produtos.count()

Nome            119
Marca           119
Preco           119
Link            119
Imagem          119
dataConsulta    119
dtype: int64

# Formatação de dados pandas

In [None]:
# Formatar o dataframe para que os valores sejam apresentados como float
formato = { 'Preco': '{0:,.2f} Kz'}
df_produtos.head().style.format(formato)

Unnamed: 0,Nome,Marca,Preco,Link,Imagem,dataConsulta
0,TRANSFORMADOR65WTRAVEL,LENOVO,"24,176.00 Kz",https://www.ncrangola.com/loja/particulares/pt/transformadores/12030-transf-lenovo-65w-travel-ac-adapt.html,https://www.ncrangola.com/loja/particulares/15146-home_default/transf-lenovo-65w-travel-ac-adapt.jpg,2021-11-19 14:24:35.045070
1,ADAPTADORUSB3.0TIPO-CPARAVGA,HP,"24,252.00 Kz",https://www.ncrangola.com/loja/particulares/pt/adaptadores/13915-adapt-usb-c-to-vga-hp.html,https://www.ncrangola.com/loja/particulares/16449-home_default/adapt-usb-c-to-vga-hp.jpg,2021-11-19 14:24:35.045257
2,CARTÃODEMEMÓRIASD128GBCL10170RGO!PLUS,KINGSTON,"24,374.00 Kz",https://www.ncrangola.com/loja/particulares/pt/cartoes-de-memoria/18126-mod-sd-card-128gb-cl10-kingston-170r-go-plus.html,https://www.ncrangola.com/loja/particulares/28602-home_default/mod-sd-card-128gb-cl10-kingston-170r-go-plus.jpg,2021-11-19 14:24:35.045516
3,TECLADOCOMFIO300PTPRETO,HP,"24,403.00 Kz",https://www.ncrangola.com/loja/particulares/pt/rato-e-teclado/15358-teclado-hp-usb-300.html,https://www.ncrangola.com/loja/particulares/23320-home_default/teclado-hp-usb-300.jpg,2021-11-19 14:24:35.045709
4,RATOSEMFIOWIRELESSZ4000PRETO,HP,"24,692.00 Kz",https://www.ncrangola.com/loja/particulares/pt/rato-e-teclado/1537-rato-hp-wifi-z4000-preto.html,https://www.ncrangola.com/loja/particulares/20247-home_default/rato-hp-wifi-z4000-preto.jpg,2021-11-19 14:24:35.045891


# Análise de dados

### Análise de dados - Total de produtos

In [None]:
# Mostrar o total de produtos
print('Total de produtos:',len(df_produtos),sep=':')

Total de produtos::119


## Agrupamento de dados

### Agrupamento de dados usando funções matématicas básicas.

#### Agrupamento de dados - contagem,média,médiana,desvio padrão, max e minímo.

In [None]:
agg_funcao_math = {'Preco': ['min', 'max', 'mean', 'median', 'std']} # Definir as funções matemáticas a serem aplicadas

df_produtos.groupby('Marca').agg(agg_funcao_math).round(2)

Unnamed: 0_level_0,Preco,Preco,Preco,Preco,Preco
Unnamed: 0_level_1,min,max,mean,median,std
Marca,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
AVERY,9827.0,9827.0,9827.0,9827.0,
CASELOGIC,7137.0,24838.0,15987.5,15987.5,12516.5
CELLY,7169.0,9804.0,8372.5,8144.5,1341.82
DLINK,8796.24,27643.86,19833.25,26387.58,9570.77
FELLOWES,8707.32,9462.0,9084.66,9084.66,533.64
GENIUS,7249.0,8705.0,8137.87,8705.0,719.67
HP,8167.0,32669.0,25108.73,26300.0,7327.0
INTELLINET,8268.0,25657.0,13234.5,9506.5,8302.24
KASPERSKY,9952.0,9952.0,9952.0,9952.0,
KINGSLONG,8384.0,8934.0,8590.33,8453.0,271.52


#### Agrupamento de dados - Resumo estátistico

In [None]:
agg_funcao_estatistica = {'Preco': ['describe']} # Definir as funções estatísticas a serem aplicadas
df_produtos.groupby('Marca').agg(agg_funcao_estatistica).round(2)

Unnamed: 0_level_0,Preco,Preco,Preco,Preco,Preco,Preco,Preco,Preco
Unnamed: 0_level_1,describe,describe,describe,describe,describe,describe,describe,describe
Unnamed: 0_level_2,count,mean,std,min,25%,50%,75%,max
Marca,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
AVERY,1.0,9827.0,,9827.0,9827.0,9827.0,9827.0,9827.0
CASELOGIC,2.0,15987.5,12516.5,7137.0,11562.25,15987.5,20412.75,24838.0
CELLY,6.0,8372.5,1341.82,7169.0,7169.0,8144.5,9633.0,9804.0
DLINK,5.0,19833.25,9570.77,8796.24,9951.0,26387.58,26387.58,27643.86
FELLOWES,2.0,9084.66,533.64,8707.32,8895.99,9084.66,9273.33,9462.0
GENIUS,7.0,8137.87,719.67,7249.0,7448.06,8705.0,8705.0,8705.0
HP,15.0,25108.73,7327.0,8167.0,24547.5,26300.0,29602.0,32669.0
INTELLINET,4.0,13234.5,8302.24,8268.0,9180.75,9506.5,13560.25,25657.0
KASPERSKY,1.0,9952.0,,9952.0,9952.0,9952.0,9952.0,9952.0
KINGSLONG,6.0,8590.33,271.52,8384.0,8384.0,8453.0,8831.0,8934.0


In [None]:
df_produtos.groupby('Marca')['Preco'].agg(['min','max','mean','median','std']).style.format('{0:,.2f} Kz')

Unnamed: 0_level_0,min,max,mean,median,std
Marca,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AVERY,"9,827.00 Kz","9,827.00 Kz","9,827.00 Kz","9,827.00 Kz",0.00 Kz
CASELOGIC,"7,137.00 Kz","7,137.00 Kz","7,137.00 Kz","7,137.00 Kz",0.00 Kz
CELLY,"7,169.00 Kz","9,804.00 Kz","8,372.50 Kz","8,144.50 Kz","1,245.85 Kz"
DLINK,"8,796.24 Kz","9,951.00 Kz","9,373.62 Kz","9,373.62 Kz",608.61 Kz
FELLOWES,"8,707.32 Kz","9,462.00 Kz","9,084.66 Kz","9,084.66 Kz",397.75 Kz
GENIUS,"7,249.00 Kz","8,705.00 Kz","8,137.87 Kz","8,705.00 Kz",676.01 Kz
HP,"8,167.00 Kz","8,306.00 Kz","8,236.50 Kz","8,236.50 Kz",73.26 Kz
INTELLINET,"8,268.00 Kz","9,528.00 Kz","9,093.67 Kz","9,485.00 Kz",604.60 Kz
KINGSLONG,"8,384.00 Kz","8,934.00 Kz","8,590.33 Kz","8,453.00 Kz",252.10 Kz
KINGSTON,"9,275.00 Kz","9,275.00 Kz","9,275.00 Kz","9,275.00 Kz",0.00 Kz


#### Contagem de dados

In [None]:
agg_funcao_contagem = {'Preco' : ['count','nunique','size']} # Definir as funções de contagem a serem aplicadas
df_produtos.groupby('Marca').agg(agg_funcao_contagem).round(2)

Unnamed: 0_level_0,Preco,Preco,Preco
Unnamed: 0_level_1,count,nunique,size
Marca,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
AVERY,1,1,1
CASELOGIC,2,2,2
CELLY,6,3,6
DLINK,5,4,5
FELLOWES,2,2,2
GENIUS,7,3,7
HP,15,15,15
INTELLINET,4,4,4
KASPERSKY,1,1,1
KINGSLONG,6,3,6


#### Agrupamento de dados - Maior e Menor Preço

In [None]:
#agg_funcao_maior_menor = {'Preco' : ['first','last']} # Definir as funções de maior e menor a serem aplicadas
agg_funcao_maior_menor = {'Preco' : ['min','max']} # Definir as funções de maior e menor a serem aplicadas
#agg_funcao_maior_menor = {'Preco' : ['idxmin','idxmax']} #inidice do valor maximo e minimo
df_produtos.groupby('Marca').agg(agg_funcao_maior_menor).round(2)

Unnamed: 0_level_0,Preco,Preco
Unnamed: 0_level_1,min,max
Marca,Unnamed: 1_level_2,Unnamed: 2_level_2
AVERY,9827.0,9827.0
CASELOGIC,7137.0,24838.0
CELLY,7169.0,9804.0
DLINK,8796.24,27643.86
FELLOWES,8707.32,9462.0
GENIUS,7249.0,8705.0
HP,8167.0,32669.0
INTELLINET,8268.0,25657.0
KASPERSKY,9952.0,9952.0
KINGSLONG,8384.0,8934.0


#### Agrupamento de dados - Stats 

# Exportação dos dados para excel

In [None]:
df_produtos.to_excel('NCR_produtos_3.xlsx',index=False) # Exportar o dataframe para um arquivo Excel