In [54]:
# Importação das bibliotecas
from bs4 import BeautifulSoup
import requests
import pandas as pd
import plotly.graph_objects as go

## Dicionário de dados

|   Variável            |   Função    | 
| -----------           | ----------- |
| Modelo                | Nome completo da placa de vídeo, incluindo informações técnicas    |
| ValorAV               | Valor à vista do produto    |
| ValorParc             | Valor parcelado do produto    |
| Loja                  | Nome da loja    |
| Link                  | Link do produto    |
| ModeloSimplificado    | Nome da placa de vídeo simplificado    |


## Extração de Dados

Foi escolhida uma base de preços de placas de vídeo, onde foi feito um webscrapping utilizando a biblioteca "requests" e "beautifulsoup" do site "placasdevideo.app.br"

In [55]:
URL = "http://placasdevideo.app.br/Precos.json"
  
webpage = requests.get(URL)

soup = BeautifulSoup(webpage.content, "html.parser")


# Lendo o json extraido do site
json = soup.prettify()

In [56]:
# Transformando o json em um dataframe
df = pd.read_csv('placas_de_video.csv')

## Limpeza dos dados

Removendo dados desnecessários e substuindo valores para uma análise mais precisa do Dataframe

In [57]:
# Lendo as 5 primeiras linhas do dataframe
df.head()

Unnamed: 0.1,Unnamed: 0,Modelo,ValorAV,ValorParc,Loja,Link,ModeloSimplificado
0,1,Placa De Vídeo PowerColor AMD Radeon RX 6400 L...,699.9,816.0,Terabyte,https://www.terabyteshop.com.br/produto/22613/...,RX 6400
1,2,Placa De Vídeo Gigabyte GeForce GTX 1650 D6 OC...,799.99,936.0,Terabyte,https://www.terabyteshop.com.br/produto/25038/...,GTX 1650
2,3,"Placa De Vídeo BRX, AMD RX 580, 8GB, GDDR 5, 2...",801.23,942.62,Kabum,https://www.awin1.com/cread.php?awinmid=17729&...,RX 580
3,4,Placa De Vídeo Gigabyte GeForce GTX 1650 D6 OC...,849.0,996.0,Terabyte,https://www.terabyteshop.com.br/produto/25036/...,GTX 1650
4,5,"Placa De Vídeo PowerColor Radeon RX 6500 XT, 4...",899.0,1056.0,Terabyte,https://www.terabyteshop.com.br/produto/20245/...,RX 6500XT


In [58]:
# Apagar primeira linha onde contem informações sobre o site e não para análise
df = df.drop(columns=['Unnamed: 0'])

In [59]:
# Foi verificado que a coluna ValorParc possui valores 'Verificar no site', que impede a análise de dados quantitativos.
# Por isso valor deve ser substituido por 0
df[df['ValorParc'] == 'Verificar no site']

Unnamed: 0,Modelo,ValorAV,ValorParc,Loja,Link,ModeloSimplificado


In [60]:
df['ValorParc'] = df['ValorParc'].replace('Verificar no site', 0)
df[df['ValorParc'] == 0]

Unnamed: 0,Modelo,ValorAV,ValorParc,Loja,Link,ModeloSimplificado
97,Galax PLACA DE VIDEO GEFORCE RTX 3050 EX 1-CLI...,1769.0,0.0,Amazon,https://www.amazon.com.br/Galax-PLACA-GEFORCE-...,RTX 3050
208,GPU NV RTX3060 8GB 1-CLICK OC GDDR6 128BITS GA...,2139.0,0.0,Amazon,https://www.amazon.com.br/RTX3060-1-CLICK-GDDR...,RTX 3060 8GB
224,PROCESSADOR GRAFICO MSI GEFORCE912-V397-484 (G...,2195.0,0.0,Amazon,https://www.amazon.com.br/PROCESSADOR-GRAFICO-...,RTX 3060 12GB
268,"Placa de Vídeo Gainward - GeForce RTX 3060, 12...",2340.0,0.0,Amazon,https://www.amazon.com.br/Placa-V%C3%ADdeo-Gai...,RTX 3060 12GB
276,"MSI Placa de Video Geforce Rtx 3060 Gaming X, ...",2399.0,0.0,Amazon,https://www.amazon.com.br/MSI-Geforce-Gaming-1...,RTX 3060 12GB
277,PLACA DE VIDEO PALIT GEFORCE RTX 3060 DUAL 12G...,2399.0,0.0,Amazon,https://www.amazon.com.br/PLACA-VIDEO-PALIT-GE...,RTX 3060 12GB
309,PLACA DE VIDEO GALAX GEFORCE RTX 2060 SUPER 1C...,2494.0,0.0,Amazon,https://www.amazon.com.br/PLACA-GEFORCE-1CLICK...,RTX 2060 Super
426,PLACA DE VIDEO GALAX GEFORCE RTX 3070 EX (1-CL...,4099.0,0.0,Amazon,https://www.amazon.com.br/PLACA-VIDEO-GALAX-GE...,RTX 3070
498,Placa de Vídeo MSI Nvidia RTX4070 12GB GAMING ...,4914.0,0.0,Amazon,https://www.amazon.com.br/Placa-MSI-Nvidia-RTX...,RTX 4070
509,PLACA DE VIDEO ASUS GEFORCE RTX 3080 OC TUF GA...,5077.0,0.0,Amazon,https://www.amazon.com.br/Placa-V%C3%ADdeo-GeF...,RTX 3080 10GB


In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 824 entries, 0 to 823
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Modelo              824 non-null    object 
 1   ValorAV             824 non-null    float64
 2   ValorParc           824 non-null    float64
 3   Loja                824 non-null    object 
 4   Link                824 non-null    object 
 5   ModeloSimplificado  824 non-null    object 
dtypes: float64(2), object(4)
memory usage: 38.8+ KB


In [62]:
df.shape

(824, 6)

## Análise Descritiva

In [63]:
media_valorparc = df.copy()
media_valorparc.shape

(824, 6)

In [64]:
media_valorparc = media_valorparc[~(media_valorparc == 0).any(axis=1)]
media_valorparc.shape

(813, 6)

In [65]:
# Calculando a diferença absoluta e percentual entre os valores de ValorAV e ValorParc
valores = media_valorparc[['ValorAV', 'ValorParc']].describe()
valores['diferenca'] = media_valorparc['ValorParc'].describe() - media_valorparc['ValorAV'].describe()
valores['diferenca_em_pct'] = (media_valorparc['ValorParc'].describe() - media_valorparc['ValorAV'].describe()) / media_valorparc['ValorParc'].describe() * 100

In [66]:
valores[['ValorAV', 'ValorParc', 'diferenca', 'diferenca_em_pct']]

Unnamed: 0,ValorAV,ValorParc,diferenca,diferenca_em_pct
count,813.0,813.0,0.0,0.0
mean,4856.275695,5445.644133,589.368438,10.82275
std,3535.672764,3900.507074,364.83431,9.35351
min,699.9,816.0,116.1,14.227941
25%,2099.99,2399.99,300.0,12.500052
50%,3899.0,4355.54,456.54,10.481823
75%,6699.0,7623.52,924.52,12.127206
max,29699.1,32999.0,3299.9,10.0


## Análise de Preços

In [67]:
# Agrupando os dados por 'Modelo' e calculando a média e mediana dos valores para identificar quais modelos são mais caros ou mais baratos.

agrupamento = df.groupby('ModeloSimplificado')['ValorAV']
agrupamento.median()

ModeloSimplificado
Arc A380            929.000
Arc A750           2049.000
Arc A770           2399.000
GTX 1650            999.000
GTX 1650 Super     1793.500
GTX 1660           1607.650
GTX 1660 Super     1599.000
GTX 1660Ti         1599.000
RTX 2060           2077.550
RTX 2060 Super     2302.220
RTX 3050           1899.375
RTX 3060 12GB      2299.450
RTX 3060 8GB       2079.990
RTX 3060Ti         2593.990
RTX 3070           3799.000
RTX 3070Ti         4474.035
RTX 3080 10GB      5210.455
RTX 3080 12GB      8536.000
RTX 3080Ti         5999.450
RTX 3090          11399.000
RTX 3090Ti        13141.025
RTX 4060Ti         3699.990
RTX 4070           4898.990
RTX 4070Ti         6479.990
RTX 4080           8399.000
RTX 4090          11499.000
RX 570             1279.495
RX 5700XT          3500.000
RX 580             4049.100
RX 6400            1538.000
RX 6500XT          1681.135
RX 6600            1580.245
RX 6600XT          3153.995
RX 6650XT          2279.990
RX 6700XT          2749.990
R

In [68]:
agrupamento.mean()

ModeloSimplificado
Arc A380            929.000000
Arc A750           2049.000000
Arc A770           2399.000000
GTX 1650            987.697500
GTX 1650 Super     1886.524000
GTX 1660           1563.242500
GTX 1660 Super     1605.919412
GTX 1660Ti         1595.225000
RTX 2060           2075.744667
RTX 2060 Super     2509.884286
RTX 3050           1883.264231
RTX 3060 12GB      2285.580143
RTX 3060 8GB       2055.605556
RTX 3060Ti         2532.150217
RTX 3070           3846.957368
RTX 3070Ti         4410.103333
RTX 3080 10GB      5214.305833
RTX 3080 12GB      9107.819412
RTX 3080Ti         5839.480000
RTX 3090          14251.922667
RTX 3090Ti        13202.341667
RTX 4060Ti         3601.227222
RTX 4070           4816.926667
RTX 4070Ti         6468.631325
RTX 4080           8407.567119
RTX 4090          11652.237674
RX 570             1310.378333
RX 5700XT          3500.000000
RX 580             3324.663000
RX 6400            1770.643846
RX 6500XT          1788.154583
RX 6600            1

In [69]:
# Agrupar os dados pela coluna "Placa de Video" e calcular a média dos preços
media_precos = df.groupby('ModeloSimplificado')['ValorAV'].mean().reset_index()

media_precos = media_precos.sort_values(by='ValorAV', ascending=False)

# Criar o gráfico de barras com as médias dos preços
fig = go.Figure(data=go.Bar(x=media_precos['ModeloSimplificado'], y=media_precos['ValorAV']))

# Personalizar o layout do gráfico
fig.update_layout(
    title='Média dos Preços das Placas de Vídeo',
    xaxis_title='Placas de Vídeo',
    yaxis_title='Valor à Vista (R$)',
    xaxis_tickangle=-45,
    template='plotly_dark'
)

fig.show()

Analisando o gráfico de média de preços, foi possível perceber que as placas de vídeo da NVIDIA "RTX 3090" e "RTX 3090Ti" lideram o ranking de preço. Isso é meio estranho, visto que, ela é mais antiga e pior do que a "RTX 4090".

O mesmo acontece com a AMD, onde a "RX 6900XT" tem o preço maior.

In [70]:
df_1 = df[(df['ModeloSimplificado'] == 'RTX 3090') | (df['ModeloSimplificado'] == 'RTX 3090Ti') | (df['ModeloSimplificado'] == 'RX 6900XT')].sort_values(by='ModeloSimplificado', ascending=False)
df_1[['ModeloSimplificado', 'Loja', 'ValorAV', 'ValorParc']]

Unnamed: 0,ModeloSimplificado,Loja,ValorAV,ValorParc
524,RX 6900XT,MagaLu,5300.91,5699.9
821,RX 6900XT,Amazon,23611.0,23611.7
805,RX 6900XT,MagaLu,13400.27,13400.27
767,RX 6900XT,MagaLu,10874.54,11446.88
544,RX 6900XT,Kabum,5826.51,6473.9
753,RX 6900XT,MagaLu,9999.99,9999.99
743,RX 6900XT,MagaLu,9399.9,9399.9
696,RX 6900XT,MagaLu,8336.66,8336.66
720,RX 6900XT,Amazon,8640.0,8640.9
580,RX 6900XT,MagaLu,6344.59,6344.59


Analisando o Dataframe, foi encontrado valores discrepantes, algumas placas de vídeo chegando a mais de 25 mil, o que acaba aumentando a média lá pra cima.

Foi possível perceber que os sites, quando a placa está fora de estoque eles aumentam o valor da placa para um valor muito alto, qual ocasiona esses preços.

## Análise das Lojas

Visualizando o dataframe gerado, foi verificado que a loja Magalu é a que mais aparece, porém, por ser um marketplace, pode ser que ele contenha produtos de lojas como a Kabum, Pichau, Terabyte, etc. Por isso, não é possível afirmar que a Magalu é a loja que mais possui placas de vídeo, o mesmo acontece com a Kabum e Amazon.

In [71]:
# Contando a quantidade de ocorrencias de cada loja que aparece de forma descrescente

ocorrencias = df['Loja'].value_counts(ascending=False).reset_index()
ocorrencias.columns = ['Loja', 'Ocorrencias']
ocorrencias

Unnamed: 0,Loja,Ocorrencias
0,MagaLu,186
1,Kabum,175
2,Pichau,119
3,Amazon,110
4,Terabyte,90
5,ITX Gamer,38
6,GKInfoStore,32
7,Imperiums,15
8,GuerraDigital,12
9,Patoloco,12


In [72]:
# Criar um boxplot dos preços por loja
fig = go.Figure()

for loja in df['Loja'].unique():
    fig.add_trace(go.Box(y=df[df['Loja'] == loja]['ValorAV'], name=loja))

# Personalizar o layout do gráfico
fig.update_layout(
    title='Distribuição de Preços por Loja',
    xaxis=dict(title='Lojas'),
    yaxis=dict(title='Valor à Vista (R$)'),
    template='plotly_dark'
)

# Exibir o gráfico
fig.show()

## 1. Qual é a loja que possui mais placas de vídeo à venda?

In [80]:
disponivel = df['Loja'].value_counts(ascending=False).reset_index()
disponivel.columns = ['Loja', 'Disponivel']
disponivel

Unnamed: 0,Loja,Disponivel
0,MagaLu,186
1,Kabum,175
2,Pichau,119
3,Amazon,110
4,Terabyte,90
5,ITX Gamer,38
6,GKInfoStore,32
7,Imperiums,15
8,GuerraDigital,12
9,Patoloco,12


## 2. Calcule a média de valores por modelo de placa de vídeo

In [89]:
media_por_modelo = df.groupby('ModeloSimplificado')['ValorAV'].mean().reset_index()
media_por_modelo = media_por_modelo.sort_values(by='ValorAV', ascending=False)

# Criar o gráfico de barras com as médias dos preços
fig = go.Figure(data=go.Bar(x=media_por_modelo['ModeloSimplificado'], y=media_por_modelo['ValorAV']))

# Personalizar o layout do gráfico
fig.update_layout(
    title='Média dos Preços das Placas de Vídeo',
    xaxis_title='Placas de Vídeo',
    yaxis_title='Valor à Vista (R$)',
    xaxis_tickangle=-45,
    template='plotly_dark'
)

fig.show()

## 3. O quão mais caro é uma placa de vídeo com valor parcelado?

In [107]:
diferenca = df.groupby('ModeloSimplificado')[['ValorAV', 'ValorParc']].mean().reset_index()
diferenca['Diferenca'] = (diferenca['ValorParc'] - diferenca['ValorAV']) / diferenca['ValorParc'] * 100
diferenca.sort_values(by='Diferenca', ascending=False)


Unnamed: 0,ModeloSimplificado,ValorAV,ValorParc,Diferenca
3,GTX 1650,987.6975,1164.58625,15.188978
1,Arc A750,2049.0,2410.59,15.000062
2,Arc A770,2399.0,2822.35,14.999911
0,Arc A380,929.0,1092.94,14.999909
35,RX 6750XT,3104.983333,3635.516667,14.593066
33,RX 6650XT,2396.428667,2805.452,14.579588
41,RX 7900 XTX,8005.7475,9328.48,14.179507
34,RX 6700XT,2706.983333,3144.26,13.907141
26,RX 570,1310.378333,1518.093333,13.682624
6,GTX 1660 Super,1605.919412,1859.941765,13.657543


In [110]:
diferenca = diferenca.sort_values(by='Diferenca', ascending=False)

# Criar o gráfico de barras com as médias dos preços
fig = go.Figure(data=go.Bar(x=diferenca['ModeloSimplificado'], y=diferenca['Diferenca']))

# Personalizar o layout do gráfico
fig.update_layout(
    title='Diferença Percetual das Placas de Vídeo',
    xaxis_title='Placas de Vídeo',
    yaxis_title='Diferença Percentual',
    xaxis_tickangle=-45,
    template='plotly_dark'
)

fig.show()

## 4. Qual a média do ValorAV das placas de vídeo das 3 lojas que mais vendem?

In [163]:
# Contando a quantidade de ocorrencias de cada loja que aparece de forma descrescente

ocorrencias = df['Loja'].value_counts(ascending=False).reset_index()
ocorrencias.columns = ['Loja', 'Ocorrencias']
ocorrencias

Unnamed: 0,Loja,Ocorrencias
0,MagaLu,186
1,Kabum,175
2,Pichau,119
3,Amazon,110
4,Terabyte,90
5,ITX Gamer,38
6,GKInfoStore,32
7,Imperiums,15
8,GuerraDigital,12
9,Patoloco,12


In [164]:
# Adicionar a coluna ValorAV na variavel ocorrencias com a média dos preços
ocorrencias = pd.merge(ocorrencias, df.groupby('Loja')['ValorAV'].mean().reset_index(), on='Loja', how='left')
ocorrencias.head(3)

Unnamed: 0,Loja,Ocorrencias,ValorAV
0,MagaLu,186,5327.704462
1,Kabum,175,4517.229257
2,Pichau,119,4607.73


In [159]:
# Criar um grafico utilizando o plotly e plotar o grafico da variavel ocorrencias
fig = go.Figure(data=go.Bar(x=ocorrencias['Loja'].head(3), y=ocorrencias['ValorAV'].head(3)))

# Personalizar o layout do gráfico
fig.update_layout(
title='Ocorrências por Valor à Vista',
    xaxis_title='Lojas',
    yaxis_title='Ocorrências',
    xaxis_tickangle=-45,
    template='plotly_dark'
)

fig.show()

## 5. Qual é o modelo de placa de vídeo mais comum no dataframe?

In [143]:
# Identificar o modelo de placa de vídeo mais comum
modelo_mais_comum = df['ModeloSimplificado'].value_counts().idxmax()

modelo_mais_comum


'RTX 4070Ti'

## 6. Quais são as lojas que oferecem os preços mais baixos para as placas de vídeo?

In [144]:
media_precos_loja = df.groupby('Loja')['ValorAV'].mean()
media_precos_loja = media_precos_loja.sort_values()

fig = go.Figure(data=go.Bar(x=media_precos_loja.index, y=media_precos_loja.values))

fig.update_layout(
title='Preço Médio das Placas de Vídeo por Loja (Mais Baixos)',
    xaxis_title='Lojas',
    yaxis_title='Preço Médio',
    xaxis_tickangle=-45,
    template='plotly_dark'
)

fig.show()
