<a href="https://colab.research.google.com/github/guimarczewski/colab/blob/master/Projeto_1_An%C3%A1lise_de_Produtos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Análise de Produtos**

Olá! Nesse primeiro projeto iremos realizar a análise de uma pequena base de dados contendo os dados de produção e venda de diversos produtos. O principal objetivo é encontrar os produtos com melhor custo benefício e com maior margem de lucro.

Esse dataset contém 7 colunas:


*   **Data**: especifica a data em que a venda foi realizada, porém os dados ainda não estão tratados;
*   **Produto**: contém o código do produto, podendo um produto com o mesmo código ter sido vendido várias vezes;
*   **Serial Number**: número de série do produto, é um código único;
*   **Valor de Venda**: valor de venda do produto, já está com os dados tratados;
*   **Preço Custo**: preço do custo para produção do produto;
*   **Duração Venda Telefone (mins)**: tempo de duração para venda de um produto;
*   **Tempo Preparação (mins)**: tempo de preparação para envio do produto.








In [232]:
#importando bibliotecas
import matplotlib
import matplotlib.pyplot as plt
import plotly.offline as py
import plotly.graph_objs as go
import os
import pandas as pd

#conectando ao Google Drive
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [233]:
#verificando o diretório atual
os.getcwd()

'/content/gdrive/My Drive/sigmoidal'

In [234]:
#mudando para o diretório que se encontra o arquivo para análise
os.chdir('/content/gdrive/My Drive/sigmoidal')

In [235]:
# Verificando se mudança de diretório ocorreu corretamente
os.getcwd()

'/content/gdrive/My Drive/sigmoidal'

In [236]:
# Carregando o arquivo e verificando as cinco primeiras linhas. Nota-se que ao não preencher o separador das colunas, o colab usa o "," como separador padrão
df = pd.read_csv("/content/gdrive/My Drive/sigmoidal/custos.txt")
df.head(5)

Unnamed: 0,Data,Produto,Serial number,Valor de Venda,Preço Custo,Duração Venda Telefone (mins),Tempo Preparação (mins)
0,19/03/2017,AX101,GF54309,68.71,34.36,17,11
1,27/02/2017,BX102,GF54425,53.57,29.46,26,11
2,2/3/2017,AX101,GF54381,68.71,37.79,27,20
3,28/03/2017,BX101,GF54527,30.06,13.53,17,23
4,3/3/2017,AX101,GF54695,68.71,35.73,0,20


In [237]:
# Ajustando o formato da coluna "Data"
df['Data']=pd.to_datetime(df['Data'].astype(str), format='%d/%m/%Y')

In [238]:
# Verificando a alteração da coluna "Data"
df.head()

Unnamed: 0,Data,Produto,Serial number,Valor de Venda,Preço Custo,Duração Venda Telefone (mins),Tempo Preparação (mins)
0,2017-03-19,AX101,GF54309,68.71,34.36,17,11
1,2017-02-27,BX102,GF54425,53.57,29.46,26,11
2,2017-03-02,AX101,GF54381,68.71,37.79,27,20
3,2017-03-28,BX101,GF54527,30.06,13.53,17,23
4,2017-03-03,AX101,GF54695,68.71,35.73,0,20


In [239]:
# Agrupando colunas de data e somando seus valores de venda.
total = df.groupby(["Data"])["Valor de Venda"].sum()
# Ordenando a coluna da soma do valor de vendas em ordem descrescente.
total_ordenado = total.sort_values(ascending=False)
total_ordenado

Data
2017-03-27    588.37
2017-03-07    338.66
2017-03-23    311.66
2017-03-19    307.24
2017-03-04    270.44
2017-03-17    255.25
2017-02-27    243.38
2017-03-24    234.19
2017-03-03    231.36
2017-03-20    209.72
2017-03-01    195.80
2017-03-08    195.58
2017-03-06    191.40
2017-03-05    189.41
2017-03-13    182.67
2017-03-22    149.01
2017-03-18    149.01
2017-03-29    140.22
2017-03-02    139.83
2017-03-25    115.96
2017-03-21     93.80
2017-03-11     92.52
2017-03-14     90.60
2017-03-31     71.12
2017-03-10     68.93
2017-03-09     68.71
2017-02-28     62.46
2017-03-15     53.50
2017-03-16     51.28
2017-03-30     30.06
2017-03-28     30.06
Name: Valor de Venda, dtype: float64

In [240]:
# Criando gráfico com as bibliotecas 
trace = go.Scatter(x = df['Valor de Venda'],
                   y = df['Preço Custo'],
                   mode = 'markers',
                   marker =  {'color' : '#ffd700',
                              'line' : {'width': 1,
                                        'color': '#CAA600'}},
                   opacity=.8)
# Armazenando gráfico em uma lista
data = [trace]
# Criando Layout e alterando títulos
layout = go.Layout(title='Valor de Venda x Preço de Custo',
                   yaxis={'title':'Preço de Custo'},
                   xaxis={'title': 'Valor de Venda'})
# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)
# Exibindo figura/gráfico
py.iplot(fig)


No gráfico acima podemos notar uma tendência: Quando maior o valor de venda, maior o preço de custo do mesmo.

In [241]:
# Exibindo 5 primeiras linhas
df.head()

Unnamed: 0,Data,Produto,Serial number,Valor de Venda,Preço Custo,Duração Venda Telefone (mins),Tempo Preparação (mins)
0,2017-03-19,AX101,GF54309,68.71,34.36,17,11
1,2017-02-27,BX102,GF54425,53.57,29.46,26,11
2,2017-03-02,AX101,GF54381,68.71,37.79,27,20
3,2017-03-28,BX101,GF54527,30.06,13.53,17,23
4,2017-03-03,AX101,GF54695,68.71,35.73,0,20


In [242]:
# Criando uma nova coluna de cálculo da margem de lucro por produto
df["Margem de Lucro"] = df['Valor de Venda']/df['Preço Custo']*100
df.head()

Unnamed: 0,Data,Produto,Serial number,Valor de Venda,Preço Custo,Duração Venda Telefone (mins),Tempo Preparação (mins),Margem de Lucro
0,2017-03-19,AX101,GF54309,68.71,34.36,17,11,199.970896
1,2017-02-27,BX102,GF54425,53.57,29.46,26,11,181.839783
2,2017-03-02,AX101,GF54381,68.71,37.79,27,20,181.820587
3,2017-03-28,BX101,GF54527,30.06,13.53,17,23,222.172949
4,2017-03-03,AX101,GF54695,68.71,35.73,0,20,192.303387


In [243]:
# Criando uma variável para facilitar o acesso às colunas "Produto" e "Margem de Lucro"
prod_margem = df[['Produto','Margem de Lucro']]
print(prod_margem)

    Produto  Margem de Lucro
0     AX101       199.970896
1     BX102       181.839783
2     AX101       181.820587
3     BX101       222.172949
4     AX101       192.303387
..      ...              ...
101   DX101       203.935185
102   BX103       185.196131
103   AX102       208.285946
104   DX102       192.302956
105   AX102       200.000000

[106 rows x 2 columns]


In [244]:
# Vamos reordenar a coluna "Margem de Lucro" em ordem descrescente
prod_margem_ord = prod_margem.sort_values(by="Margem de Lucro",ascending=False)
prod_margem_ord

Unnamed: 0,Produto,Margem de Lucro
17,DX103,222.268688
80,AX101,222.218629
67,DX102,222.198506
66,AX102,222.183709
85,AX103,222.176080
...,...,...
55,CX103,181.795635
70,AX103,181.787292
53,AX103,181.787292
13,DX103,181.787088


In [245]:
# Removendo duplicatas da coluna "Produto", considerando a maior margem de lucro para cada produto
prod_margem_1 = prod_margem_ord.drop_duplicates('Produto')
print(prod_margem_1)

   Produto  Margem de Lucro
17   DX103       222.268688
80   AX101       222.218629
67   DX102       222.198506
66   AX102       222.183709
85   AX103       222.176080
3    BX101       222.172949
93   CX102       217.456140
60   BX102       217.410714
27   CX103       217.378410
51   BX103       217.376222
33   DX101       217.262639
18   CX101       212.775951


In [246]:
# Verificando a diferença de antes e depois da remoção de duplicatas
print(prod_margem.count())
print(prod_margem_1.count())

Produto            106
Margem de Lucro    106
dtype: int64
Produto            12
Margem de Lucro    12
dtype: int64


In [247]:
# Criando um gráfico de barras para verificar os produtos com a maior margem de lucro
trace = go.Bar(x = prod_margem_1['Produto'],
               y = prod_margem_1['Margem de Lucro'],
                name = 'Gáfico 1',
                marker = {'color': '#CAA600'})
# Armazenando gráfico em uma lista
data = [trace]
# Criando Layout
layout = go.Layout(title='Produto x Margem de Lucro',
                   yaxis={'title':'Margem de Lucro (%)'},
                   xaxis={'title': 'Produto'})
# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)
# Exibindo figura/gráfico
py.iplot(fig)

In [248]:
# Exibindo uma tabela com os três produtos com maior margem de lucro
prod_margem_ord_top3 = prod_margem_1.head(3)
prod_margem_ord_top3

Unnamed: 0,Produto,Margem de Lucro
17,DX103,222.268688
80,AX101,222.218629
67,DX102,222.198506


In [249]:
# Criando um gráfico com o TOP 3 produtos com maior margem de lucro
trace = go.Bar(x = prod_margem_ord_top3['Produto'],
               y = prod_margem_ord_top3['Margem de Lucro'],
                name = 'Gáfico 1',
                marker = {'color': '#CAA600'})
# Armazenando gráfico em uma lista
data = [trace]
# Criando Layout
layout = go.Layout(title='Produto x Margem de Lucro - 3 Melhores Produtos',
                   yaxis={'title':'Margem de Lucro (%)'},
                   xaxis={'title': 'Produto'})
# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)
# Exibindo figura/gráfico
py.iplot(fig)

Acima podemos verificar os três produtos com a maior margem de lucro, ou seja, que produz o maior ganho sobre o custo para produzí-los:



*   **DX103**
*   **AX101**
*   **DX102** 



**Bibliografia**

https://paulovasconcellos.com.br/como-criar-gráficos-interativos-utilizando-plotly-e-python-3eb6eda57a2b - Criando gráficos interativos com a biblioteca Plotly.

https://projects.susielu.com/viz-palette - Paleta de Cores.

https://www.it-swarm.dev/pt/python/alterar-tipo-de-dados-de-colunas-em-pandas/1072113742/ - Alterando o formato da coluna para data.

https://www.it-swarm.dev/pt/python/como-alterar-o-formato-de-data-e-hora-em-pandas/825789684/ - Alterando o formato da coluna para data.

https://eduardo2s.github.io/remover-linhas-duplicadas-com-pandas/ - Removendo duplicatas.