# Análise de Dados com as Bases da Empresa Contoso

## Importação de Bibliotecas e Arquivos

In [1]:
# Importa a biblioteca pandas com o apelido pd
import pandas as pd

In [2]:
# Importação das bases de dados
df_vendas = pd.read_csv("Contoso - Vendas - 2017.csv", sep=";")
df_produtos = pd.read_csv("Contoso - Cadastro Produtos.csv", sep=";")
df_lojas = pd.read_csv("Contoso - Lojas.csv", sep=";")
df_clientes = pd.read_csv("Contoso - Clientes.csv", sep=";")

## Visualização dos Dataframes

### Vendas

In [3]:
df_vendas.head()

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1
1,2,01/01/2017,06/01/2017,5,308,1586,2,18469,9,1
2,3,01/01/2017,01/01/2017,0,294,1444,5,19730,13,1
3,4,01/01/2017,01/01/2017,0,251,1468,5,29326,6,1
4,5,01/01/2017,07/01/2017,6,94,1106,2,22617,4,1


### Produtos

In [4]:
df_produtos.head()

Unnamed: 0,Nome do Produto,Descricao do Produto,Fabricante,Nome da Marca,Tipo,Custo Unitario,Preco Unitario,ID Produto,ID Subcategoria
0,Contoso Wireless Laser Mouse E50 Grey,Advanced 2.4 GHz cordless technology makes fre...,"Contoso, Ltd",Contoso,Econômico,1069,2096,873,22
1,Contoso Optical Wheel OEM PS/2 Mouse E60 Grey,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,879,22
2,Contoso Optical Wheel OEM PS/2 Mouse E60 Black,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,880,22
3,Contoso Optical Wheel OEM PS/2 Mouse E60 White,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,881,22
4,Contoso Optical Wheel OEM PS/2 Mouse E60 Silver,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,882,22


### Lojas

In [5]:
df_lojas.head()

Unnamed: 0,ID Loja,Nome da Loja,Quantidade Colaboradores,País
0,1,Loja Contoso Seattle No.1,17.0,Estados Unidos
1,2,Loja Contoso Seattle No.2,25.0,Estados Unidos
2,3,Loja Contoso Kennewick,26.0,Estados Unidos
3,4,Loja Contoso Bellevue,19.0,Estados Unidos
4,5,Loja Contoso Redmond,33.0,Estados Unidos


### Clientes

In [6]:
df_clientes.head()

Unnamed: 0,ID Cliente,Primeiro Nome,Sobrenome,E-mail,Genero,Numero de Filhos,Data de Nascimento,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,1,Garnet,Lanfranchi,glanfranchi0@mayoclinic.com,Feminino,2,12/05/1995,,,,
1,2,Lurette,Roseblade,lroseblade1@bigcartel.com,Feminino,2,30/06/1943,,,,
2,3,Glenden,Ishchenko,gishchenko2@moonfruit.com,Masculino,5,09/04/1989,,,,
3,4,Baron,Jedrzejewsky,bjedrzejewsky3@e-recht24.de,Masculino,4,17/11/1998,,,,
4,5,Sheree,Bredbury,sbredbury4@sitemeter.com,Feminino,5,08/09/1975,,,,


## Limpeza dos Dados

Repare que o `df_clientes` possui quatro colunas com dados vazios. Vamos, pois, remover essas colunas.

In [7]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39504 entries, 0 to 39503
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID Cliente          39504 non-null  int64  
 1   Primeiro Nome       39504 non-null  object 
 2   Sobrenome           39504 non-null  object 
 3   E-mail              39504 non-null  object 
 4   Genero              39504 non-null  object 
 5   Numero de Filhos    39504 non-null  int64  
 6   Data de Nascimento  39504 non-null  object 
 7   Unnamed: 7          0 non-null      float64
 8   Unnamed: 8          0 non-null      float64
 9   Unnamed: 9          0 non-null      float64
 10  Unnamed: 10         0 non-null      float64
dtypes: float64(4), int64(2), object(5)
memory usage: 3.3+ MB


In [8]:
# Remove as colunas especificadas
df_clientes.drop(["Unnamed: 7", "Unnamed: 8", "Unnamed: 9", "Unnamed: 10"], axis=1, inplace=True)
df_clientes.head()

Unnamed: 0,ID Cliente,Primeiro Nome,Sobrenome,E-mail,Genero,Numero de Filhos,Data de Nascimento
0,1,Garnet,Lanfranchi,glanfranchi0@mayoclinic.com,Feminino,2,12/05/1995
1,2,Lurette,Roseblade,lroseblade1@bigcartel.com,Feminino,2,30/06/1943
2,3,Glenden,Ishchenko,gishchenko2@moonfruit.com,Masculino,5,09/04/1989
3,4,Baron,Jedrzejewsky,bjedrzejewsky3@e-recht24.de,Masculino,4,17/11/1998
4,5,Sheree,Bredbury,sbredbury4@sitemeter.com,Feminino,5,08/09/1975


Neste ponto, vamos selecionar apenas as colunas que nos interessam:

In [9]:
# Seleciona as colunas especificadas
df_clientes = df_clientes[["ID Cliente", "Primeiro Nome", "Sobrenome", "E-mail"]]
df_produtos = df_produtos[["ID Produto", "Nome do Produto"]]
df_lojas = df_lojas[["ID Loja", "Nome da Loja"]]

Agora, vamos criar um único dataframe, lembrando que o `df_vendas` é uma tabela fato e que os demais são tabelas característica:

In [10]:
# Mescla os dataframes com base em uma coluna em comum
df_vendas = df_vendas.merge(df_clientes, on="ID Cliente")
df_vendas = df_vendas.merge(df_produtos, on="ID Produto")
df_vendas = df_vendas.merge(df_lojas, on="ID Loja")

Vamos renomear a coluna __E-mail__ para __E-mail do Cliente__:

In [11]:
# Renomeia uma coluna do dataframe
df_vendas = df_vendas.rename(columns={"E-mail": "E-mail do Cliente"})
df_vendas.head()

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Primeiro Nome,Sobrenome,E-mail do Cliente,Nome do Produto,Nome da Loja
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1,Rurik,Brumfield,rbrumfieldmy@ameblo.jp,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Austin
1,372597,21/05/2017,22/05/2017,1,86,981,1,21344,10,0,Makayla,Sanders,makayla3@adventure-works.com,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Austin
2,373159,22/05/2017,24/05/2017,2,86,448,1,19328,15,1,Jolee,Gundrey,jgundrey97@youtube.com,WWI Desktop PC1.80 E1801 Black,Loja Contoso Austin
3,338147,10/05/2017,10/05/2017,0,86,448,1,12792,15,0,Lucio,Tomlinson,ltomlinsonm1@gnu.org,WWI Desktop PC1.80 E1801 Black,Loja Contoso Austin
4,368615,20/05/2017,26/05/2017,6,86,448,1,19820,15,0,Pen,Rudeforth,prudeforthmv@themeforest.net,WWI Desktop PC1.80 E1801 Black,Loja Contoso Austin


## Análises

Responderemos as seguintes perguntas:

1. Qual o cliente que comprou mais vezes?

2. Qual a loja que mais vendeu?

3. Qual o produto que menos vendeu?

4. Qual o percentual de vendas que foram devolvidas?

5. Qual foi o percentual de devoluções da Loja Contoso Europe Online?

6. Quantas vendas da Loja Contoso Europe Online não tiveram devoluções?

### Cliente que mais comprou

In [12]:
pedidos_clientes = df_vendas["ID Cliente"].value_counts()
pedidos_clientes

21485    56
16984    56
20009    56
26090    53
13433    53
         ..
39300     1
732       1
379       1
991       1
815       1
Name: ID Cliente, Length: 38930, dtype: int64

Assim, o cliente que comprou mais vezes foi o de ID 21485, tendo efetuado 56 transações.

### Loja que mais vendeu

In [13]:
df_vendas_lojas = df_vendas[["Nome da Loja", "Quantidade Vendida"]]
df_vendas_lojas.head()

Unnamed: 0,Nome da Loja,Quantidade Vendida
0,Loja Contoso Austin,9
1,Loja Contoso Austin,10
2,Loja Contoso Austin,15
3,Loja Contoso Austin,15
4,Loja Contoso Austin,15


In [14]:
df_vendas_lojas_agrupadas = df_vendas_lojas.groupby("Nome da Loja").sum()
df_vendas_lojas_agrupadas.head()

Unnamed: 0_level_0,Quantidade Vendida
Nome da Loja,Unnamed: 1_level_1
Loja Contoso Albany,26353
Loja Contoso Alexandria,26247
Loja Contoso Amsterdam,28294
Loja Contoso Anchorage,27451
Loja Contoso Annapolis,26065


In [15]:
# Maior valor
maior_valor = df_vendas_lojas_agrupadas["Quantidade Vendida"].max()

# Melhor loja
melhor_loja = df_vendas_lojas_agrupadas["Quantidade Vendida"].idxmax()

# Exibição de resultado
print(f"A loja que mais vendeu foi a {melhor_loja}, com {maior_valor} unidades vendidas.")

A loja que mais vendeu foi a Loja Contoso Catalog , com 1029117 unidades vendidas.


### Produto que menos vendeu

In [16]:
df_vendas_produtos = df_vendas[["Nome do Produto", "Quantidade Vendida"]]
df_vendas_produtos.head()

Unnamed: 0,Nome do Produto,Quantidade Vendida
0,A. Datum Advanced Digital Camera M300 Pink,9
1,A. Datum Advanced Digital Camera M300 Pink,10
2,WWI Desktop PC1.80 E1801 Black,15
3,WWI Desktop PC1.80 E1801 Black,15
4,WWI Desktop PC1.80 E1801 Black,15


In [17]:
df_vendas_produtos_agrupadas = df_vendas_produtos.groupby("Nome do Produto").sum()
df_vendas_produtos_agrupadas.head()

Unnamed: 0_level_0,Quantidade Vendida
Nome do Produto,Unnamed: 1_level_1
A. Datum Advanced Digital Camera M300 Azure,8999
A. Datum Advanced Digital Camera M300 Black,12087
A. Datum Advanced Digital Camera M300 Green,11400
A. Datum Advanced Digital Camera M300 Grey,10713
A. Datum Advanced Digital Camera M300 Orange,12181


In [18]:
# Maior quantidade vendida
maior_qtde_vendida = df_vendas_produtos_agrupadas["Quantidade Vendida"].max()

# Produto mais vendido
produto_mais_vendido = df_vendas_produtos_agrupadas["Quantidade Vendida"].idxmax()

# Exibição de resultados
print(f"O produto mais vendido foi o {produto_mais_vendido}, com {maior_qtde_vendida} unidades vendidas.")

O produto mais vendido foi o Cigarette Lighter Adapter for Contoso Phones E110 White, com 114300 unidades vendidas.


### Percentual de pedidos que foram devolvidos

In [19]:
# Cálculos
qtde_pedidos = df_vendas["Quantidade Vendida"].sum()
qtde_devolvida = df_vendas["Quantidade Devolvida"].sum()
percentual_devolucoes = qtde_devolvida / qtde_pedidos

# Exibição de resultado
print(f"Percentual de devoluções: {percentual_devolucoes:.2%}")

Percentual de devoluções: 1.17%


### Percentual de devoluções da Contoso Europe Online

O ID da Loja Contoso Europe Online é 306. Vamos usá-lo:

In [20]:
df_vendas_contoso_europe_online = df_vendas.query("`ID Loja` == 306")
df_vendas_contoso_europe_online.head()

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Primeiro Nome,Sobrenome,E-mail do Cliente,Nome do Produto,Nome da Loja
322802,2007,01/01/2017,02/01/2017,1,306,981,10,23908,16,0,Lydia,Lopez,lydia15@adventure-works.com,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Europe Online
322803,52480,22/01/2017,22/01/2017,0,306,981,10,17100,8,0,Margaux,Spohrmann,mspohrmann2v@businessweek.com,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Europe Online
322804,973865,29/12/2017,31/12/2017,2,306,981,10,10714,8,0,Sancho,Kenrack,skenrackjv@pen.io,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Europe Online
322805,160143,07/03/2017,10/03/2017,3,306,981,8,18707,12,1,Hulda,Becken,hbeckenjq@sbwire.com,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Europe Online
322806,757619,12/10/2017,12/10/2017,0,306,981,10,14169,8,0,Yves,Mougenel,ymougenel4q@naver.com,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Europe Online


In [21]:
# Cálculos
pedidos_contoso_europe_online = df_vendas_contoso_europe_online["Quantidade Vendida"].sum()
devolucoes_contoso_europe_online = df_vendas_contoso_europe_online["Quantidade Devolvida"].sum()
percentual_devolucoes_contoso_europe_online = devolucoes_contoso_europe_online / pedidos_contoso_europe_online

# Exibição de resultados
print(f"Percentual de devoluções da Loja Contoso Europe Online: {percentual_devolucoes_contoso_europe_online:.2%}")

Percentual de devoluções da Loja Contoso Europe Online: 1.33%


### Número de vendas da Contoso Europe Online sem devoluções

In [22]:
# Dataframe filtrado
df_vendas_contoso_europe_online_sem_devolucoes = df_vendas.query("`ID Loja` == 306 and `Quantidade Devolvida` == 0")

# Número de vendas sem devoluções
vendas_sem_devolucao = df_vendas_contoso_europe_online_sem_devolucoes["Quantidade Vendida"].sum()

# Exibição de resultado
print(f"A Loja Contoso Europe Online teve {vendas_sem_devolucao} pedidos sem devoluções.")

A Loja Contoso Europe Online teve 481657 pedidos sem devoluções.
