# Análise exploratória de dados (*EDA*) de 4 lojas

O projeto consiste em explorar os dados de 4 lojas e determinar qual delas é a indicada para ser vendida, visando mais eficiência no negócio.



# Importação das bibliotecas e dados

**Dicionário de dados**

* `Produto e Categoria` - Itens vendidos e suas classificações.
* `Preço e Frete` - Valores das vendas e custos associados.
* `Data de Compra e Local` - Informações temporais e geográficas.
* `Avaliação da Compra` - Feedback dos clientes.
* `Tipo de Pagamento e Parcelas` -  Métodos utilizados pelos clientes.
* `Coordenadas Geográficasa` - Localização das transações.



In [16]:
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import numpy as np

In [17]:
url = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_1.csv"
url2 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_2.csv"
url3 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_3.csv"
url4 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_4.csv"

loja1 = pd.read_csv(url)
loja2 = pd.read_csv(url2)
loja3 = pd.read_csv(url3)
loja4 = pd.read_csv(url4)

loja1.head()

Unnamed: 0,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,lat,lon
0,Assistente virtual,eletronicos,219.08,9.24979,16/01/2021,Pedro Gomes,SP,4,cartao_credito,8,-22.19,-48.79
1,Mesa de jantar,moveis,256.35,11.234305,18/05/2022,Beatriz Moraes,RJ,1,cartao_credito,4,-22.25,-42.66
2,Jogo de tabuleiro,brinquedos,279.51,21.262681,15/03/2021,João Souza,DF,1,cartao_credito,1,-15.83,-47.86
3,Micro-ondas,eletrodomesticos,1009.99,54.667344,03/05/2022,João Souza,RS,4,boleto,1,-30.17,-53.5
4,Cadeira de escritório,moveis,446.99,26.964689,07/11/2020,Larissa Alves,MG,5,boleto,1,-18.1,-44.38


## Renomeando as colunas
Para facilitar a análise, são removidos os espaços e acentuações fica mais prático, facilitando a escrita do código.

In [18]:
nomes_colunas = [
    'produto', 'categoria_produto', 'preco', 'frete', 'data_compra',
    'vendedor', 'local_compra', 'avaliacao_compra', 'tipo_pagamento',
    'quantidade_parcelas', 'lat', 'lon'
]

lista_lojas = [loja1, loja2, loja3, loja4]
for i in range(len(lista_lojas)):
  lista_lojas[i].columns = nomes_colunas

loja4.head(1)

Unnamed: 0,produto,categoria_produto,preco,frete,data_compra,vendedor,local_compra,avaliacao_compra,tipo_pagamento,quantidade_parcelas,lat,lon
0,Lava louças,eletrodomesticos,1446.46,74.604083,11/11/2022,Rafael Costa,SP,4,cartao_credito,3,-22.19,-48.79


## Análise de colunas e linhas
A coluna Data da Compra é do tipo Object, por isso transformo ela em date em
todos os dataframes.


In [19]:
# linhas e colunas
print(f'A loja 1 possui {loja1.shape[0]} linhas e {loja1.shape[1]} colunas.')
print(f'A loja 2 possui {loja2.shape[0]} linhas e {loja2.shape[1]} colunas.')
print(f'A loja 3 possui {loja3.shape[0]} linhas e {loja3.shape[1]} colunas.')
print(f'A loja 4 possui {loja4.shape[0]} linhas e {loja4.shape[1]} colunas.')

A loja 1 possui 2359 linhas e 12 colunas.
A loja 2 possui 2359 linhas e 12 colunas.
A loja 3 possui 2359 linhas e 12 colunas.
A loja 4 possui 2358 linhas e 12 colunas.


In [20]:
loja1.info()
print('\n')
loja2.info()
print('\n')
loja3.info()
print('\n')
loja4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2359 entries, 0 to 2358
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   produto              2359 non-null   object 
 1   categoria_produto    2359 non-null   object 
 2   preco                2359 non-null   float64
 3   frete                2359 non-null   float64
 4   data_compra          2359 non-null   object 
 5   vendedor             2359 non-null   object 
 6   local_compra         2359 non-null   object 
 7   avaliacao_compra     2359 non-null   int64  
 8   tipo_pagamento       2359 non-null   object 
 9   quantidade_parcelas  2359 non-null   int64  
 10  lat                  2359 non-null   float64
 11  lon                  2359 non-null   float64
dtypes: float64(4), int64(2), object(6)
memory usage: 221.3+ KB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2359 entries, 0 to 2358
Data columns (total 12 columns):
 #   Column         

## Análise dos campos numéricos

O trecho `%config InteractiveShell.ast_node_interactivity = 'all'` permite que seja ilustrado os 4 describes em um só retorno da célula, evitando criar múltiplas células para isso.

In [21]:
%config InteractiveShell.ast_node_interactivity = 'all'

In [22]:
loja1[['preco','frete','avaliacao_compra','quantidade_parcelas']].describe()
loja2[['preco','frete','avaliacao_compra','quantidade_parcelas']].describe()
loja3[['preco','frete','avaliacao_compra','quantidade_parcelas']].describe()
loja4[['preco','frete','avaliacao_compra','quantidade_parcelas']].describe()

Unnamed: 0,preco,frete,avaliacao_compra,quantidade_parcelas
count,2359.0,2359.0,2359.0,2359.0
mean,650.491361,34.691805,3.976685,2.943196
std,819.582778,43.814183,1.41537,2.819897
min,10.07,0.0,1.0,1.0
25%,74.345,4.141783,3.0,1.0
50%,313.75,16.498835,5.0,1.0
75%,904.13,48.050074,5.0,4.0
max,3969.38,214.37706,5.0,24.0


Unnamed: 0,preco,frete,avaliacao_compra,quantidade_parcelas
count,2359.0,2359.0,2359.0,2359.0
mean,630.970352,33.621941,4.037304,2.902501
std,794.078997,42.321932,1.356153,2.848416
min,10.16,0.0,1.0,1.0
25%,72.73,3.90402,4.0,1.0
50%,290.96,15.40674,5.0,1.0
75%,903.58,47.250196,5.0,4.0
max,3937.85,216.707633,5.0,24.0


Unnamed: 0,preco,frete,avaliacao_compra,quantidade_parcelas
count,2359.0,2359.0,2359.0,2359.0
mean,620.61256,33.074464,4.048326,2.967783
std,774.191691,41.260516,1.386426,2.812153
min,10.08,0.0,1.0,1.0
25%,76.56,4.149261,4.0,1.0
50%,301.67,15.879702,5.0,2.0
75%,888.04,46.635503,5.0,4.0
max,3957.62,211.257624,5.0,24.0


Unnamed: 0,preco,frete,avaliacao_compra,quantidade_parcelas
count,2358.0,2358.0,2358.0,2358.0
mean,587.149101,31.278997,3.995759,2.896098
std,758.34129,40.373136,1.403063,2.730393
min,10.17,0.0,1.0,1.0
25%,71.225,3.847061,3.0,1.0
50%,279.315,14.614197,5.0,1.0
75%,845.5775,44.438533,5.0,4.0
max,3869.56,206.325555,5.0,18.0


## Verificação do percentual de registros nulos totais e por coluna
Não temos nenhum valor nulo para nenhum registro, o que dispensa termos uma etapa para tratar os casos.

In [23]:
# percentual de nulos
(loja1.isnull().sum() / loja1.shape[0]).sort_values(ascending=False)
(loja2.isnull().sum() / loja2.shape[0]).sort_values(ascending=False)
(loja3.isnull().sum() / loja3.shape[0]).sort_values(ascending=False)
(loja4.isnull().sum() / loja4.shape[0]).sort_values(ascending=False)


Unnamed: 0,0
produto,0.0
categoria_produto,0.0
preco,0.0
frete,0.0
data_compra,0.0
vendedor,0.0
local_compra,0.0
avaliacao_compra,0.0
tipo_pagamento,0.0
quantidade_parcelas,0.0


Unnamed: 0,0
produto,0.0
categoria_produto,0.0
preco,0.0
frete,0.0
data_compra,0.0
vendedor,0.0
local_compra,0.0
avaliacao_compra,0.0
tipo_pagamento,0.0
quantidade_parcelas,0.0


Unnamed: 0,0
produto,0.0
categoria_produto,0.0
preco,0.0
frete,0.0
data_compra,0.0
vendedor,0.0
local_compra,0.0
avaliacao_compra,0.0
tipo_pagamento,0.0
quantidade_parcelas,0.0


Unnamed: 0,0
produto,0.0
categoria_produto,0.0
preco,0.0
frete,0.0
data_compra,0.0
vendedor,0.0
local_compra,0.0
avaliacao_compra,0.0
tipo_pagamento,0.0
quantidade_parcelas,0.0


## Tratamento da coluna data, criação de novas colunas de origem e novo dataframe unificado

In [24]:
# tratando a data
loja1['data_compra'] = pd.to_datetime(loja1['data_compra'], dayfirst=True)#"%d/%m/%Y")
loja2['data_compra'] = pd.to_datetime(loja2['data_compra'], dayfirst=True)
loja3['data_compra'] = pd.to_datetime(loja3['data_compra'], dayfirst=True)
loja4['data_compra'] = pd.to_datetime(loja4['data_compra'], dayfirst=True)

In [25]:
# adicionando uma coluna de origem e criando um novo dadtaframe com o union de todos
loja1['origem'] = 'Loja 1'
loja2['origem'] = 'Loja 2'
loja3['origem'] = 'Loja 3'
loja4['origem'] = 'Loja 4'

# novo dataframe unificado
lojas = pd.concat([loja1, loja2, loja3, loja4], ignore_index=True)

# Análise do faturamento

Análise do faturamento das 4 lojas sem levar em consdieração o frete.

    A loja1 teve R$ 1.534.509,12 de faturamento total. Sendo responsável por 26,13% do total das lojas.
    A loja2 teve R$ 1.488.459,06 de faturamento total. Sendo responsável por 25,35% do total das lojas.
    A loja3 teve R$ 1.464.025,03 de faturamento total. Sendo responsável por 24,93% do total das lojas.
    A loja4 teve R$ 1.384.497,58 de faturamento total. Sendo responsável por 23,58% do total das lojas.
    As lojas tiveram R$ 5.871.490,79 de faturamento total.


## Faturamento por dia

In [26]:
# criando dataframe para o gráfico
lojas_agg_data_preco = lojas.groupby(['data_compra','origem'])['preco'].sum().reset_index()
# criando gráfico dinâmico
fig = px.line(lojas_agg_data_preco, x='data_compra', y='preco', color='origem')#, title='Receita das vendas por dia e loja')
fig.update_layout(title='Faturamento das lojas por dia',title_x=0.5,autosize=False,width=1300,height=500)


## Faturamento total

In [27]:
loja1_faturamento = loja1['preco'].sum()
loja2_faturamento = loja2['preco'].sum()
loja3_faturamento = loja3['preco'].sum()
loja4_faturamento = loja4['preco'].sum()
lojas_faturamento = lojas['preco'].sum()

print(f' A loja1 teve R$ {loja1_faturamento:,} de faturamento total. Sendo responsável por {loja1_faturamento/lojas_faturamento:.2%} do total das lojas.')
print(f' A loja2 teve R$ {loja2_faturamento:,} de faturamento total. Sendo responsável por {loja2_faturamento/lojas_faturamento:.2%} do total das lojas.')
print(f' A loja3 teve R$ {loja3_faturamento:,} de faturamento total. Sendo responsável por {loja3_faturamento/lojas_faturamento:.2%} do total das lojas.')
print(f' A loja4 teve R$ {loja4_faturamento:,} de faturamento total. Sendo responsável por {loja4_faturamento/lojas_faturamento:.2%} do total das lojas.')
print(f' As lojas tiveram R$ {round(lojas_faturamento,2):,} de faturamento total.')

 A loja1 teve R$ 1,534,509.12 de faturamento total. Sendo responsável por 26.13% do total das lojas.
 A loja2 teve R$ 1,488,459.06 de faturamento total. Sendo responsável por 25.35% do total das lojas.
 A loja3 teve R$ 1,464,025.03 de faturamento total. Sendo responsável por 24.93% do total das lojas.
 A loja4 teve R$ 1,384,497.58 de faturamento total. Sendo responsável por 23.58% do total das lojas.
 As lojas tiveram R$ 5,871,490.79 de faturamento total.


In [28]:
# criando dataframe para o gráfico
lojas_agg_origem_preco = lojas.groupby(['origem'])['preco'].sum().reset_index()
# criando gráfico dinâmico
fig = px.bar(lojas_agg_origem_preco, x='preco', y='origem', color='origem')
fig.update_layout(title='Faturamento total por loja',title_x=0.5,autosize=False,width=1300,height=500)

## Maiores e menores vendas registradas

In [29]:
print(f'Loja1: A venda de menor valor foi: R$ {loja1["preco"].min():,} e a de maior valor foi: R$ {loja1["preco"].max():,}.')
print(f'Loja2: A venda de menor valor foi: R$ {loja2["preco"].min():,} e a de maior valor foi: R$ {loja2["preco"].max():,}.')
print(f'Loja3: A venda de menor valor foi: R$ {loja3["preco"].min():,} e a de maior valor foi: R$ {loja3["preco"].max():,}.')
print(f'Loja4: A venda de menor valor foi: R$ {loja4["preco"].min():,} e a de maior valor foi: R$ {loja4["preco"].max():,}.')

Loja1: A venda de menor valor foi: R$ 10.07 e a de maior valor foi: R$ 3,969.38.
Loja2: A venda de menor valor foi: R$ 10.16 e a de maior valor foi: R$ 3,937.85.
Loja3: A venda de menor valor foi: R$ 10.08 e a de maior valor foi: R$ 3,957.62.
Loja4: A venda de menor valor foi: R$ 10.17 e a de maior valor foi: R$ 3,869.56.


# Vendas por categoria


    Loja1: A categoria mais vendida foi moveis com 465 vendas(19.71%)..
    A categoria menos vendida foi utilidades domesticas com 171 vendas(7.25%).

    Loja2: A categoria mais vendida foi moveis com 442 vendas(18.74%)..
    A categoria menos vendida foi utilidades domesticas com 181 vendas(7.67%).

    Loja3: A categoria mais vendida foi moveis com 499 vendas(21.15%)..
    A categoria menos vendida foi instrumentos musicais com 177 vendas(7.50%).

    Loja4: A categoria mais vendida foi moveis com 480 vendas(20.36%)..
    A categoria menos vendida foi instrumentos musicais com 170 vendas(7.21%).

Importante ressaltar que apesar de móveis ser a categoria mais vendida, ela é apenas a terceira em faturamento.    


## Vendas por categoria

In [41]:
# funcao dos max e min vendas por categoria
def max_categoria(loja, nome_loja):
  loja_categoria = loja['categoria_produto'].value_counts()
  categoria_max = loja_categoria.idxmax()
  valor_max = loja_categoria.max()
  pct_vendas_max = valor_max / loja_categoria.sum()
  categoria_min = loja_categoria.idxmin()
  valor_min = loja_categoria.min()
  pct_vendas_min = valor_min / loja_categoria.sum()
  return print(f' {nome_loja}: A categoria mais vendida foi {categoria_max} com {valor_max} vendas({pct_vendas_max:.2%})'
  f'.\n A categoria menos vendida foi {categoria_min} com {valor_min} vendas({pct_vendas_min:.2%}).\n')

max_categoria(loja1, 'Loja 1')
max_categoria(loja2, 'Loja 2')
max_categoria(loja3, 'Loja 3')
max_categoria(loja4, 'Loja 4')

# {loja1_faturamento/lojas_faturamento:.2%} do total das lojas.')

 Loja 1: A categoria mais vendida foi moveis com 465 vendas(19.71%).
 A categoria menos vendida foi utilidades domesticas com 171 vendas(7.25%).

 Loja 2: A categoria mais vendida foi moveis com 442 vendas(18.74%).
 A categoria menos vendida foi utilidades domesticas com 181 vendas(7.67%).

 Loja 3: A categoria mais vendida foi moveis com 499 vendas(21.15%).
 A categoria menos vendida foi instrumentos musicais com 177 vendas(7.50%).

 Loja 4: A categoria mais vendida foi moveis com 480 vendas(20.36%).
 A categoria menos vendida foi instrumentos musicais com 170 vendas(7.21%).



In [31]:
# criando dataframe para o gráfico
lojas_agg_origem_categoria = lojas.groupby(['categoria_produto'])['origem'].value_counts().reset_index().rename(columns={"count":"vendas"})
lojas_agg_origem_categoria = lojas_agg_origem_categoria.sort_values(by='vendas')
# criando gráfico dinâmico
fig = px.bar(lojas_agg_origem_categoria, x='vendas', y='categoria_produto', color='origem')
fig.update_layout(title='Vendas por categoria por loja',title_x=0.5,autosize=False,width=1300,height=500)

## Faturamento por categoria

In [17]:
# criando dataframe para o gráfico
lojas_agg_origem_categoria = lojas.groupby(['categoria_produto','origem'])['preco'].sum().reset_index().rename(columns={"count":"vendas"})
lojas_agg_origem_categoria = lojas_agg_origem_categoria.sort_values(by='preco')
# criando gráfico dinâmico
fig = px.bar(lojas_agg_origem_categoria, x='preco', y='categoria_produto', color='origem')
fig.update_layout(title='Faturamento por categoria por loja',title_x=0.5,autosize=False,width=1300,height=500)

In [32]:
# vendas e faturamento
loja1.groupby('categoria_produto').agg(vendas=('preco','count'), faturamento=('preco','sum')).sort_values(by='vendas',ascending=False).reset_index()
loja2.groupby('categoria_produto').agg(vendas=('preco','count'), faturamento=('preco','sum')).sort_values(by='vendas',ascending=False).reset_index()
loja3.groupby('categoria_produto').agg(vendas=('preco','count'), faturamento=('preco','sum')).sort_values(by='vendas',ascending=False).reset_index()
loja4.groupby('categoria_produto').agg(vendas=('preco','count'), faturamento=('preco','sum')).sort_values(by='vendas',ascending=False).reset_index()

Unnamed: 0,categoria_produto,vendas,faturamento
0,moveis,465,250178.11
1,eletronicos,448,572659.23
2,brinquedos,324,23993.78
3,eletrodomesticos,312,484913.36
4,esporte e lazer,284,52387.55
5,instrumentos musicais,182,121731.69
6,livros,173,11713.92
7,utilidades domesticas,171,16931.48


Unnamed: 0,categoria_produto,vendas,faturamento
0,moveis,442,235234.68
1,eletronicos,422,547773.71
2,brinquedos,313,21262.21
3,eletrodomesticos,305,464758.13
4,esporte e lazer,275,46326.09
5,instrumentos musicais,224,139987.03
6,livros,197,13454.35
7,utilidades domesticas,181,19662.86


Unnamed: 0,categoria_produto,vendas,faturamento
0,moveis,499,268095.56
1,eletronicos,451,547699.92
2,brinquedos,315,25869.2
3,eletrodomesticos,278,438984.89
4,esporte e lazer,277,47456.1
5,livros,185,12664.7
6,instrumentos musicais,177,103174.45
7,utilidades domesticas,177,20080.21


Unnamed: 0,categoria_produto,vendas,faturamento
0,moveis,480,256705.65
1,eletronicos,451,545966.86
2,brinquedos,338,27015.67
3,esporte e lazer,277,44465.65
4,eletrodomesticos,254,377680.65
5,utilidades domesticas,201,20098.83
6,livros,187,12427.77
7,instrumentos musicais,170,100136.5


# Média de avaliação das lojas
A loja 3 tem a melhor nota média. Todas lojas tem mediana de 5, ou seja, metade das avaliações são 5 em todas as lojas.

    Loja 1: A nota média das avaliações é 3.98 enquanto a mediana é 5.0.
    Loja 2: A nota média das avaliações é 4.04 enquanto a mediana é 5.0.
    Loja 3: A nota média das avaliações é 4.05 enquanto a mediana é 5.0.
    Loja 4: A nota média das avaliações é 4.0 enquanto a mediana é 5.0.



In [33]:
def media_avaliacao(loja, nome_loja):
  loja_avaliacao_media = round(loja["avaliacao_compra"].mean(),2)
  loja_avaliacao_mediana = round(loja["avaliacao_compra"].median(),2)
  return print(f'{nome_loja}: A nota média das avaliações é {loja_avaliacao_media} enquanto a mediana é {loja_avaliacao_mediana}.')

media_avaliacao(loja1, 'Loja 1')
media_avaliacao(loja2, 'Loja 2')
media_avaliacao(loja3, 'Loja 3')
media_avaliacao(loja4, 'Loja 4')

Loja 1: A nota média das avaliações é 3.98 enquanto a mediana é 5.0.
Loja 2: A nota média das avaliações é 4.04 enquanto a mediana é 5.0.
Loja 3: A nota média das avaliações é 4.05 enquanto a mediana é 5.0.
Loja 4: A nota média das avaliações é 4.0 enquanto a mediana é 5.0.


# Produtos mais e menos vendidos

    Loja 1: O produto mais vendido foi Micro-ondas com 60 vendas(2.54%).
    O produto menos vendido foi Headset com 33 vendas(1.40%).

    Loja 2: O produto mais vendido foi Iniciando em programação com 65 vendas(2.76%).
    O produto menos vendido foi Jogo de tabuleiro com 32 vendas(1.36%).

    Loja 3: O produto mais vendido foi Kit banquetas com 57 vendas(2.42%).
    O produto menos vendido foi Blocos de montar com 35 vendas(1.48%).

    Loja 4: O produto mais vendido foi Cama box com 62 vendas(2.63%).
    O produto menos vendido foi Guitarra com 33 vendas(1.40%).

In [20]:
def max_produto(loja, nome_loja):
  loja_produto = loja['produto'].value_counts()
  produto_max = loja_produto.idxmax()
  valor_max = loja_produto.max()
  pct_vendas_max = valor_max / loja_produto.sum()
  produto_min = loja_produto.idxmin()
  valor_min = loja_produto.min()
  pct_vendas_min = valor_min / loja_produto.sum()
  return print(f' {nome_loja}: O produto mais vendido foi {produto_max} com {valor_max} vendas({pct_vendas_max:.2%})'
  f'.\n O produto menos vendido foi {produto_min} com {valor_min} vendas({pct_vendas_min:.2%}).\n')

max_produto(loja1, 'Loja 1')
max_produto(loja2, 'Loja 2')
max_produto(loja3, 'Loja 3')
max_produto(loja4, 'Loja 4')

 Loja 1: O produto mais vendido foi Micro-ondas com 60 vendas(2.54%).
 O produto menos vendido foi Headset com 33 vendas(1.40%).

 Loja 2: O produto mais vendido foi Iniciando em programação com 65 vendas(2.76%).
 O produto menos vendido foi Jogo de tabuleiro com 32 vendas(1.36%).

 Loja 3: O produto mais vendido foi Kit banquetas com 57 vendas(2.42%).
 O produto menos vendido foi Blocos de montar com 35 vendas(1.48%).

 Loja 4: O produto mais vendido foi Cama box com 62 vendas(2.63%).
 O produto menos vendido foi Guitarra com 33 vendas(1.40%).



## Vendas por produto

In [34]:
# criando dataframe para o gráfico
lojas_agg_origem_produto = lojas.groupby(['produto'])['origem'].value_counts().reset_index().rename(columns={"count":"vendas"})
lojas_agg_origem_produto = lojas_agg_origem_produto.sort_values(by='vendas')
# criando gráfico dinâmico
fig = px.bar(lojas_agg_origem_produto, x='vendas', y='produto', color='origem')
fig.update_layout(title='Vendas por produto por loja',title_x=0.5,autosize=False,width=1300,height=500)

## Faturamento por produto

In [35]:
# criando dataframe para o gráfico
lojas_agg_origem_produto = lojas.groupby(['produto','origem'])['preco'].sum().reset_index().rename(columns={"count":"vendas"})
lojas_agg_origem_produto = lojas_agg_origem_produto.sort_values(by='preco')
# criando gráfico dinâmico
fig = px.bar(lojas_agg_origem_produto, x='preco', y='produto', color='origem')
fig.update_layout(title='Faturamento por categoria por loja',title_x=0.5,autosize=False,width=1300,height=500)

# Frete médio por loja

    Loja 1: O frete médio é R$ 34.69 enquanto a mediana é R$ 16.5.
    Loja 2: O frete médio é R$ 33.62 enquanto a mediana é R$ 15.41.
    Loja 3: O frete médio é R$ 33.07 enquanto a mediana é R$ 15.88.
    Loja 4: O frete médio é R$ 31.28 enquanto a mediana é R$ 14.61.

A relação do frete/preco do produto em todas as lojas deu 5,33% o que significa que provavelmente quem criou a base usou esse fator para se chegar em um valor de frete.

    Loja 1: A relação entre frete e faturamento é de: 5.333%.
    Loja 2: A relação entre frete e faturamento é de: 5.329%.
    Loja 3: A relação entre frete e faturamento é de: 5.329%.
    Loja 4: A relação entre frete e faturamento é de: 5.327%.


## Frete médio

In [36]:
def media_frete(loja, nome_loja):
  loja_frete_media = round(loja["frete"].mean(),2)
  loja_frete_mediana = round(loja["frete"].median(),2)
  return print(f'{nome_loja}: O frete médio é R$ {loja_frete_media} enquanto a mediana é R$ {loja_frete_mediana}.')

media_frete(loja1, 'Loja 1')
media_frete(loja2, 'Loja 2')
media_frete(loja3, 'Loja 3')
media_frete(loja4, 'Loja 4')

Loja 1: O frete médio é R$ 34.69 enquanto a mediana é R$ 16.5.
Loja 2: O frete médio é R$ 33.62 enquanto a mediana é R$ 15.41.
Loja 3: O frete médio é R$ 33.07 enquanto a mediana é R$ 15.88.
Loja 4: O frete médio é R$ 31.28 enquanto a mediana é R$ 14.61.


## Relação entre frete e faturamento

In [41]:
def frete_faturamento(loja, nome_loja):
  pct_frete_faturamento = loja["frete"].sum() / loja["preco"].sum()
  return print(f'{nome_loja}: A relação entre frete e faturamento é de: {pct_frete_faturamento:.3%}.')

frete_faturamento(loja1, 'Loja 1')
frete_faturamento(loja2, 'Loja 2')
frete_faturamento(loja3, 'Loja 3')
frete_faturamento(loja4, 'Loja 4')

Loja 1: A relação entre frete e faturamento é de: 5.333%.
Loja 2: A relação entre frete e faturamento é de: 5.329%.
Loja 3: A relação entre frete e faturamento é de: 5.329%.
Loja 4: A relação entre frete e faturamento é de: 5.327%.


# Mapa de Vendas

Mapa das 4 lojas ilustrando o estado de venda e a quantidade de vendas.

In [37]:
df_map = loja1.groupby(['lat','lon','local_compra'])['local_compra'].value_counts().reset_index().rename(columns={"count":"vendas"}).sort_values(by='vendas', ascending=False)
fig = px.scatter_geo(df_map, lat='lat', lon='lon', size='vendas', hover_name = 'local_compra', color = 'local_compra', projection='miller',
                     title='Mapa de vendas loja 1',width=1300,height=500, scope = 'south america')
fig.show()

In [103]:
df_map = loja2.groupby(['lat','lon','local_compra'])['local_compra'].value_counts().reset_index().rename(columns={"count":"vendas"}).sort_values(by='vendas', ascending=False)
fig = px.scatter_geo(df_map, lat='lat', lon='lon', size='vendas', hover_name = 'local_compra', color = 'local_compra', projection='miller',
                     title='Mapa de vendas loja 2', scope = 'south america')
fig.show()

In [39]:
df_map = loja3.groupby(['lat','lon','local_compra'])['local_compra'].value_counts().reset_index().rename(columns={"count":"vendas"}).sort_values(by='vendas', ascending=False)
fig = px.scatter_geo(df_map, lat='lat', lon='lon', size='vendas', hover_name = 'local_compra', color = 'local_compra', projection='miller',
                     title='Mapa de vendas loja 3',width=1300,height=500, scope = 'south america')
fig.show()

In [40]:
df_map = loja4.groupby(['lat','lon','local_compra'])['local_compra'].value_counts().reset_index().rename(columns={"count":"vendas"}).sort_values(by='vendas', ascending=False)
fig = px.scatter_geo(df_map, lat='lat', lon='lon', size='vendas', hover_name = 'local_compra', color = 'local_compra', projection='miller',
                     title='Mapa de vendas loja 4',width=1300,height=500, scope = 'south america')
fig.show()

# Conclusão
Baseado na análise exploratória apresentada anteriormente, temos:

Faturamento:

    A loja1 teve R$ 1,534,509.12 de faturamento total. Sendo responsável por 26.13% do total das lojas.
    A loja2 teve R$ 1,488,459.06 de faturamento total. Sendo responsável por 25.35% do total das lojas.
    A loja3 teve R$ 1,464,025.03 de faturamento total. Sendo responsável por 24.93% do total das lojas.
    A loja4 teve R$ 1,384,497.58 de faturamento total. Sendo responsável por 23.58% do total das lojas.

Nota média das avaliações:

    Loja 1: A nota média das avaliações é 3.98 enquanto a mediana é 5.0.
    Loja 2: A nota média das avaliações é 4.04 enquanto a mediana é 5.0.
    Loja 3: A nota média das avaliações é 4.05 enquanto a mediana é 5.0.
    Loja 4: A nota média das avaliações é 4.0 enquanto a mediana é 5.0.

Categoria mais vendida:

    Loja 1: A categoria mais vendida foi moveis com 465 vendas(19.71%).
    A categoria menos vendida foi utilidades domesticas com 171 vendas(7.25%).
    Loja 2: A categoria mais vendida foi moveis com 442 vendas(18.74%).
    A categoria menos vendida foi utilidades domesticas com 181 vendas(7.67%).
    Loja 3: A categoria mais vendida foi moveis com 499 vendas(21.15%).
    A categoria menos vendida foi instrumentos musicais com 177 vendas(7.50%).
    Loja 4: A categoria mais vendida foi moveis com 480 vendas(20.36%).
    A categoria menos vendida foi instrumentos musicais com 170 vendas(7.21%).    

Frete:

    Loja 1: O frete médio é R$ 34.69 enquanto a mediana é R$ 16.5.
    Loja 2: O frete médio é R$ 33.62 enquanto a mediana é R$ 15.41.
    Loja 3: O frete médio é R$ 33.07 enquanto a mediana é R$ 15.88.
    Loja 4: O frete médio é R$ 31.28 enquanto a mediana é R$ 14.61.

Mesmo a loja 1 tendo a pior das avaliações, ela possui o maior faturamento, enquanto a loja 4 tem o menor faturamento e segunda pior nota de avaliação.
Todas lojas tiveram como categoria mais vendida os móveis.
Já o frete se mostrou  mais barato na loja 4, o que pode sinalizar que esta loja atinge um público mais próximo de sua localização, ou pode estar vendendo produtos que possuem frete menor.


Analisando apenas os dados disponíveis, **eu escolho a loja 4 para ser vendida** baseada no faturamento e avaliação, mas sugiro avaliar outras métricas que não estão presentes aqui, como a margem de cada loja.

