# Análise de dados com python

In [1]:
import pandas as pd

In [2]:
# carregar dados para análise

dados = pd.read_excel("vendas.xlsx")

## Análise exploratória

In [3]:
# listar primeiras linhas

dados.head()

Unnamed: 0,id_pedido,data,loja,cidade,estado,regiao,tamanho,local_consumo,preco,forma_pagamento,ano_mes
0,PED1994,2020-01-01,Loja 4,Santos,São Paulo,Sudeste,300ml,Consumo no local,5,Dinheiro,2020-01
1,PED2246,2020-01-01,Loja 6,Florianópolis,Santa Catarina,Sul,500ml,Consumo no local,11,Débito,2020-01
2,PED3876,2020-01-01,Loja 3,Rio de Janeiro,Rio de Janeiro,Sudeste,300ml,Delivery,7,Crédito,2020-01
3,PED4352,2020-01-01,Loja 1,Fortaleza,Ceará,Nordeste,1000ml,Consumo no local,7,Débito,2020-01
4,PED8633,2020-01-01,Loja 5,São Paulo,São Paulo,Sudeste,200ml,Delivery,9,Crédito,2020-01


In [4]:
# listar ultimas linhas

dados.tail()

Unnamed: 0,id_pedido,data,loja,cidade,estado,regiao,tamanho,local_consumo,preco,forma_pagamento,ano_mes
69995,PED67084,2022-12-31,Loja 6,Florianópolis,Santa Catarina,Sul,500ml,Consumo no local,11,Crédito,2022-12
69996,PED67857,2022-12-31,Loja 3,Rio de Janeiro,Rio de Janeiro,Sudeste,200ml,Consumo no local,7,Pix,2022-12
69997,PED69171,2022-12-31,Loja 4,Santos,São Paulo,Sudeste,500ml,Consumo no local,5,Dinheiro,2022-12
69998,PED69229,2022-12-31,Loja 4,Santos,São Paulo,Sudeste,300ml,Consumo no local,9,Pix,2022-12
69999,PED69356,2022-12-31,Loja 1,Fortaleza,Ceará,Nordeste,300ml,Delivery,9,Pix,2022-12


In [5]:
# tamanho da tabela 

dados.shape

(70000, 11)

In [6]:
# tipos de dados
dados.dtypes

id_pedido                  object
data               datetime64[ns]
loja                       object
cidade                     object
estado                     object
regiao                     object
tamanho                    object
local_consumo              object
preco                       int64
forma_pagamento            object
ano_mes                    object
dtype: object

## Estatiscicas

In [7]:
# gerando estatisticas

dados.describe()

# mean = média
# std = desvio padrão
# min = minima
# 25% = primeiro quartil
# 50% = segundo quartil - também mediana
# 75% = terceiro quartil
# max = valor máximo

Unnamed: 0,preco
count,70000.0
mean,8.3552
std,2.653061
min,5.0
25%,7.0
50%,7.0
75%,11.0
max,13.0


In [8]:
# total de pedido por loja

dados.loja.value_counts()

Loja 4    13483
Loja 6    13075
Loja 1    12344
Loja 5    12177
Loja 3    10603
Loja 2     8318
Name: loja, dtype: int64

In [9]:
# total de pedidos por tamanho

dados.tamanho.value_counts()

300ml     20475
200ml     15804
500ml     13591
700ml     11158
1000ml     8972
Name: tamanho, dtype: int64

In [10]:
# total de pedidos por pagamento

dados.forma_pagamento.value_counts()

Crédito     26063
Débito      20427
Dinheiro    14709
Pix          8801
Name: forma_pagamento, dtype: int64

In [11]:
dados

Unnamed: 0,id_pedido,data,loja,cidade,estado,regiao,tamanho,local_consumo,preco,forma_pagamento,ano_mes
0,PED1994,2020-01-01,Loja 4,Santos,São Paulo,Sudeste,300ml,Consumo no local,5,Dinheiro,2020-01
1,PED2246,2020-01-01,Loja 6,Florianópolis,Santa Catarina,Sul,500ml,Consumo no local,11,Débito,2020-01
2,PED3876,2020-01-01,Loja 3,Rio de Janeiro,Rio de Janeiro,Sudeste,300ml,Delivery,7,Crédito,2020-01
3,PED4352,2020-01-01,Loja 1,Fortaleza,Ceará,Nordeste,1000ml,Consumo no local,7,Débito,2020-01
4,PED8633,2020-01-01,Loja 5,São Paulo,São Paulo,Sudeste,200ml,Delivery,9,Crédito,2020-01
...,...,...,...,...,...,...,...,...,...,...,...
69995,PED67084,2022-12-31,Loja 6,Florianópolis,Santa Catarina,Sul,500ml,Consumo no local,11,Crédito,2022-12
69996,PED67857,2022-12-31,Loja 3,Rio de Janeiro,Rio de Janeiro,Sudeste,200ml,Consumo no local,7,Pix,2022-12
69997,PED69171,2022-12-31,Loja 4,Santos,São Paulo,Sudeste,500ml,Consumo no local,5,Dinheiro,2022-12
69998,PED69229,2022-12-31,Loja 4,Santos,São Paulo,Sudeste,300ml,Consumo no local,9,Pix,2022-12


## Agrupamento de dados

In [12]:
# faturamento por loja

dados.groupby("loja").preco.sum()

loja
Loja 1    103162
Loja 2     69592
Loja 3     88357
Loja 4    112379
Loja 5    102189
Loja 6    109185
Name: preco, dtype: int64

In [13]:
# fartuamento por médio por loja

dados.groupby("loja").preco.mean()

loja
Loja 1    8.357259
Loja 2    8.366434
Loja 3    8.333208
Loja 4    8.334866
Loja 5    8.391968
Loja 6    8.350669
Name: preco, dtype: float64

In [14]:
# faturamento por estado

dados.groupby("estado").preco.sum()

estado
Ceará             103162
Rio de Janeiro    157949
Santa Catarina    109185
São Paulo         214568
Name: preco, dtype: int64

In [15]:
# faturamento por estado e por cidade

dados.groupby(["estado", "cidade"]).preco.sum().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,preco
estado,cidade,Unnamed: 2_level_1
Ceará,Fortaleza,103162
Rio de Janeiro,Niterói,69592
Rio de Janeiro,Rio de Janeiro,88357
Santa Catarina,Florianópolis,109185
São Paulo,Santos,112379
São Paulo,São Paulo,102189


In [16]:
# faturamento por estado e por cidade
# criando documento excel

dados.groupby(["estado", "cidade"]).preco.sum().to_excel("faturamento_estado_cidade.xlsx")

### Visualização de dados

In [None]:
!pip install plotly_express

In [18]:
import plotly_express as px

ModuleNotFoundError: No module named 'plotly_express'

In [None]:
# gerando gráficos

grafico = px.histogram(dados, x="loja", y="preco", text_auto=True, color="forma_pagamento")
grafico.show()
grafico.write_html("grafico_forma_pagamento.html")

In [None]:
grafico = px.histogram(dados, x="cidade", y="preco", text_auto=True, color="forma_pagamento")
grafico.show()
# grafico.write_html("grafico_forma_pagamento.html")

In [None]:
dados.head()

### Listas (estruturas de dados)

In [None]:
lista_colunas = ["loja", "cidade", "estado", "regiao", "tamanho", "local_consumo"]

In [None]:
# estrutura de repetição (laço)

for coluna in lista_colunas:
    grafico = px.histogram(dados, x=coluna, y="preco", text_auto=True, color="forma_pagamento")
    grafico.show()
    grafico.write_html(f"Grafico-{coluna}.html")

In [None]:
# grafico animado


dados = pd.read_excel("vendas.xlsx")

In [None]:
agrupado = dados.groupby(['loja', 'ano_mes']).preco.sum().to_frame()
agrupado.reset_index(inplace=True)
agrupado['acumulado'] = agrupado.groupby('loja').preco.cumsum()

fig = px.bar(agrupado,
        x='acumulado',
        y="loja",
        color='loja',
        text_auto=True,
        range_x=[0,123000],
        animation_frame='ano_mes')
fig.show()
fig.write_html("grafico_animado.html")        