
    - utilizar a biblioteca Pandas - a mais utilizada no mundo para análise de dados
    - carregar dados de um arquivo Excel
    - fazer análise exploratória nos dados
    - gerar estatísticas das colunas quantitativas
    - gerar gráficos interativos
    - Realizar uma análise de dados sobre uma base de 70.000 linhas de uma rede de lojas de venda de Açaí.

<h2 style="color: #37709F">Carregando os dados do arquivo Excel</h2>

<h3 style="color: #2F666F">Importando a biblioteca</h3>

A biblioteca **Pandas** já vem pré-instalada no Anaconda, então só precisamos importá-la.

In [None]:
import pandas as pd

In [None]:
# lendo os dados (nesse código, o arquivo Excel precisa estar na mesma pasta)
dados = pd.read_excel("vendas.xlsx")

<h2 style="color: #37709F">Análise Exploratória</h2>

<h3 style="color: #2F666F">Verificando se os dados foram carregados corretamente</h3>

Para verificar se os dados foram carregados corretamente, podemos utilizar dois métodos do Pandas:

- **head()**: mostra as primeiras linhas do conjunto de dados
- **tail()**: mostra as últimas linhas do conjunto de dados

In [1]:
dados.head()

NameError: ignored

In [None]:
dados.tail()

Unnamed: 0,id_pedido,data,loja,cidade,estado,regiao,tamanho,local_consumo,preco,forma_pagamento,ano_mes
69995,PED69996,2020-12-03,Loja 5,São Paulo,São Paulo,Sudeste,300ml,Consumo no local,7,Dinheiro,2020-12
69996,PED69997,2021-06-01,Loja 6,Florianópolis,Santa Catarina,Sul,700ml,Consumo no local,11,Pix,2021-06
69997,PED69998,2022-07-14,Loja 6,Florianópolis,Santa Catarina,Sul,700ml,Delivery,11,Dinheiro,2022-07
69998,PED69999,2021-06-01,Loja 6,Florianópolis,Santa Catarina,Sul,500ml,Consumo no local,9,Pix,2021-06
69999,PED70000,2022-07-10,Loja 2,Niterói,Rio de Janeiro,Sudeste,700ml,Consumo no local,11,Dinheiro,2022-07


<h3 style="color: #2F666F">Quantidade de linhas e colunas</h3>

- Podemos usar a propriedade **shape** para verificar a quantidade de linhas e colunas. O primeiro valor é a quantidade de **linhas** e o segundo a de **colunas**.

In [None]:
dados.shape

(70000, 11)

<h3 style="color: #2F666F">Informações sobre as colunas</h3>

O Pandas tem um método muito poderoso para gerar informações importantes sobre o conjunto de dados:**info()**.

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_pedido        70000 non-null  object        
 1   data             70000 non-null  datetime64[ns]
 2   loja             70000 non-null  object        
 3   cidade           70000 non-null  object        
 4   estado           70000 non-null  object        
 5   regiao           70000 non-null  object        
 6   tamanho          70000 non-null  object        
 7   local_consumo    70000 non-null  object        
 8   preco            70000 non-null  int64         
 9   forma_pagamento  70000 non-null  object        
 10  ano_mes          70000 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(9)
memory usage: 5.9+ MB


<h3 style="color: #2F666F">Gerando estatísticas</h3>

O método **describe()** gera estatísticas sobre todas as colunas quantitativas.

In [None]:
dados.describe()

Unnamed: 0,preco
count,70000.0
mean,9.009571
std,2.831874
min,5.0
25%,7.0
50%,9.0
75%,11.0
max,13.0


<h3 style="color: #2F666F">Acessando uma coluna</h3>

Para acessar uma coluna, podemos utilizar a notação de colchetes, passando o nome da coluna desejada.

Caso o nome da coluna não possua espaços em branco de nem caracteres especiais, podemos acessar também com a notação de ponto.

In [None]:
dados['loja']

0        Loja 4
1        Loja 2
2        Loja 1
3        Loja 2
4        Loja 4
          ...  
69995    Loja 5
69996    Loja 6
69997    Loja 6
69998    Loja 6
69999    Loja 2
Name: loja, Length: 70000, dtype: object

In [None]:
dados.loja

0        Loja 4
1        Loja 2
2        Loja 1
3        Loja 2
4        Loja 4
          ...  
69995    Loja 5
69996    Loja 6
69997    Loja 6
69998    Loja 6
69999    Loja 2
Name: loja, Length: 70000, dtype: object

<h3 style="color: #2F666F">Obtendo os únicos de uma coluna</h3>

Para obter os valores únicos de uma coluna, utilizamos o método **unique()**.

In [None]:
dados['loja'].unique()

array(['Loja 4', 'Loja 2', 'Loja 1', 'Loja 6', 'Loja 3', 'Loja 5'],
      dtype=object)

<h3 style="color: #2F666F">Contagem de valores</h3>

Para fazer a contagem de valores de uma coluna, podemos utilizar o método **value_counts()**.

Podemos obter também o valor relativo, utilizando o parâmetro **normalize=True**.

In [None]:
dados['loja'].value_counts()

Loja 6    16648
Loja 3    12367
Loja 1    12344
Loja 5    12177
Loja 2     8318
Loja 4     8146
Name: loja, dtype: int64

In [None]:
dados['loja'].value_counts(normalize=True)

Loja 6    0.237829
Loja 3    0.176671
Loja 1    0.176343
Loja 5    0.173957
Loja 2    0.118829
Loja 4    0.116371
Name: loja, dtype: float64

<h3 style="color: #2F666F">Agrupando dados</h3>

O método **groupby()** realiza o agrupamento de dados por determinada coluna.

Sempre que utilizarmos o **groupby()**, precisamos definir o **método de agregação** que será usado.



In [None]:
# faturamento por loja
dados.groupby('loja').sum()

Unnamed: 0_level_0,preco
loja,Unnamed: 1_level_1
Loja 1,111042
Loja 2,74700
Loja 3,111709
Loja 4,73598
Loja 5,109393
Loja 6,150228


In [None]:
# média de faturament por loja (ticket médio)
dados.groupby('loja').mean()

Unnamed: 0_level_0,preco
loja,Unnamed: 1_level_1
Loja 1,8.995625
Loja 2,8.980524
Loja 3,9.032829
Loja 4,9.034864
Loja 5,8.983576
Loja 6,9.023787


<h2 style="color: #37709F">Gráficos</h2>

<h3 style="color: #2F666F">Instalando e importando a biblioteca de gráficos</h3>

Para gerar os gráficos vamos utilizar a biblioteca **Plotly Express**.

In [None]:
!pip install plotly_express

In [None]:
import plotly_express as px

<h3 style="color: #2F666F">Contagem de pedidos por loja</h3>

In [None]:
px.histogram(dados, x="loja", color="regiao", text_auto=True)

<h3 style="color: #2F666F">Criando múltiplos gráficos e gerando seus respectivos arquivos HTML</h3>

In [None]:
colunas = ['loja', 'cidade', 'estado', 'tamanho', 'local_consumo']

for coluna in colunas:
    fig = px.histogram(dados, x=coluna, y='preco', color='forma_pagamento', text_auto=True)
    fig.write_html(f"faturamento por {coluna}.html")
    fig.show()

<h3 style="color: #2F666F">Gráfico animado</h3>

In [None]:
# agrupando os dados
agrupado = dados.groupby(['loja', 'ano_mes']).sum()

#resetando os índices
agrupado.reset_index(inplace=True)

# criando uma coluna com o valor acumulado
agrupado['acumulado'] = agrupado.groupby('loja').cumsum()

In [None]:
# gerando o gráfico
fig = px.bar(agrupado, 
             x='acumulado', 
             y="loja", 
             color='loja',  
             text_auto=True,
             range_x=[0,160000],
             animation_frame='ano_mes')
fig.show()

In [None]:
# exportando o gráfico para um arquivo
fig.write_html('grafico_animado.html')