In [None]:
# importando a biblioteca para fazer a análise dos dados

import pandas as pd

In [None]:
# Fazendo a leitura dos arquivos de dados

df1 = pd.read_excel('Aracaju.xlsx')
df2 = pd.read_excel('Fortaleza.xlsx')
df3 = pd.read_excel('Natal.xlsx')
df4 = pd.read_excel('Recife.xlsx')
df5 = pd.read_excel('Salvador.xlsx')

In [None]:
# juntando todos os arquivos em um só
# passando os arquivos em formato de lista
# colocado um arquivo embaixo do outro em um único dataFrame

df = pd.concat([df1,df2,df3,df4,df5])

In [None]:
# mostrando as 5 primeiras linhas d dataFrame
df.head()

In [None]:
# mostrando as 5 últimas linhas d dataFrame
df.tail()

In [None]:
# pegando uma amostra de dados do daraFrame de forma aleatória
# a quantidade de amostras pode ser definido dentro do parentese de sample

df.sample(5)

In [None]:
# verificando os tipos de dados de cada coluna

df.dtypes

In [None]:
# alterando o tipo de dado da coluna LojaID
# pois essa coluna não será usada para fazer cálculos

df['LojaID'] = df['LojaID'].astype('object')

In [None]:
df.dtypes

# Valores faltantes

Podem ser substituídos de varias maneiras, podendo ser pela média ou por zero, isso dependerá de cada análise feita

In [None]:
# consultando linhas com valores faltentes
# e somando todos esses valores

df.isnull().sum()

In [None]:
# substituindo os valores nulos pelo valor da média
# Passando o parâmetro inplace=True para indicar que o valor seja modificado em memória
# assim esse valor irá para o dataFrame

df['Vendas'].fillna(df['Vendas'].mean(), inplace = True)

In [None]:
df.isnull().sum()

In [None]:
# substituindo os valores nulos por zero

df['Vendas'].fillna(0, inplace = True)

In [None]:
 # Apagando os valores nulos

df.dropna(inplace=True)

In [None]:
# Apagando as linhas com valores nulos com base apenas em 1 coluna

df.dropna(subset = ['Vendas'], inplace = True)

In [None]:
# Removendo linhas que estejam com valores faltantes em todas as colunas

df.dropna(how='all', inplace=True)

# Criando colunas novas

In [None]:
# criando coluna de receita
# que recebe o calculo entre dos valores de 'Vendas' * 'Qtde'

df['Receita'] = df['Vendas'].mul(df['Qtde'])

In [None]:
df.head()

In [None]:
# Retornando a maior receita dentro do dataFrame

df['Receita'].max()

In [None]:
# Retornando a menor receita dentro do dataFrame

df['Receita'].min()

In [None]:
# Retornando os maiores valores do dataFrame usando o método nlargest
# este método recebe como parâmetro um valor inteiro que será quantidade a ser mostrada de forma decrescente, e o
# segundo parâmetro será a colun a ser verificada

df.nlargest(3, 'Receita')

In [None]:
# Retornando os três menores valores do dataFrame usando nsamllest
# este método recebe como parâmetro um valor inteiro que será quantidade a ser mostrada de forma decrescente, e o
# segundo parâmetro será a colun a ser verificada

df.nsmallest(3, 'Receita')

In [None]:
# Fazendo o agrupamento dos dados por 
# fazendo o somatório da receita de cada cidade

df.groupby('Cidade')['Receita'].sum()

In [None]:
# Ordenando o conjunto de dados do dataFrame

df.sort_values('Receita', ascending=False).head(10)

# Trabalhando com datas

In [None]:
# Transfromando a coluna de data em tipo inteiro

df['Data'] = df['Data'].astype('int64')

In [None]:
# Verificando o tipo de dado de cada coluna
df.dtypes

In [None]:
# Transformando uma coluna de data em data
df['Data'] = pd.to_datetime(df['Data'])

In [None]:
df.dtypes

In [None]:
# Agrupando por ano

df.groupby(df['Data'].dt.year)['Receita'].sum()

In [None]:
 # Criando a coluna de ano no df
 df['Ano_venda'] = df['Data'].dt.year

In [None]:
# Retornando uma amostra aleatória
df.sample(5)

In [None]:
# Extraindo o mês e o dia da venda
df['mes_venda'], df['dia_venda'] = (df['Data'].dt.month, df['Data'].dt.day)

In [None]:
df.sample(5)

In [None]:
# Retornando a data mais antiga
df['Data'].min()

In [None]:
# Retornando a data mais recente
df['Data'].max()

In [None]:
# Calculando a diferença de dias
df['deferenca_dias'] = df['Data'] - df['Data'].min()

In [None]:
df.sample(5)

In [None]:
# Criado a coluna de trimestre
df['trimestre_venadas'] = df['Data'].dt.quarter

In [None]:
df.sample(5)

In [None]:
# Filtrando as vendas de 2019 do mês de março
vendas_marco_19 = df.loc[(df['Data'].dt.year == 2019) & (df['Data'].dt.month == 3)]

In [None]:
df.sample(5)

In [None]:
vendas_marco_19

# Visualização de dados

In [None]:
# fazendo a contagem de valores para cada ID
df['LojaID'].value_counts(ascending=False)

In [None]:
# gerando um gráfico de barras
df['LojaID'].value_counts(ascending=False).plot.bar()

In [None]:
# gráfico de barras horizontal
df['LojaID'].value_counts().plot.barh()

In [None]:
# gerando gráfico de barras horizontal decrescente
df['LojaID'].value_counts(ascending=True).plot.barh()

In [None]:
# gerando gráfico de pizza
df.groupby(df['Data'].dt.year)['Receita'].sum().plot.pie()

In [None]:
# Verificando o total de vendas por cidade
df['Cidade'].value_counts()

In [None]:
# Adicionando um título e alterando o nome dos eixos
from turtle import title
import matplotlib.pyplot as plt # usada para gerar graficos de forma mais estilizada

df['Cidade'].value_counts().plot.bar(title='Total de vendas por cidade')
plt.xlabel('Cidade')
plt.ylabel('Total de vendas');


In [None]:
# Alterando a cor do gráfico
df['Cidade'].value_counts().plot.bar(title='Total de vendas por cidade', color='red')
plt.xlabel('Cidade')
plt.ylabel('Total de vendas');

In [None]:
# Alterando o estilo
plt.style.use('ggplot')

In [None]:
df.groupby(df['mes_venda'])['Qtde'].sum().plot(title='Total de produtos vendidos x mês')
plt.xlabel('Mês')
plt.ylabel('Total Produtos vendidos')
plt.legend();

In [None]:
df.groupby(df['mes_venda'])['Qtde'].sum()

In [None]:
# Selecionando apenas as vendas de 2019
df_2019 = df[df['Ano_venda'] == 2019]

In [None]:
df_2019.groupby(df_2019['mes_venda'])['Qtde'].sum()

In [None]:
# Total de produtos vendidos por mês
df_2019.groupby(df_2019['mes_venda'])['Qtde'].sum().plot(marker= 'v')
plt.xlabel('Mês')
plt.ylabel('Total Produtos vendidos')
plt.legend();

In [None]:
# gerando um histograma
plt.hist(df['Qtde'], color='orangered');

In [None]:
# gerando um gráfico de dispersão
plt.scatter(x=df_2019['dia_venda'], y= df_2019['Receita']);


In [None]:
# Salvando em png
df_2019.groupby(df_2019['mes_venda'])['Qtde'].sum().plot(marker='v')
plt.title('Quantidade de produtos vendidos x mês')
plt.xlabel('Mês')
plt.ylabel('Total Produtos vendidos')
plt.legend();
plt.savefig('grafico Qtde x Mes.png');
