## **TRABALHANDO COM PLANILHAS DO EXCEL, TRANSFORMANDO INFORMAÇÕES EM GRÁFICOS**

In [None]:
#Immportando biblioteca pandas
import pandas as pd

In [None]:
#Leitura dos arquivos via upload
df1 = pd.read_excel("Aracaju.xlsx")
df2 = pd.read_excel("Fortaleza.xlsx")
df3 = pd.read_excel("Natal.xlsx")
df4 = pd.read_excel("Recife.xlsx")
df5 = pd.read_excel("Salvador.xlsx")

In [None]:
#Juntando arquivos em um só
df = pd.concat([df1,df2,df3,df4,df5])

In [None]:
#Amostra do conjunto de dados
df.sample(10)

In [None]:
#Tipo de dados de cada coluna
df.dtypes

In [None]:
#Alterando tipo dado de uma coluna para outro
df["LojaID"] = df["LojaID"].astype("object")

## **VALORES NULOS/FALTANTES**

In [None]:
#Consultando linhas com valores faltantes
#Trazer soma dos valores nulos
df.isnull().sum()

In [None]:
#Substituindo os valores nulos pela média
#fillna preenche valores vazios com valor definido
#implace é em memória
df["Vendas"].fillna(df["Vendas"].mean(), inplace = True)

In [None]:
#Substituindo os valores nulos por 0
df["Vendas"].fillna(0, inplace = True)

In [None]:
#Apagando linhas com valores nulos
#dropna é valores nulos
df.dropna(inplace = True)

In [None]:
#Apagando linhas com valores nulos de uma unica coluna
df.dropna(subset=["Vendas"], inplace = True)

In [None]:
#Apagando linhas com valores nulos de todas as colunas
df.dropna(how = "all", inplace = True)

# **CRIANDO NOVAS COLUNAS NO CONJUNTO DE DADOS**

In [None]:
#Criando a coluna de receita
#receita é vendas * quantidade
df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [None]:
#Retornando a maior receita
df["Receita"].max()

In [None]:
#Retornando a menor receita
df["Receita"].min()

In [None]:
#Retornar os mais altos top x com base na coluna y
#nlargest
df.nlargest(3, "Receita")

In [None]:
#Retornar os mais baixos top x com base na coluna y
#nsmallest
df.nsmallest(3, "Receita")


In [None]:
#Agrupamento cidade
df.groupby("Cidade")["Receita"].sum()

In [None]:
#Ordenando conjunto de dados
df.sort_values("Receita", ascending = False).head(5)

### **TRABALHANDO COM DATAS**

In [None]:
#Transformando coluna de data em tipo inteiro
df["Data"] = df["Data"].astype("int64")

In [None]:
#Transformando coluna de data em data
df["Data"] = pd.to_datetime(df["Data"])

In [None]:
#Agrupamento por ano
df.groupby(df["Data"].dt.year)["Receita"].sum()

In [None]:
#Criando nova coluna com ano
df["Ano_Venda"] = df["Data"].dt.year

In [None]:
#Extraindo mês e dia da venda
df["Mes_Venda"], df["Dia_Venda"] = (df["Data"].dt.month, df["Data"].dt.day)

In [None]:
#Retornando a data mais antiga
df["Data"].min()

In [None]:
#Calculando diferença de dias
df["Diferenca_Dias"] = df["Data"] - df["Data"].min()

In [None]:
#Criando coluna de trimestre
df["Trimestre_Venda"] = df["Data"].dt.quarter

In [None]:
#Filtrando vendas de 2019 do mês de março
vendas_marco_19 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3 )]

In [None]:
vendas_marco_19

# **VIZUALIZAÇÃO DE DADOS**

In [None]:
#Linhas para cada LojaID
df["LojaID"].value_counts(ascending=False)

In [None]:
#Matplotlib
#Gráfico de barras de linhas contidas para cada LojaID(verticalmente)
df["LojaID"].value_counts(ascending=False).plot.bar()

In [None]:
#Linhas horizontais
df["LojaID"].value_counts(ascending=True).plot.barh()

In [None]:
#Para não aparecer <matplotlib.axes._subplots.AxesSubplot at 0x7fec62e39850> necessário por ";"
df["LojaID"].value_counts(ascending=True).plot.barh();

In [None]:
#Grafico de pizza
df.groupby(df["Data"].dt.year)["Receita"].sum().plot.pie()

In [None]:
#Total de vendas por cidade
df["Cidade"].value_counts()

In [None]:
#Adicionar titulo e alterar nome dos eixos
#Importando biblioteca matplotlib
import matplotlib.pyplot as plt
df["Cidade"].value_counts().plot.bar(title="Total de vendas por cidade")
plt.xlabel("Cidade")
plt.ylabel("Total vendas");

In [None]:
#Alterando a cor
df["Cidade"].value_counts().plot.bar(title="Total de vendas por cidade", color="pink")
plt.xlabel("Cidade")
plt.ylabel("Total vendas");

In [None]:
#Alterando estilo
plt.style.use("ggplot")
df.groupby(df["Mes_Venda"])["Qtde"].sum().plot(title="Total de produtos vendidos por mês")
plt.xlabel("Mês")
plt.ylabel("Total de produtos vendidos")
plt.legend(); 

In [None]:
#Quantidade de vendas por mês
df.groupby(df["Mes_Venda"])["Qtde"].sum()

In [None]:
#Selecionando apenas o ano de 2019
df_2019 = df[df["Ano_Venda"] == 2019]

In [None]:
#Gráfico de linhas do total produtos vendidos por mês
df_2019.groupby(df_2019["Mes_Venda"])["Qtde"].sum().plot(marker = "v")
plt.xlabel("Mês")
plt.ylabel("Total de produtos vendidos")
plt.legend();#Incluindo legenda
#Existem varios marcadores  

In [None]:
#Histograma
plt.hist(df["Qtde"], color =  "cyan");

In [None]:
#Gráfico de dispersão
plt.scatter(x=df_2019["Dia_Venda"], y=df_2019["Receita"], color ="Pink");

In [None]:
#Gráfico de linha
df_2019.groupby(df_2019["Mes_Venda"])["Qtde"].sum().plot(marker = "v")
plt.xlabel("Mês")
plt.ylabel("Total de produtos vendidos")
plt.legend()
plt.savefig("Grafico_qtd_mes.png");