#**Trabalhando com Planilhas do Excel**

In [1]:
#Importando a biblioteca
import pandas as pd

In [2]:
#Leitura dos arquivos
df1 = pd.read_excel("Aracaju.xlsx")
df2 = pd.read_excel("Fortaleza.xlsx")
df3 = pd.read_excel("Natal.xlsx")
df4 = pd.read_excel("Recife.xlsx")
df5 = pd.read_excel("Salvador.xlsx")

FileNotFoundError: [Errno 2] No such file or directory: 'Aracaju.xlsx'

In [None]:
df5.head()

In [None]:
#juntando todos os arquivos
df = pd.concat([df1,df2,df3,df4,df5])

In [None]:
#Exibindo as 5 primeiras linhas
df.head()

In [None]:
#Exibindo as 5 últimas linhas
df.tail()

In [None]:
df.sample(5)

In [None]:
#Verificando o tipo de dado de cada coluna
df.dtypes

In [None]:
#Alterando o tipo de dado da coluna LojaID
df["LojaID"] = df["LojaID"].astype("object")

In [None]:
df.dtypes

In [None]:
df.head()

**Tratando valores faltantes**

In [None]:
#Consultando linhas com valores faltantes
df.isnull().sum()

In [None]:
#Substituindo os valores nulos pela média
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)

In [None]:
df["Vendas"].mean()

In [None]:
df.isnull().sum()

In [None]:
df.sample(15)

In [None]:
#Substituindo os valores nulos por zero
df["Vendas"].fillna(0, inplace=True)

In [None]:
#Apagando as linhas com valores nulos
df.dropna(inplace=True)

In [None]:
#Apagando as linhas com valores nulos com base apenas em 1 coluna
df.dropna(subset=["Vendas"], inplace=True)

In [None]:
#Removendo linhas que estejam com valores faltantes em todas as colunas
df.dropna(how="all", inplace=True)

**Criando colunas novas**

In [None]:
#Criando a coluna de receita
df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [None]:
df.head()

In [None]:
df["Receita/Vendas"] = df["Receita"] / df["Vendas"] 

In [None]:
df.head()

In [None]:
#Retornando a maior receita
df["Receita"].max()

In [None]:
#Retornando a menor receita
df["Receita"].min()

In [None]:
#nlargest
df.nlargest(3, "Receita")

In [None]:
#nsamllest
df.nsmallest(3, "Receita")

In [None]:
#Agrupamento por cidade
df.groupby("Cidade")["Receita"].sum()

In [None]:
#Ordenando o conjunto de dados
df.sort_values("Receita", ascending=False).head(10)

#**Trabalhando com datas**

In [None]:
#Trasnformando a coluna de data em tipo inteiro
df["Data"] = df["Data"].astype("int64")

In [None]:
#Verificando o tipo de dado de cada coluna
df.dtypes

In [None]:
#Transformando coluna de data em data
df["Data"] = pd.to_datetime(df["Data"])

In [None]:
df.dtypes

In [None]:
#Agrupamento por ano
df.groupby(df["Data"].dt.year)["Receita"].sum()

In [None]:
#Criando uma nova coluna com o ano
df["Ano_Venda"] = df["Data"].dt.year

In [None]:
df.sample(5)

In [None]:
#Extraindo o mês e o dia
df["mes_venda"], df["dia_venda"] = (df["Data"].dt.month, df["Data"].dt.day)

In [None]:
df.sample(5)

In [None]:
#Retornando a data mais antiga
df["Data"].min()

In [None]:
#Calculando a diferença de dias
df["diferenca_dias"] = df["Data"] - df["Data"].min()

In [None]:
df.sample(5)

In [None]:
#Criando a coluna de trimestre
df["trimestre_venda"] = df["Data"].dt.quarter

In [None]:
df.sample(5)

In [None]:
#Filtrando as vendas de 2019 do mês de março
vendas_marco_19 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)]

In [None]:
vendas_marco_19.sample(20)

#**Visualização de dados**

In [None]:
df["LojaID"].value_counts(ascending=False)

In [None]:
#Gráfico de barras
df["LojaID"].value_counts(ascending=False).plot.bar()

In [None]:
#Gráfico de barras horizontais
df["LojaID"].value_counts().plot.barh()

In [None]:
#Gráfico de barras horizontais
df["LojaID"].value_counts(ascending=True).plot.barh();

In [None]:
#Gráfico de Pizza
df.groupby(df["Data"].dt.year)["Receita"].sum().plot.pie()

In [None]:
#Total vendas por cidade
df["Cidade"].value_counts()

In [None]:
#Adicionando um título e alterando o nome dos eixos
import matplotlib.pyplot as plt
df["Cidade"].value_counts().plot.bar(title="Total vendas por Cidade")
plt.xlabel("Cidade")
plt.ylabel("Total Vendas");

In [None]:
#Alterando a cor
df["Cidade"].value_counts().plot.bar(title="Total vendas por Cidade", color="red")
plt.xlabel("Cidade")
plt.ylabel("Total Vendas");

In [None]:
#Alterando o estilo
plt.style.use("ggplot")

In [None]:
df.groupby(df["mes_venda"])["Qtde"].sum().plot(title = "Total Produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos")
plt.legend();

In [None]:
df.groupby(df["mes_venda"])["Qtde"].sum()

In [None]:
#Selecionando apenas as vendas de 2019
df_2019 = df[df["Ano_Venda"] == 2019]

In [None]:
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum()

In [None]:
#Total produtos vendidos por mês
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum().plot(marker = "o")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos")
plt.legend();

In [None]:
#Hisograma
plt.hist(df["Qtde"], color="orangered");

In [None]:
plt.scatter(x=df_2019["dia_venda"], y = df_2019["Receita"]);

In [None]:
#Salvando em png
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum().plot(marker = "v")
plt.title("Quantidade de produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos");
plt.legend()
plt.savefig("grafico QTDE x MES.png")