<a href="https://colab.research.google.com/github/layansg/DIO-DESAFIO-analise-de-dados-com-python-e-pandas/blob/main/Pandas_AulaPlanilhas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Trabalhando com planilhas do Excel**

In [None]:
# Importando a biblioteca
import pandas as pd

In [None]:
# Leitura dos arquivos
df1 = pd.read_excel("Aracaju.xlsx")
df2 = pd.read_excel("Fortaleza.xlsx")
df3 = pd.read_excel("Natal.xlsx")
df4 = pd.read_excel("Recife.xlsx")
df5 = pd.read_excel("Salvador.xlsx")

In [None]:
# Juntando todos os arquivos
df = pd.concat(df1,df2,df3,df4,df5)

In [None]:
# Exibindo as 5 primeiras linhas
df.head()

# Exibindo as 5 ultimas linhas
df.tail()

In [None]:
# Exibir uma amostra aleatória
df.sample(5)

In [None]:
#Verificando o tipo de dado de cada coluna
df.dtypes

In [None]:
# Alterando o tipo de dado da coluna LojaID
df["LojaID"] = df["LojaID"].astype("object")
df.dtypes

## Tratamento de dados faltantes 

In [None]:
# Consultando linhas com valores faltantes
df.isnull().sum

In [None]:
# Substituindo os valores nulos pela média
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)
df.isnull().sum()

In [None]:
# Substituindo os valores nulos por zero
df["Vendas"].fillna(0, inplace=True)

In [None]:
# Apagando as linhas com valores nulos
df.dropna(inplace=True)

In [None]:
# Apagando as linhas com valores nulos apenas em uma coluna
df.dropna(subset="Vendas", inplace=True)

In [None]:
# Removendo linhas com valores nulos em todas as colunas
df.dropna(how="all")

## Criando colunas novas

In [None]:
# Criando a coluna de receitas
df["Receita"] = df["Vendas"].mul(df["Qtd"])

In [None]:
# Retornando a maior receita
df["Receita"].max()

# Retornando a maior receita
df["Receita"].min()

In [None]:
# Retornando os maiores valores de receita
df.nlargest(3, "Receitas")

# Retornando os menores valores de receita
df.nsmallest(3, "Receitas")

In [None]:
# Agrupamento por cidade
df.groupby("Cidade")["Receita"].sum()

In [None]:
# Ordenando o conjunto de dados
df.sort_values("Receita", ascending=False).head(10)

## Trabalhando com datas

In [None]:
# Transformando a coluna de data em tipo inteiro
df["Data"] = df["Data"].astype("int64")

In [None]:
# Verificando o tipo de dado de cada coluna
df.dtypes

In [None]:
# Transformando a coluna de data em tipo datetime
df["Data"] = pd.to_datetime(df["Data"],)

In [None]:
# Agrupamento por ano
df.groupby(df["Data"].dt.year)["Receitas"].sum()

In [None]:
# Criando uma nova coluna com o ano
df["Ano_Venda"] = df["Data"].dt.year
df.sample(5)

In [None]:
# Extraindo o mês e o dia
df["Mês_Venda"], df["Dia_Venda"] = (df["Data"].dt.month, df["Data"].dt.day)
df.sample(5)

In [None]:
# Retornando a data mais antiga
df["Data"].min()

In [None]:
# Calculando a diferença de dias
df["Diferença_Dias"] = df["Data"] - df["Data"].min()

In [None]:
# Criando coluna de trimestre
df["Trimestre_Venda"] = df["Data"].dt.quarter

In [None]:
# Filtrando as vendas de 2019 do mês de março
vendas_março_2019 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)]

## Visualização de dados

In [None]:
#Gráfico de barras
df["LojaID"].value_counts(ascending=False).plot.bar();

In [None]:
#Gráfico de barras horizontais
df["LojaID"].value_counts(ascending=True).plot.barh();

In [None]:
# Gráfico de pizza
df.groupby(df["Data"].dt.year)["Receita"].sum().plot.pie()

In [None]:
# Total de vendas por cidade
df["Cidades"].value_counts()

In [None]:
# Adicionando o título e alterando o nome dos eixos
import matplotlib.pyplot as plt
df["Cidade"].value_counts().plot.bar(title="Total de vendas por cidade")
plt.xlabel("Cidade")
plt.ylabel("Total Vendas");

In [None]:
# Alterando a cor
df["Cidade"].value_counts().plot.bar(title="Total de vendas por cidade", color="red")
plt.xlabel("Cidade")
plt.ylabel("Total Vendas");

In [None]:
# Alterando o estilo
plt.style.use("ggplot")
df.groupby(df["Mes_Venda"])["Qtde"].sum().plot(title="Total produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total de produtos vendidos")
plt.legend();

In [None]:
# Selecionando apenas as vendas de 2019
df_2019 = df[df["Ano_Venda"] == 2019]

In [None]:
# Total de produtos vendidos por mês
df_2019.groupby(df["Mes_Venda"])["Qtde"].sum().plot(marker="v")
plt.xlabel("Mês")
plt.ylabel("Total de produtos vendidos")
plt.legend();

In [None]:
# Histograma
plt.hist(df["Qtde"], color="magenta");

In [None]:
# Dispersão
plt.scatter(x = df_2019["Mes_Venda"], y = df_2019["Receita"]);

In [None]:
# Salvando em PNG
df_2019.groupby(df["Mes_Venda"])["Qtde"].sum().plot(marker="v")
plt.title("Quantidade de produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total de produtos vendidos")
plt.legend()
plt.savefig("Gráfico QTD x MÊS.png");