# **Python para análise de dados(Pandas)**

In [None]:
# Importando a biblioteca pandas
import pandas as pd

In [None]:
# Lendo o dataframe
df = pd.read_csv("/content/drive/My Drive/Datasets/Gapminder.csv",error_bad_lines=False, sep=";")

In [None]:
# Visualizando as 5 primeiras linhas
df.head()

In [None]:
# Renomeando uma coluna
df = df.rename(columns={"country":"Pais", "continent": "continente", "year":"Ano", "lifeExp":"Expectativa de vida", "pop":"Pop Total", "gdpPercap": "PIB"})
df.head(5)

In [None]:
# Verificando o número total de linhas e colunas
df.shape

In [None]:
df.columns

In [None]:
# Verificando o tipo de dados das colunas
df.dtypes

In [None]:
# Retornando as 5 últimas linhas, podemos escolher a quantidade inserindo o número dentro do parenteses
df.tail()

In [None]:
# Retornando informações estatísticas do noss dataframe
df.describe()

In [None]:
# Retornando valores únicos de uma coluna
df["continente"].unique()

In [None]:
# Localizando dados relacionados a uma coluna
Oceania = df.loc[df["continente"] == "Oceania"]
Oceania.head()

In [None]:
# Agrupando numero de pais por continente
df.groupby("continente")["Pais"].nunique()

In [None]:
# Media de uma coluna
df["Expectativa de vida"].mean()

In [None]:
# Media com agrupamento de duas colunas
df.groupby("Ano")["Expectativa de vida"].mean()

In [None]:
# Retornando a soma de uma coluna
df["PIB"].sum()

# **Trabalhando com Planilhas do Excel**

In [None]:
# Lendo os aquivos xls
df1 = pd.read_excel("/content/drive/MyDrive/Datasets/Aracaju.xlsx")
df2 = pd.read_excel("/content/drive/MyDrive/Datasets/Fortaleza.xlsx")
df3 = pd.read_excel("/content/drive/MyDrive/Datasets/Natal.xlsx")
df4 = pd.read_excel("/content/drive/MyDrive/Datasets/Recife.xlsx")
df5 = pd.read_excel("/content/drive/MyDrive/Datasets/Salvador.xlsx")

In [None]:
df1.head()

In [None]:
# Juntando os arquivos
df = pd.concat([df1,df2,df3,df4,df5])

In [None]:
df.head(10)

In [None]:
df.tail()

In [None]:
df.dtypes

In [None]:
# Pegando uma amostra dos dados
df.sample(5)

In [None]:
# Alterando o tipo de dado de cada coluna
df["LojaID"] = df['LojaID'].astype("object")

In [None]:
df.dtypes

In [None]:
# Tratando valores faltantes

# Consultando linhas com valores faltantes
df.isnull().sum()

In [None]:
# Substituindo valores nulos pela media
df['Vendas'].fillna(df["Vendas"].mean(), inplace=True)

In [None]:
# Substituindo valores nulos por 0
df['Vendas'].fillna(0, inplace=True)

In [None]:
# Apagando as linhas com valores nulos
df.dropna(inplace=True)

In [None]:
# Apagando as linhas com valores nulos com base em apenas uma coluna
df.dropna(subset=["Vendas"], inplace=True)

In [None]:
# Removendo linhas que estejam com valores faltantes em todas as colunas
df.dropna(how="all", inplace=True)

In [None]:
# Criando novas colunas
df["Receita"] = df["Vendas"].mul(df["Qtde"])
df.head()

In [None]:
df["Receita/Venda"] =  df["Receita"] / df["Vendas"]
df.head()

In [None]:
# Retornando o maior valor da coluna receita
df['Receita'].max()

In [None]:
# Retornando o menor valor da coluna receita
df['Receita'].min()

In [None]:
# Retornando as tres maiores receitas
df.nlargest(3, "Receita")

In [None]:
# Retornando as tres menores receitas
df.nsmallest(3, "Receita")

In [None]:
# Agrupamento de Receita por cidade
df.groupby("Cidade")["Receita"].sum()

In [None]:
# Ordenando o conjunto de dados
df.sort_values("Receita", ascending=False).head(10)

# **Manipulando Datas**

In [None]:
# Transformando a coluna de data em tipo inteiro
df["Data"] = df["Data"].astype("int64")

In [None]:
df.dtypes

In [None]:
# Transformando coluna de data em data
df["Data"] = pd.to_datetime(df["Data"])

In [None]:
df.dtypes

In [None]:
# Agrupamento por ano
df.groupby(df["Data"].dt.year)["Receita"].sum()

In [None]:
# Criando uma nova coluna com o ano
df["Ano_Venda"] = df["Data"].dt.year

In [None]:
df.sample(5)

In [None]:
# Extraindo o mês e o dia
df["mes_venda"], df["dia_venda"] = (df["Data"].dt.month, df["Data"].dt.day)

In [None]:
df.sample(5)

In [None]:
# Retornando a data mais antiga
df["Data"].min()

Timestamp('2018-01-01 00:00:00')

In [None]:
# Calculando a diferença de dias
df["diferenca_dias"] = df["Data"] - df["Data"].min()

In [None]:
df.sample(5)

In [None]:
# Criando coluna trimestre
df["trimestre_venda"] = df["Data"].dt.quarter

In [None]:
df.sample(5)

In [None]:
# Filtrando as vendas de 2019 do mês de março
vendas_marco_19 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)]
vendas_marco_19

# **Visualização de Dados**

In [None]:
df["LojaID"].value_counts(ascending=False)

In [None]:
# Gráfico de barras
df["LojaID"].value_counts(ascending=False).plot.bar()

In [None]:
# Gráfico de barras
df["LojaID"].value_counts(ascending=False).plot.barh();
# ; no final oculta a linha que aparece antes do gráfico

In [None]:
# Gráfico de pizza
df.groupby(df["Data"].dt.year)["Receita"].sum().plot.pie()

In [None]:
# Total de vendas por cidade
df["Cidade"].value_counts()

In [None]:
# Adicionando um título e alterando o nome dos eixos
import matplotlib.pyplot as plt
df["Cidade"].value_counts().plot.bar(title= "Total de vendas por Cidade", color= "red")
plt.xlabel("Cidade")
plt.ylabel("Total Vendas");

In [None]:
# Alterando o estilo
plt.style.use("ggplot")

In [None]:
# Plotando a quantidade de produtos vendidos por mes
df.groupby(df["mes_venda"])["Qtde"].sum().plot(title= "Total de produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos");
plt.legend(); # Adiciona uma descrição ao que esta sendo demonstrado no caso a Qtde

In [None]:
# Quantidade de itens vendidos por mes
df.groupby(df["mes_venda"])["Qtde"].sum()

In [None]:
# Selecionando apenas as vendas de 2019, armazenando essa seleção na variável df_2019
df_2019 = df[df["Ano_Venda"] == 2019]

In [None]:
# Total de produtos vendidos por mês em 2019
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum()

In [None]:
# Total de produtos vendidos por mês em 2019 no gráfico
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum().plot(title= "Total de produtos vendidos x mês", marker= "v")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos");
plt.legend(); # Adiciona uma descrição ao que esta sendo demonstrado no caso a Qtde

In [None]:
# Histograma
plt.hist(df["Qtde"], color= "magenta");

In [None]:
# Visualizando em gráfico de pontos receita por dia em 2019 (gráfico de inspeção)
plt.scatter(x= df_2019["dia_venda"], y= df_2019["Receita"])

In [None]:
# Salvando em png
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum().plot(marker= "v")
plt.title("Quantidade de produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos");
plt.legend(); # Adiciona uma descrição ao que esta sendo demonstrado no caso a Qtde
#plt.savefig("grafico QTDE X MES.png")

# **Análise Exploratória**

In [4]:
# Importando as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

  plt.style.use("seaborn")


In [6]:
# Upload do arquivo
from google.colab import files
arq = files.upload()

In [5]:
# Criando o nosso DataFrame
df = pd.read_excel("/content/drive/MyDrive/Datasets/AdventureWorks.xlsx")

In [None]:
# Visualizando as 5 primeiras linhas
df.head()

In [8]:
# Quantidade de linhas e colunas
df.shape

(904, 16)

In [None]:
# Verificando os tipos de dados
df.dtypes

In [10]:
# Qual a receita total?
df["Valor Venda"].sum()

5984606.1426

In [11]:
# Qual o custo total?
df["Custo"] = df["Custo Unitário"].mul(df["Quantidade"])# Criando a coluna de custo

In [None]:
df.head(1)

In [None]:
# Calculando o custo total
round(df["Custo"].sum(),2)

In [14]:
# Agora que temos a receita e o total, podemos achar o Lucro total
# Vamos criar uma coluna de Lucro que será Receita - Custo
df["lucro"] = df["Valor Venda"] - df["Custo"]

In [None]:
df.head(1)

In [None]:
# Total Lucro
round(df["lucro"].sum(),2)

In [None]:
df.rename(columns={"lucro":"Lucro"})

In [20]:
# Criando uma coluna com o total de dias para enviar o produto
df['Tempo_envio'] = df['Data Envio'] - df['Data Venda']

In [None]:
df.head(1)

In [22]:
# Agora queremos saber a média do tempo de envio para cada marca, e para isso precisamos transformar a coluna tempo_envio em numérica
# Extraindo apenas os dias
df['Tempo_envio'] = (df['Data Envio'] - df['Data Venda']).dt.days

In [None]:
df.head(1)

In [24]:
# Verificando o tipo da coluna tempo_envio
df['Tempo_envio'].dtype

dtype('int64')

In [None]:
# Média do tempo de envio por Marca
df.groupby("Marca")["Tempo_envio"].mean()

In [None]:
# Verificando se temos dados faltantes
df.isnull().sum()

In [None]:
# Lucro por ano e marca
# Vamos agrupar por ano e marca
df.groupby([df["Data Venda"].dt.year, "Marca"])["lucro"].sum()

In [29]:
# Formatando os dados acima em float para exibição
pd.options.display.float_format = '{:20,.2f}'.format

In [None]:
# Resetando o index e exibindo o lucro anual de uma forma melhor
lucro_ano = df.groupby([df["Data Venda"].dt.year, "Marca"])["lucro"].sum().reset_index()
lucro_ano

In [None]:
# Qual o total de produtos vendidos?
df.groupby("Produto")["Quantidade"].sum().sort_values(ascending=False)

In [None]:
# Gráfico total de produtos vendidos
df.groupby("Produto")["Quantidade"].sum().sort_values(ascending=False).plot.barh(title= "Total Produtos Vendidos")
plt.xlabel("Total")
plt.ylabel("Produto");

In [None]:
# Gráfico Lucro Anual
df.groupby(df["Data Venda"].dt.year)["lucro"].sum().plot.bar(title= "Lucro x Ano")
plt.xlabel("Ano")
plt.ylabel("Receita");
df.groupby(df["Data Venda"].dt.year)["lucro"].sum()

In [37]:
# Selecionando apenas as vendas de 2009
df_2009 = df[df["Data Venda"].dt.year == 2009]

In [None]:
df_2009.head()

In [None]:
# Verificando o lucro mensal
df_2009.groupby(df_2009["Data Venda"].dt.month)["lucro"].sum().plot.bar(title= "Lucro x Mês")
plt.xlabel("Mês")
plt.ylabel("Lucro");

In [None]:
# Lucro por marca
df_2009.groupby("Marca")["lucro"].sum().plot.bar(title= "Lucro x Marca")
plt.xlabel("Marca")
plt.ylabel("Lucro");
plt.xticks(rotation= 'horizontal'); # Coloca os nomes dos items do eixo x em horizontal

In [None]:
# Lucro por classe
df_2009.groupby("Classe")["lucro"].sum().plot.bar(title= "Lucro x Classe")
plt.xlabel("Classe")
plt.ylabel("Lucro");
plt.xticks(rotation= 'horizontal');

In [None]:
df["Tempo_envio"].describe()

In [None]:
# Gráfico de Boxplot, representa bem o grafico acima
plt.boxplot(df["Tempo_envio"]);

In [None]:
# Histograma
plt.hist(df["Tempo_envio"]);

In [None]:
# Tempo minimo de envio
df["Tempo_envio"].min()

In [None]:
# Tempo maximo de envio
df["Tempo_envio"].max()

In [None]:
# Identificando o Outlier
df[df["Tempo_envio"] == 20]

In [55]:
# Salvando o arquivo em csv
df.to_csv("df_vendas_novo.csv", index=False) # Não leva o index da linha