# Análisando dados com Python e Pandas

## Introdução

Neste DIO Platform Lab, apresentado no Bootcamp Geração Tech Unimed-BH - Ciência de Dados, apresentando a biblioteca Pandas, uma biblioteca Python open source para análise de dados. Ele permite que o Python trabalhe com dados semelhantes a planilhas, permitindo que você carregue, manipule e combine dados rapidamente, entre outras funções.

## Estrutura de dados

### Listas

In [None]:
# Criando uma lista chamada animais
animais = [1,2,3]
animais

In [None]:
animais = ["cachorro","gato",12345, 6.5]
animais

In [None]:
# Imprimindo o primeiro elemento da lista
animais[0]

In [None]:
# Imprimindo o 4º elemento da lista
animais[3]

In [None]:
# Substituindo o primeiro elemento da lista
animais[0] = "papagaio"

In [None]:
animais

In [None]:
# Removendo gato da lista
animais.remove("gato")

In [None]:
animais

In [None]:
# Tamanho de uma lista (itens)
len(animais)

In [None]:
# Como saber se um elemento faz parte de uma lista 
"gato" in animais

In [None]:
# Trabalhando com lista numerica
lista = [500,30,300,80,10]

In [None]:
# Maior elemento da lista
max(lista)

In [None]:
# Menor elemento da lista
min(lista)

In [None]:
# Colocar um novo elemento na lista animais 
animais.append("leão")

In [None]:
animais

In [None]:
# Colocar mais de um elemento na lista animais
animais.extend(["cobra",6])

In [None]:
animais

In [None]:
# Mostrar quantas vezes o elemento esta na lista
animais.count("cachorro")

In [None]:
# Como organizar uma lista numerica 
lista.sort()

In [None]:
lista

### Tuplas

In [None]:
# As tuplas usam parênteses como sintaxe
tp = ("Banana", "Maçã", 10, 50) 
tp

In [None]:
# Retornando o primeiro elemento
tp[0] 

In [None]:
# Mostra quantas vezes a palavra "Maçã" apareceu na tupla
tp.count("Maçã")

In [None]:
# Mostra os elementos do indice 0 até o valor depois dos dois pontos -1, ou seja. neste caso 0 até 1
tp[0:2]

### Dicionário

In [None]:
# Para criar um dicionário utilizamos as {}
# Dicionários trabalham com o conceito de chave e valor
dc = {"Maçã":20, "Banana":10, "Laranja":15, "Uva":5} 
dc

In [None]:
# Acessando o valor de um dicionário através da chave
dc["Maçã"]

In [None]:
# Atualizando o valor da Maçã
dc["Maçã"] = 25 
dc

In [None]:
# Retornando todas as chaves do dicionário
dc.keys() 

In [None]:
# Retornando os valores do dicionário
dc.values() 

In [None]:
# Verificando se já existe uma chave no dicionário e caso não exista inserir
dc.setdefault("Limão", 22) 

In [None]:
dc

## Python para análise de dados (Pandas)

In [None]:
# Importando a biblioteca pandas
import pandas as pd 

In [None]:
# Importando o arquivo de dados
df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Análise de dados com Python e Pandas/Datasets/gapminder.csv")   
# df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Análise de dados com Python e Pandas/Datasets/gapminder.csv",error_bad_lines=False, sep=";")   

In [None]:
# Visualizando as 5 primeiras linhas
df.head()

In [None]:
# Renomeando a tabela
df = df.rename(columns={"country":"Pais", "continent": "continente", "year":"Ano", "lifeExp":"Expectativa de vida", "pop":"Pop Total", "gdpPercap": "PIB"})

In [None]:
df.head(10)

In [None]:
# Total de linhas e colunas
df.shape 

In [None]:
df.columns

In [None]:
# Tipo de dados das colunas
df.dtypes

In [None]:
# As últimas 15 linhas
df.tail(15) 

In [None]:
# Indicadores 
df.describe()

In [None]:
#Verificando os continentes
df["continente"].unique() 

In [None]:
#Criando um dataFrame com dados do continente Oceania
Oceania = df.loc[df["continente"] == "Oceania"] 
Oceania.head()

In [None]:
Oceania["continente"].unique()

In [None]:
#Verificando quantos paises existem em cada continente na nossa base de dados
df.groupby("continente")["Pais"].nunique() 

In [None]:
#Qual a expectativa de vida média de cada ano?
df.groupby("Ano")["Expectativa de vida"].mean() 

In [None]:
#Média do PIB
df["PIB"].mean() 

In [None]:
#Soma de todos os valores de "PIB"
df["PIB"].sum() 


## Trabalhando com Planilhas do Excel



In [None]:
#Importando a biblioteca pandas
import pandas as pd 

In [None]:
#Leitura dos arquivos
df1 = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/Análise de dados com Python e Pandas/Datasets/Aracaju.xlsx")
df2 = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/Análise de dados com Python e Pandas/Datasets/Fortaleza.xlsx")
df3 = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/Análise de dados com Python e Pandas/Datasets/Natal.xlsx")
df4 = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/Análise de dados com Python e Pandas/Datasets/Recife.xlsx")
df5 = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/Análise de dados com Python e Pandas/Datasets/Salvador.xlsx")

In [None]:
#Juntando todos os arquivos em apenas um dataFrame
df = pd.concat([df1,df2,df3,df4,df5]) 

In [None]:
#Exibindo as 5 primeiras linhas
df.head()

In [None]:
#Exibindo as 5 últimas linhas
df.tail() 

In [None]:
df.sample(5)

In [None]:
#Verificando o tipo de dado de cada coluna 
df.dtypes 

In [None]:
#Alterando o tipo de dado da coluna LojaID
df["LojaID"] = df["LojaID"].astype("object") 

In [None]:
#Verificando o tipo de dado de cada coluna com alteração
df.dtypes

### Tratando valores faltantes

In [None]:
#Verificando linhas com valores faltantes 
df.isnull().sum() 

In [None]:
#Substituindo os valores nulos pela média
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True) 

In [None]:
#Verificando a média da coluna "vendas" dataFrame
df["Vendas"].mean() 

In [None]:
df.describe()

In [None]:
df.isnull().sum()

In [None]:
#Amostra de 15 dados do dataSet
df.sample(15) 

In [None]:
#Substituindo os valores nulos por zero
df["Vendas"].fillna(0, inplace=True)

In [None]:
#Apagando as linhas com valores nulos
df.dropna(inplace=True) 

In [None]:
#Apagando as linhas com valores nulos com base apenas em 1 coluna
df.dropna(subset=["Vendas"], inplace=True)

In [None]:
#Removendo linhas que estejam com valores faltantes em todas as colunas
df.dropna(how="all", inplace=True)

### Criando colunas novas

In [None]:
#Criando a coluna de "receita", que pega o valor das "vendas" e multiplica pela "quantidade"
df["Receita"] = df["Vendas"].mul(df["Qtde"])
df.head()

In [None]:
#Criando a coluna de "Receitas/Vendas", que pega o valor das "Receitas" e divide pela "Vendas"
df["Receita/Vendas"] = df["Receita"] / df["Vendas"] 
df.head()

In [None]:
#Retornando a maior receita
df["Receita"].max() 

In [None]:
#Retornando a menor receita
df["Receita"].min() 

In [None]:
#Mostra o Top "3" com base na coluna "Receita" (maiores receitas)
df.nlargest(3, "Receita") 

In [None]:
#Retorna o Top "3", com as piores "Receitas"
df.nsmallest(3, "Receita")

In [None]:
#Agrupamento por cidade
df.groupby("Cidade")["Receita"].sum() 

In [None]:
#Ordenando o conjunto de dados com as maiores receitas, do maior para o menor
df.sort_values("Receita", ascending=False).head(10) 

### Trabalhando com datas

In [None]:
#Trasnformando a coluna de data em tipo inteiro
df["Data"] = df["Data"].astype("int64") 

In [None]:
#Verificando o tipo de dado de cada coluna
df.dtypes 

In [None]:
#Transformando coluna de data no tipo "data"
df["Data"] = pd.to_datetime(df["Data"]) 

In [None]:
df.dtypes

In [None]:
#Receita por ano
df.groupby(df["Data"].dt.year)["Receita"].sum() 

In [None]:
#Criando uma nova coluna com o ano
df["Ano_Venda"] = df["Data"].dt.year 

In [None]:
#Pega uma amostra do dataSet
df.sample(5) 

In [None]:
#Extraindo o mês e o dia
df["mes_venda"], df["dia_venda"] = (df["Data"].dt.month, df["Data"].dt.day) 

In [None]:
df.sample(5)

In [None]:
#Retornando a data mais antiga
df["Data"].min() 

In [None]:
#Calculando a diferença de dias
df["diferenca_dias"] = df["Data"] - df["Data"].min() 

In [None]:
df.sample(5)

In [None]:
#Criando a coluna de trimestre
df["trimestre_venda"] = df["Data"].dt.quarter 

In [None]:
df.sample(5)

In [None]:
#Filtrando as vendas de 2019 do mês de março
vendas_marco_19 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)] 

In [None]:
vendas_marco_19.sample(10)

### Visualização de dados


In [None]:
#Ordena as vendas pelo ID das lojas e organiza do maior para o menor
df["LojaID"].value_counts(ascending=False) 

In [None]:
#Gráfico de barras
df["LojaID"].value_counts(ascending=False).plot.bar() 

In [None]:
#Gráfico de barras horizontais
df["LojaID"].value_counts().plot.barh() 

In [None]:
#Gráfico de barras horizontais
df["LojaID"].value_counts(ascending=True).plot.barh(); 

In [None]:
#Gráfico de Pizza
df.groupby(df["Data"].dt.year)["Receita"].sum().plot.pie();

In [None]:
#Total de vendas por cidade
df["Cidade"].value_counts() 

In [None]:
#Adicionando um título e alterando o nome aos eixos
import matplotlib.pyplot as plt
df["Cidade"].value_counts().plot.bar(title="Total vendas por Cidade", color="lightpink")
plt.xlabel("Cidade")
plt.ylabel("Total Vendas");

In [None]:

#Alterando a cor
df["Cidade"].value_counts().plot.bar(title="Total vendas por Cidade", color=['tan', 'red', 'lightpink', 'blue', 'cyan'])
plt.xlabel("Cidade")
plt.ylabel("Total Vendas");

In [None]:
#Alterando o estilo
plt.style.use("ggplot")

In [None]:
df.groupby(df["mes_venda"])["Qtde"].sum().plot(title = "Total Produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos")
plt.legend();

In [None]:
df.groupby(df["mes_venda"])["Qtde"].sum()

In [None]:
#Selecionando apenas as vendas de 2019
df_2019 = df[df["Ano_Venda"] == 2019] 

In [None]:
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum()

In [None]:
#Total produtos vendidos por mês
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum().plot(marker = "o")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos")
plt.legend();

In [None]:
#Hisograma
plt.hist(df["Qtde"], color="lightpink"); 

In [None]:
 #Gráfico de dispersão
plt.scatter(x=df_2019["dia_venda"], y = df_2019["Receita"]);

In [None]:
#Salvando em png
df_2019.groupby(df_2019["mes_venda"])["Qtde"].sum().plot(marker = "v")
plt.title("Quantidade de produtos vendidos x mês")
plt.xlabel("Mês")
plt.ylabel("Total Produtos Vendidos");
plt.legend()
plt.savefig("grafico QTDE x MES.png") 

## Análise exploratória

In [None]:
#Importando as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

In [None]:
#Upload do arquivo
from google.colab import files
arq = files.upload()

In [None]:
#Criando nosso DataFrame
df = pd.read_excel("AdventureWorks.xlsx") 

In [None]:
#Visualizando as 5 primeiras linhas
df.head() 

In [None]:
#Quantidade de linhas e colunas
df.shape 

In [None]:
#Verificando os tipos de dados
df.dtypes 

In [None]:
#Qual a Receita total?
df["Valor Venda"].sum() 

In [None]:
#Qual o custo Total?
df["custo"] = df["Custo Unitário"].mul(df["Quantidade"]) 
#Criando a coluna de custo = custo unitário x quantidade

In [None]:
df.head(5)

In [None]:
#Qual o custo Total?
round(df["custo"].sum(), 2) 

Agora que temos a receita e custo e o total, podemos achar o Lucro total. 

In [None]:
# Lucro = Valor da venda - custo
df["lucro"]  = df["Valor Venda"] - df["custo"]

In [None]:
df.head(5)

In [None]:
#Total Lucro
round(df["lucro"].sum(),2) 

In [None]:
#Criando uma coluna com total de dias para enviar o produto
df["Tempo_envio"] = df["Data Envio"] - df["Data Venda"] 

In [None]:
df.head(5)

Agora, queremos saber a média do tempo de envio para cada Marca, e para isso precisamos transformar a coluna Tempo_envio em númerica


In [None]:
#Extraindo apenas os dias
df["Tempo_envio"] = (df["Data Envio"] - df["Data Venda"]).dt.days 

In [None]:
df.head(5)

In [None]:
#Verificando o tipo da coluna Tempo_envio
df["Tempo_envio"].dtype 

In [None]:
#Média do tempo de envio por Marca
df.groupby("Marca")["Tempo_envio"].mean() 

### Missing Values (valores faltantes)

In [None]:
#Verificando se temos dados faltantes
df.isnull().sum() 

E, se a gente quiser saber o Lucro por Ano e Por Marca?

In [None]:
#Vamos Agrupar por ano e marca
df.groupby([df["Data Venda"].dt.year, "Marca"])["lucro"].sum() 

In [None]:
#Para somar como numero
pd.options.display.float_format = '{:20,.2f}'.format
df.groupby([df["Data Venda"].dt.year, "Marca"])["lucro"].sum() 

In [None]:
#Resetando o index
lucro_ano = df.groupby([df["Data Venda"].dt.year, "Marca"])["lucro"].sum().reset_index()
lucro_ano

In [None]:
#Qual o total de produtos vendidos?
df.groupby("Produto")["Quantidade"].sum().sort_values(ascending=False) 

### Estudos em graficos

In [None]:
#Gráfico Total de produtos vendidos
df.groupby("Produto")["Quantidade"].sum().sort_values(ascending=True).plot.barh(title="Total Produtos Vendidos", color="blue")
plt.xlabel("Total")
plt.ylabel("Produto");

In [None]:
df.groupby(df["Data Venda"].dt.year)["lucro"].sum().plot.bar(title="Lucro x Ano", color="blue")
plt.xlabel("Ano")
plt.ylabel("Receita");

In [None]:
#Para analisar os valores
df.groupby(df["Data Venda"].dt.year)["lucro"].sum()

In [None]:
#Selecionando apenas as vendas de 2009
df_2009 = df[df["Data Venda"].dt.year == 2009]

In [None]:
df_2009.head(5)

In [None]:
df_2009.groupby(df_2009["Data Venda"].dt.month)["lucro"].sum().plot(title="Lucro x Mês")
plt.xlabel("Mês")
plt.ylabel("Lucro");

In [None]:
df_2009.groupby("Marca")["lucro"].sum().plot.bar(title="Lucro x Marca", color="blue")
plt.xlabel("Marca")
plt.ylabel("Lucro")
plt.xticks(rotation='horizontal');

In [None]:
df_2009.groupby("Classe")["lucro"].sum().plot.bar(title="Lucro x Classe", color="blue")
plt.xlabel("Classe")
plt.ylabel("Lucro")
plt.xticks(rotation='horizontal');

In [None]:
df["Tempo_envio"].describe()

In [None]:
#Gráfico de Boxplot
plt.boxplot(df["Tempo_envio"]); 

In [None]:
#Histograma
plt.hist(df["Tempo_envio"]); 

In [None]:
#Tempo mínimo de envio
df["Tempo_envio"].min() 

In [None]:
#Tempo máximo de envio
df['Tempo_envio'].max() 

In [None]:
#Identificando o Outlier (valor discrepante)
df[df["Tempo_envio"] == 20] 

In [None]:
#Exportando os dados para um arquivo CSV
df.to_csv("df_vendas_novo.csv", index=False) 