# Python para análise de dados (Pandas)

In [1]:
#Para instalar:
#!pip3 install pandas
#Importação da biblioteca
import pandas as pd

In [2]:
#!pip3 install openpyxl
#Leitura dos arquivos excel
df1 = pd.read_excel("datasets\\Aracaju.xlsx")
df2 = pd.read_excel("datasets\\Fortaleza.xlsx")
df3 = pd.read_excel("datasets\\Natal.xlsx")
df4 = pd.read_excel("datasets\\Recife.xlsx")
df5 = pd.read_excel("datasets\\Salvador.xlsx")

In [4]:
#Checando os dados
df1.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [5]:
#Juntando diferentes dataframes com estrutura igual (colunas e tipos de dados) em um único dataframe:
df = pd.concat([df1, df2, df3, df4, df5])

In [6]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [7]:
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


In [8]:
#Pegando registros aleatórios:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
26,Fortaleza,2019-01-01,18.93,1005,2
63,Fortaleza,2019-01-01,118.17,1004,1
180,Natal,2019-01-02,116.63,1035,2
46,Natal,2019-03-26,753.0,853,2
25,Salvador,2019-01-01,220.62,1035,1


In [25]:
#Verificando tipo de dado em cada coluna:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [9]:
#Alterando o tipo de dado em uma coluna:
df["LojaID"] = df["LojaID"].astype("object")
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [10]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [12]:
#Consulando linhas com valores faltantes
df.isnull().sum()
#Não tem valor nulo em "Vendas", se tivesse poderia substituir com:
# df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)
#Ou substituir por 0:
# df["Vendas"].fillna(0, inplace=True)
#Ou apagar as linhas com valor nulo:
# df.dropna(inplace=True)
#Em caso de haver mais de uma coluna onde há valores nulos, e deseja-se apagar apenas quando há valor nulo na coluna Vendas:
# df.dropna(subset=["Vendas"], inplace=True)
#Ou se quer apagar NA somente quando todas as colunas estão NA
# df.dropna(how="all", inplace=True)

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [18]:
#Se quero criar coluna multiplicando duas colunas anteriores:
df["Receita"] = df["Vendas"].mul(df["Qtde"])
#também daria para criar com:
df["Receita2"] = df["Vendas"] * df["Qtde"]

In [20]:
#Para remover uma coluna:
df.drop(columns=["Receita2"], inplace=True)

In [21]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [23]:
#Verificando o valor máximo de uma coluna
df["Receita"].max()

3544.0

In [24]:
#Verificando o valor mínimo de uma coluna
df["Receita"].min()

3.34

In [25]:
#Pegando os 3 registros de "Receita" máxima
df.nlargest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853,4,3544.0
51,Natal,2018-01-21,859.0,852,4,3436.0
55,Natal,2019-01-08,859.0,854,4,3436.0


In [26]:
#Pegando os 3 registros de "Receita" mínimas
df.nsmallest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
118,Aracaju,2018-01-01,3.34,1522,1,3.34
65,Recife,2019-01-01,4.01,981,1,4.01
92,Natal,2019-01-02,4.57,1035,1,4.57


In [27]:
#Agrupando e somando por cidade
df.groupby("Cidade")["Receita"].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [28]:
#Ordenando conjunto pela "Receita"
df.sort_values("Receita", ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853,4,3544.0
55,Natal,2019-01-08,859.0,854,4,3436.0
51,Natal,2018-01-21,859.0,852,4,3436.0
30,Natal,2018-10-02,856.0,853,4,3424.0
41,Natal,2018-05-20,835.0,852,4,3340.0
38,Natal,2018-02-25,828.0,852,4,3312.0
10,Natal,2018-10-27,828.0,852,4,3312.0
69,Natal,2019-03-24,817.0,852,4,3268.0
62,Natal,2018-02-10,793.0,854,4,3172.0
52,Natal,2018-04-27,778.0,854,4,3112.0
