In [2]:
import pandas
import openpyxl 
# openpyxl é uma biblioteca feita para a leitura e escrita de planilhas excel

In [3]:
df1 = pandas.read_excel("datasets/Aracaju.xlsx")
df2 = pandas.read_excel("datasets/Fortaleza.xlsx")
df3 = pandas.read_excel("datasets/Natal.xlsx")
df4 = pandas.read_excel("datasets/Recife.xlsx")
df5 = pandas.read_excel("datasets/Salvador.xlsx")

# Leitura de todos os arquivos que vão ser utilizados

In [4]:
df = pandas.concat([df1,df2,df3,df4,df5])
# Concatenação de todos os arquivos


In [5]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [6]:
df.sample(5)
# Pega uma amostra dos dados da tabela, de acordo com o numero definido no ()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
66,Salvador,2019-01-01,70.2,1035,3
184,Salvador,2019-01-02,167.16,1037,1
188,Natal,2019-01-02,178.11,1035,3
136,Fortaleza,2019-03-02,39.09,982,4
27,Recife,2019-01-01,22.25,980,7


In [7]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [8]:
df["LojaID"] = df["LojaID"].astype("object")
# Dessa maneira conseguimos mudar o tipo do dado presente na tabela
# Passando "LojaID" de int para object

In [9]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [10]:
df.isnull().sum()
# Dessa maneira verificamos o número de valores nulos das colunas

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [11]:
df["Vendas"].fillna(df["Vendas"].mean(), inplace = True)
# "fillna" substitui pelo valor que definirmos
# Dessa maneira, caso tenha valores nulos na tabela, os modificamos pela media
# "inplace = True" modifica o valor dentro da memoria, no caso, modifica diretamente na tabela

In [12]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [13]:
df.sample(20)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
151,Natal,2019-01-02,14.63,1035,1
141,Fortaleza,2019-03-02,182.75,983,8
177,Natal,2019-01-02,41.19,1037,2
64,Aracaju,2018-01-01,21.0,1523,5
100,Natal,2019-01-02,190.97,1036,2
89,Salvador,2019-01-01,17.46,1034,1
136,Salvador,2019-03-02,13.81,1036,1
239,Salvador,2019-01-03,161.41,1037,3
218,Natal,2019-01-02,189.12,1036,3
20,Recife,2019-01-01,42.35,982,3


In [14]:
df["Vendas"].mean()

122.61180089485458

In [15]:
df["Vendas"].fillna(0,inplace = True)
# Dessa maneira substituimos todos os valores dessa coluna para 0 

In [16]:
df.dropna(inplace = True)
# Dessa maneira apagamos as linhas com valores nulos

In [17]:
df.dropna(subset=["Vendas"], inplace = True)
# Dessa maneira consegue-se apagar os valores nulos apenas da coluna definida no "subset"

In [18]:
df.dropna(how="all",inplace = True)
#Com o parametro "how=all" conseguimos apagar todas as linhas, em todas as colunas, que possuem valores faltantes

In [19]:
df["Receita"] = df["Vendas"].mul(df["Qtde"])
# .mul é a função de multiplicação
# Assim criamos uma nova coluna, "Receita", que possui em suas linhas o valor da multiplicação de vendas com quantidade

In [20]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [21]:
df["Receita/Vendas"] = df["Receita"] / df["Vendas"]
# Caso não se tivesse o valor da coluna "Qtde", conseguiriamos encontralo dessa maneira, fazendo a multiplicação

In [22]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [23]:
df["Receita"].max()
# Assim se encontra o maior valor da coluna definida

3544.0

In [24]:
df["Receita"].min()
# Encontrando o valor minimo da

3.34

In [25]:
df.nlargest(3,"Receita")
# o .nlargest retorna os maiores valores do que foi definido
# Assim, ele retorna as 3 linhas com maiores valores baseado na coluna "Receita"

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [26]:
df.nsmallest(3,"Receita")
# Assim retornamos as 3 linhas com os menos valores de "Receita"

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [27]:
df.groupby("Cidade")["Receita"].sum()
# Assim agrupamos as cidades pela soma dos valores presentes na coluna "Receita"

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [28]:
df.sort_values("Receita", ascending = False).head(20)
# Assim conseguimos ordenar o conjunto de dados, baseado na coluna "Receita"
# "ascending = False" ordena de maneira decrescente

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0


In [29]:
df["Data"] = df["Data"].astype("int64")
# Conversão do tipo de data para int

In [31]:
df["Data"] = pandas.to_datetime(df["Data"])
# Conversão do tipo de data para o tipo datetima
# Recomendado fazer esse tipo de conversão para datas

In [32]:
df.dtypes

Cidade                    object
Data              datetime64[ns]
Vendas                   float64
LojaID                    object
Qtde                       int64
Receita                  float64
Receita/Vendas           float64
dtype: object

In [33]:
df.groupby(df["Data"].dt.year)["Receita"].sum()
# Agrupamento dos anos na coluna data
# Dessa maneira agrupamos apenas o valor da soma da receita por ano

Data
2018    118176.53
2019    228246.45
Name: Receita, dtype: float64

In [34]:
df["Ano_Venda"] = df["Data"].dt.year
# Dessa maneira criamos uma nova coluna "Ano_venda" com base no ano que esta presente na coluna data

In [35]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda
214,Natal,2019-01-02,54.94,1036,2,109.88,2.0,2019
102,Natal,2019-01-02,40.84,1034,3,122.52,3.0,2019
81,Salvador,2019-01-01,17.36,1037,2,34.72,2.0,2019
224,Salvador,2019-01-02,178.3,1035,3,534.9,3.0,2019
164,Salvador,2019-01-02,6.59,1035,1,6.59,1.0,2019


In [37]:
df["Mes_venda"], df["Dia_Venda"] = (df["Data"].dt.month, df["Data"].dt.day)
# Criando novas colunas com base 

In [38]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_venda,Dia_Venda
42,Recife,2019-01-01,161.45,983,3,484.35,3.0,2019,1,1
98,Fortaleza,2019-01-01,15.0,1005,2,30.0,2.0,2019,1,1
86,Natal,2019-01-02,156.47,1037,3,469.41,3.0,2019,1,2
26,Aracaju,2018-01-01,6.98,1521,10,69.8,10.0,2018,1,1
187,Salvador,2019-01-02,3.85,1035,3,11.55,3.0,2019,1,2


In [39]:
df["Data"].min()
# Menor valor de data

Timestamp('2018-01-01 00:00:00')

In [40]:
df["Diferenca_dias"] = df["Data"] - df["Data"].min()
# Dessa maneira pegamos a data daquela coluna e calculamos a diferença pelo valor da data minima

In [42]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_venda,Dia_Venda,Diferenca_dias
180,Natal,2019-01-02,116.63,1035,2,233.26,2.0,2019,1,2,366 days
16,Salvador,2019-01-01,32.47,1036,2,64.94,2.0,2019,1,1,365 days
12,Salvador,2019-01-01,125.05,1034,3,375.15,3.0,2019,1,1,365 days
168,Salvador,2019-01-02,20.22,1036,1,20.22,1.0,2019,1,2,366 days
116,Recife,2019-03-02,79.1,982,2,158.2,2.0,2019,3,2,425 days


In [43]:
df["Trimestre_Venda"] = df["Data"].dt.quarter
# ".quarter" retorna o trimestre da coluna definida

In [48]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_venda,Dia_Venda,Diferenca_dias,Trimestre_Venda
162,Natal,2019-01-02,23.08,1036,2,46.16,2.0,2019,1,2,366 days,1
71,Recife,2019-01-01,138.69,983,3,416.07,3.0,2019,1,1,365 days,1
235,Salvador,2019-01-03,41.84,1034,1,41.84,1.0,2019,1,3,367 days,1
110,Salvador,2019-03-02,185.93,1036,3,557.79,3.0,2019,3,2,425 days,1
14,Recife,2019-01-12,102.91,982,3,308.73,3.0,2019,1,12,376 days,1


In [57]:
Vendas_marco_19 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)]
# Dessa maneira fazemos uma filtragem das vendas que ocorrem em 2019 e apenas no mês de março

In [54]:
Vendas_marco_19.sample(10)


Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_venda,Dia_Venda,Diferenca_dias,Trimestre_Venda
129,Recife,2019-03-02,35.34,982,7,247.38,7.0,2019,3,2,425 days,1
111,Fortaleza,2019-03-02,8.0,981,3,24.0,3.0,2019,3,2,425 days,1
136,Fortaleza,2019-03-02,39.09,982,4,156.36,4.0,2019,3,2,425 days,1
119,Salvador,2019-03-02,136.37,1034,2,272.74,2.0,2019,3,2,425 days,1
139,Salvador,2019-03-02,169.01,1036,1,169.01,1.0,2019,3,2,425 days,1
137,Recife,2019-03-02,51.99,983,3,155.97,3.0,2019,3,2,425 days,1
132,Recife,2019-03-02,17.49,983,5,87.45,5.0,2019,3,2,425 days,1
2,Natal,2019-03-11,308.0,852,3,924.0,3.0,2019,3,11,434 days,1
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0,2019,3,18,441 days,1
111,Salvador,2019-03-02,147.35,1037,2,294.7,2.0,2019,3,2,425 days,1
