In [16]:
import pandas
import openpyxl 
# openpyxl é uma biblioteca feita para a leitura e escrita de planilhas excel

In [17]:
df1 = pandas.read_excel("datasets/Aracaju.xlsx")
df2 = pandas.read_excel("datasets/Fortaleza.xlsx")
df3 = pandas.read_excel("datasets/Natal.xlsx")
df4 = pandas.read_excel("datasets/Recife.xlsx")
df5 = pandas.read_excel("datasets/Salvador.xlsx")

# Leitura de todos os arquivos que vão ser utilizados

In [18]:
df = pandas.concat([df1,df2,df3,df4,df5])
# Concatenação de todos os arquivos


In [19]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [20]:
df.sample(5)
# Pega uma amostra dos dados da tabela, de acordo com o numero definido no ()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
32,Aracaju,2018-01-01,42.97,1522,6
86,Aracaju,2018-01-01,154.92,1521,5
125,Salvador,2019-03-02,25.0,1037,2
82,Aracaju,2018-01-01,150.48,1522,4
94,Fortaleza,2019-01-01,150.49,1003,5


In [21]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [22]:
df["LojaID"] = df["LojaID"].astype("object")
# Dessa maneira conseguimos mudar o tipo do dado presente na tabela
# Passando "LojaID" de int para object

In [23]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [24]:
df.isnull().sum()
# Dessa maneira verificamos o número de valores nulos das colunas

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [25]:
df["Vendas"].fillna(df["Vendas"].mean(), inplace = True)
# "fillna" substitui pelo valor que definirmos
# Dessa maneira, caso tenha valores nulos na tabela, os modificamos pela media
# "inplace = True" modifica o valor dentro da memoria, no caso, modifica diretamente na tabela

In [26]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [27]:
df.sample(20)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
80,Aracaju,2018-01-01,121.77,1523,3
170,Natal,2019-01-02,9.26,1035,3
135,Fortaleza,2019-03-02,10.79,983,5
50,Aracaju,2018-01-01,7.52,1522,5
110,Salvador,2019-03-02,185.93,1036,3
32,Aracaju,2018-01-01,42.97,1522,6
89,Recife,2019-01-01,18.11,980,3
0,Recife,2019-01-01,162.61,981,1
111,Natal,2019-01-02,147.35,1037,2
3,Aracaju,2018-01-01,3.01,1521,7


In [28]:
df["Vendas"].mean()

122.61180089485458

In [29]:
df["Vendas"].fillna(0,inplace = True)
# Dessa maneira substituimos todos os valores dessa coluna para 0 

In [30]:
df.dropna(inplace = True)
# Dessa maneira apagamos as linhas com valores nulos

In [31]:
df.dropna(subset=["Vendas"], inplace = True)
# Dessa maneira consegue-se apagar os valores nulos apenas da coluna definida no "subset"

In [None]:
df.dropna(how="all",inplace = True)
#Com o parametro "how=all" conseguimos apagar todas as linhas, em todas as colunas, que possuem valores faltantes

In [32]:
df["Receita"] = df["Vendas"].mul(df["Qtde"])
# .mul é a função de multiplicação
# Assim criamos uma nova coluna, "Receita", que possui em suas linhas o valor da multiplicação de vendas com quantidade

In [33]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [34]:
df["Receita/Vendas"] = df["Receita"] / df["Vendas"]
# Caso não se tivesse o valor da coluna "Qtde", conseguiriamos encontralo dessa maneira, fazendo a multiplicação

In [35]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [36]:
df["Receita"].max()
# Assim se encontra o maior valor da coluna definida

3544.0

In [37]:
df["Receita"].min()
# Encontrando o valor minimo da

3.34

In [38]:
df.nlargest(3,"Receita")
# o .nlargest retorna os maiores valores do que foi definido
# Assim, ele retorna as 3 linhas com maiores valores baseado na coluna "Receita"

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [39]:
df.nsmallest(3,"Receita")
# Assim retornamos as 3 linhas com os menos valores de "Receita"

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [40]:
df.groupby("Cidade")["Receita"].sum()
# Assim agrupamos as cidades pela soma dos valores presentes na coluna "Receita"

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [42]:
df.sort_values("Receita", ascending = False).head(20)
# Assim conseguimos ordenar o conjunto de dados, baseado na coluna "Receita"
# "ascending = False" ordena de maneira decrescente

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0
