# **Trabalhando com planilhas Excel**

In [1]:
# Importando a biblioteca Pandas
import pandas as pd


In [2]:
# Leitura das planilhas de dados e carga dos dataframes (df)

df_aju = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Aracaju.xlsx")
df_aju.head(3)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520.0,1.0
1,Aracaju,2018-01-01,14.21,1522.0,6.0
2,Aracaju,2018-01-01,71.55,1520.0,1.0


In [3]:
# Leitura das demais planilhas, carga dos df e visualização do head()

df_fla = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Fortaleza.xlsx")
df_fla.head(3)


Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Fortaleza,2019-01-01,45.27,1002.0,2.0
1,Fortaleza,2019-01-01,115.61,1002.0,3.0
2,Fortaleza,2019-02-10,35.33,1004.0,3.0


In [4]:
df_ntl = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Natal.xlsx")
df_ntl.head(3)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Natal,2018-08-27,606.0,853,2
1,Natal,2018-11-25,563.0,853,2
2,Natal,2019-03-11,308.0,852,3


In [5]:
df_rce = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Recife.xlsx")
df_rce.head(3)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Recife,2019-01-01,162.61,981.0,1.0
1,Recife,2019-01-01,11.44,983.0,1.0
2,Recife,2019-02-10,12.94,983.0,5.0


In [6]:
df_sdr = pd.read_excel("/content/drive/MyDrive/DioDataBases-Pandas/Salvador.xlsx")
df_sdr.head(3)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Salvador,2018-01-01,31.06,1037,3
1,Salvador,2018-01-01,19.02,1034,3
2,Salvador,2019-02-10,173.59,1035,3


In [7]:
# Concatenando todos os arquivos

df = pd.concat([df_aju, df_fla, df_ntl, df_rce, df_sdr])

In [8]:
# Exibindo cinco primeiras linhas

df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520.0,1.0
1,Aracaju,2018-01-01,14.21,1522.0,6.0
2,Aracaju,2018-01-01,71.55,1520.0,1.0
3,Aracaju,2018-01-01,3.01,1521.0,7.0
4,Aracaju,2018-01-01,24.51,1522.0,8.0


In [9]:
# Exibindo cinco ultimas linhas

df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034.0,1.0
236,Salvador,2019-01-03,126.29,1035.0,3.0
237,Salvador,2019-01-03,38.06,1036.0,3.0
238,Salvador,2019-01-03,139.64,1035.0,1.0
239,Salvador,2019-01-03,161.41,1037.0,3.0


In [10]:
# Verificando o tipo de dados das colunas

df.dtypes


Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID           float64
Qtde             float64
dtype: object

In [12]:
# Alterando o tipo de dados de uma coluna.
# Nesse exemplo alteraremos LojaID que está como int64 (número), mas não será usado para cálculos.
# Converteremos o tipo de dados dessa coluna para o tipo object

df["LojaID"]=df["LojaID"].astype("object")

In [13]:
# Mostrando a alteraçao do tipo

df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde             float64
dtype: object

Tratando valores **faltantes**

In [14]:
# Como verificar se existem linhas com dados faltantes em nossa df

df.isnull().sum()

Cidade    1
Data      1
Vendas    3
LojaID    1
Qtde      1
dtype: int64

In [15]:
# Media de vendas do conjunto

df["Vendas"].mean()

122.46283950617284

In [16]:
# Substituição dos valores nulos pela média

df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)

In [17]:
# Verificando correção dos valores nulos (substituidos pela média)

df.isnull().sum()

Cidade    1
Data      1
Vendas    0
LojaID    1
Qtde      1
dtype: int64

In [18]:
# Tambem é possível apagar linhas com todos os valores nulos com df.dropna(inplace = True)
# A linha 19  da planilha de Aracaju	1/1/2018	R$162,19	1522	9 foi propositadamente zerada.
# Vamos ver antes e depois do comando de exclusão de linhas

df.shape

(894, 5)

In [19]:
df.dropna(inplace = True)

In [20]:
df.shape

(893, 5)

In [None]:
# Observa-se que uma linha foi deletada

In [21]:
# Verificando se ainda há valores nulos

df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [22]:
# Outras possibilidades é a de substituir os valores nulos por zero. Neste caso o comando seria: 
# df["Vendas"].fillna(0, inplace=True)

**Criando novas colunas**

In [23]:
# Vamos criar um nova coluna 'Receita' que será o produto dos valores da coluna 'Vendas'
# multiplicados pelos valores da coluna "Qtde"

df.head()


Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520.0,1.0
1,Aracaju,2018-01-01,14.21,1522.0,6.0
2,Aracaju,2018-01-01,71.55,1520.0,1.0
3,Aracaju,2018-01-01,3.01,1521.0,7.0
4,Aracaju,2018-01-01,24.51,1522.0,8.0


In [24]:
# Criação da coluna Receita

df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [25]:
# Verificação 

df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520.0,1.0,142.0
1,Aracaju,2018-01-01,14.21,1522.0,6.0,85.26
2,Aracaju,2018-01-01,71.55,1520.0,1.0,71.55
3,Aracaju,2018-01-01,3.01,1521.0,7.0,21.07
4,Aracaju,2018-01-01,24.51,1522.0,8.0,196.08


In [26]:
# Encontrando a maior receita

df["Receita"].max()

3544.0

In [27]:
# Encontrando a menor receita

df["Receita"].min()

0.0

In [28]:
# Para se obter os maiores valores de uma coluna podemos usar a função nlagest(n,"Coluna")

df.nlargest(3,"Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853.0,4.0,3544.0
51,Natal,2018-01-21,859.0,852.0,4.0,3436.0
55,Natal,2019-01-08,859.0,854.0,4.0,3436.0


In [29]:
# Para se obter os menores valores de uma coluna podemos usar a função nsmallest(n,"Coluna")

df.nsmallest(3,"Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
8,Recife,2019-02-11,0.0,980.0,6.0,0.0
24,Recife,2019-01-01,0.0,983.0,2.0,0.0
118,Aracaju,2018-01-01,3.34,1522.0,1.0,3.34


In [36]:
# Agrupamento por Cidade 

df.groupby("Cidade")["Receita"].sum()                                

Cidade
Aracaju       47288.540000
Fortaleza     37901.644198
Natal        167227.520000
Recife        51571.690000
Salvador      40596.730000
Name: Receita, dtype: float64

In [40]:
# Ordenando o conjunto de dados por uma determinada coluna, no caso, Receita

df.sort_values("Receita", ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853.0,4.0,3544.0
51,Natal,2018-01-21,859.0,852.0,4.0,3436.0
55,Natal,2019-01-08,859.0,854.0,4.0,3436.0
30,Natal,2018-10-02,856.0,853.0,4.0,3424.0
41,Natal,2018-05-20,835.0,852.0,4.0,3340.0
10,Natal,2018-10-27,828.0,852.0,4.0,3312.0
38,Natal,2018-02-25,828.0,852.0,4.0,3312.0
69,Natal,2019-03-24,817.0,852.0,4.0,3268.0
62,Natal,2018-02-10,793.0,854.0,4.0,3172.0
52,Natal,2018-04-27,778.0,854.0,4.0,3112.0
