# **Trabalhando com Planilhas do Excel**

In [None]:
# Importando a biblioteca Pandas
import pandas as pd

In [None]:
# Criar variável de data frame a partir dos arquivos .xlsx
dfAracaju = pd.read_excel('Aracaju.xlsx')
dfFortaleza = pd.read_excel('Fortaleza.xlsx')
dfNatal = pd.read_excel('Natal.xlsx')
dfRecife = pd.read_excel('Recife.xlsx')
dfSalvador = pd.read_excel('Salvador.xlsx')

In [None]:
# Conferir as estrutura do dataframe de Aracaju
dfAracaju.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [None]:
# Conferir que o dataframe de Fortaleza possui a mesma estrutura
dfFortaleza.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Fortaleza,2019-01-01,45.27,1002,2
1,Fortaleza,2019-01-01,115.61,1002,3
2,Fortaleza,2019-02-10,35.33,1004,3
3,Fortaleza,2019-02-10,20.95,1004,6
4,Fortaleza,2019-01-01,14.25,1004,6


In [None]:
# Juntar (concatenar) todos os data frames em um só
df = pd.concat([dfAracaju, dfFortaleza, dfNatal, dfRecife, dfSalvador])

In [None]:
# Exbibir as primeiras linhas do dataframe concatenado
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [None]:
# Exbibir as últimas linhas do dataframe concatenado
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


In [None]:
# Retornar uma amostra de 5 linhas do data frame concatenado
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
10,Salvador,2019-01-01,30.97,1036,1
56,Recife,2019-01-01,7.98,983,5
65,Natal,2019-04-05,292.0,852,2
125,Fortaleza,2019-03-02,37.6,983,4
93,Fortaleza,2019-01-01,35.25,1003,5


In [None]:
 # Verificar o tipo de dado de cada coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [None]:
# Alterando o tipo de dado da coluna 'LojaID'
df['LojaID'] = df['LojaID'].astype('object')

In [None]:
# Verificar novamente o tipo de dado de cada coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

### **Tratar valores nulos**

In [None]:
# Consultar lista com valores nulos
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [None]:
# Substituir valores nulos pela média dos valores
df['Vendas'].fillna(df['Vendas'].mean(), inplace=True)
# inplace=True serve para substituir o arquivo em memória

In [None]:
# Consultar lista novamente para saber se todoso valores nulos foram preenchidos
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [None]:
# Apagar linhas com valores nulos
df.dropna(inplace=True)

In [None]:
# Apagar as linhas com valores nulos da coluna 'Vendas'
df.dropna(subset=['Vendas'], inplace=True)

In [None]:
# Apagar as linhas com valores nulos em todas as colunas
df.dropna(how='all', inplace=True)

### **Criar novas colunas**

In [None]:
# Criar coluna 'Receita' // coluna 'Vendas' * coluna 'Qtde' // .mul =  multiplicação
df['Receita'] = df['Vendas'].mul(df['Qtde'])

In [None]:
# Conferir o resultado
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [None]:
# Retornar quantidade dividindo coluna 'Receita' pela coluna 'Vendas'
df['Receita/Vendas'] = df['Receita'] / df['Vendas']

In [None]:
# Conferir o resultado
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [None]:
# Retornar a maior receita
df['Receita'].max()

3544.0

In [None]:
# Retornar a menor receita
df['Receita'].min()

3.34

In [None]:
# Retornar os três maiores valores da coluna 'Receita'
df.nlargest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [None]:
# Retornar os três menores valores da coluna 'Receita'
df.nsmallest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [None]:
# Retornar a soma das receitas por cidade
df.groupby('Cidade')['Receita'].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [None]:
# Retornar os 10 maiores valores da coluna 'Receita'
# Ordenar o conjunto de dados pela coluna 'Receita'
df.sort_values('Receita', ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0
