**Trabalhando com Planilhas Excel**

In [None]:
# Importando a biblioteca do pandas
import pandas as pd

In [None]:
# Efetuado a leitura dos arquivos excel enviados do diretório local 
# para o google drive - temporariamente
df1=pd.read_excel('Aracaju.xlsx')
df2=pd.read_excel('Fortaleza.xlsx')
df3=pd.read_excel('Natal.xlsx')
df4=pd.read_excel('Recife.xlsx')
df5=pd.read_excel('Salvador.xlsx')

In [None]:
# Com a método head consigo verificar se todos os arquivos lidos possuem a mesma estrutura.
df1.head()

In [None]:
# Como os arquivos tem a mesma estrutura posso unir todos num único dataset.
df=pd.concat([df1,df2,df3,df4,df5])

In [None]:
# Exibindo as 5 primeiras linhas
df.head()

In [None]:
# Exibindo as 5 últimas linhas
df.tail()

In [None]:
# Criar um exemplo do dataset para verificação preliminar se todos os dados dos arquivos das lojas foram transferidos
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
124,Natal,2019-01-02,44.82,1034,3
98,Fortaleza,2019-01-01,15.0,1005,2
20,Aracaju,2018-01-01,39.86,1522,9
12,Recife,2019-01-01,17.48,982,2
79,Recife,2019-01-01,14.53,983,6


In [None]:
# Verificar os tipos das colunas
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [None]:
# Alterando o tipo de dado de uma das colunas, numérico para string, é interessante fazer isso quando não vou
# utilizar a mesma para cálculos.
df["LojaID"]=df["LojaID"].astype('object')

In [None]:
# Verifico se a alteração foi realizada com sucesso
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [None]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


**Tratando valores faltantes**

In [None]:
# Consultando linhas com valores faltantes, nullos, identificados no dataset posso tomar diversas ações
# conforme a necessidade para retirar esses valores do dataset
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [None]:
# Posso substituir os valores nulos encontrados pela média, utilizo o parâmetro inplace para 
# substituir os valores do dataset em memória
df["Vendas"].fillna(df["Vendas"].mean(),inplace=True)

In [None]:
# Substituir valores nulos por "0"
df["Vendas"].fillna(0,inplace=True)

In [None]:
# Apagar as linhas que possuem valores nulos
df.dropna(inplace=True)

In [None]:
# Apagando linhas com valores nulos considerando que esses valores nulos estejam em uma coluna específica
df.dropna(subset=['Vendas'], inplace=True)

In [None]:
# Removendo linhas que estejam com valores faltantes em todas as colunas
df.dropna(how='all', inplace=True)

**Podemos criar novas colunas**

In [None]:
# Criando a coluna de "Receitas"
df['Receitas']=df['Vendas'].mul(df['Qtde'])

In [None]:
# Outro exemplo, por exemplo para obter a quantidade
df['Receitas/Vendas']=df['Receitas']/df['Vendas']

In [None]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [None]:
# Obter valores mínimos e máximos de uma determinada coluna
df['Receitas'].min()

3.34

In [None]:
df['Receitas'].max()

3544.0

In [None]:
# Obtendo um determinado número de linhas com os valores mínimos e máximos
# relacionados a uma determinada coluna
df.nsmallest(3,"Receitas")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [None]:
df.nlargest(3,"Receitas")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [None]:
# Podemos totalizar também os valores de uma determinada coluna agrupados
# por uma outra coluna
df.groupby('Cidade')['Receitas'].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receitas, dtype: float64

In [None]:
# Podemos ordenar também o conjunto de dados
df.sort_values('Receitas', ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receitas,Receitas/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0
