# Trabalhando com Excel

## Importando a Biblioteca

In [1]:
import pandas as pd

## Fazendo a leitura dos arquivos

In [15]:
df1 = pd.read_excel(r".\datasets\Aracaju.xlsx")
df2 = pd.read_excel(r".\datasets\Fortaleza.xlsx")
df3 = pd.read_excel(r".\datasets\Natal.xlsx")
df4 = pd.read_excel(r".\datasets\Recife.xlsx")
df5 = pd.read_excel(r".\datasets\Salvador.xlsx")

## Agrupando os arquivos

In [16]:
df = pd.concat([df1, df2, df3, df4, df5])
display(df.head())
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


## Verificando o tipo de dado de cada coluna

In [17]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

## Retirando uma anostra do dataframe

In [18]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
136,Recife,2019-03-02,39.09,982,4
125,Recife,2019-03-02,37.6,983,4
54,Recife,2019-01-01,23.43,982,7
21,Aracaju,2018-01-01,37.36,1520,2
4,Salvador,2019-02-14,19.47,1037,3


## Alterando o tipo de dados da coluna LojaID

In [19]:
df.LojaID = df.LojaID.astype('object')
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

## Tratando valores faltantes

In [20]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    5
LojaID    0
Qtde      0
dtype: int64

### Substituindo pela média

In [22]:
df['Vendas'].fillna(df['Vendas'].mean(), inplace=True)

In [23]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

### Substituindo por zero

In [24]:
df['Vendas'].fillna(0, inplace=True)

In [25]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

## Apagando linhas com valores nulos

In [29]:
df.dropna(subset=['Vendas'], inplace=True)
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


### Apagando linhas que estejam inteiramente vazias

In [31]:
df.dropna(how='all', inplace=True)
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


## Criando novas colunas

In [34]:
df['Receita'] = df['Vendas'].mul(df['Qtde'])
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,122.8827,1522,6,737.296198
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


## Retornando a maior e a menor receita

In [78]:
max = df['Receita'].max()
max= f'{max:.2f}'.replace('.',',')
min = df['Receita'].min()
min= f'{min:.2f}'.replace('.',',')
print(f'A maior receita foi: R$ {max}')
print(f'A menor receita foi: R$ {min}')

A maior receita foi: R$ 3544,00
A menor receita foi: R$ 3,34


### Tres maiores e tres menores receitas

In [82]:
display(df.nlargest(3,'Receita'))
df.nsmallest(3,'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853,4,3544.0
51,Natal,2018-01-21,859.0,852,4,3436.0
55,Natal,2019-01-08,859.0,854,4,3436.0


Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
118,Aracaju,2018-01-01,3.34,1522,1,3.34
65,Recife,2019-01-01,4.01,981,1,4.01
92,Natal,2019-01-02,4.57,1035,1,4.57


## Agrupamento de receitas por cidades em ordem decrescente

In [89]:
df.groupby("Cidade")['Receita'].sum().sort_values(ascending=False)

Cidade
Natal        167288.865399
Recife        52149.188099
Aracaju       49400.286198
Salvador      40591.692700
Fortaleza     38098.883498
Name: Receita, dtype: float64