<a href="https://colab.research.google.com/github/kaiquefreire05/py-pandas-course/blob/main/pandas_course_dio_parte2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabalhando com planilhas do EXCEL

In [None]:
# Fazendo o import do Pandas
import pandas as pd

In [None]:
# Leitura dos arquivos
df1 = pd.read_excel('/content/drive/MyDrive/datasets/Aracaju.xlsx')
df2 = pd.read_excel('/content/drive/MyDrive/datasets/Fortaleza.xlsx')
df3 = pd.read_excel('/content/drive/MyDrive/datasets/Natal.xlsx')
df4 = pd.read_excel('/content/drive/MyDrive/datasets/Recife.xlsx')
df5 = pd.read_excel('/content/drive/MyDrive/datasets/Fortaleza.xlsx')

In [None]:
# Juntando todos os arquivos
df = pd.concat([df1,df2,df3,df4,df5]) # Colocando um arquivo em baixo de outro

In [None]:
# Exibindo as 5 primeiras linhas
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [None]:
# Exibindo as 5 últimas linhas
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
137,Fortaleza,2019-03-02,51.99,983,3
138,Fortaleza,2019-03-02,150.38,983,6
139,Fortaleza,2019-03-02,141.16,980,7
140,Fortaleza,2019-03-02,166.89,983,5
141,Fortaleza,2019-03-02,182.75,983,8


In [None]:
# Verificando os tipos de dados de cada coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [None]:
# Alterando o tipo de dados da coluna, já que o 'LojaID' não vai ser usado para fazer nenhum tipo de cálculo
df["LojaID"] = df["LojaID"].astype("object")
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

## Tratando valores faltantes

In [None]:
# Consultando linhas com valores faltantes
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [None]:
# Substituindo os valors nulos pela média
df['Vendas'].fillna(df['Vendas'].mean(), inplace=True)

In [None]:
# Substituindo os valors nulos por 0
df['Vendas'].fillna(0, inplace=True)

In [None]:
# Apagando as linhas com valores nulos
df.dropna(inplace=True)

In [None]:
# Apagando linhas com valores nulos somente na coluna vendas
df.dropna(subset=['Vendas'], inplace=True)

In [None]:
# Removendo linhas que estejam com valores faltantes em todas as colunas
df.dropna(how='all', inplace=True)

Criando novas colunas

In [None]:
# Criando a coluna receita, multiplicando as vendas pela quantidade
df['Receita'] = df['Vendas'].mul(df['Qtde'])
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [None]:
# Se não tivesse a coluna Qtde poderia ser feito dessa forma criando outra coluna
df['Receitas/Vendas'] = df['Receita'] / df['Vendas']
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [None]:
# Retornando maior valor da receita
df['Receita'].max()

3544.0

In [None]:
# Retornando menor valor da receita
df['Receita'].min()

3.34

In [None]:
# nlargest, me retorna uma quantidade X dos maiores valores da coluna escolhida
df.nlargest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [None]:
# nsmallest, me retorna uma quantidade X dos menores valores da coluna escolhida
df.nsmallest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [None]:
# Agrupamento por cidade
df.groupby('Cidade')['Receita'].sum() # Retornando a soma da receita por cidades

Cidade
Aracaju       48748.25
Fortaleza     75827.94
Natal        167227.52
Recife        51936.51
Name: Receita, dtype: float64

In [None]:
# Ordenando o conjunto de dados
df.sort_values('Receita', ascending=False).head(10) # Retornando as 19 maiores receitas do maior para o menor

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0
