# **Trabalhando com planilhas do Excel**

In [None]:
# Importação da Biblioteca Pandas
import pandas as pd

In [None]:
# Reconhecimento dos arquivos xlsx
df1 = pd.read_excel("Aracaju.xlsx")
df2 = pd.read_excel("Fortaleza.xlsx")
df3 = pd.read_excel("Natal.xlsx")
df4 = pd.read_excel("Recife.xlsx")
df5 = pd.read_excel("Salvador.xlsx")

In [None]:
# Analisando a estrutura do arquivo
df1.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [None]:
# Juntando todos os arquivos em um só
df = pd.concat([df1,df2,df3,df4,df5])

In [None]:
# Exibindo as 5 primeiras linhas do arquivo agrupado
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [None]:
# Exibindo as 5 últimas linhas do arquivo agrupado
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


In [None]:
# Pegando uma amostra dos dados no Conjumto de dados
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
140,Recife,2019-03-02,166.89,983,5
211,Salvador,2019-01-02,141.05,1035,3
40,Aracaju,2018-01-01,6.99,1522,7
224,Salvador,2019-01-02,178.3,1035,3
10,Fortaleza,2019-01-01,179.88,1002,4


In [None]:
# Verificando o tipo de dados em cada Coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [None]:
# Alterando o tipo de dados da Coluna LojaID
# Devido a não se fazer nenhum cálculo com esse dado
# Se converte de inteiro para Objeto
df["LojaID"] = df["LojaID"].astype("object")

In [None]:
# Verifucando a alteração
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [None]:
# Verificação se há valores faltantes e nulos
# Consultando linhas com valores faltantes
df.isnull().sum()


Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [None]:
# Criar uma nova coluna ao Conjunto de Dados
# Criação da Coluna Receitas que é vendas vezes a quantidade
df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [None]:
# Verificando a mudança
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [None]:
# Verificando a Quantidade dividindo a Receita pela Venda e inserindo a coluna
df["Receita/Vendas"] = df["Receita"] / df["Vendas"]

In [None]:
# Verificando a mudança
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [None]:
# Retornando a maior Receita
df['Receita'].max()

3544.0

In [None]:
# Retornando a menor Receita
df['Receita'].min()

3.34

In [None]:
# Retorno das maiores Receitas
# nlargest retorna as 3 maiores Receitas
df.nlargest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [None]:
# Retorno das menores Receitas
# nsmallest retorna as 3 menores Receitas
df.nsmallest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [None]:
# Agrupamenta para se saber a soma da Receita por Cidade
df.groupby("Cidade")["Receita"].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [None]:
# Ordenando pela Coluna Receita
df.sort_values("Receita", ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0


# **Trabalhando com Datas**

In [None]:
# Vericando a Coluna Data
df.dtypes

Cidade                    object
Data              datetime64[ns]
Vendas                   float64
LojaID                    object
Qtde                       int64
Receita                  float64
Receita/Vendas           float64
dtype: object

In [None]:
# Transformando a Coluna Data em número Inteiro
df["Data"] = df["Data"].astype("int64")

  


In [None]:
# Verificando a mudança
df.dtypes

Cidade             object
Data                int64
Vendas            float64
LojaID             object
Qtde                int64
Receita           float64
Receita/Vendas    float64
dtype: object

In [None]:
# Transformando de inteiro para datetime
df["Data"] = pd.to_datetime(df["Data"])

In [None]:
# Verificando a mudança
df.dtypes

Cidade                    object
Data              datetime64[ns]
Vendas                   float64
LojaID                    object
Qtde                       int64
Receita                  float64
Receita/Vendas           float64
dtype: object

In [None]:
# Saber qual a Receita por Ano
df.groupby(df["Data"].dt.year)["Receita"].sum()

Data
2018    118176.53
2019    228246.45
Name: Receita, dtype: float64

In [None]:
# Criando a Coluna Ano/Venda no dataFrame
df["Ano_Venda"] = df["Data"].dt.year

In [None]:
# Amostra do novo Conjunto de Dados
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda
201,Salvador,2019-01-02,86.61,1036,1,86.61,1.0,2019
122,Aracaju,2018-01-01,38.49,1522,4,153.96,4.0,2018
13,Fortaleza,2019-02-12,118.58,1003,4,474.32,4.0,2019
185,Natal,2019-01-02,6.67,1036,1,6.67,1.0,2019
201,Natal,2019-01-02,86.61,1036,1,86.61,1.0,2019


In [None]:
# Extrair o Mês e Dia da Venda
df["Mes_Venda"], df["Dia_Venda"] = (df["Data"].dt.month, df["Data"].dt.day)

In [None]:
# Amostra do Mês e Dia da Venda
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_Venda,Dia_Venda
123,Aracaju,2018-01-01,115.19,1523,6,691.14,6.0,2018,1,1
121,Aracaju,2018-01-01,162.07,1520,3,486.21,3.0,2018,1,1
23,Aracaju,2018-01-01,237.5,1523,7,1662.5,7.0,2018,1,1
129,Fortaleza,2019-03-02,35.34,982,7,247.38,7.0,2019,3,2
37,Natal,2018-10-03,726.0,852,2,1452.0,2.0,2018,10,3


In [None]:
# Retornando a Data mais antiga
df["Data"].min()

Timestamp('2018-01-01 00:00:00')

In [None]:
# Calculando a diferença de dias
# dikminuindo a data da data minima ou seja da data mais antiga
df["diferenca_dias"] = df["Data"] - df["Data"].min()

In [None]:
# Amostra
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_Venda,Dia_Venda,diferenca_dias
7,Recife,2019-02-11,33.37,982,3,100.11,3.0,2019,2,11,406 days
46,Fortaleza,2019-01-01,6.45,1003,3,19.35,3.0,2019,1,1,365 days
125,Recife,2019-03-02,37.6,983,4,150.4,4.0,2019,3,2,425 days
110,Recife,2019-03-02,51.98,983,6,311.88,6.0,2019,3,2,425 days
16,Salvador,2019-01-01,32.47,1036,2,64.94,2.0,2019,1,1,365 days


In [None]:
# Criando uma Coluna com o Trimestre
df["Trimestre_Vendas"] = df["Data"].dt.quarter

In [None]:
# Amostra
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_Venda,Dia_Venda,diferenca_dias,Trimestre_Vendas
126,Salvador,2019-03-02,41.69,1036,2,83.38,2.0,2019,3,2,425 days,1
103,Salvador,2019-01-01,191.6,1034,1,191.6,1.0,2019,1,1,365 days,1
33,Salvador,2019-01-01,144.19,1035,2,288.38,2.0,2019,1,1,365 days,1
51,Salvador,2019-01-01,13.37,1037,2,26.74,2.0,2019,1,1,365 days,1
113,Aracaju,2018-01-01,23.05,1521,9,207.45,9.0,2018,1,1,0 days,1


In [None]:
# Filtrando as Vendas de 2019 do Mês de março
vendas_marco_2019 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)]

In [None]:
vendas_marco_2019.sample(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,Mes_Venda,Dia_Venda,diferenca_dias,Trimestre_Vendas
126,Fortaleza,2019-03-02,41.87,980,8,334.96,8.0,2019,3,2,425 days,1
123,Fortaleza,2019-03-02,20.22,981,6,121.32,6.0,2019,3,2,425 days,1
138,Salvador,2019-03-02,212.03,1037,3,636.09,3.0,2019,3,2,425 days,1
131,Recife,2019-03-02,139.07,982,6,834.42,6.0,2019,3,2,425 days,1
32,Natal,2019-03-17,244.0,854,2,488.0,2.0,2019,3,17,440 days,1
108,Recife,2019-03-02,152.89,981,4,611.56,4.0,2019,3,2,425 days,1
120,Salvador,2019-03-02,140.17,1036,2,280.34,2.0,2019,3,2,425 days,1
140,Recife,2019-03-02,166.89,983,5,834.45,5.0,2019,3,2,425 days,1
111,Recife,2019-03-02,8.0,981,3,24.0,3.0,2019,3,2,425 days,1
4,Natal,2019-03-09,699.0,853,3,2097.0,3.0,2019,3,9,432 days,1
