# Trabalhando com Planilhas do Excel - Rômulo Vieira

In [1]:
# Importando a Biblioteca Pandas
import pandas as pd

In [2]:
# Leitura dos Arquivos
df_01 = pd.read_excel("/Aracaju.xlsx")
df_02 = pd.read_excel("/Fortaleza.xlsx")
df_03 = pd.read_excel("/Natal.xlsx")
df_04 = pd.read_excel("/Recife.xlsx")
df_05 = pd.read_excel("/Salvador.xlsx")

In [3]:
# Juntando todos os Arquivos
df = pd.concat([df_01, df_02, df_03, df_04, df_05])

In [4]:
# Exibindo as 5 Primeiras Linhas
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [5]:
# Exibindo as 5 Últimas Linhas
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


In [7]:
# Pegando uma Amostra do Dataset de 5 Linhas
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
31,Recife,2019-01-01,176.23,981,7
26,Recife,2019-01-01,126.05,980,1
29,Salvador,2019-01-01,9.27,1034,1
142,Natal,2019-01-02,7.12,1034,1
81,Natal,2019-04-02,564.0,854,2


In [6]:
# Verificando o Tipo de Dado de cada Coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [8]:
# Alterando o Tipo de Dado da Coluna LojaID
df["LojaID"] = df["LojaID"].astype("object")

In [9]:
# Verificando o Tipo de Dado de cada Coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [10]:
# Exibindo as 5 Primeiras Linhas
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


# Tratando Valores Faltantes

In [11]:
# Consultando Linhas com Valores Faltantes
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [12]:
# Substituindo os Valores Nulos pela Média
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)

In [13]:
# Consultando Linhas com Valores Faltantes
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [17]:
# Pegando uma Amostra do Dataset de 5 Linhas
df.sample(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
28,Aracaju,2018-01-01,114.93,1520,5
78,Salvador,2019-01-01,111.2,1036,3
166,Natal,2019-01-02,111.72,1035,3
34,Fortaleza,2019-01-01,3.1,1003,5
44,Salvador,2019-01-01,43.26,1037,2
65,Natal,2019-04-05,292.0,852,2
73,Aracaju,2018-01-01,159.78,1521,3
34,Salvador,2019-01-01,36.54,1037,3
132,Salvador,2019-03-02,19.61,1036,2
51,Aracaju,2018-01-01,40.58,1522,6


In [18]:
# Verificando o Valor da Média
df["Vendas"].mean()

122.61180089485438

In [14]:
 # Substituindo os Valores Nulos por Zero
 df["Vendas"].fillna(0, inplace=True)

In [15]:
# Apagando as Linhas com Valores Nulos
df.dropna(inplace=True)

In [20]:
# Apagando as Linhas com Valores Nulos com Base apenas em 1 Coluna
df.dropna(subset=["Vendas"], inplace=True)

In [21]:
# Removendo Linhas que Estejam com Valores Faltantes em Todas as Colunas
df.dropna(how="all", inplace=True)

# Criando Colunas Novas

In [22]:
# Criando a Coluna de Receita
df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [23]:
# Exibindo as 5 Primeiras Linhas
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [24]:
# Criando a Coluna de Quantidade
df["receita/Vendas"] = df["Receita"] / df["Vendas"]

In [25]:
# Exibindo as 5 Primeiras Linhas
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,receita/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [26]:
# Retornando a Maior Receita
df["Receita"].max()

3544.0

In [27]:
# Retornando a Menor Receita
df["Receita"].min()

3.34

In [28]:
# Retornando as 3 Linhas com Maior Receita
df.nlargest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [29]:
# Retornando as 3 Linhas com Menor Receita
df.nsmallest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,receita/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [30]:
# Agrupamento po Cidade
df.groupby("Cidade")["Receita"].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [31]:
# Ordenando o Conjunto de Dados
df.sort_values("Receita", ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0
