### **Python para Análise de Dados - Profª. Fernanda Santos**

# **Trabalhando com Planilhas do Excel**

In [None]:
# Importando a biblioteca pandas.
import pandas as pan

In [None]:
#Leitura dos arquivos.
df1 = pan.read_excel("Aracaju.xlsx")
df2 = pan.read_excel("Fortaleza.xlsx")
df3 = pan.read_excel("Natal.xlsx")
df4 = pan.read_excel("Recife.xlsx")
df5 = pan.read_excel("Salvador.xlsx")

In [None]:
df1.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [None]:
# Juntando todos os arquivos.
df = pan.concat([df1, df2, df3, df4, df5])

In [None]:
# Exibindo as 5 primeiras linhas.
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [None]:
# Exibindo as 5 últimas linhas.
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


In [None]:
# Exibindo amostra de dados dos arquivos aleatoriamente.
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
72,Fortaleza,2019-01-01,106.72,1003,4
126,Fortaleza,2019-03-02,41.87,980,8
28,Recife,2019-01-01,123.69,983,3
181,Salvador,2019-01-02,244.83,1037,2
32,Natal,2019-03-17,244.0,854,2


In [None]:
# Verificando o tipo de dado de cada coluna.
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [None]:
# Alterando o tipo de dado da coluna LojaID
df["LojaID"] = df["LojaID"].astype("object")

In [None]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [None]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


**Tratando Valores Faltantes**

In [None]:
# Consultando linhas com valores faltantes (nulos).
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [None]:
# Substituindo os valores nulos pela média.
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)

In [None]:
df["Vendas"].mean()

In [None]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [None]:
df.sample(15)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
63,Natal,2018-02-12,552.0,852,2
92,Fortaleza,2019-01-01,3.49,1005,4
157,Natal,2019-01-02,150.17,1036,2
41,Recife,2019-02-13,157.78,981,4
153,Natal,2019-01-02,17.41,1035,2
123,Salvador,2019-03-02,127.45,1036,3
21,Fortaleza,2019-01-01,40.63,1004,3
27,Recife,2019-01-01,22.25,980,7
158,Salvador,2019-01-02,183.64,1037,3
97,Salvador,2019-01-01,39.91,1037,3


In [None]:
# Substituindo os valores nulos por zero.
df["Vendas"].fillna(0, inplace=True)

In [None]:
# Apagando as linhas com valores nulos.
df.dropna(inplace=True)

In [None]:
# Apagando as linhas com valores nulos com base apenas em 1 coluna.
df.dropna(subset=["Vendas"], inplace=True)

In [None]:
#Removendo linhas que estejam com valores faltantes em todas as colunas.
df.dropna(how="all", inplace=True)

**Criando Colunas Novas**

In [None]:
# Criando a coluna de receita.
df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [None]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [None]:
df["Receitas/Vendas"] = df["Receita"] / df["Vendas"]

In [None]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [None]:
# Retornando a maior receita.
df["Receita"].max()

3544.0

In [None]:
# Retornando a menor receita.
df["Receita"].min()

3.34

In [None]:
# nlargest
df.nlargest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [None]:
# nsmallest
df.nsmallest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [None]:
# Agrupamento por cidade.
df.groupby("Cidade")["Receita"].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [None]:
# Ordenando o conjunto de dados.
df.sort_values("Receita", ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0


# **Trabalhando com Datas**

In [None]:
# Transformando a coluna de data em tipo inteiro.
df["Data"] = df["Data"].view("int64")

In [None]:
# Verificado o tipo de dado de cada coluna.
df.dtypes

Cidade              object
Data                 int64
Vendas             float64
LojaID              object
Qtde                 int64
Receita            float64
Receitas/Vendas    float64
dtype: object

In [None]:
# Transformando o tipo da coluna data em tipo data (caso já não esteja neste formato).
df["Data"] = pan.to_datetime(df["Data"])

In [None]:
df.dtypes

Cidade                     object
Data               datetime64[ns]
Vendas                    float64
LojaID                     object
Qtde                        int64
Receita                   float64
Receitas/Vendas           float64
dtype: object

In [None]:
# Agrupamento por ano.
df.groupby(df["Data"].dt.year)["Receita"].sum()

Data
2018    118176.53
2019    228246.45
Name: Receita, dtype: float64

In [None]:
# Criando uma nova coluna com o ano.
df["Ano_Venda"] = df["Data"].dt.year

In [None]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas,Ano_Venda
137,Recife,2019-03-02,51.99,983,3,155.97,3.0,2019
46,Fortaleza,2019-01-01,6.45,1003,3,19.35,3.0,2019
98,Aracaju,2018-01-01,138.33,1521,10,1383.3,10.0,2018
110,Natal,2019-01-02,185.93,1036,3,557.79,3.0,2019
120,Fortaleza,2019-03-02,184.9,982,4,739.6,4.0,2019


In [None]:
# Extraindo o mês e o dia.
df["mes_venda"], df["dia_venda"] = (df["Data"].dt.month, df["Data"].dt.day)

In [None]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda
185,Salvador,2019-01-02,6.67,1036,1,6.67,1.0,2019,1,2
231,Natal,2019-01-03,89.85,1034,2,179.7,2.0,2019,1,3
101,Salvador,2019-01-01,32.28,1035,3,96.84,3.0,2019,1,1
57,Fortaleza,2019-01-01,129.07,1005,3,387.21,3.0,2019,1,1
49,Natal,2019-04-01,831.0,852,2,1662.0,2.0,2019,4,1


In [None]:
# Retornando a data mais antiga.
df["Data"].min()

Timestamp('2018-01-01 00:00:00')

In [None]:
# Calculando a diferença de dias.
df["diferença_dias"] = df["Data"] - df["Data"].min()

In [None]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda,diferença_dias
71,Aracaju,2018-01-01,228.27,1523,6,1369.62,6.0,2018,1,1,0 days
202,Salvador,2019-01-02,22.45,1036,1,22.45,1.0,2019,1,2,366 days
210,Natal,2019-01-02,197.64,1035,1,197.64,1.0,2019,1,2,366 days
103,Fortaleza,2019-01-01,142.57,1002,3,427.71,3.0,2019,1,1,365 days
5,Recife,2019-01-01,13.59,980,3,40.77,3.0,2019,1,1,365 days


In [None]:
# Criando a coluna de trimestre.
df["trimestre_venda"] = df["Data"].dt.quarter

In [None]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda,diferença_dias,trimestre_venda
41,Salvador,2019-02-13,9.86,1035,2,19.72,2.0,2019,2,13,408 days,1
72,Fortaleza,2019-01-01,106.72,1003,4,426.88,4.0,2019,1,1,365 days,1
208,Salvador,2019-01-02,39.4,1036,3,118.2,3.0,2019,1,2,366 days,1
67,Aracaju,2018-01-01,78.13,1521,4,312.52,4.0,2018,1,1,0 days,1
77,Aracaju,2018-01-01,24.1,1522,1,24.1,1.0,2018,1,1,0 days,1


In [None]:
# Filtrando as vendas de 2019 do mês de março.
vendas_março_19 = df.loc[(df["Data"].dt.year == 2019) & (df["Data"].dt.month == 3)]

In [None]:
vendas_março_19.sample(20)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receitas/Vendas,Ano_Venda,mes_venda,dia_venda,diferença_dias,trimestre_venda
108,Fortaleza,2019-03-02,152.89,981,4,611.56,4.0,2019,3,2,425 days,1
109,Fortaleza,2019-03-02,18.90,982,6,113.40,6.0,2019,3,2,425 days,1
110,Fortaleza,2019-03-02,51.98,983,6,311.88,6.0,2019,3,2,425 days,1
111,Fortaleza,2019-03-02,8.00,981,3,24.00,3.0,2019,3,2,425 days,1
112,Fortaleza,2019-03-02,133.59,982,1,133.59,1.0,2019,3,2,425 days,1
...,...,...,...,...,...,...,...,...,...,...,...,...
137,Salvador,2019-03-02,51.66,1036,3,154.98,3.0,2019,3,2,425 days,1
138,Salvador,2019-03-02,212.03,1037,3,636.09,3.0,2019,3,2,425 days,1
139,Salvador,2019-03-02,169.01,1036,1,169.01,1.0,2019,3,2,425 days,1
140,Salvador,2019-03-02,20.79,1036,2,41.58,2.0,2019,3,2,425 days,1
