<a href="https://colab.research.google.com/github/FabricioXC/AnaliseDeDadosComPythonEPandas/blob/main/04_Pandas_Excel_Datas_Graficos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

###Trabalhando com Planilhas do Excel

In [1]:
# Importando a biblioteca Pandas
import pandas as pd

In [2]:
# Leitura dos arquivos
df1 = pd.read_excel('Aracaju.xlsx')
df2 = pd.read_excel('Fortaleza.xlsx')
df3 = pd.read_excel('Natal.xlsx')
df4 = pd.read_excel('Recife.xlsx')
df5 = pd.read_excel('Salvador.xlsx')

In [3]:
# Juntando todos os arquivos
df = pd.concat([df1, df2, df3, df4, df5])

In [4]:
# Exibindo as primeiras 5 linhas
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [5]:
# Exibindo as últimas 5 linhas
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


In [6]:
# Pega uma amostra aleatória do conjunto de dados
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
119,Aracaju,2018-01-01,9.32,1523,6
198,Natal,2019-01-02,13.65,1037,3
216,Salvador,2019-01-02,5.82,1035,1
169,Natal,2019-01-02,166.73,1037,2
112,Salvador,2019-03-02,43.0,1036,3


In [7]:
# Verificando o tipo de dados de cada coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID             int64
Qtde               int64
dtype: object

In [8]:
# Alterando o tipo de dado da coluna LojaID para object
df['LojaID'] = df['LojaID'].astype('object')

In [9]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

In [10]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [11]:
# Consultando linhas com valores faltantes
# Obs. O dataset fornecido para esta análise não continha valores nulos.
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [12]:
#Substituindo os valores nulos pela média
df['Vendas'].fillna(df['Vendas'].mean(), inplace=True)

In [13]:
df['Vendas'].mean()

122.61180089485438

In [14]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [15]:
# Substituindo os valores nulos por 0
df['Vendas'].fillna(0, inplace=True)

In [16]:
# Apagando as linhas com valores nulos
df.dropna(inplace=True)

In [17]:
# Apagando as linhas com valores nulos com base apenas em 1 coluna
df.dropna(subset=['Vendas'], inplace=True)

In [18]:
# Removendo linhas que estejam com valores faltantes em todas as colunas
df.dropna(how='all', inplace=True)

###Criando colunas novas

In [19]:
# Criando a coluna de receita
df['Receita'] = df['Vendas'].mul(df['Qtde'])

In [20]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [21]:
df['Receita/Vendas'] = df['Receita'] / df['Vendas']

In [22]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


In [23]:
# Retornando a maior receita
df['Receita'].max()

3544.0

In [24]:
# Retornando a menor receita
df['Receita'].min()

3.34

In [25]:
# nlargest - Retorna n maiores valores com base em uma coluna
df.nlargest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


In [26]:
# nsmalest - Retorna n menores valores com base em uma coluna
df.nsmallest(3, 'Receita')

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


In [27]:
# Agrupamento por cidade
df.groupby('Cidade')['Receita'].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [28]:
# Ordenando o conjunto de dados
df.sort_values('Receita', ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
38,Natal,2018-02-25,828.0,852,4,3312.0,4.0
10,Natal,2018-10-27,828.0,852,4,3312.0,4.0
69,Natal,2019-03-24,817.0,852,4,3268.0,4.0
62,Natal,2018-02-10,793.0,854,4,3172.0,4.0
52,Natal,2018-04-27,778.0,854,4,3112.0,4.0


###Trabalhando com Datas

In [29]:
# Transformando a coluna de data em tipo inteiro
df['Data'] = df['Data'].astype('int64')

In [30]:
# Verificando o tipo de dado das colunas
df.dtypes

Cidade             object
Data                int64
Vendas            float64
LojaID             object
Qtde                int64
Receita           float64
Receita/Vendas    float64
dtype: object

In [31]:
df['Data'] = pd.to_datetime(df['Data'])

In [32]:
df.dtypes

Cidade                    object
Data              datetime64[ns]
Vendas                   float64
LojaID                    object
Qtde                       int64
Receita                  float64
Receita/Vendas           float64
dtype: object

In [33]:
# Agrupamento por ano
df.groupby(df['Data'].dt.year)['Receita'].sum()

Data
2018    118176.53
2019    228246.45
Name: Receita, dtype: float64

In [34]:
# Criando uma nova coluna com o ano
df['Ano_Venda'] = df['Data'].dt.year

In [35]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda
133,Natal,2019-01-02,153.71,1035,1,153.71,1.0,2019
71,Recife,2019-01-01,138.69,983,3,416.07,3.0,2019
61,Natal,2018-09-11,724.0,853,2,1448.0,2.0,2018
15,Aracaju,2018-01-01,153.28,1523,6,919.68,6.0,2018
59,Salvador,2019-01-01,138.27,1034,2,276.54,2.0,2019


In [36]:
#Extraindo o mês e o dia
df['mes_venda'], df['dia_venda'] = (df['Data'].dt.month, df['Data'].dt.day)

In [37]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,mes_venda,dia_venda
125,Aracaju,2018-01-01,15.62,1522,2,31.24,2.0,2018,1,1
143,Natal,2019-01-02,41.18,1037,2,82.36,2.0,2019,1,2
95,Recife,2019-01-01,40.03,982,3,120.09,3.0,2019,1,1
237,Salvador,2019-01-03,38.06,1036,3,114.18,3.0,2019,1,3
183,Natal,2019-01-02,120.23,1037,2,240.46,2.0,2019,1,2


In [38]:
# Retornando a data mais antiga
df['Data'].min()

Timestamp('2018-01-01 00:00:00')

In [39]:
# Calculando a diferença de dias
df['diferenca_dias'] = df['Data'] - df['Data'].min()

In [40]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,mes_venda,dia_venda,diferenca_dias
39,Natal,2019-01-10,504.0,854,3,1512.0,3.0,2019,1,10,374 days
78,Recife,2019-01-01,238.73,980,3,716.19,3.0,2019,1,1,365 days
81,Fortaleza,2019-01-01,10.68,1005,1,10.68,1.0,2019,1,1,365 days
50,Recife,2019-01-01,7.24,983,4,28.96,4.0,2019,1,1,365 days
77,Aracaju,2018-01-01,24.1,1522,1,24.1,1.0,2018,1,1,0 days


In [41]:
# Criando a coluna de tirmestre
df['trimestre_venda'] = df['Data'].dt.quarter

In [42]:
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,mes_venda,dia_venda,diferenca_dias,trimestre_venda
99,Fortaleza,2019-01-01,9.01,1002,3,27.03,3.0,2019,1,1,365 days,1
11,Recife,2019-01-01,202.79,980,5,1013.95,5.0,2019,1,1,365 days,1
83,Aracaju,2018-01-01,14.44,1520,5,72.2,5.0,2018,1,1,0 days,1
86,Recife,2019-01-01,17.83,982,8,142.64,8.0,2019,1,1,365 days,1
28,Fortaleza,2019-01-01,34.88,1004,3,104.64,3.0,2019,1,1,365 days,1


In [43]:
# Filtrando as vendas de 2019 do mês de março
vendas_marco_19 = df.loc[(df['Data'].dt.year == 2019) & (df['Data'].dt.month == 3)]

In [44]:
vendas_marco_19.sample(20)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Receita/Vendas,Ano_Venda,mes_venda,dia_venda,diferenca_dias,trimestre_venda
117,Salvador,2019-03-02,39.41,1034,1,39.41,1.0,2019,3,2,425 days,1
117,Recife,2019-03-02,15.42,983,8,123.36,8.0,2019,3,2,425 days,1
117,Fortaleza,2019-03-02,15.42,983,8,123.36,8.0,2019,3,2,425 days,1
133,Salvador,2019-03-02,153.71,1035,1,153.71,1.0,2019,3,2,425 days,1
111,Fortaleza,2019-03-02,8.0,981,3,24.0,3.0,2019,3,2,425 days,1
140,Recife,2019-03-02,166.89,983,5,834.45,5.0,2019,3,2,425 days,1
116,Salvador,2019-03-02,41.78,1034,3,125.34,3.0,2019,3,2,425 days,1
137,Recife,2019-03-02,51.99,983,3,155.97,3.0,2019,3,2,425 days,1
116,Fortaleza,2019-03-02,79.1,982,2,158.2,2.0,2019,3,2,425 days,1
121,Salvador,2019-03-02,100.7,1037,3,302.1,3.0,2019,3,2,425 days,1


###Visualização de Dados