# Combinando Dados Verticalmente com Python e Pandas
Esta combinação consiste em abrir a workbook **Vendas.xlsx** e concatenar o conteúdo de três planilhas que armazenam os dados das vendas do terceiro trimestre: **vendas072016**, **vendas082016** e **vendas092016**, gerando um único conjunto de dados que chamarei de **vendas_trim3** para ser utilizado posteriormente. 

Durante a combinação dos dataframes será necessário tratar um problema gerado por estrutura semelhantes, mas não iguais dos dataframes em questão. É um tratamento bastante simples, mas desafiador para quem está estudando.

O tratamento deste problema é um desafio que impus a mim mesmo durate os estudos sobre os recursos da biblioteca Pandas. Eu havia feito exatamente o mesmo processo utilizando a tecnologia SAS e até compartilhei o resultado em formato [PDF](https://drive.google.com/file/d/1zJbs3qWGt-Mm_eWQ29ayMRFP3v9f_bfJ/view) e no [Blog](https://progweb.com.br/combinando-dados-verticalmente-com-data-set/). Para finalizar organizo a estrutura do nosso dataframe final usando os recursos do Pandas que estou aprendendo.

In [2]:
# Importando a única biblioteca que usarei neste tratamento
import pandas as pd

In [20]:
# ExcelFile()  >> Retorna uma base de dados a partir do Excel
# read_excel() >> Neste caso recebe dois parâmetros e retorna as planilhas, que o pandas chama de dataframe.

xlsx = pd.ExcelFile('Vendas.xlsx') # Workbook

vendas_072016 = pd.read_excel(xlsx, 'Vendas072016') # Planilha 1
vendas_082016 = pd.read_excel(xlsx, 'Vendas082016') # Planilha 2
vendas_092016 = pd.read_excel(xlsx, 'Vendas092016') # Planilha 3

In [21]:
# Conhecendo os tipos das variáveis
print('Base Excel:', type(xlsx))
print('Plhanilha1:', type(vendas_072016))
print('Plhanilha2:', type(vendas_082016))
print('Plhanilha3:', type(vendas_092016))

Base Excel: <class 'pandas.io.excel._base.ExcelFile'>
Plhanilha1: <class 'pandas.core.frame.DataFrame'>
Plhanilha2: <class 'pandas.core.frame.DataFrame'>
Plhanilha3: <class 'pandas.core.frame.DataFrame'>


In [22]:
# Exibindo planilha 1 (Vendas072016), que agora é um dataframe
vendas_072016

Unnamed: 0,Data,Cod_Pedido,Cod_Cliente,Cod_Produto,Volume,Faturamento,Impostos
0,2016-07-01,107134,34,1009,153,12645.15,2276.13
1,2006-07-01,107141,41,1028,4,242.66,43.68
2,2006-07-01,100719,9,1028,361,20936.34,3768.54
3,2006-07-02,107228,28,1010,34,5232.61,941.87
4,2006-07-02,107223,23,1016,234,4457.96,802.43


In [23]:
# Exibindo planilha 2 (Vendas082016), que agora é um dataframe
vendas_082016

Unnamed: 0,Data,Cod_Pedido,Cod_Cliente,Cod_Produto,Volume,Faturamento,Impostos
0,2016-08-01,108126,26,1023,23,1448.91,260.8
1,2016-08-02,108244,44,1006,22,3039.54,547.12
2,2016-08-03,108332,32,1002,5,71.14,12.91
3,2016-08-03,108353,53,1024,74,5273.05,949.15
4,2016-08-04,108420,20,1020,37,994.59,179.03


In [24]:
# Exibindo planilha 3 (Vendas092016), que agora é um dataframe. Para quem leu o
# PDF lembra que nassa planilha tinhamos um probleminha de estrutura?

vendas_092016

Unnamed: 0,Data,Cod_Pedido,Cod_Cliente,ID_Produto,Volume,Faturamento,Impostos
0,2016-09-02,100924,4,1011,5,574.09,103.34
1,2016-09-03,109349,49,1024,23,1596.03,287.29
2,2016-09-04,100942,2,1002,27,392.92,70.73
3,2016-09-04,109449,49,1004,4,508.92,91.6
4,2016-09-04,109440,40,1023,19,1198.86,215.79


In [27]:
# Concatenando as planilhas verticalmente uma abaixo da outra.

vendas_trim3 = pd.concat([vendas_072016, vendas_082016, vendas_092016])
vendas_trim3

Unnamed: 0,Data,Cod_Pedido,Cod_Cliente,Cod_Produto,Volume,Faturamento,Impostos,ID_Produto
0,2016-07-01,107134,34,1009.0,153,12645.15,2276.13,
1,2006-07-01,107141,41,1028.0,4,242.66,43.68,
2,2006-07-01,100719,9,1028.0,361,20936.34,3768.54,
3,2006-07-02,107228,28,1010.0,34,5232.61,941.87,
4,2006-07-02,107223,23,1016.0,234,4457.96,802.43,
0,2016-08-01,108126,26,1023.0,23,1448.91,260.8,
1,2016-08-02,108244,44,1006.0,22,3039.54,547.12,
2,2016-08-03,108332,32,1002.0,5,71.14,12.91,
3,2016-08-03,108353,53,1024.0,74,5273.05,949.15,
4,2016-08-04,108420,20,1020.0,37,994.59,179.03,


In [29]:
# Após renomear a coluna, iremos repetir aquele procedimento de concatenação para observar que o problema
# de nome nas colunas foi resolvido e a estrutura do dataframe vendas_trim3 segue o padrão das outras.

# Mas temos mais um problema, será que você sabe qual é? Não é necessariamente nos dados... Se você falou
# índex acertou! Veja que ele se repete para cada dataframe concatenado. Como resolver isso?

vendas_trim3 = pd.concat([vendas_072016, vendas_082016, vendas_092016])
vendas_trim3

Unnamed: 0,Data,Cod_Pedido,Cod_Cliente,Cod_Produto,Volume,Faturamento,Impostos
0,2016-07-01,107134,34,1009,153,12645.15,2276.13
1,2006-07-01,107141,41,1028,4,242.66,43.68
2,2006-07-01,100719,9,1028,361,20936.34,3768.54
3,2006-07-02,107228,28,1010,34,5232.61,941.87
4,2006-07-02,107223,23,1016,234,4457.96,802.43
0,2016-08-01,108126,26,1023,23,1448.91,260.8
1,2016-08-02,108244,44,1006,22,3039.54,547.12
2,2016-08-03,108332,32,1002,5,71.14,12.91
3,2016-08-03,108353,53,1024,74,5273.05,949.15
4,2016-08-04,108420,20,1020,37,994.59,179.03


In [42]:
# Resolvendo o problema na estrutura do nosso dataframe vendas_trim3 e para isso irei renomear a coluna
# ID_Produto do dataframe vendas_092016 para Cod_Produto deixando igual a coluna dos outros dataframes.

# inplace = True >> Mantém a mudança salva no dataframe. Caso este parâmetro não seja setado, a mudança
# irá acontecer apenas em tempo de execução. Executando então a variável veremos que o valor original
# continua sendo o mesmo. Setando inplace=True mudará de fato o nome da coluna.

vendas_092016.rename(columns={'ID_Produto':'Cod_Produto'}, inplace = True)
vendas_092016


Unnamed: 0,Data,Cod_Pedido,Cod_Cliente,Cod_Produto,Volume,Faturamento,Impostos
0,2016-09-02,100924,4,1011,5,574.09,103.34
1,2016-09-03,109349,49,1024,23,1596.03,287.29
2,2016-09-04,100942,2,1002,27,392.92,70.73
3,2016-09-04,109449,49,1004,4,508.92,91.6
4,2016-09-04,109440,40,1023,19,1198.86,215.79


In [43]:
# Obtendo a quantidade de linhas do dataframe
vendas_trim3.shape[0]

15

In [32]:
# A função range() entende que a coluna índice possui registros de 0 a 15 (-1) - o número 15 é exclusivo.
range(vendas_trim3.shape[0])

range(0, 15)

In [33]:
# Definindo um contador sequencial para o dataframe de acordo com sua quantidade de registros.
vendas_trim3.index = range(vendas_trim3.shape[0])
vendas_trim3

Unnamed: 0,Data,Cod_Pedido,Cod_Cliente,Cod_Produto,Volume,Faturamento,Impostos
0,2016-07-01,107134,34,1009,153,12645.15,2276.13
1,2006-07-01,107141,41,1028,4,242.66,43.68
2,2006-07-01,100719,9,1028,361,20936.34,3768.54
3,2006-07-02,107228,28,1010,34,5232.61,941.87
4,2006-07-02,107223,23,1016,234,4457.96,802.43
5,2016-08-01,108126,26,1023,23,1448.91,260.8
6,2016-08-02,108244,44,1006,22,3039.54,547.12
7,2016-08-03,108332,32,1002,5,71.14,12.91
8,2016-08-03,108353,53,1024,74,5273.05,949.15
9,2016-08-04,108420,20,1020,37,994.59,179.03


In [35]:
# Para finalizar darei um nome para a coluna índice, chamarei de 'Id'.
vendas_trim3.columns.name = 'Id'
vendas_trim3

Id,Data,Cod_Pedido,Cod_Cliente,Cod_Produto,Volume,Faturamento,Impostos
0,2016-07-01,107134,34,1009,153,12645.15,2276.13
1,2006-07-01,107141,41,1028,4,242.66,43.68
2,2006-07-01,100719,9,1028,361,20936.34,3768.54
3,2006-07-02,107228,28,1010,34,5232.61,941.87
4,2006-07-02,107223,23,1016,234,4457.96,802.43
5,2016-08-01,108126,26,1023,23,1448.91,260.8
6,2016-08-02,108244,44,1006,22,3039.54,547.12
7,2016-08-03,108332,32,1002,5,71.14,12.91
8,2016-08-03,108353,53,1024,74,5273.05,949.15
9,2016-08-04,108420,20,1020,37,994.59,179.03
