<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/2025_1s/An%C3%A1lise%20de%20Dados/Aula_06_Pandas_Transformacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Transformações de dados.**

Nesta aula, vamos aprender como juntar conjunto de dados. Em muitos casos, os dados não são coletados de uma só fonte. Ela pode vir de diversas fontes variadas (Banco Central, Bolsa de Valores, IBGE, etc...). Dessa forma, para fazer as análises em um único DataFrame, podemos usar funções do Pandas que juntam diferentes conjuntos de dados.

Veremos várias dessas funções na sequência.

Nesta aula, usaremos dois conjuntos de dados para ilustrar as funções. Em um deles, temos a cotação do S&P500 e, no outro, a cotação do índice Ibovespa. Para fins didáticos, consideramos as cotações máximas e mínimas da última semana do ano de 2023. No caso do Ibovespa, também consideramos a cotação de abertura.

In [None]:
import pandas as pd
# Informações sobre o índice S&P500

df_sp500 = pd.DataFrame({
                    'Dia':['29/12/2023','28/12/2023','27/12/2023', '26/12/2023'],
               'Max': [4788.43, 4793.30, 4785.39, 4784.72],
                 'Min': [4751.99, 4780.98, 4768.90, 4758.45]})

df_sp500

In [None]:
# Informações sobre o índice Ibovespa

df_ibov = pd.DataFrame({
                    'Dia':['28/12/2023','27/12/2023', '26/12/2023'],
               'Max': [134.389,134.195,133.645],
               'Min': [133.832,133.328,132.753],
                 'Aber': [134.194,133.523,132.753]})
df_ibov

# Concatenando dados: Função concat

Com a função `.concat()`, concatenamos ou unimos conjuntos de dados ao longo de um eixo definido, além de escolhermos opções quando à união ou intersecção dos índices (das linhas ou colunas) em tais eixos. O comando é o seguinte:

`pd.concat([df1, df2] ,axis= ,join=' ',keys=[" ", " "])`,

onde `axis= ` define o eixo de concatenação (0 para linhas e 1 para colunas), `join=' '` define a opção quando à união ("outer") ou intersecção ("inner") dos índices e `keys=[" ", " "]` define chaves para acessar cada um dos subconjunto de dados.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_pandas_concat.png'>

Veja os exemplos a seguir.

In [None]:
# Concatenando nas colunas, com intersecção nas linhas

df1 = pd.concat([df_sp500, df_ibov],axis=1,join='inner',keys=["S&P 500", "Ibovespa"])
df1

In [None]:
# Concatenando nas colunas, com união nas linhas

df2 = pd.concat([df_sp500, df_ibov],axis=1,join='outer',keys=["S&P 500", "Ibovespa"])
df2

Podemos, também, definir qual coluna será a referência para a intersecção.

In [None]:
df1_1 = pd.concat([df_sp500.set_index('Dia'), df_ibov.set_index('Dia')],axis=1,join='inner',keys=["S&P 500", "Ibovespa"])
df1_1

In [None]:
df1_2 = pd.concat([df_sp500.set_index('Dia'), df_ibov.set_index('Dia')],axis=1,join='outer',keys=["S&P 500", "Ibovespa"])
df1_2

In [None]:
# Acessando bloco de dados específicos

print(df2.Ibovespa.Dia)
print(df2.Ibovespa.Max.std())

In [None]:
# Concatenando nas linhas, com intersecção nas colunas

df3 = pd.concat([df_sp500, df_ibov],axis=0,join='inner',keys=["S&P 500", "Ibovespa"])
df3

In [None]:
# Concatenando nas linhas, com união nas colunas

df4 = pd.concat([df_sp500, df_ibov],axis=0,join='outer',keys=["S&P 500", "Ibovespa"])
df4

In [None]:
# Acessando bloco de dados específicos: Coluna

print(df4[['Dia', 'Max']])
print(df4['Min']["Ibovespa"])
print(df4['Aber']["Ibovespa"].mean())

# Concatenando dados: Função merge

Com a função `.merge()`, também concatenamos ou unimos conjuntos de dados escolhendo opções quando à união ou intersecção dos índices. No entanto, isso é feito ao longo das colunas, apenas, e com base nos valores de uma coluna específica. O comando é o seguinte:

`pd.merge(df1,df2, how=' ', on=' ', suffixes='')`,

onde `how=' '` define a opção quando à união ("outer"), intersecção ("inner"), com base no primeiro DataFrame ("left") ou com base no segundo DataFrame ("right"), `on=' '` define a coluna que será usada como referência para as opções anteriores e `suffixes=' '` introduz sufixos nos nomes das colunas de cada DataFrame.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_pandas_merge.png'>

Veja os exemplos a seguir.

In [None]:
# Concatenando nas colunas, com intersecção nas linhas definida pelos valores em "Dia"

df5 = pd.merge(df_sp500,df_ibov, how='inner', on='Dia')
df5

In [None]:
# Concatenando nas colunas, com união nas linhas definida pelos valores em "Dia"

df6 = pd.merge(df_sp500,df_ibov, how='outer', on='Dia')
df6

In [None]:
# Concatenando nas colunas, com condição nas linhas pelo primeiro DataFrame definida pelos valores em "Dia"

df7 = pd.merge(df_sp500,df_ibov, how='left', on='Dia')
df7

In [None]:
# Concatenando nas colunas, com condição nas linhas pelo primeiro DataFrame definida pelos valores em "Dia"

df8 = pd.merge(df_sp500,df_ibov, how='right', on='Dia', suffixes=['_sp500', '_ibov'])
df8

# Reorganizando dados: Função melt

Com a função `.melt()`, podemos reorganizar os dados com base nos valores de uma coluna ou mais colunas (chaves). Nessa transformação, podemos transformar as informações contidas em colunas, que possuem o mesmo tipo de dados, em linhas. O comando é o seguinte:

`pd.melt(id_vars=["chave_1",...,"chave_n"], value_vars=["var 1",..., " var j"], var_name=" ", value_name=" ")`,

onde `id_vars=["chave_1",...,"chave_n"]` define as colunas que serão utilizadas como referência para segmentar os dados,  `value_vars=["var 1",..., " var j"]` indica as colunas que serão reorganizadas, `var_name=" "` define o nome da nova coluna com os nomes das colunas a serem reorganizadas e `value_name=" "` indica o nome da nova coluna contendo os valores das colunas a serem reorganizadas.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_pandas_melt.png'>

*Nota:* Se não for especificado `value_vars`, consideram-se todas as variáveis (colunas) que não foram consideradas em `id_vars`.

Veja os exemplos a seguir.

In [None]:
dados = pd.DataFrame({'First Loan':[100000,60000,80000,40000,120000,98000,95000,92000,100000,170000,150000],
                      'Second Loan':[80000,40000,100000,30000,122000,90000,45000,32000,55000,110000,160000],
                      'Duration':['Short','Long','Short','Undefined','Long','Short','Long','Short','Undefined','Long', 'Short'],
                      'Repayment':[1,1,0,0,1,0,1,0,1,0,0] }) # 1=vai pagar 0=não vai pagar
dados

In [None]:
dados2 = dados.melt(id_vars=["Repayment"], value_vars=["First Loan","Second Loan"], var_name="Which Loan",value_name="Loan")
dados2

In [None]:
dados3 = dados.melt(id_vars=["Duration","Repayment"], value_vars=["First Loan","Second Loan"], var_name="Which Loan",value_name="Loan")
dados3

# Reorganizando dados: Função pivot

Com a função `.pivot()`, podemos reorganizar os dados de forma a transformar valores contidos em uma coluna em diferentes colunas. O comando é o seguinte:

`pd.pivot(index=['chave_1,...,'chave_n'], columns=['var 1',..., 'Var j'], values='var k')`,

onde `index=['chave_1,...,'chave_n']` define as colunas que serão utilizadas como referência para segmentar os dados (e se manterão como colunas),  `columns=['var 1',..., 'Var j']` indica as colunas cujos valores serão reorganizados e transformados em novas colunas e `values='var k'` indica o nome da coluna cujos valores serão reorganizados com base nas colunas de referência e nas que formarão novas colunas.

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Aulas/Figuras/fig_pandas_pivot.png'>

Veja os exemplos a seguir.

In [None]:
# Exemplo: Vendas realizadas, no mês, pelos empregados de uma loja.
df = pd.DataFrame({'Vendedor': ['Juan','Juan','Juan','André','André','André','Maria','Maria','Maria' ],
                   'Produto': ['Ref1','Ref2', 'Ref3','Ref1','Ref2', 'Ref3', 'Ref1','Ref2', 'Ref3'],
                   'Vendas': [6,2,5,8,4,7,9,1,3],
                   'Preços': [60,100,210,60,100,210,60,100,210]})
df

In [None]:
df_novo = df.pivot(index=['Produto'], columns=['Vendedor'], values='Vendas')
df_novo

In [None]:
# Acessando dados após pivot - Número de vendas feitas pelo André (coluna) do produt Ref2 (linha)
df_novo["André"].Ref2

# **Atividade Prática**

Para as duas primeiras questões da atividade prática desta aula, usaremos os dados dos índices S&P 500 e Ibovespa do ano inteiro de 2023. Para cada um desses dados, temos: data, última cotação, cotação de abertura, cotação máxima, cotação mínima, volume negociado e % de variação do dia.

Para ler os dados, execute as células abaixo.

In [None]:
# S&P500 - 2023

sp500 = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_s&p500_2023.csv")
sp500.head()

In [None]:
# Ibovespa - 2023

ibov = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_ibov_2023.csv")
ibov.head()

Para as demais questões, utilize os dados da distribuição de energia na Europa, contidos no link abaixo:

https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-08-04/energy_types.csv

Este conjunto de dados descreve a geração de energia, de diferentes tipos, de um conjunto de países europeus. Considere *UK* como um país e *Other* como um tipo de energia.

Responda o que se pede no questionário disponível no Moodle.