<a href="https://colab.research.google.com/github/ClauderCarvalho/ABERTO/blob/master/Remodelando_DataFrames_do_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Remodelando os DataFrames do Pandas**

Nome = Clauder Noronha


O Pandas é uma biblioteca de análise de dados Python muito poderosa que agiliza as etapas de pré-processamento do seu projeto. A estrutura de dados principal do Pandas é o DataFrame, que representa dados em forma de tabela com linhas e colunas rotuladas. Nesta postagem, tentarei explicar como remodelar um quadro de dados modificando a estrutura de linha e coluna.


Existem várias maneiras de remodelar um quadro de dados. Podemos escolher o que melhor se adapta à tarefa em questão. As funções para remodelar um quadro de dados:

* Fundição

* Empilhar e desempilhar

* Pivô

Como sempre, começamos com a importação de numpy e pandas:


In [None]:
import pandas as pd
import numpy as np

***Fundição***


Derreter é usado para converter quadros de dados largos em estreitos. O que quero dizer com amplo é um quadro de dados com um número alto de colunas. Alguns quadros de dados são estruturados de forma que medidas ou variáveis ​​consecutivas sejam representadas como colunas. Em alguns casos, representar essas colunas como linhas pode se encaixar melhor em nossa tarefa.

> Considere o seguinte quadro de dados:

In [2]:
df1 = pd.DataFrame({'Cidade':['A','B','C'],
                    'dia1':[22,25,28],
                    'dia2':[10,14,13],
                    'dia3':[25,22,26],
                    'dia4':[18,1,17],
                    'dia5':[12,14,18]})

In [3]:
df1.head()

Unnamed: 0,Cidade,dia1,dia2,dia3,dia4,dia5
0,A,22,10,25,18,12
1,B,25,14,22,1,14
2,C,28,13,26,17,18


Temos três cidades diferentes e medições feitas em dias diferentes. Decidimos representar esses dias como linhas em uma coluna. Também haverá uma coluna para mostrar as medições. Podemos fazer isso facilmente usando a função de fusão :

In [5]:
df1.melt(id_vars=['Cidade'])

Unnamed: 0,Cidade,variable,value
0,A,dia1,22
1,B,dia1,25
2,C,dia1,28
3,A,dia2,10
4,B,dia2,14
5,C,dia2,13
6,A,dia3,25
7,B,dia3,22
8,C,dia3,26
9,A,dia4,18


Os nomes das colunas de variáveis ​​e valores são fornecidos por padrão. Podemos usar var_name e value_name parâmetros da função fundido para atribuir novos nomes de coluna. Também parecerá melhor se classificarmos os dados por coluna da cidade:

In [6]:
df1.melt(id_vars=['Cidade'], var_name='date',value_name = 'temperatura').sort_values(by='Cidade').reset_index(drop=True)

Unnamed: 0,Cidade,date,temperatura
0,A,dia1,22
1,A,dia2,10
2,A,dia3,25
3,A,dia4,18
4,A,dia5,12
5,B,dia1,25
6,B,dia2,14
7,B,dia3,22
8,B,dia4,1
9,B,dia5,14


Empilhar e desempilhar


A função de pilha aumenta o nível de índice do quadro de dados. O que quero dizer com aumentar o nível é:

* Se o quadro de dados tiver um índice de coluna simples, a pilha retornará uma série cujos índices consistem em pares de linhas e colunas do quadro de dados original.

* Se o dataframe tiver um índice de vários níveis, a pilha aumentará o nível do índice.

É melhor explicado com exemplos. Considere o seguinte quadro de dados:

In [7]:
df1

Unnamed: 0,Cidade,dia1,dia2,dia3,dia4,dia5
0,A,22,10,25,18,12
1,B,25,14,22,1,14
2,C,28,13,26,17,18


O df1 possui 3 linhas e 6 colunas com um índice simples de colunas inteiras. Se a função de pilha for aplicada ao df1, ele retornará uma série com 3 x 6 = 18 linhas. O índice da série será [(0, 'cidade'), (0, 'dia1'),…, (2, 'dia5')].


In [8]:
df1.stack()

0  Cidade     A
   dia1      22
   dia2      10
   dia3      25
   dia4      18
   dia5      12
1  Cidade     B
   dia1      25
   dia2      14
   dia3      22
   dia4       1
   dia5      14
2  Cidade     C
   dia1      28
   dia2      13
   dia3      26
   dia4      17
   dia5      18
dtype: object

Vamos também verificar a forma e o índice:

In [9]:
df1.shape

(3, 6)

In [10]:
df1.stack().shape

(18,)

In [11]:
df1.stack().index[0]

(0, 'Cidade')

As funções de empilhamento e desempilhar são mais comumente usadas para quadros de dados com índices de vários níveis. Vamos criar um quadro de dados com índice multinível:

In [12]:
tuplas = [('A',1), ('A',2),('A',3),('B',1),('A',2)]

In [13]:
index = pd.MultiIndex.from_tuples(tuplas, names=['primeiro','segundo'])

In [14]:
df2 = pd.DataFrame(np.random.randint(10, size=(5,2)), index=index, columns=['column_x', 'column_y'])

In [15]:
df2.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,column_x,column_y
primeiro,segundo,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,2,5
A,2,2,8
A,3,0,6
B,1,8,8
A,2,9,4


Se aplicarmos a função de pilha nesse quadro de dados, o nível do índice será aumentado:

In [18]:
df_stacked = df2.stack().to_frame()
df_stacked

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
primeiro,segundo,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,column_x,2
A,1,column_y,5
A,2,column_x,2
A,2,column_y,8
A,3,column_x,0
A,3,column_y,6
B,1,column_x,8
B,1,column_y,8
A,2,column_x,9
A,2,column_y,4


Agora, os nomes das colunas (column_x e column_y) fazem parte do índice de vários níveis. Portanto, o quadro de dados resultante possui uma coluna e um índice múltiplo de três níveis.

In [19]:
df_stacked.index.levels

FrozenList([['A', 'B'], [1, 2, 3], ['column_x', 'column_y']])

In [20]:
df2.index.levels

FrozenList([['A', 'B'], [1, 2, 3]])

Desempilhar é exatamente o oposto da pilha . Se aplicarmos desempilhar no quadro de dados empilhado, recuperaremos o quadro de dados original:

In [None]:
df_stacked.unstack()

***Pivô***

A função dinâmica também pode ser considerada como uma maneira de observar o quadro de dados de uma perspectiva diferente. É usado para explorar os relacionamentos entre variáveis, permitindo representar dados em diferentes formatos.

> Considere o seguinte quadro de dados:

In [26]:
df5 = pd.DataFrame({
    'Cidade':['A','B','C'],
    'Nome':['Joao','Tony','Adao'],
    'Valor1':[10,14,13],
    'Valor2':[24,26,18]
})

In [27]:
df5.head()

Unnamed: 0,Cidade,Nome,Valor1,Valor2
0,A,Joao,10,24
1,B,Tony,14,26
2,C,Adao,13,18


Queremos ver como os valores mudam de acordo com os pares cidade-nome. Podemos criar uma nova representação desse quadro de dados com um índice de nomes e colunas de cidades

In [29]:
df5.pivot(index='Nome', columns='Cidade')

Unnamed: 0_level_0,Valor1,Valor1,Valor1,Valor2,Valor2,Valor2
Cidade,A,B,C,A,B,C
Nome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Adao,,,13.0,,,18.0
Joao,10.0,,,24.0,,
Tony,,14.0,,,26.0,


Se um par de cidade-nome não existir, a célula correspondente será preenchida com NaN.


Não precisamos ver todos os valores de uma só vez. Os valores a serem inseridos no quadro de dados podem ser filtrados usando o parâmetro values :

In [31]:
df5.pivot(index='Nome', columns='Cidade', values='Valor1')

Cidade,A,B,C
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adao,,,13.0
Joao,10.0,,
Tony,,14.0,
