# Data Wrangling II

* **Stack** e **Unstack**

#### Stack 

Usado para converter colunas de um DataFrame em índices, resultando em uma reorganização dos dados de formato "largo" (wide) para formato "longo" (long). Ela empilha as colunas selecionadas, movendo-as para o índice mais interno 

![Alt text](image.png)

#### Exemplo:

* Stack 

![Alt text](<Captura de tela 2023-09-17 175804.png>)


##### Unstack

A Função unstack é o oposto da função stack. Ela desempilha os dados de um DataFrame de formato "longo" para "largo", movendo índices internos para as colunas correspondentes, reorganizando o DataFrame para o formato mais tubular. 

![Alt text](image-1.png)



##### Exemplo:

* Unstack

![Alt text](<Captura de tela 2023-09-17 180107.png>)

#### Explode

É usado para transformar listas (ou outras estruturas de dados semelhantes a listas) que estão contidas em uma coluna DataFrame em linhas separadas, replicando os valores das outras colunas correspondentes. 

![Alt text](<Captura de tela 2023-09-17 180854.png>)

### Hora da Pratica 

In [3]:
import numpy as np
import pandas as pd

In [4]:
df = pd.read_csv('realtor-data.csv') #puxa/le o arquivo csv 

In [6]:
df.info() #apresentan  informações sobre o arquivo 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 10 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   status          100000 non-null  object 
 1   bed             75050 non-null   float64
 2   bath            75112 non-null   float64
 3   acre_lot        85987 non-null   float64
 4   city            99948 non-null   object 
 5   state           100000 non-null  object 
 6   zip_code        99805 non-null   float64
 7   house_size      75082 non-null   float64
 8   prev_sold_date  28745 non-null   object 
 9   price           100000 non-null  float64
dtypes: float64(6), object(4)
memory usage: 7.6+ MB


In [7]:
df.head(5) # pega as primeiras 5 linhas

Unnamed: 0,status,bed,bath,acre_lot,city,state,zip_code,house_size,prev_sold_date,price
0,for_sale,3.0,2.0,0.12,Adjuntas,Puerto Rico,601.0,920.0,,105000.0
1,for_sale,4.0,2.0,0.08,Adjuntas,Puerto Rico,601.0,1527.0,,80000.0
2,for_sale,2.0,1.0,0.15,Juana Diaz,Puerto Rico,795.0,748.0,,67000.0
3,for_sale,4.0,2.0,0.1,Ponce,Puerto Rico,731.0,1800.0,,145000.0
4,for_sale,6.0,2.0,0.05,Mayaguez,Puerto Rico,680.0,,,65000.0


In [9]:
# Para realizar um exemplo de stack e unstack vai ser feito inicialmente um groupby. 
# Vamos realizar um groupby onde iremos realizar uma media dos valores das casas dos estados e cidades 

# pegue os dados do csv que estão como df ( dataframe) e groupby -> Agrupe os dados -> (['Das colulnas State', 'E city])['pegue o campo price'].mean(faça a média)

df.groupby(['state', 'city'])['price'].mean()  

state           city        
Connecticut     Andover         2.492542e+05
                Ashford         2.849269e+05
                Avon            6.070604e+05
                Barkhamsted     3.752788e+05
                Berlin          3.484531e+05
                                    ...     
Virgin Islands  Frederiksted    7.014767e+05
                Kingshill       4.578320e+05
                Saint John      1.003303e+06
                Saint Thomas    1.169000e+06
Virginia        Chincoteague    7.500000e+04
Name: price, Length: 582, dtype: float64

In [10]:
# podemos realizar um df sumarizado 

df_sum = pd.DataFrame(df.groupby(['state', 'city'])['price'].mean())

In [11]:
df_sum

# No exemplo a baixo, vejá que há somente uma coluna a Price, a coluna state e city estão como indice 

Unnamed: 0_level_0,Unnamed: 1_level_0,price
state,city,Unnamed: 2_level_1
Connecticut,Andover,2.492542e+05
Connecticut,Ashford,2.849269e+05
Connecticut,Avon,6.070604e+05
Connecticut,Barkhamsted,3.752788e+05
Connecticut,Berlin,3.484531e+05
...,...,...
Virgin Islands,Frederiksted,7.014767e+05
Virgin Islands,Kingshill,4.578320e+05
Virgin Islands,Saint John,1.003303e+06
Virgin Islands,Saint Thomas,1.169000e+06


In [12]:
df_sum.index

#veja que o resultado é um multiIndex

MultiIndex([(   'Connecticut',       'Andover'),
            (   'Connecticut',       'Ashford'),
            (   'Connecticut',          'Avon'),
            (   'Connecticut',   'Barkhamsted'),
            (   'Connecticut',        'Berlin'),
            (   'Connecticut',     'Bethlehem'),
            (   'Connecticut',    'Bloomfield'),
            (   'Connecticut',        'Bolton'),
            (   'Connecticut',        'Bozrah'),
            (   'Connecticut',       'Bristol'),
            ...
            (       'Vermont',    'Whitingham'),
            (       'Vermont',    'Wilmington'),
            (       'Vermont',       'Winhall'),
            (       'Vermont',      'Woodford'),
            ('Virgin Islands', 'Christiansted'),
            ('Virgin Islands',  'Frederiksted'),
            ('Virgin Islands',     'Kingshill'),
            ('Virgin Islands',    'Saint John'),
            ('Virgin Islands',  'Saint Thomas'),
            (      'Virginia',  'Chincoteague')],
   

In [14]:
df_sum.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,price
state,city,Unnamed: 2_level_1
Connecticut,Andover,249254.166667
Connecticut,Ashford,284926.865672
Connecticut,Avon,607060.414013
Connecticut,Barkhamsted,375278.787879
Connecticut,Berlin,348453.061224


* **Exemplo Stack e Unstack**

Obs: Lemando que foi necessario criar um groupby acima:

In [13]:
# Agora vamos para o exemplo Stack
# Veja que a coluna price, se tornou um indice 
# Então o comando pega uma coluna e adiciona ao conjunto de index

df_sum.stack()

state           city               
Connecticut     Andover       price    2.492542e+05
                Ashford       price    2.849269e+05
                Avon          price    6.070604e+05
                Barkhamsted   price    3.752788e+05
                Berlin        price    3.484531e+05
                                           ...     
Virgin Islands  Frederiksted  price    7.014767e+05
                Kingshill     price    4.578320e+05
                Saint John    price    1.003303e+06
                Saint Thomas  price    1.169000e+06
Virginia        Chincoteague  price    7.500000e+04
Length: 582, dtype: float64

In [16]:
df_stack = pd.DataFrame(df_sum.stack())

df_stack

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
state,city,Unnamed: 2_level_1,Unnamed: 3_level_1
Connecticut,Andover,price,2.492542e+05
Connecticut,Ashford,price,2.849269e+05
Connecticut,Avon,price,6.070604e+05
Connecticut,Barkhamsted,price,3.752788e+05
Connecticut,Berlin,price,3.484531e+05
...,...,...,...
Virgin Islands,Frederiksted,price,7.014767e+05
Virgin Islands,Kingshill,price,4.578320e+05
Virgin Islands,Saint John,price,1.003303e+06
Virgin Islands,Saint Thomas,price,1.169000e+06


In [18]:
# Então o comando pega uma coluna e adiciona ao conjunto de index

df_stack.index

MultiIndex([(   'Connecticut',       'Andover', 'price'),
            (   'Connecticut',       'Ashford', 'price'),
            (   'Connecticut',          'Avon', 'price'),
            (   'Connecticut',   'Barkhamsted', 'price'),
            (   'Connecticut',        'Berlin', 'price'),
            (   'Connecticut',     'Bethlehem', 'price'),
            (   'Connecticut',    'Bloomfield', 'price'),
            (   'Connecticut',        'Bolton', 'price'),
            (   'Connecticut',        'Bozrah', 'price'),
            (   'Connecticut',       'Bristol', 'price'),
            ...
            (       'Vermont',    'Whitingham', 'price'),
            (       'Vermont',    'Wilmington', 'price'),
            (       'Vermont',       'Winhall', 'price'),
            (       'Vermont',      'Woodford', 'price'),
            ('Virgin Islands', 'Christiansted', 'price'),
            ('Virgin Islands',  'Frederiksted', 'price'),
            ('Virgin Islands',     'Kingshill', 'price')

In [19]:
# veja os indices do dataframe bruto - csv

df.index

RangeIndex(start=0, stop=100000, step=1)

In [20]:
#Agora realizando um Unstack o Price volta a se tornar coluna da variavel média do preço

df_stack.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,Unnamed: 1_level_1,price
state,city,Unnamed: 2_level_2
Connecticut,Andover,2.492542e+05
Connecticut,Ashford,2.849269e+05
Connecticut,Avon,6.070604e+05
Connecticut,Barkhamsted,3.752788e+05
Connecticut,Berlin,3.484531e+05
...,...,...
Virgin Islands,Frederiksted,7.014767e+05
Virgin Islands,Kingshill,4.578320e+05
Virgin Islands,Saint John,1.003303e+06
Virgin Islands,Saint Thomas,1.169000e+06


* Novo exemplo com DataFrame ficticio 

In [21]:

# df_ex = Nome da variavel dataframe 
# pd.DataFrame = pd (modulo) DataFrame (classe)
# {} dentro está sendo colocado os nomes das coluna 
# [] dentro está sendo colocado os valores 

df_ex = pd.DataFrame({'Valor1':[1,2,3,4], 'Valor2': [5,6,7,8]})

df_ex

Unnamed: 0,Valor1,Valor2
0,1,5
1,2,6
2,3,7
3,4,8


In [22]:
df_ex.stack()

# Realizado o stack veja que as colunas se tornaram indices 

# Retorou uma unica coluna, com essas categorias e uma outra coluna com os valores

0  Valor1    1
   Valor2    5
1  Valor1    2
   Valor2    6
2  Valor1    3
   Valor2    7
3  Valor1    4
   Valor2    8
dtype: int64

In [23]:
pd.DataFrame(df_ex.stack())

Unnamed: 0,Unnamed: 1,0
0,Valor1,1
0,Valor2,5
1,Valor1,2
1,Valor2,6
2,Valor1,3
2,Valor2,7
3,Valor1,4
3,Valor2,8


In [24]:
pd.DataFrame(df_ex.stack()).index

MultiIndex([(0, 'Valor1'),
            (0, 'Valor2'),
            (1, 'Valor1'),
            (1, 'Valor2'),
            (2, 'Valor1'),
            (2, 'Valor2'),
            (3, 'Valor1'),
            (3, 'Valor2')],
           )

In [25]:
pd.DataFrame(df_ex.stack()).reset_index()

Unnamed: 0,level_0,level_1,0
0,0,Valor1,1
1,0,Valor2,5
2,1,Valor1,2
3,1,Valor2,6
4,2,Valor1,3
5,2,Valor2,7
6,3,Valor1,4
7,3,Valor2,8


In [26]:
pd.DataFrame(df_ex.stack()).reset_index(level=1)

Unnamed: 0,level_1,0
0,Valor1,1
0,Valor2,5
1,Valor1,2
1,Valor2,6
2,Valor1,3
2,Valor2,7
3,Valor1,4
3,Valor2,8


* **Exemplo do Explode**

In [28]:
teds = ['Ted Joao', 'Ted Maria', 'Ted Marcos']
tags = [['saude', 'alimentação'], ['Esporte', 'Corrida', 'Competição'], ['Cursos', 'Tecnologia']]

print(teds)
print(tags)

['Ted Joao', 'Ted Maria', 'Ted Marcos']
[['saude', 'alimentação'], ['Esporte', 'Corrida', 'Competição'], ['Cursos', 'Tecnologia']]


In [32]:
df_ex2 = pd.DataFrame({'TED': teds, 'Tags': tags })

In [33]:
df_ex2

Unnamed: 0,TED,Tags
0,Ted Joao,"[saude, alimentação]"
1,Ted Maria,"[Esporte, Corrida, Competição]"
2,Ted Marcos,"[Cursos, Tecnologia]"


In [34]:
df_ex2.explode('Tags')

Unnamed: 0,TED,Tags
0,Ted Joao,saude
0,Ted Joao,alimentação
1,Ted Maria,Esporte
1,Ted Maria,Corrida
1,Ted Maria,Competição
2,Ted Marcos,Cursos
2,Ted Marcos,Tecnologia


In [35]:
df_ex2.explode('Tags').value_counts()


TED         Tags       
Ted Joao    alimentação    1
            saude          1
Ted Marcos  Cursos         1
            Tecnologia     1
Ted Maria   Competição     1
            Corrida        1
            Esporte        1
Name: count, dtype: int64

In [36]:
df_ex2.explode('Tags')['Tags'].value_counts()

Tags
saude          1
alimentação    1
Esporte        1
Corrida        1
Competição     1
Cursos         1
Tecnologia     1
Name: count, dtype: int64

In [37]:
# ex2 

teds2 = ['Ted Joao', 'Ted Maria', 'Ted Marcos']
tags2 = [['saude', 'alimentação'], ['Esporte', 'Corrida', 'Competição', 'alimentação'], ['Cursos', 'Tecnologia']]

df_exx2 = pd.DataFrame({'TED': teds2, 'Tags': tags2 })

df_exx2

Unnamed: 0,TED,Tags
0,Ted Joao,"[saude, alimentação]"
1,Ted Maria,"[Esporte, Corrida, Competição, alimentação]"
2,Ted Marcos,"[Cursos, Tecnologia]"


In [38]:
df_exx2.explode('Tags').value_counts()

TED         Tags       
Ted Joao    alimentação    1
            saude          1
Ted Marcos  Cursos         1
            Tecnologia     1
Ted Maria   Competição     1
            Corrida        1
            Esporte        1
            alimentação    1
Name: count, dtype: int64

In [40]:
df_exx2.explode('Tags')['Tags'].value_counts()

Tags
alimentação    2
saude          1
Esporte        1
Corrida        1
Competição     1
Cursos         1
Tecnologia     1
Name: count, dtype: int64

#### Pivot

A função pivot() retorna um novo DataFrame com a estrutura pivotada, onde os valores únicos da coluna especificada em colunis se tornam as colunas distintas, e os valores da coluna especificada em values são distribuídos nessas colunas. 

![Alt text](<Captura de tela 2023-09-17 234715.png>)

### Pivot_table

A função pivot_table()permite calcular agregações de dados com base em uma ou mais colunas do DataFrame, fornecendo uma visão resumida dos dados em formato de tabela 

In [None]:
#Paramos 34:48