# 3. Rearranging and reshaping data

Di sini, Anda akan belajar cara membentuk kembali DataFrames Anda menggunakan teknik seperti pivoting, melting, stacking, dan unstacking. Ini adalah teknik yang kuat yang memungkinkan Anda untuk merapikan dan menyusun kembali data Anda ke dalam format optimal untuk analisis data.

## Pivoting DataFrames

### Pivoting and the index

Sebelum menggunakan `.pivot()`, Anda perlu mengatur indeks DataFrame dengan cara apa pun. Apakah pernyataan ini benar atau salah?

**FALSE**

### Pivoting a single variable

Misalkan Anda memulai blog untuk sebuah band, dan Anda ingin mencatat berapa banyak pengunjung yang Anda miliki, dan berapa banyak yang mendaftar untuk buletin Anda. Untuk membantu merancang tur nanti, Anda melacak di mana pengunjung berada. DataFrame `users` yang digunakan terdiri dari informasi ini telah dimuat sebelumnya untuk Anda.

Periksa `users` di IPython Shell dan catat variabel mana yang ingin Anda gunakan untuk mengindeks baris ('`weekday`'), variabel mana yang ingin Anda gunakan untuk mengindeks kolom ('`city`'), dan variabel mana yang akan mengisi nilai dalam sel ('`visitors`'). Coba bayangkan apa hasilnya.

Dalam latihan ini, tugas Anda adalah pivot `users` sehingga fokusnya adalah pada `'visitors'`, dengan kolom diindeks oleh `'city'` dan baris diindeks oleh '`weekday'`.

In [13]:
# Import pandas 
import pandas as pd

# Load data
users = pd.read_csv('https://assets.datacamp.com/production/repositories/502/datasets/eaf29468b9fbaad454a74d3c2b59b36e5ab4558b/users.csv', index_col=0)
print(users)

  weekday    city  visitors  signups
0     Sun  Austin       139        7
1     Sun  Dallas       237       12
2     Mon  Austin       326        3
3     Mon  Dallas       456        5


In [5]:
# Pivot the users DataFrame: visitors_pivot
visitors_pivot = users.pivot(index='weekday', columns='city', values='visitors')

# Print the pivoted DataFrame
print(visitors_pivot)

city     Austin  Dallas
weekday                
Mon         326     456
Sun         139     237


### Pivoting all variables

Jika Anda tidak memilih variabel tertentu, semuanya akan dipivot. Dalam hal ini - dengan `users` DataFrame - `'visitors'` dan `'signups'` akan dipivot, membuat label kolom hierarkis.

In [6]:
# Pivot users with signups indexed by weekday and city: signups_pivot
signups_pivot = users.pivot(index='weekday', columns='city', values='signups')

# Print signups_pivot
print(signups_pivot)

# Pivot users pivoted by both signups and visitors: pivot
pivot = users.pivot(index='weekday', columns='city')

# Print the pivoted DataFrame
print(pivot)

city     Austin  Dallas
weekday                
Mon           3       5
Sun           7      12
        visitors        signups       
city      Austin Dallas  Austin Dallas
weekday                               
Mon          326    456       3      5
Sun          139    237       7     12


**Note** : Perhatikan bagaimana dalam DataFrame kedua, `'signups'` dan `'visitors'` dipivot secara default karena Anda tidak memberikan argumen untuk parameter `values`.

## Stacking & unstacking DataFrames

### Stacking & unstacking I

Anda sekarang akan berlatih stacking dan unstacking DataFrames. DataFrame `users` yang telah Anda kerjakan dalam bab ini telah dimuat sebelumnya untuk Anda, kali ini dengan MultiIndex. Jelajahi di IPython Shell untuk melihat tata letak data. Perhatikan indeks, dan perhatikan bahwa level indeks adalah `['city', 'weekday']`. Jadi `'weekday'` - entri kedua - memiliki posisi 1. Posisi ini sesuai dengan parameter level dalam `.stack()` dan `.unstack()`. Atau, Anda dapat menentukan `'weekday'` sebagai level alih-alih posisinya.

Tugas Anda dalam latihan ini adalah unstack `users` pada `'weekday'`. Anda kemudian akan menggunakan `.stack()` pada DataFrame yang unstacked untuk melihat apakah Anda mendapatkan kembali tata letak `users` yang asli.

In [17]:
# Load data
filename = 'https://assets.datacamp.com/production/repositories/502/datasets/eaf29468b9fbaad454a74d3c2b59b36e5ab4558b/users.csv'
users = pd.read_csv(filename, index_col=0, )
users = users.set_index(['city', 'weekday'])
print(users)

                visitors  signups
city   weekday                   
Austin Sun           139        7
Dallas Sun           237       12
Austin Mon           326        3
Dallas Mon           456        5


In [10]:
# Unstack users by 'weekday': byweekday
byweekday = users.unstack('weekday')

# Print the byweekday DataFrame
print(byweekday)

# Stack byweekday by 'weekday' and print it
print(byweekday.stack())

        visitors      signups    
weekday      Mon  Sun     Mon Sun
city                             
Austin       326  139       3   7
Dallas       456  237       5  12
                visitors  signups
city   weekday                   
Austin Mon           326        3
       Sun           139        7
Dallas Mon           456        5
       Sun           237       12


**Note** : Dengan stacking dan unstacking `users`, Anda berakhir dengan tata letak yang sama dengan DataFrame asli.

### Stacking & unstacking II

Anda sekarang akan terus bekerja dengan DataFrame `users`. Seperti biasa, pertama-tama jelajahi di IPython Shell untuk melihat tata letak dan perhatikan indeksnya.

Tugas Anda dalam latihan ini adalah unstack dan kemudian stack level `'city'`, seperti yang Anda lakukan sebelumnya untuk `'weekday'`. Perhatikan bahwa Anda tidak akan mendapatkan DataFrame yang sama.

In [11]:
# Load data
filename = 'https://assets.datacamp.com/production/repositories/502/datasets/eaf29468b9fbaad454a74d3c2b59b36e5ab4558b/users.csv'
users = pd.read_csv(filename, index_col=0, )
users = users.set_index(['city', 'weekday'])
print(users)

                visitors  signups
city   weekday                   
Austin Sun           139        7
Dallas Sun           237       12
Austin Mon           326        3
Dallas Mon           456        5


In [12]:
# Unstack users by 'city': bycity
bycity = users.unstack('city')

# Print the bycity DataFrame
print(bycity)

# Stack bycity by 'city' and print it
print(bycity.stack())

        visitors        signups       
city      Austin Dallas  Austin Dallas
weekday                               
Mon          326    456       3      5
Sun          139    237       7     12
                visitors  signups
weekday city                     
Mon     Austin       326        3
        Dallas       456        5
Sun     Austin       139        7
        Dallas       237       12


**Note** : Semoga latihan ini dan yang sebelumnya telah mengembangkan intuisi Anda tentang bagaimana stacking dan unstacking bekerja.

### Restoring the index order

Melanjutkan latihan sebelumnya, Anda sekarang akan menggunakan `.swaplevel(0, 1)` untuk membalik level indeks. Perhatikan bahwa mereka tidak akan diurutkan. Untuk mengurutkannya, Anda harus menindaklanjuti dengan `.sort_index()`. Anda kemudian akan mendapatkan DataFrame asli. Perhatikan bahwa indeks yang tidak disortir menyebabkan kegagalan slicing.

Untuk memulai, cetak `users` dan `bycity` di IPython Shell. Tujuannya di sini adalah untuk mengkonversi `bycity` kembali ke sesuatu yang terlihat seperti `users`.

In [33]:
# Load data
df = pd.read_csv(filename, index_col=0)

users = df.set_index(['city', 'weekday'])

# Unstack users by 'city': bycity
bycity = users.unstack('city')

In [34]:
# Stack 'city' back into the index of bycity: newusers
newusers = bycity.stack('city')

# Swap the levels of the index of newusers: newusers
newusers = newusers.swaplevel(0, 1)

# Print newusers and verify that the index is not sorted
print(newusers)

# Sort the index of newusers: newusers
newusers = newusers.sort_index()

# Print newusers and verify that the index is now sorted
print(newusers)

# Verify that the new DataFrame is equal to the original
print(newusers.equals(users))

                visitors  signups
city   weekday                   
Austin Mon           326        3
Dallas Mon           456        5
Austin Sun           139        7
Dallas Sun           237       12
                visitors  signups
city   weekday                   
Austin Mon           326        3
       Sun           139        7
Dallas Mon           456        5
       Sun           237       12
False


## Melting DataFrames

### Adding names for readability

Anda sekarang akan berlatih melting DataFrames. Sebuah DataFrame `visitors_by_city_weekday` telah di pre-loaded untuk Anda. Jelajahi di IPython Shell dan melihat bahwa itu adalah `users` DataFrame dari latihan sebelumnya dengan baris diindeks oleh `'weekday'`, kolom diindeks oleh `'city'`, dan nilai-nilai diisi dengan `'visitors'`.

Tujuan *melting* adalah mengembalikan DataFrame yang dipivot ke bentuk aslinya, atau mengubahnya dari bentuk lebar ke bentuk panjang. Anda dapat secara eksplisit menentukan kolom yang harus tetap dalam DataFrame yang dibentuk ulang dengan `id_vars`, dan list kolom mana yang akan dikonversi menjadi nilai dengan `value_vars`. Jika Anda tidak meneruskan nama ke nilai di `pd.melt()`, Anda akan kehilangan nama variabel Anda. Anda dapat memperbaikinya dengan menggunakan argumen kata kunci `value_name`.

Tugas Anda dalam latihan ini adalah untuk melakukan melt `visitors_by_city_weekday` untuk memindahkan nama kota dari label kolom ke nilai dalam satu kolom yang disebut `'city'`.

Anda harus menentukan keyword argument `id_vars` untuk memastikan bahwa `'weekday'` dipertahankan dalam DataFrame, dan keyword argument `value_name` untuk mengubah nama `value` ke `visitors`.

In [37]:
# Load data
users = pd.read_csv(filename, index_col=0)

# Pivot users with signups indexed by weekday and city: signups_pivot
visitors_by_city_weekday = users.pivot(index='weekday', columns='city', values='visitors')
visitors_by_city_weekday

city,Austin,Dallas
weekday,Unnamed: 1_level_1,Unnamed: 2_level_1
Mon,326,456
Sun,139,237


In [39]:
# Reset the index: visitors_by_city_weekday
visitors_by_city_weekday = visitors_by_city_weekday.reset_index() 

# Print visitors_by_city_weekday
print(visitors_by_city_weekday)

# Melt visitors_by_city_weekday: visitors
visitors = pd.melt(visitors_by_city_weekday, id_vars=['weekday'], value_name='visitors')

# Print visitors
print(visitors)

city weekday  Austin  Dallas
0        Mon     326     456
1        Sun     139     237
  weekday    city  visitors
0     Mon  Austin       326
1     Sun  Austin       139
2     Mon  Dallas       456
3     Sun  Dallas       237


**Note** : Perhatikan bagaimana DataFrame yang sudah di *melted* sekarang memiliki kolom `'city'` dengan nilai `Austin` dan `Dallas`. Dalam DataFrame asli, mereka adalah kolom itu sendiri. Perhatikan juga bagaimana menentukan parameter `value_name` telah mengubah nama kolom `'value'` menjadi `'visitors' `.

### Going from wide to long

Anda dapat memindahkan banyak kolom menjadi satu kolom (membuat data panjang dan ramping) dengan "melting" beberapa kolom. Dalam latihan ini, Anda akan berlatih melakukan ini dengan DataFrame `users`.

In [40]:
users

Unnamed: 0,weekday,city,visitors,signups
0,Sun,Austin,139,7
1,Sun,Dallas,237,12
2,Mon,Austin,326,3
3,Mon,Dallas,456,5


In [41]:
# Melt users: skinny
skinny = pd.melt(users, id_vars=['weekday', 'city'], value_vars=['visitors', 'signups'])

# Print skinny
print(skinny)

  weekday    city  variable  value
0     Sun  Austin  visitors    139
1     Sun  Dallas  visitors    237
2     Mon  Austin  visitors    326
3     Mon  Dallas  visitors    456
4     Sun  Austin   signups      7
5     Sun  Dallas   signups     12
6     Mon  Austin   signups      3
7     Mon  Dallas   signups      5


**Note** : Di sini, karena Anda tidak menentukan parameter `var_name` atau `value_name`, melted DataFrame memiliki default `variable` dan nama kolom `value`.

### Obtaining key-value pairs with melt()

Terkadang, yang Anda butuhkan hanyalah pasangan kunci-nilai (*key-value pairs*), dan konteksnya bukan masalah. Jika konteks ada dalam indeks, Anda dapat dengan mudah mendapatkan apa yang Anda inginkan. Misalnya, dalam DataFrame `users`, kolom `visitors` dan `signups` cocok untuk direpresentasikan sebagai pasangan kunci-nilai. Jadi jika Anda membuat indeks hierarkis dengan kolom `'city'` dan `'weekday'` sebagai indeks, Anda dapat dengan mudah mengekstrak pasangan kunci-nilai untuk kolom `'visitors'` dan `'signups'` dengan melting `users` dan menentukan `col_level=0`.

In [44]:
# Set the new index: users_idx
users_idx = users.set_index(['city', 'weekday'])

# Print the users_idx DataFrame
print(users_idx)

# Obtain the key-value pairs: kv_pairs
kv_pairs = pd.melt(users_idx, col_level=0)

# Print the key-value pairs
print(kv_pairs)

                visitors  signups
city   weekday                   
Austin Sun           139        7
Dallas Sun           237       12
Austin Mon           326        3
Dallas Mon           456        5
   variable  value
0  visitors    139
1  visitors    237
2  visitors    326
3  visitors    456
4   signups      7
5   signups     12
6   signups      3
7   signups      5


**Note** : Perlu selalu diingat apakah ada aspek data yang cocok untuk direpresentasikan sebagai pasangan kunci-nilai.

## Pivot tables

### Setting up a pivot table

Pivot tabel memungkinkan Anda melihat semua variabel Anda sebagai fungsi dari dua variabel lainnya. Dalam latihan ini, Anda akan menggunakan metode `.pivot_table()` untuk melihat bagaimana entri dataFrame `users` muncul ketika digunakan sebagai fungsi kolom `'weekday'` dan `'city'`. Yaitu, dengan baris diindeks oleh `'weekday'` dan kolom diindeks oleh `'city'`.

In [45]:
# Create the DataFrame with the appropriate pivot table: by_city_day
by_city_day = users.pivot_table(index='weekday', columns='city')

# Print by_city_day
print(by_city_day)

        signups        visitors       
city     Austin Dallas   Austin Dallas
weekday                               
Mon           3      5      326    456
Sun           7     12      139    237


**Note** : Perhatikan label indeks dan kolom masing-masing adalah `'weekday'` dan `'city'` - persis seperti yang Anda tentukan.

### Using other aggregations in pivot tables

Anda juga dapat menggunakan fungsi agregasi dalam tabel pivot dengan menentukan parameter `aggfunc`. Dalam latihan ini, Anda akan berlatih menggunakan fungsi agregasi `'count'` dan `len` - yang menghasilkan hasil yang sama - pada DataFrame `users`.

In [46]:
# Use a pivot table to display the count of each column: count_by_weekday1
count_by_weekday1 = users.pivot_table(index='weekday', aggfunc='count')

# Print count_by_weekday
print(count_by_weekday1)

# Replace 'aggfunc='count'' with 'aggfunc=len': count_by_weekday2
count_by_weekday2 = users.pivot_table(index='weekday', aggfunc=len)

# Verify that the same result is obtained
print('==========================================')
print(count_by_weekday1.equals(count_by_weekday2))

         city  signups  visitors
weekday                         
Mon         2        2         2
Sun         2        2         2
True


**Note** : Seperti yang diharapkan, fungsi agregasi `len` dan `'count'` menghasilkan hasil yang sama.

### Using margins in pivot tables

Terkadang berguna untuk menambahkan total pada margin tabel pivot. Anda dapat melakukan ini dengan argumen `margins=True`. Dalam latihan ini, Anda akan berlatih menggunakan margin dalam tabel pivot bersama dengan fungsi agregasi baru: `sum`.

In [47]:
# Create the DataFrame with the appropriate pivot table: signups_and_visitors
signups_and_visitors = users.pivot_table(index='weekday', aggfunc=sum)

# Print signups_and_visitors
print(signups_and_visitors)

# Add in the margins: signups_and_visitors_total 
signups_and_visitors_total = users.pivot_table(index='weekday', aggfunc=sum, margins=True)

# Print signups_and_visitors_total
print(signups_and_visitors_total)

         signups  visitors
weekday                   
Mon            8       782
Sun           19       376
         signups  visitors
weekday                   
Mon            8       782
Sun           19       376
All           27      1158


**Note** : Lihatlah bagaimana menentukan `margins=True` menghasilkan total dalam setiap kolom yang dihitung.