# 2. Advanced indexing

Setelah mempelajari dasar-dasar bekerja dengan DataFrames, Anda sekarang akan beralih ke teknik pengindeksan yang lebih maju. Anda akan belajar tentang MultiIndex, atau indeks hierarkis, dan belajar bagaimana berinteraksi dengan dan mengekstrak data dari mereka.

## Index objects and labeled data

### Index values and names

Manakah dari operasi indeks berikut ini yang tidak menimbulkan kesalahan?

**SALAH**
* <pre>sales.index[0] = 'JAN'</pre>
* <pre>sales.index[0] = sales.index[0].upper()</pre>

DataFrame `sales` yang telah Anda lihat dalam video bab sebelumnya telah dimuat sebelumnya untuk Anda dan tersedia untuk eksplorasi di IPython Shell.

In [2]:
# Import pandas 
import pandas as pd

In [14]:
# Load data
sales = pd.read_csv('sales_build.csv', index_col='month')
sales

Unnamed: 0_level_0,eggs,salt,spam
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jan,47,12.0,17
Feb,110,50.0,31
Mar,221,89.0,72
Apr,77,87.0,20
May,132,,52
Jun,205,60.0,55


In [15]:
sales.index = range(len(sales))
sales

Unnamed: 0,eggs,salt,spam
0,47,12.0,17
1,110,50.0,31
2,221,89.0,72
3,77,87.0,20
4,132,,52
5,205,60.0,55


### Changing index of a DataFrame

Seperti yang Anda lihat pada latihan sebelumnya, indeks adalah objek yang tidak dapat diubah. Ini berarti bahwa jika Anda ingin mengubah atau memodifikasi indeks dalam DataFrame, maka Anda perlu mengubah seluruh indeks. Anda akan melakukan ini sekarang, menggunakan *list comprehension* untuk membuat indeks baru.

*List comprehension* adalah cara ringkas untuk menghasilkan list dalam satu baris. Misalnya,*list comprehension* berikut menghasilkan list yang berisi kubus semua angka dari 0 hingga 9:
`cubes = [i**3 for i in range(10)]`
Ini setara dengan kode berikut:

<pre>
cubes = []
for i in range(10):
    cubes.append(i**3)
</pre>

Sebelum memulai, cetak DataFrame `sales` di IPython Shell dan verifikasi bahwa indeks diberikan oleh singkatan bulan yang berisi karakter huruf kecil.

In [8]:
# Load data
sales = pd.read_csv('sales_build.csv', index_col='month')
print(sales)

       eggs  salt  spam
month                  
Jan      47  12.0    17
Feb     110  50.0    31
Mar     221  89.0    72
Apr      77  87.0    20
May     132   NaN    52
Jun     205  60.0    55


In [9]:
# Create the list of new indexes: new_idx
new_idx = [i.upper() for i in sales.index]

# Assign new_idx to sales.index
sales.index = new_idx

# Print the sales DataFrame
print(sales)

     eggs  salt  spam
JAN    47  12.0    17
FEB   110  50.0    31
MAR   221  89.0    72
APR    77  87.0    20
MAY   132   NaN    52
JUN   205  60.0    55


**Note** : Perhatikan indeks baru DataFrame!

### Changing index name labels

Perhatikan bahwa pada latihan sebelumnya, indeks tidak diberi label dengan nama. Dalam latihan ini, Anda akan menetapkan namanya menjadi `'MONTHS'`.

Demikian pula, jika semua kolom terkait dalam beberapa cara, Anda dapat memberikan label untuk kumpulan kolom.

Untuk memulai, cetak DataFrame `sales` di IPython Shell dan verifikasi bahwa indeks tidak memiliki nama, hanya datanya (nama bulan).

In [10]:
# Assign the string 'MONTHS' to sales.index.name
sales.index.name = 'MONTHS'

# Print the sales DataFrame
print(sales)

# Assign the string 'PRODUCTS' to sales.columns.name 
sales.columns.name = 'PRODUCTS'

# Print the sales dataframe again
print(sales)

        eggs  salt  spam
MONTHS                  
JAN       47  12.0    17
FEB      110  50.0    31
MAR      221  89.0    72
APR       77  87.0    20
MAY      132   NaN    52
JUN      205  60.0    55
PRODUCTS  eggs  salt  spam
MONTHS                    
JAN         47  12.0    17
FEB        110  50.0    31
MAR        221  89.0    72
APR         77  87.0    20
MAY        132   NaN    52
JUN        205  60.0    55


**Note** : Perhatikan bagaimana dalam DataFrame pertama, indeks memiliki label, dan di DataFrame kedua, baik indeks maupun kolom memiliki label.

### Building an index, then a DataFrame

Anda juga bisa membuat DataFrame dan indeks secara mandiri, lalu menggabungkannya. Jika Anda mengambil rute ini, berhati-hatilah, karena setiap kesalahan dalam menghasilkan DataFrame atau indeks dapat menyebabkan data dan indeks tidak selaras.

Dalam latihan ini, DataFrame `sales` telah disediakan untuk Anda tanpa indeks bulan. Tugas Anda adalah membuat indeks ini secara terpisah dan kemudian menugaskannya ke DataFrame `sales`. Sebelum memulai, cetak DataFrame `sales` di IPython Shell dan catat bahwa informasi bulan itu hilang.

In [16]:
print(sales)

   eggs  salt  spam
0    47  12.0    17
1   110  50.0    31
2   221  89.0    72
3    77  87.0    20
4   132   NaN    52
5   205  60.0    55


In [17]:
# Generate the list of months: months
months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']

# Assign months to sales.index
sales.index = months

# Print the modified sales DataFrame
print(sales)

     eggs  salt  spam
Jan    47  12.0    17
Feb   110  50.0    31
Mar   221  89.0    72
Apr    77  87.0    20
May   132   NaN    52
Jun   205  60.0    55


**Note** : Anda terbiasa bekerja dengan indeks. Sekarang Anda akan beralih ke belajar tentang indeks hierarkis!

## Hierarchical indexing

### Extracting data with a MultiIndex

Dalam video, Dhavide menjelaskan konsep indeks hierarkis, atau MultiIndex. Anda sekarang akan berlatih bekerja dengan jenis indeks ini.

DataFrame `sales` yang telah Anda kerjakan telah diperluas hingga kini mencakup informasi Negara juga. Di Shell IPython, cetak DataFrame `sales` baru untuk memeriksa data. Perhatikan MultiIndex!

Mengekstrak elemen dari level terluar `MultiIndex` sama seperti dalam kasus `Index` level tunggal. Anda dapat menggunakan accessor `.loc[]`.

In [26]:
# Load data
sales = pd.read_csv('sales_build.csv')
# Create new data columns
sales['month'] = [1, 2, 1, 2, 1, 2]
sales['state'] = ['CA', 'CA', 'NY', 'NY', 'TX', 'TX']
# Create MultiIndex
sales = sales.set_index(['state', 'month'])
# Print data
print(sales)

             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
NY    1       221  89.0    72
      2        77  87.0    20
TX    1       132   NaN    52
      2       205  60.0    55


In [27]:
# Print sales.loc[['CA', 'TX']]
print(sales.loc[['CA', 'TX']])

# Print sales['CA':'TX']
print(sales['CA':'TX'])

             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
TX    1       132   NaN    52
      2       205  60.0    55
             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
NY    1       221  89.0    72
      2        77  87.0    20
TX    1       132   NaN    52
      2       205  60.0    55


**Note** : Perhatikan bagaimana New York dikecualikan oleh operasi pertama, dan dimasukkan dalam operasi kedua.

### Setting & sorting a MultiIndex

Dalam latihan sebelumnya, MultiIndex dibuat dan disortir untuk Anda. Sekarang, Anda akan melakukannya sendiri! Dengan MultiIndex, Anda harus selalu memastikan indeks diurutkan. Anda dapat melewati ini hanya jika Anda tahu data sudah diurutkan pada bidang indeks.

In [28]:
# Load data
sales = pd.read_csv('sales_build.csv')

# Create new data columns
sales['month'] = [1, 2, 1, 2, 1, 2]
sales['state'] = ['CA', 'CA', 'NY', 'NY', 'TX', 'TX']

# Print data
print(sales)

   month  eggs  salt  spam state
0      1    47  12.0    17    CA
1      2   110  50.0    31    CA
2      1   221  89.0    72    NY
3      2    77  87.0    20    NY
4      1   132   NaN    52    TX
5      2   205  60.0    55    TX


In [29]:
# Set the index to be the columns ['state', 'month']: sales
sales = sales.set_index(['state', 'month'])

# Sort the MultiIndex: sales
sales = sales.sort_index()

# Print the sales DataFrame
print(sales)

             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
NY    1       221  89.0    72
      2        77  87.0    20
TX    1       132   NaN    52
      2       205  60.0    55


### Using .loc[] with nonunique indexes

selalu lebih baik untuk memiliki indeks yang bermakna yang secara unik mengidentifikasi setiap baris. Meskipun pandas tidak memerlukan nilai indeks unik dalam DataFrames, pandas berfungsi lebih baik jika nilai indeks memang unik. Untuk melihat contohnya, Anda akan mengindeks data `sales` Anda dengan `'state'` dalam latihan ini.

In [30]:
# Load data
sales = pd.read_csv('sales_build.csv')

# Create new data columns
sales['month'] = [1, 2, 1, 2, 1, 2]
sales['state'] = ['CA', 'CA', 'NY', 'NY', 'TX', 'TX']

# Print data
print(sales)

   month  eggs  salt  spam state
0      1    47  12.0    17    CA
1      2   110  50.0    31    CA
2      1   221  89.0    72    NY
3      2    77  87.0    20    NY
4      1   132   NaN    52    TX
5      2   205  60.0    55    TX


In [31]:
# Set the index to the column 'state': sales
sales = sales.set_index(['state'])

# Print the sales DataFrame
print(sales)

# Access the data from 'NY'
print(sales.loc['NY'])

       month  eggs  salt  spam
state                         
CA         1    47  12.0    17
CA         2   110  50.0    31
NY         1   221  89.0    72
NY         2    77  87.0    20
TX         1   132   NaN    52
TX         2   205  60.0    55
       month  eggs  salt  spam
state                         
NY         1   221  89.0    72
NY         2    77  87.0    20


**Note** : Di sini, karena Anda memiliki indeks nonunique, dua baris ditampilkan.

### Indexing multiple levels of a MultiIndex

Mencari data yang diindeks cepat dan efisien. Dan Anda telah melihat bahwa pencarian berdasarkan level terluar dari suatu pekerjaan `MultiIndex` seperti pencarian pada DataFrames yang memiliki `Index` satu tingkat.

Mencari data berdasarkan level dalam `MultiIndex` bisa sedikit lebih rumit. Yang paling sulit dari semua pencarian ini adalah ketika Anda ingin mengakses beberapa level dalam indeks. Dalam hal ini, Anda perlu menggunakan `slice(None)` di parameter slicing untuk dimensi terluar daripada yang biasa `:`, atau gunakan `pd.IndexSlice`. Anda dapat merujuk ke [dokumentasi pandas](http://pandas.pydata.org/pandas-docs/stable/advanced.html) untuk lebih jelasnya. Misalnya, dalam video, Dhavide menggunakan kode berikut untuk mengekstrak baris dari semua Simbol untuk tanggal 3 Oktober hingga 4 termasuk:

<pre>
stocks.loc[(slice(None), slice('2016-10-03', '2016-10-04')), :]
</pre>

Berikan perhatian khusus pada tuple `(slice(None), slice('2016-10-03', '2016-10-04'))`.

In [33]:
# Load data
sales = pd.read_csv('sales_build.csv')
# Create new data columns
sales['month'] = [1, 2, 1, 2, 1, 2]
sales['state'] = ['CA', 'CA', 'NY', 'NY', 'TX', 'TX']
# Create MultiIndex
sales = sales.set_index(['state', 'month'])
# Print data
print(sales)

             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
NY    1       221  89.0    72
      2        77  87.0    20
TX    1       132   NaN    52
      2       205  60.0    55


In [36]:
# Look up data for NY in month 1 in sales: NY_month1
NY_month1 = sales.loc[('NY', 1)]
print(NY_month1)

# Look up data for CA and TX in month 2: CA_TX_month2
CA_TX_month2 = sales.loc[(['CA', 'TX'], 2), :]
print(CA_TX_month2)

# Access the inner month index and look up data for all states in month 2: all_month2
all_month2 = sales.loc[(slice(None), 2), :]
print(all_month2)

eggs    221.0
salt     89.0
spam     72.0
Name: (NY, 1), dtype: float64
             eggs  salt  spam
state month                  
CA    2       110  50.0    31
TX    2       205  60.0    55
             eggs  salt  spam
state month                  
CA    2       110  50.0    31
NY    2        77  87.0    20
TX    2       205  60.0    55


**Note** : Sekarang setelah Anda menguasai cara bekerja dengan indeks, Anda siap untuk mulai belajar mengatur ulang (*rearranging*) dan membentuk kembali (*reshaping*) data Anda. Sampai jumpa di Bab 3!