# Một số thao tác trên Index
 

In [1]:
# Như bài trước, chúng ta sẽ dùng các DataFrame sau
import numpy as np
import pandas as pd

date = np.datetime64('2019-11-25', 'D') + np.random.randint(-100, 100, size = 100)
product = np.random.choice(['Apple', 'Banana', 'Cherry'], size = 100)
quantity = np.random.randint(100, size = 100)

df1 = pd.DataFrame({'Date' : date, 'Product' : product, 'Quantity' : quantity})
df2 = pd.DataFrame([['Apple', 10], ['Banana', 15], ['Cherry', 20]], columns = ['Product', 'Price'])

In [2]:
df1.head()

Unnamed: 0,Date,Product,Quantity
0,2019-10-17,Cherry,38
1,2020-01-13,Cherry,47
2,2019-09-27,Banana,30
3,2019-11-24,Apple,74
4,2019-11-07,Banana,48


In [3]:
df2

Unnamed: 0,Product,Price
0,Apple,10
1,Banana,15
2,Cherry,20


## Thay đổi giá trị của index
Nhắc lại, để thay đổi giá trị của `index`, bạn thực hiện như sau :
```
<tên_DataFrame>.index = <index_mới>
```
Trong đó, `index_mới` là một `list` có độ dài bằng với độ dài `index` ban đầu.

In [4]:
df2.index = [1, 2, 3]
df2

Unnamed: 0,Product,Price
1,Apple,10
2,Banana,15
3,Cherry,20


Lưu ý : khi sử dụng cách trên thì sẽ trực tiếp thay đổi `DataFrame` gốc ban đầu.

## Đặt tên cho `index`
Để đặt tên cho `index`, bạn thực hiện như sau :
```
<tên_DataFrame>.index.name = <tên>
```

In [5]:
df2.index.name = 'No'
df2

Unnamed: 0_level_0,Product,Price
No,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Apple,10
2,Banana,15
3,Cherry,20


**Câu hỏi** : Làm thế nào để xoá tên của `index`?

## Đặt một cột làm index

Đôi khi, thay vì sử dụng cột tự sinh ra khi tạo `DataFrame`, người ta muốn sử dụng một (hoặc nhiều cột) làm `index`. Để thực hiện việc này, người ta dùng phương thức `.set_index()` như sau :
```
<tên_DataFrame>.set_index(<tên_cột_làm_index>)
```

Bạn hoàn toàn có thể truyền vào danh sách những cột trở thành `index`. Tuy nhiên, chúng ta sẽ không bàn đến trong môn học này.

Nếu muốn tìm hiểu thêm, bạn có thể đọc về `pandas.MultiIndex` tại [đây](https://jakevdp.github.io/PythonDataScienceHandbook/03.05-hierarchical-indexing.html).

In [6]:
df3 = df1.set_index('Date')
df3.head()

Unnamed: 0_level_0,Product,Quantity
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2019-10-17,Cherry,38
2020-01-13,Cherry,47
2019-09-27,Banana,30
2019-11-24,Apple,74
2019-11-07,Banana,48


# Đặt lại `index`
Đây là quá trình đánh số lại `index`, được thực hiện thông qua phương thức `.reset_index()` như sau :
```
<tên_DataFrame>.reset_index()
```
Nếu không muốn giữ lại `index` cũ, bạn thêm vào tham số `drop = True`.

In [8]:
df3.reset_index()

Unnamed: 0,Date,Product,Quantity
0,2019-10-17,Cherry,38
1,2020-01-13,Cherry,47
2,2019-09-27,Banana,30
3,2019-11-24,Apple,74
4,2019-11-07,Banana,48
5,2019-09-23,Cherry,39
6,2020-02-15,Cherry,69
7,2020-02-08,Banana,72
8,2019-11-14,Cherry,38
9,2019-10-10,Cherry,5


## Sắp xếp lại `index`
Để sắp xếp lại thứ tự của `index`, ta dùng phương thức `.sort_index()` như sau :
```
<tên_DataFrame>.sort_index()
```
Khi đó, `index` sẽ được sắp xếp lại theo thứ tự tăng dần. Nếu muốn sắp xếp theo thứ tự giảm dần, bạn dùng tham số `ascending = False`.

In [10]:
df3.sort_index(ascending = False)

Unnamed: 0_level_0,Product,Quantity
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-01,Cherry,22
2020-02-28,Apple,59
2020-02-24,Banana,56
2020-02-23,Cherry,53
2020-02-15,Cherry,69
2020-02-15,Banana,63
2020-02-13,Cherry,0
2020-02-08,Apple,28
2020-02-08,Banana,72
2020-02-02,Apple,32


# Biến đổi `DataFrame` bằng `.reindex()`
Phương thức `.reindex()` có cú pháp như sau :
```
<tên_DataFrame>.reindex(index = <danh_sách_tên_dòng>, columns = <danh_sách_tên_cột>)
```

Phương thức `.reindex()` sẽ trả về một `DataFrame` mới có các đặc điểm sau :
- Tên dòng theo thứ tự được chỉ ra trong `danh_sách_tên_dòng`.
- Tên cột theo thứ tự được chỉ ra trong `danh_sách_tên_cột`.
- Giá trị tại một ô là giá trị tương ứng của nó trong `DataFrame` gốc, sẽ dùng `NaN`, ... nếu không có giá trị tương ứng.

In [0]:
df2.reindex(index = [2, 1, 3], columns = ['Price', 'Product'])

Unnamed: 0,Price,Product
2,15,Banana
1,10,Apple
3,20,Cherry


In [0]:
df2.reindex(columns = ['Date', 'Price', 'Product'])

Unnamed: 0,Date,Price,Product
1,,10,Apple
2,,15,Banana
3,,20,Cherry


# Kết hợp `DataFrame` : `concat`

Như đã nói sơ lược trong phần trước, bạn có thể dùng `pd.concat()` để kết hợp hai hay nhiều `DataFrame` theo cú pháp sau :
```
pd.concat(<danh_sách_DataFrame>)
```
Trong phần này, chúng ta sẽ tìm hiểu thêm về một số tham số của `pd.concat()`.

## Tham số `ignore_index`
Có hai giá trị là `True` và `False`, trong đó :
- `True` sẽ bỏ qua tất cả `index` của các `DataFrame` và sinh ra một `index` mới. Thường dùng khi `index` không mang nhiều ý nghĩa.
- `False` sẽ kết hợp `index` của các `DataFrame` để tạo thành `index` mới.

Giá trị mặc định của `ignore_index` là `False`.

In [11]:
a = pd.DataFrame([1, 2, 3], columns = ['A'])
b = pd.DataFrame([4, 5, 6], columns = ['A'])

In [12]:
pd.concat([a, b], ignore_index = True)

Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5
5,6


## Tham số `axis`
Có 2 giá trị là `'index'` và `'columns'`, trong đó :
- `'index'` sẽ nối `DataFrame` theo chiều dọc.
- `'columns'` sẽ nối `DataFrame` theo chiều ngang.

Giá trị mặc định của `axis` là `'index'`.

In [0]:
pd.concat([a, b], axis = 'columns')

Unnamed: 0,A,A.1
0,1,4
1,2,5
2,3,6


## Tham số `join`
Có 2 giá trị là `'outer'` và `'inner'`, trong đó :
- `'outer'` : lấy tất cả cột (khi `axis = 'index'`) hoặc dòng (khi `axis = 'columns'`).
- `'inner'` : chỉ lấy phần cột chung hoặc dòng chung.

Giá trị mặc định của `join` là `'outer'`.


In [0]:
c = pd.DataFrame([['1', '2'], ['3', '4']], columns = ['A', 'B'])
d = pd.DataFrame([['5', '6'], ['7', '8']], columns = ['B', 'C'], index = [1, 2])

In [0]:
pd.concat([c, d], join = 'inner')

Unnamed: 0,B
0,2
1,4
1,5
2,7


In [0]:
pd.concat([c, d], axis = 'columns', join = 'inner')

Unnamed: 0,A,B,B.1,C
1,3,4,5,6


# Kết hợp `DataFrame` : `merge`

Cùng xem xét vấn đề sau : bạn muốn tính giá trị của các hàng hóa đã bán ra, nhưng thông tin về hóa đơn nằm ở `df1` còn thông tin về hàng hóa lại nằm ở `df2`. Bạn phải giải quyết vấn đề này thế nào?

Một hướng giải quyết là bạn thêm 1 cột mới vào `df1` với điều kiện nếu `Product` là `'Apple'` thì giá trị tương ứng này là `10`, nếu `Product` là `'Banana'` thì giá trị tương ứng là `15`.

Khác với `concat` là dạng kết nối 2 hay nhiều `DataFrame` theo hình thức **dán** các `DataFrame` lại với nhau thì `merge` là hình thức kết nối 2 `DataFrame` lại dựa trên đặc điểm chung nào đó giữa 2 `DataFrame` đó.

In [0]:
pd.merge(df1, df2)

Unnamed: 0,Date,Product,Quantity,Price
0,2019-08-22,Apple,73,10
1,2019-12-05,Apple,39,10
2,2019-11-19,Apple,0,10
3,2020-02-27,Apple,56,10
4,2020-02-01,Apple,0,10
...,...,...,...,...
95,2020-01-29,Cherry,16,20
96,2019-09-19,Cherry,98,20
97,2020-01-20,Cherry,25,20
98,2019-08-22,Cherry,79,20


Cú pháp của `pd.merge()` như sau :
```
pd.merge(<DataFrame_trái>, <DataFrame_phải>)
```

## Một số tham số của `pd.merge`
Tham số `on` dùng để chỉ ra cột điều kiện để `merge`. Mặc định sẽ dùng tất cả các cột giống tên.

Tham số `how` dùng để chỉ ra cách thức `merge`, bao gồm 4 giá trị :
- `'inner'` : chỉ lấy các giá trị có trong cả hai bên trái, phải của `merge`.
- `'outer'` : lấy tất cả giá trị trong cả hai bên của `merge`.
- `'left'` : lấy tất cả giá trị bên trái.
- `'right'` : lấy tất cả giá trị bên phải.