# Giới thiệu

Trong bài học này, chúng ta sẽ sử dụng các `DataFrame` mẫu sau đây :

In [2]:
import numpy as np
import pandas as pd

date = np.datetime64('2019-11-25', 'D') + np.random.randint(-100, 100, size = 100)
product = np.random.choice(['Apple', 'Banana', 'Cherry'], size = 100)
quantity = np.random.randint(100, size = 100)

df1 = pd.DataFrame({'Date' : date, 'Product' : product, 'Quantity' : quantity})
df2 = pd.DataFrame(['Apple', 'Banana', 'Cherry'], columns = ['Product'])

In [57]:
df1.head(10)

Unnamed: 0,Date,Product,Quantity
0,2019-11-11,Banana,64
1,2019-12-23,Banana,9
2,2020-02-14,Apple,94
3,2019-11-03,Banana,49
4,2019-12-21,Apple,96
5,2019-08-25,Cherry,61
6,2020-02-07,Banana,58
7,2019-10-29,Cherry,77
8,2019-09-29,Apple,13
9,2019-11-09,Apple,44


In [58]:
df2

Unnamed: 0,Product
0,Apple
1,Banana
2,Cherry


# Thêm cột mới vào `DataFrame`

Để thêm một cột mới vào `DataFrame`, ta có thể làm như sau :
```
<tên_DataFrame>[<tên_cột_mới>] = <giá_trị>
```
hoặc dùng phương thức `.assign()` 
```
.assign(<tên_cột_mới> = <giá_trị>)
```
Trong đó, `giá_trị` có thể là một `list`, `pandas.Series`

In [59]:
# Ví dụ :
df2['Price'] = [10, 15, 20] # df2 = df2.assign(Price = [10, 15, 20])
df2

Unnamed: 0,Product,Price
0,Apple,10
1,Banana,15
2,Cherry,20


**Câu hỏi** :
- Nếu số lượng của giá trị khác với số lượng của dòng của `DataFrame`, phép gán trên có thể thực hiện được hay không?
- Trong trường hợp `giá_trị` là một `Series` có `label` không nằm trong `DataFrame`, việc thêm cột mới có thể được thực hiện hay không?

# Thêm dòng mới vào `DataFrame`

Để thêm dòng mới vào `DataFrame`, ta có thể dùng phương thức `.append()` như sau :
```
.append(<giá_trị>, ignore_index)
```
Trong đó :
- `giá_trị` có thể là một `dictionary` hoặc `DataFrame`.
- `ignore_index` dùng để báo cho `pandas` cách đánh `label` của dòng mới. Có hai giá trị là `True` và `False`. `True` sẽ bỏ qua `label` (nếu có) của các dòng mới, `False` sẽ sử dụng `label` (nếu có) của các dòng mới. Mặc định là `False`.

In [60]:
# Ví dụ 
df2.append({'Product' : 'Durian', 'Price' : 25}, ignore_index = True)

Unnamed: 0,Product,Price
0,Apple,10
1,Banana,15
2,Cherry,20
3,Durian,25


In [0]:
df3 = pd.DataFrame([['Durian', 25], ['Fig', 30]], columns = ['Product', 'Price'])
df2.append(df3)

Unnamed: 0,Product,Price
0,Apple,10
1,Banana,15
2,Cherry,20
0,Durian,25
1,Fig,30


# Xoá dòng, cột trong `DataFrame`

Để xoá dữ liệu trong `DataFrame`, ta có thể dùng phương thức `.drop()` như sau :
```
.drop(index = <dòng_cần_xoá>, columns = <cột_cần_xoá>)
```

In [65]:
df2.drop(index = [1])

Unnamed: 0,Product,Price
0,Apple,10
2,Cherry,20


In [63]:
df2.drop(columns = ['Product'])

Unnamed: 0,Price
0,10
1,15
2,20


Về cơ bản, việc xoá dữ liệu chính là loại bỏ đi những dữ liệu không cần thiết. Nói cách khác, đó chính là việc trích xuất ra dữ liệu cần thiết để làm việc.

# Thay đổi giá trị của DataFrame

## Thay đổi giá trị cột

Về cơ bản, bạn có thể thực hiện giống như việc thêm cột mới, nhưng thay vì dùng `tên_cột_mới`, bạn dùng `tên_cột_đã_có`.

In [0]:
# ví dụ
df2.assign(Price = df2.Price * 2)

Unnamed: 0,Product,Price
0,Apple,20
1,Banana,30
2,Cherry,40


## Thay đổi giá trị dòng


Để thay đổi giá trị một dòng, bạn thực hiện như sau :
```
<dòng_cần_thay_đổi> = <giá_trị_mới>
```
Lưu ý : kích thước của `giá_trị_mới` phải bằng với kích thước của `dòng_cần_thay_đổi`

In [0]:
# ví dụ
# tạo bản copy
df4 = df2.copy()
# thay đổi giá trị 2 dòng đầu tiên
df4.iloc[0:2] = [['Mango', 12], ['Longan', 14]]
df4

Unnamed: 0,Product,Price
0,Mango,12
1,Longan,14
2,Cherry,20


# Sắp xếp `DataFrame` theo giá trị cột

Để sắp xếp một `DataFrame` theo giá trị của cột, ta có thể dùng phương thức `.sort_values()` như sau :
```
.sort_values(by = <tên_cột>, ascending)
```
Trong đó `ascending` là tham số để chỉ cách sắp xếp. Có 2 giá trị : `True` để sắp xếp tăng dần, `False` để sắp xếp giảm dần. Mặc định là `True`


In [0]:
# ví dụ :
df1.sort_values(by = 'Date', ascending = False)

Unnamed: 0,Date,Product,Quantity
37,2020-03-03,Apple,96
26,2020-02-27,Cherry,86
78,2020-02-24,Banana,93
83,2020-02-24,Banana,32
40,2020-02-23,Cherry,87
...,...,...,...
52,2019-08-28,Cherry,34
61,2019-08-24,Apple,71
80,2019-08-23,Apple,8
38,2019-08-21,Banana,38


**Câu hỏi** : Có thể sắp xếp bằng nhiều cột được hay không?