# Giới thiệu
Trong bài học này, chúng ta học về cách chuyển đổi kiểu dữ liệu trong DataFrame.


# Chuyển đổi chuỗi

In [0]:
import pandas as pd

# đọc file Data\vnm.txt
# dùng tham số names để đổi đặt tên cho các cột đọc vào
df = pd.read_csv('https://raw.githubusercontent.com/Levytan/MIS.2019/master/Data/vnm.csv', header = None, names = ['Date', 'Close', 'Volume', 'PercentChange'])

df

Unnamed: 0,Date,Close,Volume,PercentChange
0,2018-06-01,136.1k,1051610,?%
1,2018-06-04,141.6k,965230,4.04%
2,2018-06-05,144.4k,879160,1.98%
3,2018-06-06,142.8k,463720,-1.11%
4,2018-06-07,144.7k,401900,1.33%
5,2018-06-08,144.4k,505520,-0.21%
6,2018-06-11,147.0k,721050,1.8%
7,2018-06-12,147.7k,873690,0.48%
8,2018-06-13,147.7k,472470,0.0%
9,2018-06-14,146.9k,767750,-0.54%


**Bài tập** : In ra kiểu dữ liệu của từng cột của `df`.

In [0]:
df.dtypes

Date             object
Close            object
Volume            int64
PercentChange    object
dtype: object

Như các bạn có thể thấy, cột `Date`, cột `Close` và cột `PercentChange` đều là `str`. Điều này sẽ gây khó khăn cho việc xử lý dữ liệu. Vì vậy, chúng ta cần phải chuyển đổi kiểu dữ liệu về dạng phù hợp.

## Chuyển đổi chuỗi ngày tháng thàng kiểu dữ liệu thời gian

Nhắc lại, để chuyển đổi từ chuỗi ngày tháng thành kiểu thời gian, chúng ta sử dụng `pandas.to_datetime()`.

In [0]:
# chuyển đổi cột Date sang kiểu thời gian
df = df.assign(Date = pd.to_datetime(df.Date))

# kiểm tra lại
df.Date.dtype

dtype('<M8[ns]')

Như vậy, bạn đã chuyển đổi thành công thành kiểu thời gian, bây giờ có thể làm nhiều thứ hay ho hơn rồi. Chẳng hạn như đặt cột `Date` làm `index`, hoặc

In [0]:
# dùng accessor .dt để dùng các phương thức của kiểu dữ liệu thời gian
df.assign(Fancy = df.Date.dt.strftime('%d/%m/%Y'))

Unnamed: 0,Date,Close,Volume,PercentChange,Fancy
0,2018-06-01,136.1k,1051610,?%,01/06/2018
1,2018-06-04,141.6k,965230,4.04%,04/06/2018
2,2018-06-05,144.4k,879160,1.98%,05/06/2018
3,2018-06-06,142.8k,463720,-1.11%,06/06/2018
4,2018-06-07,144.7k,401900,1.33%,07/06/2018
5,2018-06-08,144.4k,505520,-0.21%,08/06/2018
6,2018-06-11,147.0k,721050,1.8%,11/06/2018
7,2018-06-12,147.7k,873690,0.48%,12/06/2018
8,2018-06-13,147.7k,472470,0.0%,13/06/2018
9,2018-06-14,146.9k,767750,-0.54%,14/06/2018


**Chú ý** : 

---

`accessor` là một tính năng của `pandas` cho phép dùng các phương thức tương ứng với kiểu dữ liệu trong một `Series`.

Các `accessor` thường dùng :
- `.str` dành cho kiểu chuỗi.
- `.dt` dành cho kiểu thời gian.
- `.cat` dành cho kiểu phân loại.  

## Chuyển đổi chuỗi số thành kiểu số
Nhắc lại, để chuyển đổi chuỗi số, chúng ta dùng đến `pandas.to_numeric()`.

In [0]:
# ví dụ, chuyển đổi cột Close thành kiểu số
# trước tiên, bỏ ký tự k
df = df.assign(Close = df.Close.str.replace('k', ''))

# kế tiếp, chuyển đổi thành kiểu số
df = df.assign(Close = pd.to_numeric(df.Close))

df

Unnamed: 0,Date,Close,Volume,PercentChange
0,2018-06-01,136.1,1051610,?%
1,2018-06-04,141.6,965230,4.04%
2,2018-06-05,144.4,879160,1.98%
3,2018-06-06,142.8,463720,-1.11%
4,2018-06-07,144.7,401900,1.33%
5,2018-06-08,144.4,505520,-0.21%
6,2018-06-11,147.0,721050,1.8%
7,2018-06-12,147.7,873690,0.48%
8,2018-06-13,147.7,472470,0.0%
9,2018-06-14,146.9,767750,-0.54%


In [0]:
df.Close.dtypes

dtype('float64')

**Bài tập** : Chuyển đổi cột `PercentChange` thành chuỗi số.

In [0]:
df = df.assign(Close = pd.to_numeric(df.Close.str.replace('k', '')))

df.Close.dtype

dtype('float64')

Sau khi chuyển đổi kiểu, nhớ kiểm tra xem có tồn tại giá trị `NaN` nào hay không và sử dụng các biện pháp phù hợp với những giá trị đó.

# Mã hóa kiểu dữ liệu phân loại

In [0]:
# data mẫu, dữ liệu từ Data\iris.csv
columns = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'type']
iris = pd.read_csv('https://raw.githubusercontent.com/Levytan/MIS.2019/master/Data/iris.csv', header = None, names = columns)

iris.head()

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,type
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


## Kiểu dữ liệu phân loại (Categorical Data)

Bên cạnh các kiểu dữ số, thời gian, chuỗi, `pandas` còn cung cấp một kiểu dữ liệu khác gọi là kiểu phân loại (Categorical Data). Kiểu này sẽ có `dtype` là `category`.

Kiểu phân loại có một số đặc điểm sau :
- Giá trị thường là một chuỗi ký tự.
- Số lượng giá trị khác biệt thường ít và cố định.

Một số dữ liệu có kiểu phân loại điển hình như giới tính, thời tiết hằng ngày, tình trạng sức khoẻ, ...

**Chú ý** : Chúng ta có các phương thức sau :
- `.value_counts()` : trả về tần suất các giá trị.
- `.unique()` : trả về các giá khác nhau.
- `.nunique()` : trả về số giá trị khác nhau.

In [0]:
iris.type.value_counts()

Iris-versicolor    50
Iris-virginica     50
Iris-setosa        50
Name: type, dtype: int64

In [0]:
iris['type'].nunique()

3

Để tạo một dữ liệu phân loại, ta dùng hàm `pandas.Categorical()` như sau :
```
pandas.Categorical(<đầu_vào>, [tham_số])
```
Trong đó, `đầu_vào` có thể là một `list`, `set`, `Series`.

Hai tham số thường dùng là :
- `categories` : các giá trị phân loại, có thể bỏ qua, khi đó, `pandas` sẽ dùng các giá trị khác nhau có trong `đầu_vào` làm giá trị phân loại chuẩn.
- `ordered` : có nên xem phân loại này là phân loại có thứ tự hay không. Có hai giá trị là `True` và `False`, mặc định là `False`.

In [0]:
# tạo một category không thứ tự
pd.Categorical(['a', 'b', 'b', 'c'], categories = ['a', 'c', 'b'])

[a, b, b, c]
Categories (3, object): [a, c, b]

In [0]:
# tạo một category có thứ tự
pd.Categorical(['a', 'b', 'b', 'c'], categories = ['a', 'c', 'b'], ordered = True)

[a, b, b, c]
Categories (3, object): [a < c < b]

Một thuộc tính thường dùng của một đối tượng `category` này chính là `codes`. Tức là dạng mã hoá của `category` đó.


In [0]:
category = pd.Categorical(['a', 'b', 'b', 'c'], categories = ['a', 'c', 'b'], ordered = True)
category.codes

array([0, 2, 2, 1], dtype=int8)

**Bài tập** : Chuyển kiểu dữ liệu của cột `type` từ `object` thành `category`.

## Mã hóa kiểu dữ liệu phân loại

Có vài lý do để phải mã hoá (gán cho một số nào đó) kiểu dữ liệu phân loại :
- Tiết kiệm bộ nhớ.
- Một số phương pháp máy học chỉ chạy trên các giá trị số.

Có hai phương pháp cơ bản để mã hoá kiểu phân loại :
- Gán cho giá trị số nào đó.
- Onehot encoder (còn gọi là dummy encoder, mã hoá bù nhìn).

### Gán giá trị số
Là cách thức chuyển đổi giá trị phân loại thành số theo quy tắc nào đó. Chẳng hạn : `giá_trị_thứ_1` thì gán số 1, `giá_trị_thứ_2` thì gán số 2, vân vân và mây mây, ...

Phương pháp này thường được dùng khi các giữa các giá trị phân loại tồn tại một thứ tự nào đó.

Trong `pandas`, bạn có thể sử dụng `codes` của một `category` để mã hoá cho `category` đó.

In [0]:
# chuyển cột type thành kiểu phân loại
iris_2 = iris.assign(type = pd.Categorical(iris.type))

# mã hoá cột type thành số
iris_2 = iris_2.assign(type = iris_2.type.cat.codes)

iris_2.head()

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,type
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
