# Set Up

In [None]:
# Nhập thư viện
import numpy as np
from numpy import asarray
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd

In [None]:
# Tạo dữ liệu
df=pd.DataFrame(['good', 'excellent', 'very good', 'poor', 'excellent'], columns=['feedback'])
df.head()

Unnamed: 0,feedback
0,good
1,excellent
2,very good
3,poor
4,excellent


# Mã hoá dữ liệu

## One hot encoding

In [None]:
# cách 1: áp hàng OneHotEncoder của sklearn vào dữ liệu

# gọi OneHotEncoder
encoder = OneHotEncoder(sparse=False)
# áp cái mình gọi vào dữ liệu: .fit_transform()
onehot = encoder.fit_transform(df)
onehot



array([[0., 1., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 1.],
       [0., 0., 1., 0.],
       [1., 0., 0., 0.]])

In [None]:
# cách 2:
s = df['feedback']
pd.get_dummies(s)

Unnamed: 0,excellent,good,poor,very good
0,0,1,0,0
1,1,0,0,0
2,0,0,0,1
3,0,0,1,0
4,1,0,0,0


## Label encoding

In [None]:
df

Unnamed: 0,feedback
0,good
1,excellent
2,very good
3,poor
4,excellent


In [None]:
# cách 1: tương tự onehot encoding
encoder = LabelEncoder()
lb = encoder.fit_transform(df)
lb

  y = column_or_1d(y, warn=True)


array([1, 0, 3, 2, 0])

In [None]:
# cách 2:
s = df['feedback']
s.astype('category').cat.codes

0    1
1    0
2    3
3    2
4    0
dtype: int8

## Ordinal encoding

In [None]:
# cách 1: ordinal encoding
encoder = OrdinalEncoder()
od = encoder.fit_transform(df)
od

array([[1.],
       [0.],
       [3.],
       [2.],
       [0.]])

In [None]:
df

Unnamed: 0,feedback
0,good
1,excellent
2,very good
3,poor
4,excellent


In [None]:
poor: 2
good: 1
very good: 3
excellent: 0

In [None]:
# tạo quy tắc của mình
# ép:
# poor: 1
# good: 2
# very good: 3
# excellent: 4

In [None]:
['poor', 'good', 'very good', 'excellent']
poor = 1
good = poor + 1 = 1 + 1 = 2
very good = good + 1 = 2 + 1 = 3
excellent = very good + 1 = 3 + 1 = 4


In [None]:
def ordinal_encoder(data, feature, feature_rank):
  ordinal_dict = {}
  for i, feature_value in enumerate(feature_rank):
    ordinal_dict[feature_value] = i + 1
  data[feature] = data[feature].map(lambda x: ordinal_dict[x])
  return data

In [None]:
ordinal_encoder(df, 'grade', ['F', 'D', 'C', 'B', 'A', 'A+'])

Unnamed: 0,feedback
0,2
1,4
2,3
3,1
4,4


# Rời rạc hoá các biến định lượng

In [None]:
# cut: khoảng đều nhau, nhưng số lượng dữ liệu trong mỗi khoảng có thể khác nhau
# qcut: không cần khoảng phải đều, nhưng số lượng dữ liệu trong mỗi khoảng bằng nhau

In [None]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
ages

[20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [None]:
# cut
# chỉ định khoảng (bins)
bins = [18, 25, 35, 60, 100]
# áp dụng khoảng và hàm pd.cut vào tuổi (ages)
categories = pd.cut(ages, bins)

In [None]:
categories

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [None]:
# lấy ra index của mỗi nhóm
categories.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [None]:
# lấy ra nhóm
categories.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [None]:
# đếm mỗi nhóm có bao nhiêu dữ liệu
pd.value_counts(categories)

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [None]:
# cut để rời rạc hoá dữ liệu định lượng
# 1. chỉ định khoảng bins: [18, 28, 38, 48, 100]
# 2. áp khoảng và hàm cut vào dữ liệu: pd.cut(df, bins)
# 3. đặt tên cho khoảng: ['Young', 'Adult', 'MiddleAged', 'Old']
# 4. áp khoảng, hàm cut, tên khoảng vào dữ liệu: pd.cut(df, bins, tên_khoang)

In [None]:
bins_names = ['Young', 'Adult', 'MiddleAged', 'Old']
pd.cut(ages, bins, labels=bins_names)

['Young', 'Young', 'Young', 'Adult', 'Young', ..., 'Adult', 'Old', 'MiddleAged', 'MiddleAged', 'Adult']
Length: 12
Categories (4, object): ['Young' < 'Adult' < 'MiddleAged' < 'Old']

In [None]:
# sinh dữ liệu ngẫu nhiên gồm 20 phần tử
data = np.random.rand(20)

In [None]:
data

array([0.88931999, 0.95222522, 0.59015969, 0.6601438 , 0.05678221,
       0.10860809, 0.5762038 , 0.69726065, 0.83669561, 0.46748233,
       0.61840028, 0.47527773, 0.42709585, 0.22844761, 0.80485859,
       0.10801238, 0.83939801, 0.77246303, 0.84513219, 0.14312318])

In [None]:
# cut thành 4 khoảng
pd.cut(data, 4, precision=2)

[(0.73, 0.95], (0.73, 0.95], (0.5, 0.73], (0.5, 0.73], (0.056, 0.28], ..., (0.056, 0.28], (0.73, 0.95], (0.73, 0.95], (0.73, 0.95], (0.056, 0.28]]
Length: 20
Categories (4, interval[float64, right]): [(0.056, 0.28] < (0.28, 0.5] < (0.5, 0.73] < (0.73, 0.95]]

In [None]:
# cut ages thành 4 khoảng
cut_data = pd.cut(ages,4,precision=0)

In [None]:
cut_data

[(20.0, 30.0], (20.0, 30.0], (20.0, 30.0], (20.0, 30.0], (20.0, 30.0], ..., (30.0, 40.0], (51.0, 61.0], (40.0, 51.0], (40.0, 51.0], (30.0, 40.0]]
Length: 12
Categories (4, interval[float64, right]): [(20.0, 30.0] < (30.0, 40.0] < (40.0, 51.0] <
                                           (51.0, 61.0]]

In [None]:
pd.value_counts(cut_data)

(20.0, 30.0]    6
(30.0, 40.0]    3
(40.0, 51.0]    2
(51.0, 61.0]    1
dtype: int64

In [None]:
pd.value_counts(categories)

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [None]:
qcut = pd.qcut(data, 4, precision=2)

In [None]:
cut = pd.cut(data, 4, precision=2)

In [None]:
# đếm của cut
pd.value_counts(cut)

(0.73, 0.95]     7
(0.056, 0.28]    5
(0.5, 0.73]      5
(0.28, 0.5]      3
dtype: int64

In [None]:
# đếm của qcut
pd.value_counts(qcut)

(0.047, 0.38]    5
(0.38, 0.6]      5
(0.6, 0.81]      5
(0.81, 0.95]     5
dtype: int64

In [None]:
# 2 phương pháp rời rạc hoá dữ liệu định lượng

# cut -> khoảng bằng nhau, nhưng số lương dữ liệu trong mỗi khoảng chưa chắc bằng
# cut tự động -> pd.cut(df, 4)
# cut theo khoảng chỉ định
  # tạo khoảng mình mong muốn: bins = [...]
  # ép vào dữ liệu -> pd.cut(df, bins)
# đặt tên cho mỗi khoảng -> pd.cut(df, bins/sốluongkhoang, bins_names)

# qcut -> khoảng không cần bằng nhau, nhưng số lượng dữ liệu trong mỗi khoảng phải bằng nhau
# tương tự như cut về mặt code. chỉ thay chữ cut thành qcut

In [None]:
# mã hoá dữ liệu định tính
# vì sao phải mã hoá -> chạy được mô hình
# phương pháp
  # one hot encoding -> các nhóm ngang nhau về ý nghĩa
  # label encoding -> khi có nhiều nhóm quá, nhưng chỉ muốn giữ một cột -> dễ gây hiểu nhầm và làm ảnh hưởng mô hình
  # ordinal encoding -> sắp xếp các nhóm theo thứ tự có ý nghĩa
# Code
  # Cách 1: dùng hàm có sẵn của sklearn. OneHotEndoder(), LabelEncoder(), OrdinalEncoder()
  # Cách 2: tự làm
    # onehot: pd.get_dummies()
    # label: s.astype('categories').cat.codes
    # ordinal: tạo hàm của mình theo thứ tự xếp hàng mình mong muốn -> ép hàm đấy vào dữ liệu

# rời rạc hoá dữ liệu định lượng