# BÀI 9: LÀM SẠCH VÀ BIẾN ĐỔI DỮ LIỆU

## 1. Xử lý missing data

### 1.1. Nguyên nhân gây thiếu dữ liệu

<table border="0">
    <tr>
        <td style="width:33%; text-align:center">
            <b>Missing Completely At Random (MCAR)</b>
        </td>
        <td style="width:33%; text-align:center">
            <b>Missing At Random (MAR)</b>
        </td>
        <td style="width:33%; text-align:center">
            <b>Missing Not At Random (MNAR)</b>
        </td>
    </tr>
    <tr>
        <td style="text-align:justify">
            Các giá trị thiếu loại MCAR không tuân theo bất cứ quy luật nào,
            do đó không gây mất cân bằng dữ liệu. Có thể xóa (deletion)
            hoặc giả lập dữ liệu (imputation).
        </td>
        <td style="text-align:justify">
            Các giá trị trống của IQ Score xuất hiện ở những người dưới 25 tuổi.
            Việc xóa missing data sẽ làm thuộc tính Age mất cân bằng,
            do đó cách xử lý tốt nhất là imputation.
        </td>
        <td style="text-align:justify"> 
            Những người có IQ dưới 100 không điền khảo sát về chỉ số IQ.
            Những giá trị bị khuyết khác hoàn toàn phần dữ liệu quan sát được.
            Các kỹ thuật deletion và imputation đều gây mất cân bằng dữ liệu.
        </td>
    </tr>
    <tr>
        <td>
            <table>
                <tr><th>Dữ liệu hoàn chỉnh</th><th>Dữ liệu thực tế</th></tr>
<tr><td>
    
Age |IQ Score|
:---|:-------|
20  |120     |
22  |112     |
24  |127     |
29  |97      |
30  |103     |
40  |95      |
45  |141     |
47  |92      |
52  |115     |

</td><td>

Age |IQ Score|
:---|:-------|
20  |120     |
22  |        |
24  |127     |
29  |        |
30  |103     |
40  |95      |
45  |        |
47  |92      |
52  |115     |

</td></tr>
            </table>
        </td>
        <td>
            <table>
                <tr><th>Dữ liệu hoàn chỉnh</th><th>Dữ liệu thực tế</th></tr>
<tr><td>
    
Age |IQ Score|
:---|:-------|
20  |120     |
22  |112     |
24  |127     |
29  |97      |
30  |103     |
40  |95      |
45  |141     |
47  |92      |
52  |115     |

</td><td>

Age |IQ Score|
:---|:-------|
20  |        |
22  |        |
24  |        |
29  |97      |
30  |103     |
40  |95      |
45  |141     |
47  |92      |
52  |115     |

</td></tr>
            </table>
        </td>
        <td>
            <table>
                <tr><th>Dữ liệu hoàn chỉnh</th><th>Dữ liệu thực tế</th></tr>
<tr><td>
    
Age |IQ Score|
:---|:-------|
20  |120     |
22  |112     |
24  |127     |
29  |97      |
30  |103     |
40  |95      |
45  |141     |
47  |92      |
52  |115     |

</td><td>

Age |IQ Score|
:---|:-------|
20  |120     |
22  |112     |
24  |127     |
29  |        |
30  |103     |
40  |        |
45  |141     |
47  |        |
52  |115     |

</td></tr>
            </table>
        </td>
    </tr>
</table>

### 1.2. Nhận dạng dữ liệu trống
Trên thực tế, dữ liệu trống có thể tồn tại dưới nhiều dạng như `None`, `N/A` (not available), `-` hay `NaN` (not a number).\
Trong Pandas, hằng số `np.nan` và các dữ liệu trống đều được hiển thị là `NaN`.

In [None]:
import numpy as np
import pandas as pd

In [None]:
pd.DataFrame({
    'age': pd.Series([22, 24, 29, 30, 37]),
    'iq': pd.Series([np.nan, 127, 112, np.nan])
})

### 1.3. Xóa cột
Nếu một thuộc tính chứa trên 50% giá trị trống, có thể xóa cả cột này.

In [None]:
import numpy as np
import pandas as pd

In [None]:
covid = pd.DataFrame({
    'country': ['US', 'Russia', 'Brazil', 'UK', 'Spain', 'Italy', 'France', 'Germany', 'Turkey', 'Iran'],
    'comfirmed': [1576, 317, 310, 252, 233, 228, 181, 179, 153, 129],
    'deaths': [94, 3, 20, 36, 27, 32, 28, 8, 4, 7],
    'recovered': [298, None, 125, None, 150, 134, None, None, None, None]
})
covid

In [None]:
pd.DataFrame((covid.isna().sum() / covid.shape[0]).map('{:.0%}'.format)).T

In [None]:
covid.drop(columns='recovered')

### 1.4. Xóa dòng

In [None]:
import numpy as np
import pandas as pd

In [None]:
covid = pd.DataFrame({
    'country': ['US', 'Russia', 'Brazil', 'UK', 'Spain', 'Italy', 'France', 'Germany', 'Turkey', 'Iran'],
    'comfirmed': [1576, 317, 310, 252, 233, 228, 181, 179, 153, 129],
    'deaths': [94, 3, 20, 36, 27, 32, 28, 8, 4, 7],
    'recovered': [298, None, 125, None, 150, 134, 63, 158, 114, 100]
})
covid

In [None]:
# xóa những hàng chứa giá trị trống trong cột recovered
covid.dropna(subset=['recovered'])

### 1.5. Điền một giá trị cụ thể

In [None]:
import numpy as np
import pandas as pd

In [None]:
covid = pd.DataFrame({
    'country': ['US', 'Russia', 'Brazil', 'UK', 'Spain', 'Italy', 'France', 'Germany', 'Turkey', 'Iran'],
    'comfirmed': [1576, 317, 310, 252, 233, 228, 181, 179, 153, 129],
    'deaths': [94, 3, 20, 36, 27, 32, 28, 8, 4, 7],
    'recovered': [298, None, 125, None, 150, 134, 63, 158, 114, 100],
    'continent': ['America', np.nan, 'America', 'Europe', 'Europe', 'Europe', 'Europe', np.nan, 'Europe', 'Asia']
})
covid

Trong ví dụ trên:
- `recovered` là thuộc tính định lượng, có thể impute bằng cách sử dụng mean hoặc median.
- `continent` là thông tin định tính nên sẽ được impute bằng mode (giá trị xuất hiện nhiều nhất).

In [None]:
recovered_fill_value = covid.recovered.mean()
recovered_fill_value

In [None]:
continent_fill_value = covid.continent.mode()[0]
continent_fill_value

In [None]:
covid.recovered = covid.recovered.fillna(recovered_fill_value)
covid.continent = covid.continent.fillna(continent_fill_value)
covid

**Chú ý:** Việc sử dụng mean, median hay mode để điền vị trí thiếu dữ liệu có nhược điểm là làm giảm phương sai.

### 1.6. Nội suy
Nội suy (interpolation) là kỹ thuật tạo ra giá trị mới một tập dữ liệu có sẵn. Phương pháp nội suy thường được dùng để giả lập giá trị thiếu cho thuộc tính có liên quan đến chuỗi thời gian (time series).

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame({
    'date': pd.to_datetime([
        '2020-01-01', '2020-01-03', '2020-01-04', '2020-01-05',
        '2020-01-06', '2020-01-07', '2020-01-09', '2020-01-10'
    ]),
    'price': [110, 113, 112, 115, 118, 120, 118, 116]
})
df

#### Missing trong chuỗi thời gian

In [None]:
df = df.set_index('date').asfreq('d').reset_index()
df

#### Thay thế bằng giá trị liền trước (foward fill)

In [None]:
filled_values = df.price.fillna(method='ffill')
df.assign(price=filled_values)

#### Thay thế bằng giá trị liền sau (backward fill)

In [None]:
filled_values = df.price.fillna(method='bfill')
df.assign(price=filled_values)

#### Thay thế bằng trung bình 2 giá trị liền kề

In [None]:
filled_values = df.price.interpolate(method='linear')
df.assign(price=filled_values)

## 2. Loại bỏ giá trị ngoại biên

Giá trị ngoại biên (outlier) là những điểm nằm cách xa phần lớn dữ liệu, chúng sẽ gây ra sai số đáng kể trong phân tích thống kê. Để loại bỏ outlier có thể sử dụng cả kỹ thuật định tính và định lượng.

### 2.1. Sử dụng trung bình và độ lệch chuẩn
Cách tiếp cận: loại bỏ các điểm dữ liệu nhỏ hơn $\mu-2\sigma$ hoặc lớn hơn $\mu+2\sigma$, trong đó: $\mu$ là trung bình, $\sigma$ là độ lệch chuẩn.\
Bạn có thể điều chỉnh khoảng trên thành $2.5\sigma$ hay $3\sigma$ tùy từng bài toán cụ thể. Hệ số 2, 2.5 hay 3 nhân với $\sigma$ có tên gọi là z-score.

Cụ thể hơn, nếu số liệu có phân phối chuẩn:
- Khoảng [$\mu-2\sigma$; $\mu+2\sigma$] loại bỏ 4.56% dữ liệu
- Khoảng [$\mu-2.5\sigma$; $\mu+2.5\sigma$] loại bỏ 1.24% dữ liệu
- Khoảng [$\mu-3\sigma$; $\mu+3\sigma$] loại bỏ 0.28% dữ liệu

<img src="images\z_score.png">\
*Nguồn: [Wikipedia](https://en.wikipedia.org/wiki/Outlier)*

In [None]:
import numpy as np
import pandas as pd

In [None]:
# hàm xử lý outlier bằng z-score
def outliers_zscore(array, z):
    'Nhận tham số đầu vào là một array, trả về array mới đã thay các outlier bởi None.'
    import numpy as np
    array = np.array(array, dtype=float)
    mean = array.mean()
    std = array.std()
    lower = mean - z*std # ngưỡng dưới
    upper = mean + z*std # ngưỡng trên
    array[(array < lower) | (array > upper)] = np.nan # thay outlier bởi None
    return array

In [None]:
# dataset về chất lượng rượu
wine = pd.read_excel(r'data\wine_quality.xlsx')

In [None]:
wine.head()

In [None]:
# xử lý outliers từ cột fixed_acidity đến cột alcohol
for i in range(12):
    column_name = wine.columns[i]
    wine[column_name] = outliers_zscore(wine[column_name], z=3)

In [None]:
pd.DataFrame({
    'removed_count': wine.isna().sum(),
    'removed_rate': (wine.isna().sum() / wine.shape[0] * 100).apply(lambda x: f'{x:.2f}%')
})

### 2.2. Sử dụng khoảng tứ phân vị
Cách tiếp cận: loại bỏ các điểm dữ liệu nhỏ hơn $Q_1-1.5\times IQR$ hoặc lớn hơn $Q_3+1.5\times IQR$, trong đó: $Q_1$ và $Q_3$ là các điểm tứ phân vị thứ nhất và thứ ba, $IQR=Q_3-Q_1$ là khoảng tứ phân vị (interquartile range).

<img src="images\interquartile_range.png">\
*Nguồn: [Wikipedia](https://en.wikipedia.org/wiki/Interquartile_range)*

In [None]:
import numpy as np
import pandas as pd

In [None]:
def outliers_iqr(array):
    import numpy as np
    array = np.array(array, dtype=float)
    Q1, Q3 = np.quantile(array, [0.25, 0.75])
    IQR = Q3 - Q1
    lower = Q1 - 1.5*IQR # ngưỡng dưới
    upper = Q3 + 1.5*IQR # ngưỡng trên
    array[(array < lower) | (array > upper)] = np.nan # thay outlier bởi None
    return array

In [None]:
# dataset về chất lượng rượu
wine = pd.read_excel(r'data\wine_quality.xlsx')

In [None]:
wine.head()

In [None]:
# xử lý outliers từ cột fixed_acidity đến cột alcohol
for i in range(12):
    column_name = wine.columns[i]
    wine[column_name] = outliers_iqr(wine[column_name])

In [None]:
pd.DataFrame({
    'removed_count': wine.isna().sum(),
    'removed_rate': (wine.isna().sum() / wine.shape[0] * 100).apply(lambda x: f'{x:.2f}%')
})

## 3. Pivot và Unpivot

### 3.1. Bảng dài và bảng rộng

#### Bảng rộng
Bảng rộng cho phép xem cùng lúc nhiều dữ liệu, rất thuận tiện để theo dõi 1 chỉ số (chẳng hạn doanh thu). Tuy nhiên bảng rộng không hoạt động tốt khi xuất hiện nhiều chiều thông tin.

Color|2000 Q1|2000 Q2|2000 Q3|2000 Q4|
:----|------:|------:|------:|------:|
Red  |\$ 1000|\$ 1200|\$ 1500|\$ 1700|
Green|\$ 1500|\$ 1500|\$ 1575|\$ 1800|
Blue |\$ 2000|\$ 2200|\$ 2000|\$ 2800|

#### Bảng dài
Bảng dài lưu mỗi chỉ số/thông tin/thuộc tính trong 1 cột, vì thế có thể biểu diễn được rất nhiều thuộc tính. Trong phân tích dữ liệu, bảng dài được coi là "tidy data" và là định dạng dữ liệu chuẩn.

Color|Quarter|Sales   |Quantity|Price|
:----|:------|-------:|-------:|----:|
Red  |2000 Q1|\$ 1000 |50      |\$ 20|
Green|2000 Q1|\$ 1500 |50      |\$ 30|
Blue |2000 Q1|\$ 2000 |40      |\$ 50|
Red  |2000 Q2|\$ 1200 |60      |\$ 20|
Green|2000 Q2|\$ 1500 |50      |\$ 30|
Blue |2000 Q2|\$ 2200 |40      |\$ 55|
Red  |2000 Q3|\$ 1500 |75      |\$ 20|
Green|2000 Q3|\$ 1575 |45      |\$ 35|
Blue |2000 Q3|\$ 2000 |40      |\$ 50|
Red  |2000 Q4|\$ 1700 |85      |\$ 20|
Green|2000 Q4|\$ 1800 |20      |\$ 60|
Blue |2000 Q4|\$ 2800 |70      |\$ 40|

### 3.2. Unpivot
Unpivot là kỹ thuật biến đổi từ bảng rộng thành bảng dài.\
Trong Pandas, phương thức `melt()` cho phép unpivot dữ liệu.

In [None]:
import pandas as pd
import numpy as np

In [None]:
wide = pd.DataFrame({
    'Color': ['Red', 'Green', 'Blue'],
    '2020 Q1': [1000, 1500, 2000],
    '2020 Q2': [1200, 1500, 2200],
    '2020 Q3': [1500, 1575, 2000],
    '2020 Q4': [1700, 1800, 2800]
})
wide

In [None]:
# yêu cầu gõ lại
wide.melt(
    id_vars='Color',
    var_name='Quarter',
    value_name='Sales'
)

**Tình huống 1:** Đọc file `z_score.xlsx` rồi biến đổi dữ liệu về dạng sau:

right_area|z_score|
---------:|------:|
0.00005   |3.9    |
0.00007   |3.8    |
0.00011   |3.7    |
0.00016   |3.6    |
0.00023   |3.5    |
...       |...    |
0.31207   |0.49   |
0.34827   |0.39   |
0.38591   |0.29   |
0.42465   |0.19   |
0.46414   |0.09   |

### 3.3. Pivot
Pivot là kỹ thuật biến đổi từ bảng dài về bảng rộng.\
Để pivot dữ liệu, sử dụng phương thức `pivot_table()`.

In [None]:
import pandas as pd
import numpy as np

In [None]:
long = pd.DataFrame({
    'Market': ['Asian', 'Asian', 'Asian', 'Asian', 'Europe', 'Europe', 'Europe', 'Europe'],
    'Color': ['Red', 'Red', 'Blue', 'Blue', 'Red', 'Red', 'Blue', 'Blue'],
    'Size': ['Large', 'Small', 'Large', 'Small','Large', 'Small', 'Large', 'Small'],
    'Price': [17, 11, 19, 13, 18, 12, 20, 14],
    'Sales': [68000, 44000, 57000, 52000, 81000, 72000, 90000, 77000]
})
long

#### Pivot cơ bản

In [None]:
long\
    .pivot_table(index='Market', columns='Color', values='Sales')\
    .reset_index()\
    .rename_axis(None, axis=1)

#### Pivot với một phần dữ liệu
Trường hợp này thường xuất hiện các bản ghi trùng lặp, cần sử dụng 1 aggregate function để xử lý (chẳng hạn tính tổng đối với `Sales` và tính trung bình đối với `Price`).

In [None]:
# yêu cầu gõ lại

In [None]:
# yêu cầu gõ lại

#### Pivot với 2 value

In [None]:
# yêu cầu gõ lại

Kết quả pivot trả về tên cột ở dạng hierrachy index. Sử dụng phương thức `ravel()` để làm phẳng tên cột.

In [None]:
# yêu cầu gõ lại

In [None]:
# yêu cầu gõ lại

Kết quả sau cùng giống với `groupby` nhưng ở dạng bảng khác nhau.

In [None]:
long.groupby(['Market', 'Color']).agg({'Price': [np.mean], 'Sales': [np.sum]}).reset_index()

## 4. Tính toán dữ liệu

### 4.1. Lũy tiến

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn')

In [None]:
np.random.seed(0)
purchase = pd.DataFrame({
    'date': pd.date_range(start='1/1/2000', periods=12),
    'quantity': np.random.randint(100, 1000, size=12)
})
purchase

In [None]:
purchase['quantity_cumulative'] = purchase.quantity.cumsum()
purchase

In [None]:
purchase.set_index('date').plot()
plt.show()

### 4.2. Trung bình trượt

In [None]:
import numpy as np
import pandas as pd

In [None]:
rate = pd.read_excel(r'data\exchage_rate.xlsx')
rate

In [None]:
rate.plot(x='date', y='rate')
plt.show()

In [None]:
rate['rate_smooth'] = rate.rate.rolling(window=7, center=True).mean()
rate

In [None]:
rate.set_index('date').plot()
plt.show()

### 4.3. Mức độ tăng trưởng

In [None]:
import numpy as np
import pandas as pd

In [None]:
cpi = pd.DataFrame({
    'quarter': [f'{year} Q{quarter}' for year in range(2017,2020) for quarter in range(1,5)],
    'cost': [111.63, 112.23, 112.68, 113.10, 114.10, 115.28, 115.66, 115.59, 115.98, 117.37, 117.69, 117.94]
})
cpi

**Tình huống 2:** Sử dụng phương thức `pct_change()`, tính CPI theo 2 cách:
1. Bằng tỉ lệ tăng trưởng so với quý trước
2. Bằng tỉ lệ tăng trưởng so với cùng kỳ năm trước

## 5. Liên kết dữ liệu

### 5.1. Append
Appending (tạm dịch: nối bảng) là kỹ thuật ghép hai bảng theo chiều dọc.\
Phương thức `append()` của Dataframe tương đương với mệnh đề `UNION ALL` trong SQL.

Kỹ thuật appending nên được áp dụng khi cần tăng số lượng quan sát và giữ nguyên số thuộc tính.

In [None]:
import numpy as np
import pandas as pd

In [None]:
sales1 = pd.DataFrame({
    'year': [2000, 2000, 2000, 2000],
    'quarter': [1, 2, 3, 4],
    'target': [40000, 50000, 70000, 85000],
    'sales': [35000, 38000, 78000, 90000]
})
sales1

In [None]:
sales2 = pd.DataFrame({
    'year': [2001, 2001, 2001, 2001],
    'quarter': [1, 2, 3, 4],
    'target': [50000, 60000, 70000, 85000],
    'sales': [60000, 65000, 82000, 94000],
    'profit': [20000, 21000, 27000, 35000]
})
sales2

#### Quy tắc hoạt động
Phương thức `df1.append(df2)` hoạt động như sau:
- Căn cứ vào tên các cột chung giữa 2 bảng
- Giữ nguyên các bản ghi trùng lặp (nếu có)
- Sử dụng cả các cột thừa trong `df2`

In [None]:
sales1.append(sales2[['year', 'quarter', 'target', 'sales']])

**Chú ý:** Để phương thức `append()` hoạt động tốt nhất, cần chuẩn hóa tên cột và loại bỏ các cột thừa.

In [None]:
sales1[['quarter', 'target']]\
    .append(sales2[['quarter', 'target']])\
    .reset_index(drop=True)

In [None]:
sales1[['quarter', 'target']]\
    .append(sales2[['quarter', 'target']])\
    .drop_duplicates()\
    .reset_index(drop=True)

### 5.2. Merge
Merging (tạm dịch: hợp nhất bảng) là kỹ thuật ghép hai bảng theo chiều ngang.\
Phương thức `merge()` của Dataframe tương đương với mệnh đề `JOIN` trong SQL.

Kỹ thuật merging nên được áp dụng khi bạn muốn bổ sung thêm các thuộc tính mới vào dataset hiện tại.

In [None]:
import numpy as np
import pandas as pd

In [None]:
income = pd.DataFrame({
    'name': ['Hannah', 'James', 'Gabriel', 'Smith', 'Alex'],
    'income_before_tax': [12000, 30000, 7000, 20000, 100000],
    'tax_band': ['Allowance', 'Basic', 'Allowance', 'Basic', 'Higher']
})
income

In [None]:
tax = pd.DataFrame({
    'band': ['Allowance', 'Basic', 'Higher', 'Additional'],
    'income_range': ['Up to $12,500', '\$12,501 to $50,000', '\$50,001 to $150,000', 'Over $150,000'],
    'tax_rate_%': [0, 0.2, 0.4, 0.45]
})
tax

#### Quy tắc hoạt động
Phương thức `df1.merge(df2)` có các đặc điểm sau:
- Sử dụng một số cột làm key (xác định thông qua tham số `on` hoặc cặp tham số `left_on` - `right_on`). Theo mặc định: dùng tất cả cột chung làm key.
- Chia thành 4 loại: left, right, inner, outer; trong đó left và inner được sử dụng nhiều hơn cả.

<img src="images\dataframe_merges.png" width="800">

In [None]:
income.merge(tax, how='left', left_on='tax_band', right_on='band')

**Chú ý:** Phương thức `merge` hoạt động tốt nhất khi tên cột đã được chuẩn hóa.

In [None]:
income.rename(columns={'tax_band': 'band'})

In [None]:
income\
    .rename(columns={'tax_band': 'band'})\
    .merge(tax, how='left')

**Tình huống 3:** Đọc file `us_youtube_trending.xlsx` (có 2 sheet), sau đó merge 2 bảng dựa trên cột `category`.

## Giải đáp tình huống

**Tình huống 1:** Đọc file `z_score.xlsx` rồi biến đổi dữ liệu về dạng sau:

right_area|z_score|
---------:|------:|
0.00005   |3.9    |
0.00007   |3.8    |
0.00011   |3.7    |
0.00016   |3.6    |
0.00023   |3.5    |
...       |...    |
0.31207   |0.49   |
0.34827   |0.39   |
0.38591   |0.29   |
0.42465   |0.19   |
0.46414   |0.09   |

In [None]:
import numpy as np
import pandas as pd

In [None]:
z = pd.read_excel(r'data\z_score.xlsx')
z

In [None]:
z = z.melt(id_vars='Z', var_name='Z2', value_name='right_area')
z

In [None]:
z['z_score'] = z.Z + z.Z2
z.drop(columns=['Z', 'Z2'])

**Tình huống 2:** Sử dụng phương thức `pct_change()`, tính CPI theo 2 cách:
1. Bằng tỉ lệ tăng trưởng so với quý trước
2. Bằng tỉ lệ tăng trưởng so với cùng kỳ năm trước

In [None]:
import numpy as np
import pandas as pd

In [None]:
cpi = pd.DataFrame({
    'quarter': [f'{year} Q{quarter}' for year in range(2017,2020) for quarter in range(1,5)],
    'cost': [111.63, 112.23, 112.68, 113.10, 114.10, 115.28, 115.66, 115.59, 115.98, 117.37, 117.69, 117.94]
})
cpi

In [None]:
cpi.cost.pct_change()*100

In [None]:
cpi.cost.pct_change(periods=4) * 100

**Tình huống 3:** Đọc file `us_youtube_trending.xlsx` (có 2 sheet), sau đó merge 2 bảng dựa trên cột `category_id`.

In [None]:
import numpy as np
import pandas as pd

In [None]:
video = pd.read_excel(r'us_youtube_trending.xlsx', sheet_name='Sheet1')
video.head()

In [None]:
category = pd.read_excel(r'data\us_youtube_trending.xlsx', sheet_name='Sheet2')
category.head()

In [None]:
category = category.rename(columns={'id': 'category_id', 'category_name': 'category'})

In [None]:
video.merge(category, how='left')