# Presentation sections
# Variable Characteristics
### 1. Missing Data
### 2. Categorical Variables
### 3. Linear model assumptions
### 4. Variables distributions
### 5. Outliers
### 6. Feature Magnitude

# Overview
## Objectives
Understand the characteristics of the variables which need to be addressed before building ML models. Specifically:
+ Indentify variable characteristics
+ Understand how they impact ML models? How  the different variable characteristics affect the different ML models?


## What is variable characteristics?
Understand what are the different things we need to look out for when analyzing the variables in out datasets.

Variable Characteristics:
1. **Missing Data:** Không có thông tin cho một số quan sát của biến.
2. **Categorical Variables:** Là biến phân loại, còn gọi là biến rời rạc mà giá trị của nó thuộc vào một trong một nhóm các hạng mục (categories) cụ thể được xác định.  Việc xử lý chúng đòi hỏi phương pháp và kỹ thuật riêng biệt so với các biến liên tục.
3. **Linear model assumptions:** Một mô hình tuyến tính cho kết quả đầu ra tốt, thì ta cũng cần xem xét các biến của nó cần đáp ứng được các giả định cần thiết để ta có thể kết luận mô hình đó thực sự là tốt. Ta sẽ học cách hiểu các biến đáp ứng các giả định có sẵn như thế nào?
4. **Variables distributions:** Xác định các phân phối của các biến và cách chúng ảnh hưởng đến hiệu suất mô hình.
5. **Outliers:** Làm thế nào xác định các ngoại lệ và tại sao điều này là quan trọng?
6. **Feature Magnitude:** Độ lớn giá trị của các đặc trưng sẽ ảnh hưởng như nào đến mô hình học máy như thế nào?

# 1. Missing Data
### 1.1 Missing Data: Definition
Missing data (or missing values) occur when no data is stored for a certain observation in a variable.
+ Missing data are a common occurrence in most datasets.
+ Missing data can have a significant effect on the conclusions that can be drawn from the data.

### 1.2 Understand the Cause of Missing Data
Data can be missing for multiple reasons because it was forgotten, lost or not stored properly.
+ Khách hàng không muốn tiết lộ một số thông tin mang tính cá nhân như là thu nhập, email làm việc,... v.v.
+ Khách hàng không biết câu trả lời cho câu hỏi được hỏi ...
+ Các cột dữ liệu suy luận từ thông tin bị bỏ trống do các dữ liệu tạo thành không đầy đủ ...

### 1.3 Mechanisms of Missing Data
Understanding the missing data mechanisms may help us choose the right missing data imputation technique.

There are three main mechannisms lead to missing data:
<img src="img/missing_data_types.png" width=300 />

1. **MNAR (Missing Not At Random - Thiếu Không Ngẫu Nhiên):**

    + Missing data has a relationship to the actual value of the missing data.
    + Unobserved or unknown factors can influence the process of missing data.
    
2. **MCAR (Missing Completely At Random - Thiếu Hoàn Toàn Ngẫu Nhiên):**

    + Missing data occurs randomly and is not related to any characteristic of the data.
    + The probability of being missing is the same for all observations.
3. **MAR (Missing At Random - Thiếu Ngẫu Nhiên):**

    + In the case of MAR, the possibility of missing data depends on the observed values.


### 1.4 In addition
To understand the mechanisms by which missing data is introduced, we need to become familiar with the methods used for data collections.

This is not always possible. However, it is a good idea to understand the methods of data collections as much as possible, to decide how best to engineer the features.


# 2. Categorical Variables
#### (biến phân loại)
# 2.1 Cardinality
### Cardinality
Cardinality is the number of possible unique values (distinct values) in a categorical variable. The degree of cardinality describes the variety of values within that categorical variable.

Example:
1. Variables with low cardinality:
    + Variable: Gender (Male/Female)
    + `Cardinality`: 2
    + Explain: There are only two unique values: "Male" and "Female".
2. Variables with high cardinality:
    + Variable: Email address
    + `Cardinality`: Number of unique email addresses
    + Explain: For example, if each person has a unique email address, cardinality would equal the number of people.

### Summary
Uneven distribution between train and test sets.
+ Some labels may appear only in train set -> over-fitting
+ Some labels may appear only in test set -> model will not know how to interpret the values.
+ Operational problems.
    + Models learn from the labels seen in the train set
    + For new, unseen labels, models will be unable to perform a calculation => ERROR!
    
Are multiple labels in a categorical variable a problem?
+ High cardinality may cause over-fitting and operationalisation problems.
    + Variables with too many labels tend to dominate over those with fewer labels, particularly in tree-based algorithms.
    + A big number of labels within a variable may introduce noise with little, if any, information.
+ Reducing cardinality (Grouping or Binning) may help improve model performance.

# 2.2 Rare Labels
#### (nhãn hiếm)
### Rare Labels
Rare labels are those that appear only in a tiny proportion of the observations in a dataset.

Example: 

1. Variable `city` where a US citizen lives:
    + New York is a frequent category (many people live in New York)
    + Leavenworth is a rate category (few people live in there).


### Sammary
Uneven distribution between train and test sets
+ Rare Labels may appear only in train or test set

How do Rare Labels affect the performance and operationalization of Machine Learning Models?
+ Same impacts and considerations as with high cardinality.
+ Rare labels may cause over-fitting and operationalization problems
+ Hard to understand the role of the rare label in the outcome prediction
+ Removing rare labels may improve model performance
<img src="img/rare-label-info.png" />

# 3. Linear model assumptions
#### (giả định mô hình tuyến tính - Tiếng Việt)
Mô hình tuyến tính:

+ Hồi quy tuyến tính và hồi quy Logistic
+ Phân tích phân biệt tuyến tính (LDA)

Các mô hình tuyến tính hoạt động tốt hay không phải tuân theo một số giả định quan trọng. Quan trọng nhất là kiểm tra những giả định này trước khi tin tưởng vào kết quả của một mô hình hồi quy tuyến tính. Dưới đây là những giả định chính:
### Assumptions:
1. **Linearity (tuyến tính):** Giả định rằng phải có mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc. Tức là phân phối giá trị biến kết quả với giá trị biến dự đoán nằm gần, dọc theo một đường thẳng.
    + Hồi quy tuyến tính có thể được đánh giá bằng biểu đồ phân tán (scatter plots) và biểu đồ phần dư (residual plots)
$$$$
2. **Normally distributed errors (độc lập lỗi):** Giải định rằng phần dư (residual) $(\epsilon_i)$ có phân phối chuẩn, hoàn toàn ngẫu nhiên với giá trị trung bình bằng 0, tức giả định này ngụ ý rằng các lỗi (phần dư) không nên tuân theo bất kỳ mô hình hay xu hướng nào.
    + Phân phối chuẩn có thể được đánh giá bằng biểu đồ Q-Q (Quantile-Quantile).
$$$$
3. **Homoscedasticity (đồng phương sai):** Giải định rằng phương sai của các lỗi nên là không đổi đối với mọi mức giá trị của biến độc lập. Điều này có nghĩa là phương sai của các lỗi không nên thay đổi theo giá trị của biến độc lập.
    + Phương sai không đổi có thể được đánh giá bằng các biểu đồ phần dư (residual plots).
$$$$
4. **No prefect multicollinearity:** Giải định rằng các biến độc lập không nên có mối quan hệ tuyến tính hoàn toàn với nhau (đa cộng tuyến). Sự đa cộng tuyến có thể gây ra vấn đề khi ước lượng hệ số. (Sol- PCA)
    + Đa cộng tuyến có thể được đánh giá bằng ma trận tương quan (correlation matrix).

### Sammary
Việc hiểu và kiểm định các giả định của mô hình hồi quy tuyến tính giúp đảm bảo tính chính xác và đáng tin cậy của mô hình, cũng như cung cấp thông tin quan trọng về tính chất của dữ liệu mà ta đang làm việc.

# 4. Variables distributions
#### (các phân phối biến)
### Probability Distribution

The probability distribution function is a function that describes the probability of possible values appearing in a random variable. It indicates the probability that different values of the variable can occur, and the sum of the probabilities of all values must be equal to 1.

For example, with a height variable that describes height:

+ Can get values of 161cm, 174cm, or 200cm, etc.
+ But values between 161 - 175 cm appear more frequently in the data set than values outside the 200cm range.

Representing the normal probability distribution:

+ Probability density function (PDF) for continuous variable.
+ Probability mass function (PMF) for discrete variables.

### Different probability distributions
<img src="img/distributions.png" />

### The Normal vs Skewed distribution
<img src="img/compare.png" />



# 5. Outliers
#### (ngoại lai / ngoại lệ - Tiếng Việt)
Outlier là một điểm dữ liệu khác biệt đáng kể so với dữ liệu còn lại. "Outlier là quan sát sai lệch rất nhiều so với các quan sát khác, làm dấy lên nghi ngờ rằng nó được tạo ra bởi một cơ chế khác." [D. Hawkins. Identification of Outliers, Chapman and Hall , 1980.]

<img src="img/outliears.png" width=600/>

### Có nên loại bỏ outlier?
Tùy thuộc vào bối cảnh, outlier đáng được chú ý đặc biệt hoặc có thể bị bỏ qua hoàn toàn. 
+ Ví dụ về dự báo doanh thu: nếu quan sát thấy doanh thu tăng đột biến bất thường của thì cần chú ý thêm đến chúng và tìm nguyên nhân gây ra mức tăng đột biến đó. 
+ Ví dụ một giao dịch bất thường trên thẻ tín dụng thường là dấu hiệu của hoạt động gian lận, đây là điều mà công ty phát hành thẻ tín dụng muốn ngăn chặn.
+ Nếu các outlier được đưa vào do lỗi cơ học, lỗi đo lường hoặc bất kỳ điều gì khác không thể tổng quát hóa thì nên loại bỏ các giá trị outlier này trước khi cung cấp dữ liệu cho thuật toán mô hình hóa. Tại sao? Vì một số thuật toán nhạy với các outlier.

Vậy, sẽ rất hữu ích khi tìm kiếm và điều tra thêm các giá trị outlier trong các trường hợp.

### Phân tích giá trị cực trị (Extreme Value Analysis) - xác định outlier.
Hình thức phát hiện outlier cơ bản nhất là Phân tích giá trị cực trị của dữ liệu 1 chiều. Mấu chốt của phương pháp là xác định các đuôi thống kê của phân phối cơ bản của biến, sau đó tìm các giá trị nằm ở cuối các đuôi.
1. Trong trường hợp biến được phân phối theo phân phối chuẩn (Gauss), outlier có thể được xác định bằng cách tính ranh giới trên và ranh giới dưới, trong đó outlier nằm ngoài khoảng giữa $mean \pm 3 \times std$.

2. Trong trường hợp biến bị phân phối lệch, phương pháp tính quantile và phân vị (IQR) được sử dụng. Các outlier nằm ngoài ranh giới trên và ranh giới dưới được tính bằng cách sử dụng các khoảng giá trị dựa trên phân vị 25% và 75%, cộng với một hệ số nhân với IQR (thường là 1.5 hoặc 3).

+ Quantiles:
    + Quantiles là các giá trị chia dữ liệu thành các phần bằng nhau. Một trong những quantile phổ biến nhất là median (quantile 0.5), chia dữ liệu thành hai phần bằng nhau.
    + Khi quartiles chia dữ liệu thành bốn phần bằng nhau, thì quartiles thứ nhất (Q1) và thứ ba (Q3) là giá trị ở vị trí 25% và 75% trong dữ liệu, tương ứng.
    + Interquartile Range (IQR) là khoảng giữa giữa Q1 và Q3 (IQR = Q3 - Q1).

Cụ thể:
+ $IQR = \text{quantile thứ 75} - \text{quantile thứ 25}$

Outlier sẽ nằm ngoài upper boundary (ranh giới trên) và lower boundary (ranh giới dưới):
+ $\text{Upper boundary} = \text{quantile thứ 75} + (IQR * 1.5)$
+ $\text{Lower boundary} = \text{quantile thứ 25} - (IQR * 1.5)$

# 6. Feature Magnitude
#### (biên độ đặc trưng)
How does variable magnitude affect learning models?
### With Linear Models
$$$$
$$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_nX_n$$


+ $\beta$ indicates the change in Y per unit change of X.
+ If X changes scale, $\beta$ will change its value.
+ Regression coefficients depend of the magnitude of the variable.
+ Features with bigger magnitudes dominates over features with smaller magnitudes.

### Feature Magnitude matters
+ The regression coefficient is directly influenced by the scale of the variable.
+ Variables with the bigger magnitude / value range dominate over the ones with smaller magnitude / value range.
+ Gradient descent converges faster when features are on similar scalers.
+ Features scaling helps decrease the time to find support vectors for SVMs.
+ Euclidean distances are sentitive to feature magnitude.

### Algorithms sensitive to magnitude
Machine learning models affected by the magnitude of the feature:
+ Linear and Logistic Regression.
+ Neural Networks
+ Support Vector Machine
+ KNN
+ K-means clustering
+ Linear Discriminant Analysis (LDA)
+ Principal Component Analysis (PCA)

Machine learning models insensitive to feature magnitude are the ones based on trees:
+ Classification and Regression Trees
+ Random Forests 
+ Gradient Boosted Trees