### __What's Feature Engineering? (Feature Engineering là gì?)__

<div align="justify">

__Feature engineering__ is the process of turning raw data into useful features that help improve the performance of machine learning models. It includes choosing, creating and adjusting data attributes to make the model’s predictions more accurate. The goal is to make the model better by providing relevant and easy-to-understand information.

A feature or attribute is a measurable property of data that is used as input for machine learning algorithms. Features can be _numerical_, _categorical_ or _text-based representing essential_ data aspects which are relevant to the problem.

__Example:__ In housing price prediction, features might include the number of bedrooms, location and property age.

</div>

<div align="justify">

__Feature engineering__ là quá trình chuyển đổi dữ liệu thô thành các đặc trưng hữu ích giúp cải thiện hiệu suất của các mô hình học máy. Quá trình này bao gồm việc lựa chọn, tạo và điều chỉnh các thuộc tính dữ liệu để giúp dự đoán của mô hình chính xác hơn. Mục tiêu là cải thiện mô hình bằng cách cung cấp thông tin phù hợp và dễ hiểu.

Một đặc trưng hoặc thuộc tính là một thuộc tính có thể đo lường của dữ liệu, được sử dụng làm đầu vào cho các thuật toán học máy. Các đặc trưng có thể ở dạng _số_, _danh mục_ hoặc _văn bản_, đại diện cho các khía cạnh dữ liệu thiết yếu liên quan đến bài toán.

__Ví dụ__: Trong dự đoán giá nhà, các đặc trưng có thể bao gồm số phòng ngủ, vị trí và tuổi của bất động sản.

</div>

![](./images/architecture.png)

### __Importance of Feature Engineering (Tầm quan trọng của Feature Engineering)__

<div align="justify">

Feature engineering can significantly influence model performance. By refining features, we can:

- __Improve accuracy__: Choosing the right features helps the model learn better, leading to more accurate predictions.

- __Reduce overfitting__: Using fewer, more important features helps the model avoid memorizing the data and perform better on new data.

- __Boost interpretability__: Well-chosen features make it easier to understand how the model makes its predictions.

- __Enhance efficiency__: Focusing on key features speeds up the model’s training and prediction process, saving time and resources.

</div>

<div align="justify">

Kỹ thuật thiết kế đặc trưng có thể ảnh hưởng đáng kể đến hiệu suất của mô hình. Bằng cách tinh chỉnh các đặc trưng, chúng ta có thể:

- __Cải thiện độ chính xác__: Việc chọn đúng các đặc trưng giúp mô hình học tốt hơn, dẫn đến dự đoán chính xác hơn.

- __Giảm hiện tượng quá khớp__: Việc sử dụng ít đặc trưng không quan trọng, nhiều đặc trưng quan trọng hơn giúp mô hình tránh việc ghi nhớ dữ liệu và hoạt động tốt hơn trên dữ liệu mới.

- __Tăng khả năng diễn giải__: Các đặc trưng được lựa chọn kỹ lưỡng giúp dễ dàng hiểu cách mô hình đưa ra dự đoán.

- __Nâng cao hiệu quả__: Việc tập trung vào các đặc trưng chính giúp tăng tốc quá trình huấn luyện và dự đoán của mô hình, tiết kiệm thời gian và tài nguyên.

</div>

### __Processes Involved in Feature Engineering (Các quy trình liên quan đến Feature Engineering)__

![](./images/involed_processes.png)

<div align="justify">

1. __Feature Creation:__ Feature creation involves generating new features from domain knowledge or by observing patterns in the data. It can be:
    - __Domain-specific:__ Created based on industry knowledge likr business rules.
    - __Data-driven:__ Derived by recognizing patterns in data.
    - __Synthetic:__ Formed by combining existing features.

2. __Feature Transformation:__ Transformation adjusts features to improve model learning:
    - __Normalization & Scaling:__ Adjust the range of features for consistency.
    - __Encoding:__ Converts categorical data to numerical form i.e one-hot encoding.
    - __Mathematical transformations:__ Like logarithmic transformations for skewed data.

3. __Feature Extraction:__ Extracting meaningful features can reduce dimensionality and improve model accuracy:
    - __Dimensionality reduction:__ Techniques like PCA reduce features while preserving important information.
    - __Aggregation & Combination:__ Summing or averaging features to simplify the model.

4. __Feature Selection:__ Feature selection involves choosing a subset of relevant features to use:
    - __Filter methods:__ Based on statistical measures like correlation.
    - __Wrapper methods:__ Select based on model performance.
    - __Embedded methods:__ Feature selection integrated within model training.

5. __Feature Scaling:__ Scaling ensures that all features contribute equally to the model:
    - __Min-Max scaling:__ Rescales values to a fixed range like 0 to 1.
    - __Standard scaling:__ Normalizes to have a mean of 0 and variance of 1.

</div>

<div align="justify">

1. __Tạo tính năng:__ Việc tạo tính năng bao gồm việc tạo ra các tính năng mới từ kiến thức chuyên ngành hoặc bằng cách quan sát các mẫu trong dữ liệu. Nó có thể là:
    - __Cụ thể theo chuyên ngành:__ Được tạo dựa trên kiến thức ngành như các quy tắc kinh doanh.
    - __Dựa trên dữ liệu:__ Được suy ra bằng cách nhận dạng các mẫu trong dữ liệu.
    - __Tổng hợp:__ Được hình thành bằng cách kết hợp các tính năng hiện có.

2. __Chuyển đổi tính năng:__ Chuyển đổi điều chỉnh các tính năng để cải thiện khả năng học mô hình:
    - __Chuẩn hóa & Định cỡ:__ Điều chỉnh phạm vi các tính năng để đảm bảo tính nhất quán.
    - __Mã hóa:__ Chuyển đổi dữ liệu phân loại sang dạng số, tức là mã hóa one-hot.
    - __Biến đổi toán học:__ Giống như biến đổi logarit cho dữ liệu bị lệch.

3. __Trích xuất Đặc điểm:__ Trích xuất các đặc điểm có ý nghĩa có thể giảm chiều và cải thiện độ chính xác của mô hình:
    - __Giảm chiều:__ Các kỹ thuật như PCA giảm chiều các đặc điểm trong khi vẫn giữ nguyên thông tin quan trọng.
    - __Tổng hợp & Kết hợp:__ Tính tổng hoặc tính trung bình các đặc điểm để đơn giản hóa mô hình.

4. __Lựa chọn Đặc điểm:__ Lựa chọn đặc điểm bao gồm việc chọn một tập hợp con các đặc điểm có liên quan để sử dụng:
    - __Phương pháp lọc:__ Dựa trên các phép đo thống kê như tương quan.
    - __Phương pháp bao bọc:__ Lựa chọn dựa trên hiệu suất mô hình.
    - __Phương pháp nhúng:__ Lựa chọn đặc điểm được tích hợp trong quá trình huấn luyện mô hình.

5. __Điều chỉnh Tỷ lệ Đặc điểm:__ Điều chỉnh tỷ lệ đảm bảo rằng tất cả các đặc điểm đều đóng góp như nhau cho mô hình:
    - __Điều chỉnh Tỷ lệ Tối thiểu-Tối đa:__ Điều chỉnh lại tỷ lệ các giá trị về một phạm vi cố định như từ 0 đến 1.
    - __Điều chỉnh Tỷ lệ Tiêu chuẩn:__ Chuẩn hóa để có giá trị trung bình bằng 0 và phương sai bằng 1.

</div>