### SCIKIT-LEARN
- Scikit-learn là một thư viện mã nguồn mở mạnh mẽ và dễ sử dụng cho ngôn ngữ lập trình Python. Nó cung cấp một loạt các công cụ cho khai thác dữ liệu và phân tích dữ liệu, làm cho nó trở thành một tài nguyên quý giá để xây dựng và đánh giá các mô hình học máy. Scikit-learn được xây dựng trên các thư viện Python phổ biến khác như NumPy, SciPy và matplotlib, đảm bảo các tính toán số hiệu quả và trực quan hóa dữ liệu.

- Thư viện này cung cấp nhiều thuật toán học có giám sát và không giám sát, bao gồm hồi quy, phân loại, phân cụm và các kỹ thuật giảm chiều dữ liệu. Ngoài ra, scikit-learn còn cung cấp các tiện ích cho việc lựa chọn mô hình, tiền xử lý và đánh giá, cho phép người dùng tối ưu hóa toàn bộ quy trình học máy.

- API thân thiện với người dùng và tài liệu phong phú của scikit-learn làm cho nó dễ tiếp cận đối với cả người mới bắt đầu và các chuyên gia có kinh nghiệm. Thiết kế mô-đun của nó cho phép tích hợp dễ dàng với các thư viện và công cụ Python khác, làm cho nó trở thành một lựa chọn linh hoạt cho nhiều nhiệm vụ học máy khác nhau.

In [3]:
# Import các thư viện cần thiết
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Tải dữ liệu Iris
iris = load_iris()
X = iris.data
y = iris.target

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Huấn luyện mô hình Logistic Regression
model = LogisticRegression()
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá độ chính xác của mô hình
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

Accuracy: 1.0


In [4]:
from sklearn.metrics import classification_report

# Tính toán các chỉ số đánh giá khác
report = classification_report(y_test, y_pred, target_names=iris.target_names)
print(report)

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      1.00      1.00         9
   virginica       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



In [1]:
# Một số ứng dụng thực tế của học máy và scikit-learn:
applications = [
    "Phân loại email spam",
    "Dự đoán giá nhà",
    "Nhận diện khuôn mặt",
    "Phân tích cảm xúc từ văn bản",
    "Dự đoán bệnh tật từ dữ liệu y tế",
    "Phân loại hình ảnh",
    "Phân cụm khách hàng cho marketing",
    "Dự đoán doanh số bán hàng",
    "Phát hiện gian lận trong giao dịch tài chính",
    "Tối ưu hóa chuỗi cung ứng"
]

for i, app in enumerate(applications, 1):
    print(f"{i}. {app}")

1. Phân loại email spam
2. Dự đoán giá nhà
3. Nhận diện khuôn mặt
4. Phân tích cảm xúc từ văn bản
5. Dự đoán bệnh tật từ dữ liệu y tế
6. Phân loại hình ảnh
7. Phân cụm khách hàng cho marketing
8. Dự đoán doanh số bán hàng
9. Phát hiện gian lận trong giao dịch tài chính
10. Tối ưu hóa chuỗi cung ứng
