In [9]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report

In [10]:
# Đọc dữ liệu
data = pd.read_csv('D:\Seminar\Code\data\Dataset_Cancer.csv')

# Kiểm tra dữ liệu
print(data.head())

# Giả sử cột chẩn đoán là 'diagnosis', với 'B' (lành) và 'M' (ác)
data['diagnosis'] = data['diagnosis'].map({'B': 0, 'M': 1})

# Xử lý dữ liệu
X = data.drop(columns=['id', 'diagnosis'])  # Loại bỏ ID, lấy đặc trưng
y = data['diagnosis']

# Chia tập train-test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Bước 1: Dùng RF để chọn đặc trưng quan trọng
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train_scaled, y_train)

# Lấy độ quan trọng của từng đặc trưng
feature_importances = rf.feature_importances_
feature_names = np.array(X.columns)  # Đảm bảo là mảng NumPy

# Sắp xếp các đặc trưng theo độ quan trọng (giảm dần)
sorted_indices = np.argsort(feature_importances)[::-1]
sorted_features = feature_names[sorted_indices]

# Chọn top 10 đặc trưng quan trọng nhất
top_n = 10
selected_features = sorted_features[:top_n]
print("Top 10 đặc trưng quan trọng:", selected_features)

# Lọc dữ liệu chỉ với các đặc trưng quan trọng
X_train_selected = X_train[selected_features].values
X_test_selected = X_test[selected_features].values

# Bước 2: Huấn luyện SVM với các đặc trưng đã chọn
svm = SVC(kernel='linear', random_state=42)
svm.fit(X_train_selected, y_train)

# Dự đoán
y_pred = svm.predict(X_test_selected)

# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')
print(classification_report(y_test, y_pred))

  data = pd.read_csv('D:\Seminar\Code\data\Dataset_Cancer.csv')


         id diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0    842302         M        17.99         10.38          122.80     1001.0   
1    842517         M        20.57         17.77          132.90     1326.0   
2  84300903         M        19.69         21.25          130.00     1203.0   
3  84348301         M        11.42         20.38           77.58      386.1   
4  84358402         M        20.29         14.34          135.10     1297.0   

   smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   
3          0.14250           0.28390          0.2414              0.10520   
4          0.10030           0.13280          0.1980              0.10430   

   ...  radius_worst  texture_worst  perimeter_worst  area_wor