In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_curve, auc
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer
import matplotlib.pyplot as plt
import seaborn as sns


KeyboardInterrupt: 

In [4]:
# 1. Đọc dữ liệu từ file CSV
data = pd.read_csv('Heart.csv')

# Bước 2: Loại bỏ cột không cần thiết
data = data.drop(columns=['Unnamed: 0'])

# 2. Kiểm tra thông tin dữ liệu và các cột có trong dữ liệu
print("Thông tin dữ liệu ban đầu:")
print(data.info())
print("Các cột trong dữ liệu:")
print(data.columns)




Thông tin dữ liệu ban đầu:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 297 entries, 0 to 296
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Age        297 non-null    int64  
 1   Sex        297 non-null    int64  
 2   ChestPain  297 non-null    object 
 3   RestBP     297 non-null    int64  
 4   Chol       297 non-null    int64  
 5   Fbs        297 non-null    int64  
 6   RestECG    297 non-null    int64  
 7   MaxHR      297 non-null    int64  
 8   ExAng      297 non-null    int64  
 9   Oldpeak    297 non-null    float64
 10  Slope      297 non-null    int64  
 11  Ca         297 non-null    int64  
 12  Thal       297 non-null    object 
 13  AHD        297 non-null    object 
dtypes: float64(1), int64(10), object(3)
memory usage: 32.6+ KB
None
Các cột trong dữ liệu:
Index(['Age', 'Sex', 'ChestPain', 'RestBP', 'Chol', 'Fbs', 'RestECG', 'MaxHR',
       'ExAng', 'Oldpeak', 'Slope', 'Ca', 'Thal', 'AHD'],

In [5]:
# 3. Xử lý giá trị thiếu (NA) cho cả dữ liệu số và chuỗi
# Tách dữ liệu số và chuỗi
num_cols = data.select_dtypes(include=['float64', 'int64']).columns
cat_cols = data.select_dtypes(include=['object']).columns

# Điền giá trị thiếu cho dữ liệu số (mean) và chuỗi (most_frequent)
num_imputer = SimpleImputer(strategy='mean')
cat_imputer = SimpleImputer(strategy='most_frequent')

data[num_cols] = num_imputer.fit_transform(data[num_cols])
data[cat_cols] = cat_imputer.fit_transform(data[cat_cols])

# Kiểm tra dữ liệu sau khi điền giá trị thiếu
print("Thông tin dữ liệu sau khi xử lý giá trị thiếu:")
print(data.info())


Thông tin dữ liệu sau khi xử lý giá trị thiếu:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 297 entries, 0 to 296
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Age        297 non-null    float64
 1   Sex        297 non-null    float64
 2   ChestPain  297 non-null    object 
 3   RestBP     297 non-null    float64
 4   Chol       297 non-null    float64
 5   Fbs        297 non-null    float64
 6   RestECG    297 non-null    float64
 7   MaxHR      297 non-null    float64
 8   ExAng      297 non-null    float64
 9   Oldpeak    297 non-null    float64
 10  Slope      297 non-null    float64
 11  Ca         297 non-null    float64
 12  Thal       297 non-null    object 
 13  AHD        297 non-null    object 
dtypes: float64(11), object(3)
memory usage: 32.6+ KB
None


In [8]:
# 4. Mã hóa các cột chuỗi bằng LabelEncoder
label_encoder = LabelEncoder()
for col in cat_cols:
    data[col] = label_encoder.fit_transform(data[col])

# Kiểm tra dữ liệu sau khi mã hóa
print("Dữ liệu sau khi mã hóa:")
print(data.head())

train_data, test_data = train_test_split(data, test_size=0.2, random_state=42, stratify=data['AHD'])

# Bước 4: Lưu hai tập dữ liệu ra file CSV
train_file_path = 'train_dataset.csv'
test_file_path = 'test_dataset.csv'

train_data.to_csv(train_file_path, index=False)
test_data.to_csv(test_file_path, index=False)


Dữ liệu sau khi mã hóa:
    Age  Sex  ChestPain  RestBP   Chol  Fbs  RestECG  MaxHR  ExAng  Oldpeak  \
0  63.0  1.0          3   145.0  233.0  1.0      2.0  150.0    0.0      2.3   
1  67.0  1.0          0   160.0  286.0  0.0      2.0  108.0    1.0      1.5   
2  67.0  1.0          0   120.0  229.0  0.0      2.0  129.0    1.0      2.6   
3  37.0  1.0          1   130.0  250.0  0.0      0.0  187.0    0.0      3.5   
4  41.0  0.0          2   130.0  204.0  0.0      2.0  172.0    0.0      1.4   

   Slope   Ca  Thal  AHD  
0    3.0  0.0     0    0  
1    2.0  3.0     1    1  
2    2.0  2.0     2    1  
3    3.0  0.0     1    0  
4    1.0  0.0     1    0  
