In [52]:
import os
import numpy as np
import pandas as pd
from sklearn import svm
from sklearn.svm import SVC
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Train Data

In [53]:
# Đường dẫn đến thư mục chứa dữ liệu
data_train_dir = "../Data_set/Data_train2/"


# Xác định các đặc trưng (features) và nhãn (labels)
features = ["Ax", "Ay", "Az", "Gx", "Gy", "Gz"]

# Chuẩn bị dữ liệu huấn luyện
train_data = []
train_labels = []

# Đọc dữ liệu từ thư mục Data_processing
for file_name in os.listdir(data_train_dir):
    if file_name.endswith("_0.csv"):
        label = 0  # Nhãn nữ
    elif file_name.endswith("_1.csv"):
        label = 1  # Nhãn nam
    else:
        continue

    file_path = os.path.join(data_train_dir, file_name)
    df = pd.read_csv(file_path)
    flattened_data = df[features].values.flatten()  # Chuyển đổi dữ liệu thành 2 chiều
    flattened_data = np.nan_to_num(flattened_data, nan=0.0, posinf=1.7976931348623157e+308, neginf=2.2250738585072014e-308)
    train_data.append(flattened_data)
    train_labels.append(label)

# Xây dựng mô hình 

# linear
linear_model = SVC(kernel='linear')
linear_model.fit(train_data, train_labels)

#poly
poly_model = SVC(kernel='poly')
poly_model.fit(train_data, train_labels)

#rbf
rbf_model = SVC(kernel='rbf')
rbf_model.fit(train_data, train_labels)

#sigmoid
sigmoid_model = SVC(kernel='sigmoid')
sigmoid_model.fit(train_data, train_labels)

#RF
rf_model = RandomForestClassifier()
rf_model.fit(train_data, train_labels)

# Test Data

In [54]:
test_path = "../Data_set/Data_test2/"

test_data = []
test_filenames = []
test_labels = []

# Duyệt qua các tệp tin trong thư mục test_path
for filename in os.listdir(test_path):
    # Kiểm tra nếu tệp tin có đuôi .csv
    if filename.endswith(".csv"):
        file_path = os.path.join(test_path, filename)
        df = pd.read_csv(file_path)
        
        # Lấy dữ liệu từ 6 cột Ax, Ay, Az, Gx, Gy, Gz
        features = df[['Ax', 'Ay', 'Az', 'Gx', 'Gy', 'Gz']].values
        features = np.nan_to_num(features, nan=0.0, posinf=1.7976931348623157e+308, neginf=2.2250738585072014e-308)
        test_data.append(features)  # Thêm dữ liệu vào test_data
        test_filenames.append(filename)  # Thêm tên tệp tin vào test_filenames
        test_labels.append(0 if filename.endswith("_0.csv") else 1)  # Thêm nhãn vào test_labels (0: nữ, 1: nam)

test_data = np.array(test_data).reshape(len(test_data), -1)  # Chuyển đổi test_data thành mảng numpy 2D

# Linear

In [55]:
predictions = linear_model.predict(test_data)  # Dự đoán giới tính trên dữ liệu kiểm tra

# In kết quả dự đoán và tên tệp tin tương ứng
for filename, label, prediction in zip(test_filenames, test_labels, predictions):
    print("File:", filename)
    print("Dự đoán giới tính:", prediction)
    print("--------------------")

accuracy = accuracy_score(test_labels, predictions)  # Tính độ chính xác bằng cách so sánh nhãn thực tế và nhãn dự đoán
print("Độ chính xác của mô hình Random Forest trên dữ liệu kiểm tra: {:.2f}%".format(accuracy * 100))

File: ID000104_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID002630_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID002838_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID002942_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID004636_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005431_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005535_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID005639_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID008440_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID009443_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID009547_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID009859_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID010002_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013635_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013843_Walk2_0.csv
Dự đoán

# Poly

In [56]:
predictions = poly_model.predict(test_data)  # Dự đoán giới tính trên dữ liệu kiểm tra

# In kết quả dự đoán và tên tệp tin tương ứng
for filename, label, prediction in zip(test_filenames, test_labels, predictions):
    print("File:", filename)
    print("Dự đoán giới tính:", prediction)
    print("--------------------")

accuracy = accuracy_score(test_labels, predictions)  # Tính độ chính xác bằng cách so sánh nhãn thực tế và nhãn dự đoán
print("Độ chính xác của mô hình Random Forest trên dữ liệu kiểm tra: {:.2f}%".format(accuracy * 100))

File: ID000104_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID002630_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID002838_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID002942_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID004636_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005431_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005535_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID005639_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID008440_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID009443_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID009547_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID009859_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID010002_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013635_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013843_Walk2_0.csv
Dự đoán

# RBF

In [57]:
predictions = rbf_model.predict(test_data)  # Dự đoán giới tính trên dữ liệu kiểm tra

# In kết quả dự đoán và tên tệp tin tương ứng
for filename, label, prediction in zip(test_filenames, test_labels, predictions):
    print("File:", filename)
    print("Dự đoán giới tính:", prediction)
    print("--------------------")

accuracy = accuracy_score(test_labels, predictions)  # Tính độ chính xác bằng cách so sánh nhãn thực tế và nhãn dự đoán
print("Độ chính xác của mô hình Random Forest trên dữ liệu kiểm tra: {:.2f}%".format(accuracy * 100))

File: ID000104_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID002630_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID002838_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID002942_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID004636_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005431_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID005535_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID005639_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID008440_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID009443_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID009547_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID009859_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID010002_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013635_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013843_Walk2_0.csv
Dự đoán

# Sigmoid

In [58]:
predictions = sigmoid_model.predict(test_data)  # Dự đoán giới tính trên dữ liệu kiểm tra

# In kết quả dự đoán và tên tệp tin tương ứng
for filename, label, prediction in zip(test_filenames, test_labels, predictions):
    print("File:", filename)
    print("Dự đoán giới tính:", prediction)
    print("--------------------")

accuracy = accuracy_score(test_labels, predictions)  # Tính độ chính xác bằng cách so sánh nhãn thực tế và nhãn dự đoán
print("Độ chính xác của mô hình Random Forest trên dữ liệu kiểm tra: {:.2f}%".format(accuracy * 100))

File: ID000104_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID002630_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID002838_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID002942_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID004636_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005431_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID005535_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID005639_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID008440_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID009443_Walk2_1.csv
Dự đoán giới tính: 0
--------------------
File: ID009547_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID009859_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID010002_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID013635_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID013843_Walk2_0.csv
Dự đoán

# Random Forest

In [59]:
predictions = rf_model.predict(test_data)  # Dự đoán giới tính trên dữ liệu kiểm tra

# In kết quả dự đoán và tên tệp tin tương ứng
for filename, label, prediction in zip(test_filenames, test_labels, predictions):
    print("File:", filename)
    print("Dự đoán giới tính:", prediction)
    print("--------------------")

accuracy = accuracy_score(test_labels, predictions)  # Tính độ chính xác bằng cách so sánh nhãn thực tế và nhãn dự đoán
print("Độ chính xác của mô hình Random Forest trên dữ liệu kiểm tra: {:.2f}%".format(accuracy * 100))

File: ID000104_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID002630_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID002838_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID002942_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID004636_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005431_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID005535_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID005639_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID008440_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID009443_Walk2_1.csv
Dự đoán giới tính: 1
--------------------
File: ID009547_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID009859_Walk2_0.csv
Dự đoán giới tính: 1
--------------------
File: ID010002_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013635_Walk2_0.csv
Dự đoán giới tính: 0
--------------------
File: ID013843_Walk2_0.csv
Dự đoán