In [12]:
import pandas as pd

# Đọc dữ liệu từ tệp CSV
data = pd.read_csv('../../../data/wages_by_education.csv')

# Xem trước dữ liệu
print(data.head())
print(data.info())


   year  less_than_hs  high_school  some_college  bachelors_degree  \
0  2022         16.52        21.94         24.81             41.60   
1  2021         16.74        22.28         24.92             41.32   
2  2020         17.02        22.70         25.44             41.65   
3  2019         16.11        21.64         24.00             39.61   
4  2018         15.94        21.50         23.70             38.87   

   advanced_degree  men_less_than_hs  men_high_school  men_some_college  \
0            53.22             17.99            24.08             27.96   
1            53.45             18.34            24.36             27.96   
2            53.74             18.76            25.09             28.55   
3            51.57             17.55            23.99             26.99   
4            51.03             17.70            23.72             26.61   

   men_bachelors_degree  ...  black_women_less_than_hs  \
0                 49.01  ...                     13.89   
1           

# Cài đặt thuật toán Logistics

In [13]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Chọn các đặc trưng và nhãn
# Bạn có thể thay thế 'wage' bằng cột phù hợp từ dữ liệu của bạn
target_column = 'bachelors_degree'  # Thay thế bằng cột phù hợp từ dữ liệu của bạn

# Chuyển đổi mục tiêu thành nhị phân (0 hoặc 1)
data['target_binary'] = (data[target_column] > data[target_column].mean()).astype(int)

features = [
    'high_school', 'bachelors_degree', 'advanced_degree', 
    'men_high_school', 'men_bachelors_degree', 'men_advanced_degree', 
    'women_high_school', 'women_bachelors_degree', 'women_advanced_degree'
]

X = data[features]
y = data['target_binary']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


In [14]:
from sklearn.linear_model import LogisticRegression

# Huấn luyện mô hình hồi quy Logistic
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

# Dự đoán với mô hình hồi quy Logistic
y_pred_logistic = logistic_model.predict(X_test)


In [15]:
from sklearn.neural_network import MLPClassifier

# Huấn luyện mô hình MLP
mlp_model = MLPClassifier(hidden_layer_sizes=(10,), max_iter=1000, random_state=42)
mlp_model.fit(X_train, y_train)

# Dự đoán với mô hình MLP
y_pred_mlp = mlp_model.predict(X_test)


In [16]:
# Kết hợp kết quả dự đoán từ cả hai mô hình
y_pred_combined = (y_pred_logistic + y_pred_mlp) / 2
y_pred_combined = np.round(y_pred_combined).astype(int)


In [17]:
from sklearn.metrics import accuracy_score, f1_score

# Đánh giá độ chính xác và F1 score
accuracy = accuracy_score(y_test, y_pred_combined)
f1 = f1_score(y_test, y_pred_combined)

print(f"Accuracy: {accuracy:.2f}")
print(f"F1 Score: {f1:.2f}")


Accuracy: 1.00
F1 Score: 1.00
