In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# 1. Đọc dữ liệu
df = pd.read_csv('albrecht_preprocessed.csv')

# 2. Khám phá dữ liệu
print("Thông tin dữ liệu:")
print(df.info())
print("\n5 dòng đầu tiên:")
print(df.head())
print("\nThống kê mô tả:")
print(df.describe())
print("\nPhân bố biến Language:")
print(df['Language'].value_counts())

# 3. Kiểm tra missing & trùng lặp
print("\nGiá trị thiếu:")
print(df.isnull().sum())
print("Số dòng trùng lặp:", df.duplicated().sum())

# 4. Kiểu dữ liệu
df['Language'] = df['Language'].str.decode('utf-8')
df['Project'] = df['Project'].astype(int)
print("\nKiểu dữ liệu sau khi xử lý:")
print(df.dtypes)

# 5. Mã hóa biến phân loại
df = pd.get_dummies(df, columns=['Language'], prefix='Language')
print("\nDữ liệu sau mã hóa:")
print(df.head())

# 6. Xử lý ngoại lệ
df['TeamExp'] = df['TeamExp'].replace(-1, 0)
df['ManagerExp'] = df['ManagerExp'].replace(-1, 0)
print("\nSố giá trị âm trong TeamExp sau xử lý:", (df['TeamExp'] < 0).sum())
print("Số giá trị âm trong ManagerExp sau xử lý:", (df['ManagerExp'] < 0).sum())

# 7. Tạo đặc trưng mới (trước chuẩn hóa)
df['Effort_per_Length'] = df['Effort'] / df['Length']
df['Total_Function_Size'] = df['Transactions'] + df['Entities']
df['Effort_log'] = np.log1p(df['Effort'])

print("\nCác đặc trưng mới:")
print(df[['Effort_per_Length', 'Total_Function_Size', 'Effort_log']].head())

# 8. Chuẩn hóa dữ liệu
numeric_cols = ['TeamExp', 'ManagerExp', 'YearEnd', 'Length', 'Effort', 
                'Transactions', 'Entities', 'PointsNonAdjust', 'Adjustment', 'PointsAjust',
                'Effort_per_Length', 'Total_Function_Size']
scaler = StandardScaler()
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])

print("\nDữ liệu sau chuẩn hóa:")
print(df[numeric_cols].describe())

# 9. Phân tích tương quan
correlation_matrix = df[numeric_cols + ['Effort_log']].corr()
print("\nTương quan với Effort_log:")
print(correlation_matrix['Effort_log'].sort_values(ascending=False))

# 10. Tách X và y
X = df.drop(columns=['Effort', 'Effort_log']) 
y = df['Effort_log']

# 11. Chia tập train/test/val
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_test, X_val, y_test, y_val = train_test_split(X_temp, y_temp, test_size=0.33, random_state=42)

print("\nKích thước tập train:", X_train.shape)
print("Kích thước tập test:", X_test.shape)
print("Kích thước tập validation:", X_val.shape)

# 12. Lưu dữ liệu đã xử lý
df.to_csv('test.csv', index=False)
print("\nĐã lưu kết quả vào file 'desharnais_preprocessed.csv'")



Kiểu dữ liệu sau khi chuyển đổi:
AFP                 int64
Input               int64
Output              int64
Enquiry             int64
File                int64
Interface           int64
Added               int64
Changed             int64
Deleted             int64
Resource            int64
Duration          float64
AdjFactor         float64
Effort              int64
DevType_Maint     float64
DevType_NewDev    float64
dtype: object

=== Sau khi tăng cường dữ liệu bằng nhiễu Gaussian ===
X_augmented shape: (1497, 14)
y_augmented shape: (1497,)

=== Kích thước dữ liệu sau reshape ===
X_augmented shape: (1497, 14, 1)
y_augmented shape: (1497,)

✅ Kích thước dữ liệu CNN:
 - X_train: (1272, 14, 1)
 - X_test : (225, 14, 1)
🚀 Chạy PSO để tìm siêu tham số tối ưu...

🔁 Iteration 1/10

🔁 Iteration 2/10
✅ Cập nhật g_best: Score = 4102.3683
✅ Cập nhật g_best: Score = 3857.3104

🔁 Iteration 3/10

🔁 Iteration 4/10

🔁 Iteration 5/10

🔁 Iteration 6/10

🔁 Iteration 7/10

🔁 Iteration 8/10

🔁 Iteration