In [35]:
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from tensorflow.python.keras.models import Sequential

# Đọc dữ liệu từ file
data = pd.read_csv("data_final.csv")

X = data.iloc[:,:-1]
y = data.iloc[:,-1]
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

In [36]:
# Đánh dấu lại các giá trị missing thành NaN
X = X.replace(0, np.nan)

# Đếm số giá trị missing trong từng cột
missing_counts = X.isnull().sum()
print("Số giá trị missing trong từng feature:\n", missing_counts)

Số giá trị missing trong từng feature:
 url                              0
host                             0
page_entropy                     0
num_script_tags                 60
script_to_body_ratio            66
                              ... 
domain_with_copyright         1096
whois_registered_domain       1903
domain_registration_length     325
dns_record                    2008
page_rank                      233
Length: 138, dtype: int64


In [37]:
numeric_features = X.select_dtypes(include=["int64", "float64"]).columns
categorical_features = X.select_dtypes(include=["object"]).columns

In [38]:
# Xử lý các numeric features
numeric_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="mean")),
    ("scaler", StandardScaler())
])

# Xử lý các categorical features
categorical_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("encoder", OneHotEncoder(handle_unknown="ignore"))
])

# Kết hợp các transformer
preprocessor = ColumnTransformer(transformers=[
    ("numeric", numeric_transformer, numeric_features),
    ("categorical", categorical_transformer, categorical_features)
])

# Tạo pipeline hoàn chỉnh
pipeline = Pipeline(steps=[
    ("preprocessor", preprocessor),
    # ("imputer", KNNImputer()),
    # ("model", YourModel())
])

In [39]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [40]:
pipeline.fit(X_train, y_train)

In [41]:
processed_data = pipeline.transform(X_train)
processed_data_df = pd.DataFrame(processed_data, columns=X_train.columns)

print("10 dòng đầu của dữ liệu đã xử lý:\n", processed_data_df.head(10))

ValueError: ignored

In [42]:
# Import các mô hình máy học
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# Fit mô hình Decision Tree
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
dt_score = dt.score(X_test, y_test)

# Fit mô hình Random Forest
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
rf_score = rf.score(X_test, y_test)

# Fit mô hình Logistic Regression
lr = LogisticRegression()
lr.fit(X_train, y_train)
lr_score = lr.score(X_test, y_test)

print("Đánh giá hiệu suất các mô hình:")
print("Decision Tree score:", dt_score)
print("Random Forest score:", rf_score)
print("Logistic Regression score:", lr_score)

ValueError: ignored