互联网中充斥着大量钓鱼欺诈类网站。这类非法网站通常试图掩人耳目、充当正规网站，而实际上却是在窃取用户的身份、密码、交易等重要信息
机器学习在信息安全领域中的一个重要应用就是用来识别这些钓鱼网站。fraudulent.csv在data文件夹中。

fraudulent.csv文件中含有10,086条数据，每条数据含有18个特征以及1个标签。各个特征的含义如下：

    contain_IP：网址中是否包涵ip，比如http://121.99.3.123/fake.html 包含ip。1表示包含，0表示不包含；
    is_long：网址字符是否过长。1表示网址过长，0表示网址不长；
    is_tinyurl：网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址，0表示不是；
    contain_at：网址是否包含“@”符号。1表示包含，0表示不包含；
    contain_double_slash：网址是否包含“//”符号，该符号用来表示网址跳转。1表示包含，0表示不包含；
    contain_dash：网址是否包含“-”符号，该符号经常帮助用来伪装真网站，比如www.my-taobao.com 。 1表示包含，0表示不包含；
    contain_subdomain：网址是否包含子域名，比如www.ecnu.edu.cn 就包含edu和cn子域名。1表示包含，0表示不包含；
    is_SSL：网址是否是https安全链接。1表示包含，0表示不包含；
    with_long_history：网址所属的主域名存在的时间。1表示长久，0表示不长久；
    contain_icon：网址网页是否有小图标。1表示包含，0表示不包含；
    contain_ext_domain：该网页是否加载其他域名下的附件或者网页。1表示包含，0表示不包含；
    contain_email_to：该网页是否包含发送邮件的组件。1表示包含，0表示不包含；
    allow_right_click：该网页是否允许用户进行右击操作。1表示允许，0表示不允许；
    contain_pop_up_windowL：该网页是否包含弹窗。1表示包含，0表示不包含；
    contain_Iframe：该网页是否包含Iframe（嵌套网页）。1表示包含，0表示不包含；
    has_DNSRecord：网址是否有DNS记录。1表示有，0表示无；
    traffic：该网站的流量大小。1表示大，0表示小；
    google_rank：该网址在google搜索中的排名。1表示高于同类网站的平均排名，0表示低于同类网站的平均排名；
    
    y：表示网站是否是钓鱼欺诈网站，1表示是，0表示不是。
    原始数据中含有大量缺失值，请自行处理这些缺失值（可以剔除缺失值过多的列或者使用众数填充等方法）。

将原始数据分为训练集、测试集（随机种子请设置为1）（若有需要可以将训练集进一步分为训练集和验证集）。

现在请建立一个二分类模型，使用训练集训练模型，再使用测试集测试模型。

评估指标为F1值

分类模型可采用：k-近邻、决策树、逻辑回归、支持向量机等。

可以与周围同学比较一下F1值的大小（越接近1越好），看看谁的数据预处理和分类模型更强。

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifier  
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# 使用原始字符串或双反斜杠
file_path = r"C:\Users\王志鸿\Desktop\导论\fraudulent.csv"

# 加载数据
data = pd.read_csv(file_path)

# 使用众数填充缺失值
imputer = SimpleImputer(strategy='most_frequent')
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

# 提取特征和标签
X = data_imputed.drop('y', axis=1)
y = data_imputed['y']

# 将数据集划分为训练集和测试集，使用随机种子为1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

# 更进一步的划分训练集为训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=1)

# 对特征进行标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 使用决策树模型
clf = DecisionTreeClassifier(random_state=1)
clf.fit(X_train_scaled, y_train)

# 预测
y_pred = clf.predict(X_test_scaled)

# 计算F1值
f1 = f1_score(y_test, y_pred)
print(f"决策树模型F1值为: {f1}")

# 使用SVM模型
clf = SVC(random_state=1)
clf.fit(X_train_scaled, y_train)

# 预测
y_pred = clf.predict(X_test_scaled)

# 计算F1值
f1 = f1_score(y_test, y_pred)
print(f"SVM模型F1值为: {f1}")

# 使用随机森林模型
clf = RandomForestClassifier(random_state=1)
clf.fit(X_train_scaled, y_train)

# 预测
y_pred = clf.predict(X_test_scaled)

# 计算F1值
f1 = f1_score(y_test, y_pred)
print(f"随机森林模型F1值为: {f1}")



决策树模型F1值为: 0.8717672413793104
SVM模型F1值为: 0.8634886240520042
随机森林模型F1值为: 0.8746666666666666


我选取的了决策树、SVM、以及随机森林三种方法进行的分类，处理过程如下：

1. 处理缺失值
使用 SimpleImputer 类来填充缺失值。在这里，我选择使用众数来填充数据中的缺失值。填充完成后，数据存储在 data_imputed 中。
特征与标签分离

2. 将数据集分为特征（X）和标签（y）。假设目标列为 y，而其它列为特征。在这里我用 drop 方法从数据中删除了标签列 y 来提取特征。

3. 数据划分
将数据集划分为训练集和测试集：

  - 70% 的数据用于训练，30% 用于测试。

    使用 train_test_split 来完成数据的划分，其中 random_state=1 保证每次划分都一样（可复现性）。

  - 接着再将训练集进一步划分为训练集和验证集。
    
    80% 的训练数据用于训练，20% 用于验证。

4. 数据标准化
特征数据进行标准化处理。StandardScaler 会将每个特征的均值调整为 0，标准差调整为 1。这样可以避免某些特征值的范围较大导致模型训练时的偏差。

5. 模型训练与预测
这里使用了三个不同的分类模型进行训练和评估，分别是决策树、支持向量机和随机森林

6. 评估模型性能
每个模型训练完成后，使用 f1_score 评估模型的性能。F1 值综合了准确率和召回率，尤其适用于类别不平衡的数据集。


以下是每种方法的F1值:
- 决策树模型F1值为: 0.8717672413793104
- SVM模型F1值为: 0.8634886240520042
- 随机森林模型F1值为: 0.8746666666666666