互联网中充斥着大量钓鱼欺诈类网站。这类非法网站通常试图掩人耳目、充当正规网站，而实际上却是在窃取用户的身份、密码、交易等重要信息 机器学习在信息安全领域中的一个重要应用就是用来识别这些钓鱼网站。fraudulent.csv在data文件夹中。

fraudulent.csv文件中含有10,086条数据，每条数据含有18个特征以及1个标签。各个特征的含义如下：

contain_IP：网址中是否包涵ip，比如http://121.99.3.123/fake.html 包含ip。1表示包含，0表示不包含；
is_long：网址字符是否过长。1表示网址过长，0表示网址不长；
is_tinyurl：网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址，0表示不是；
contain_at：网址是否包含“@”符号。1表示包含，0表示不包含；
contain_double_slash：网址是否包含“//”符号，该符号用来表示网址跳转。1表示包含，0表示不包含；
contain_dash：网址是否包含“-”符号，该符号经常帮助用来伪装真网站，比如www.my-taobao.com 。 1表示包含，0表示不包含；
contain_subdomain：网址是否包含子域名，比如www.ecnu.edu.cn 就包含edu和cn子域名。1表示包含，0表示不包含；
is_SSL：网址是否是https安全链接。1表示包含，0表示不包含；
with_long_history：网址所属的主域名存在的时间。1表示长久，0表示不长久；
contain_icon：网址网页是否有小图标。1表示包含，0表示不包含；
contain_ext_domain：该网页是否加载其他域名下的附件或者网页。1表示包含，0表示不包含；
contain_email_to：该网页是否包含发送邮件的组件。1表示包含，0表示不包含；
allow_right_click：该网页是否允许用户进行右击操作。1表示允许，0表示不允许；
contain_pop_up_windowL：该网页是否包含弹窗。1表示包含，0表示不包含；
contain_Iframe：该网页是否包含Iframe（嵌套网页）。1表示包含，0表示不包含；
has_DNSRecord：网址是否有DNS记录。1表示有，0表示无；
traffic：该网站的流量大小。1表示大，0表示小；
google_rank：该网址在google搜索中的排名。1表示高于同类网站的平均排名，0表示低于同类网站的平均排名；

y：表示网站是否是钓鱼欺诈网站，1表示是，0表示不是。
原始数据中含有大量缺失值，请自行处理这些缺失值（可以剔除缺失值过多的列或者使用众数填充等方法）。
将原始数据分为训练集、测试集（随机种子请设置为1）（若有需要可以将训练集进一步分为训练集和验证集）。

现在请建立一个二分类模型，使用训练集训练模型，再使用测试集测试模型。

评估指标为F1值

分类模型可采用：k-近邻、决策树、逻辑回归、支持向量机等。

可以与周围同学比较一下F1值的大小（越接近1越好），看看谁的数据预处理和分类模型更强。

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.svm import SVC
from sklearn.metrics import f1_score
from sklearn.ensemble import RandomForestClassifier

# 加载数据
df = pd.read_csv(r'D:\fraudulent.csv')  # 修改为正确的路径


# 2. 处理缺失值
# 使用 SimpleImputer 来填充缺失值，使用最频繁的值（众数）
imputer = SimpleImputer(strategy='most_frequent')
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

# 3. 特征和标签分离
X = df_imputed.drop(columns=['y'])  # 特征
y = df_imputed['y']  # 标签

# 4. 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 5. 数据划分：80%训练集，20%测试集，随机种子为1
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=1)

# 6. 选择模型（SVM为例）
svm = SVC(kernel='rbf', random_state=1)

# 7. 训练模型
svm.fit(X_train, y_train)

# 8. 预测
y_pred = svm.predict(X_test)

# 9. 评估F1值
f1_svm = f1_score(y_test, y_pred)
print(f"SVM F1 Score: {f1_svm:.4f}")

# 如果需要，尝试其他模型，如随机森林
rf = RandomForestClassifier(random_state=1)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
f1_rf = f1_score(y_test, y_pred_rf)
print(f"Random Forest F1 Score: {f1_rf:.4f}")


SVM F1 Score: 0.8615
Random Forest F1 Score: 0.8637


# 解题思路

## 1. 数据加载
- 使用 `pandas` 加载 CSV 文件中的数据，并查看数据的基本信息，对数据进行预处理和建模。

## 2. 处理缺失值
- 数据中可能存在缺失值，因此使用 `SimpleImputer` 来填充缺失值。选择用最频繁的值（众数）来填充缺失数据，避免丢失过多信息。
- 通过 `fit_transform` 方法进行缺失值填充，并返回一个新的 DataFrame。

## 3. 特征和标签分离
- 特征（X）从原始数据中提取，去除标签列 `y`。标签 `y` 代表目就标（是否欺诈），就是要预测的值。

## 4. 数据标准化
- 特征数据 `X` 使用 `StandardSca学习中的常见预处理步骤，它将数据转换为均值为 准差为 1 的分布。

## 5. 数据划分
- 使用 `train_test_split` 方法将数据集划分为训练集（80%）和测试集（20%）。通过设置 `random_state` 保证结果的可重现性

## 6. 选择模型
- 选择支持向量机（SVM）模型作为基础分类器。使用 `SVC` 类创建支持向量机模型，设置核函数为径向基函数（RBF），，设置 `random_state` 以保证模型的可重现性。

## 7. 训练模型
- 使用训练集 `X_train` 和 `y_train` 来训练 SVM 模型。

## 8. 预测
- 使用测试集 `X_tes预测结果 `y_pred`。通过模型预测，与真实标签 `y_test` 进行比较。

## 9. 评估模型
- 使用 F1 值作为模型评估指标。F1 值是精度和召回率的调和平均数，适用于不平衡数据集。
  
## 10. 尝试其他模型
- 随机森林（Random Forest）模型进行对比。