# 数据建模  
数据建模在机器学习中具有极其重要的地位。它是机器学习的核心组成部分，对于训练和评估模型、做出预测和优化决策都至关重要。

模型训练和学习：在机器学习中，模型通过从数据中学习模式和关系来进行训练。模型的性能和准确性取决于所用数据的质量和数量。良好的数据建模可以提供高质量的训练数据，有助于构建更准确和可靠的模型。

## 分类数据建模

机器学习的一般框架：
训练集 => 提取特征向量 => 结合一定的算法（分类器：比如决策树、KNN）=>得到结果

支持向量机（support vector machines，SVM）是一种二分类模型，它将实例的特征向量映射为空间中的一些点，SVM 的目的就是想要画出一条线，以 “最好地” 区分这两类点，以至如果以后有了新的点，这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。

SVM 是有监督的学习模型，就是说我们需要先对数据打上标签，之后通过求解最大分类间隔来求解二分类问题，而对于多分类问题，可以组合多个 SVM 分类器来处理。
### SVM 基本概念  
将实例的特征向量（以二维为例）映射为空间中的一些点，如下图的实心点和空心点，它们属于不同的两类。SVM 的目的就是想要画出一条线，以“最好地”区分这两类点，以至如果以后有了新的点，这条线也能做出很好的分类。

![image](https://github.com/X-lab2017/OpenTEA101/assets/115639837/f85c6a50-aca5-44d9-85e0-d1a6b4b57280)

其实在工具 sklearn 中，已经封装了多种 SVM 模型，这里我们重点介绍下 SVC，该模型既可以训练线性可分的数据，也可以训练线性不可分数据。

![image](https://github.com/X-lab2017/OpenTEA101/assets/115639837/36c6bc6f-7050-4588-b2a1-24faed758817)


## GitHub机器人检测

在开始之前，确保已经安装了Python，并且安装相应的两个库。可以通过 pip install pandas 和 pip install scikit-learn 来安装。
完成以上步骤后，Pandas 和 Scikit-Learn 将安装在你的 Python 环境中，你可以在代码中导入它们并开始使用它们。例如：


In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

数据探索

我们先来加载数据，查看下数据情况

In [13]:
df = pd.read_csv('actor.csv')
print(df.head())

   Unnamed: 0  actor_id  type  public_repos  public_gists  followers  \
0           0       139  User           176             8       1118   
1           1      1812  User            33             4         47   
2           2      3416  User           104           132        367   
3           3      3467  User            78            59        139   
4           4      3579  User           210           101        188   

   following  
0          9  
1          1  
2          8  
3         57  
4         47  


数据集的字段含义：

actor_id: GitHub用户的唯一标识符。  
public_repos: 用户的公共仓库数量。  
public_gists: 用户的公共代码片段数量。  
followers: 关注该用户的人数。  
following: 该用户关注的人数。  

我们要预测的标签就是字段 type，是一个二分类的问题。   
除去 id 和 type 字段，还有4个字段，它们都是用户特征。

In [14]:
# 2. 划分数据集，80%用于训练，20%用于测试
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

数据预处理和模型训练介绍

在进行机器学习任务时，首要任务之一是准备和处理数据，以便将其用于训练和评估机器学习模型。这个过程包括选择适当的特征，将数据划分为训练集和测试集，进行数据标准化，并选择合适的模型来进行训练和预测。

1. 选择用于预测的特征列：

首先，我们需要选择哪些特征（或属性）将用于预测任务。在这个示例中，我们选择了以下特征列：'public_repos'，'public_gists'，'followers'，和 'following'。这些特征将用于训练模型来预测一个用户的 'type'，这个类型可能代表了用户在某个社交媒体或平台上的活跃程度等信息。

In [17]:
# 3. 选择用于预测的特征列
feature_columns = ['public_repos', 'public_gists', 'followers', 'following']

2. 训练集和测试集的输入特征：

我们将数据分成两个部分：训练集和测试集。训练集将用于模型的训练，而测试集将用于评估模型的性能。我们需要从原始数据中提取输入特征并将其分配给相应的训练集（X_train）和测试集（X_test）。

In [18]:
# 4. 训练集的输入特征
X_train = train_df[feature_columns]

# 5. 测试集的输入特征
X_test = test_df[feature_columns]


3. 训练集和测试集的标签：

除了输入特征外，我们还需要确定目标标签，也就是我们要预测的内容。在这个例子中，我们的目标是用户的 'type'。我们将 'type' 列分配给训练集标签（y_train）和测试集标签（y_test）

In [19]:
# 6. 训练集的标签
y_train = train_df['type']

# 7. 测试集的标签
y_test = test_df['type']

4. 数据标准化：

在训练机器学习模型之前，通常需要对数据进行标准化处理，以确保不同特征的值具有相似的范围，以避免某些特征对模型的影响过大。我们使用标准化器（StandardScaler）来对输入特征进行标准化处理。

In [20]:
# 8. 数据标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


5. 创建一个SVM分类器：

在数据准备工作完成后，我们选择了一个支持向量机（SVM）分类器来进行模型训练。SVM是一种强大的监督学习算法，适用于分类问题。

In [21]:

# 9. 创建一个SVM分类器
clf = SVC()

6. 训练模型：

接下来，我们使用训练集的输入特征（X_train_scaled）和标签（y_train）来训练SVM模型。模型将学习如何根据输入特征来预测用户的 'type'。

7. 在测试集上进行预测：

最后，我们使用训练好的模型来对测试集的输入特征（X_test_scaled）进行预测，以评估模型的性能和准确性。

In [15]:

# 10. 训练模型
clf.fit(X_train_scaled, y_train)

# 11. 在测试集上进行预测
y_pred = clf.predict(X_test_scaled)


8. 评估模型性能

现在，我们已经训练了一个支持向量机（SVM）模型，并使用测试集进行了预测。评估模型性能是确定模型对于实际数据的预测能力的关键步骤。在这里，我们将使用准确度（accuracy）作为性能指标来评估模型的表现。

准确度（Accuracy）是一个用于分类问题的常见性能指标，它表示模型正确预测的样本占总样本数的比例。简而言之，它衡量了模型的整体预测精度。

接下来的代码将计算模型的准确度并输出结果：

In [16]:
# 12. 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("模型的准确度:", accuracy)

模型的准确度: 0.9895697522816167


In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score, recall_score

# 1. Load the dataset
df = pd.read_csv('actor.csv')

# 2. Split the dataset into 80% training and 20% testing
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# 3. Select the feature columns for prediction
feature_columns = ['public_repos', 'public_gists', 'followers', 'following']

# 4. Training set input features
X_train = train_df[feature_columns]

# 5. Testing set input features
X_test = test_df[feature_columns]

# 6. Training set labels
y_train = train_df['type']

# 7. Testing set labels
y_test = test_df['type']

# 8. Data Standardization
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Create a list of classifiers to compare
classifiers = [
    ('Logistic Regression', LogisticRegression()),
    ('Decision Tree', DecisionTreeClassifier()),
    ('Random Forest', RandomForestClassifier()),
    ('Naive Bayes', GaussianNB())
]

# Train and evaluate each classifier
for name, clf in classifiers:
    clf.fit(X_train_scaled, y_train)
    y_pred = clf.predict(X_test_scaled)
    
    accuracy = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    
    print(f"Classifier: {name}")
    print(f"Accuracy: {accuracy:.2f}")
    print(f"F1 Score: {f1:.2f}")
    print(f"Recall: {recall:.2f}")
    print()


Classifier: Logistic Regression
Accuracy: 0.99
F1 Score: 0.98
Recall: 0.99

Classifier: Decision Tree
Accuracy: 0.99
F1 Score: 0.98
Recall: 0.99

Classifier: Random Forest
Accuracy: 0.99
F1 Score: 0.98
Recall: 0.99

Classifier: Naive Bayes
Accuracy: 0.96
F1 Score: 0.97
Recall: 0.96



本章节实践了SVM 分类的例子，希望你从这个过程中能够体会到整个项目的执行流程，包括数据加载、数据探索、SVM 训练和评估等环节。

我们也能够看到，sklearn 已经为我们提供了大部分的实现，我们所需要做的就是理解业务（数据），找出最优的超参数，而把其他繁琐的数学运算先暂时放到一旁。我们需要在实战当中，熟悉流程，不断的训练自身的数据化思维和数据敏感度。

总之，数据建模是机器学习的基石，影响着模型的质量、性能和实用性。在整个机器学习项目中，从数据收集、清洗、特征工程、模型训练到模型部署和维护，都需要关注和优化数据建模过程，以获得最佳的结果。