## 基于sklearn包实现AdaBoost：
> 问题描述：某公司招聘职员考查身体、业务能力、发展潜力这3项。 身体分为合格1、不合格0两级。 业务能力和发展潜力分为上1、中2、下3三级。分类合格为1、不合格-1两类。 已知10个人的数据，如下表。 假设弱分类器为决策树桩。 试用AdaBoost算法学习一个强分类器。
>>| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
:-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: 
身体 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 
业务能力 | 1 | 3 | 2 | 1 | 2 | 1 | 1 | 1 | 3 | 2 |
发展潜力 | 3 | 1 | 2 | 3 | 3 | 2 | 2 | 1 | 1 | 1 |
分类 | -1 | -1 | -1 | -1 | -1 | -1 | 1 | 1 | -1 | -1 |
>

In [None]:
# 导入包

import numpy as np
import pandas as pd
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_val_score

# 评估模型
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [1]:
def main():
    # X=np.array([0,1,2,3,4,5,6,7,8,9]).reshape(10,1)
    # y=np.array([1,1,1,-1,-1,-1,1,1,1,-1])
    X=np.array([[0,1,3],
                [0,3,1],
                [1,2,2],
                [1,1,3],
                [1,2,3],
                [0,1,2],
                [1,1,2],
                [1,1,1],
                [1,3,1],
                [0,2,1]
               ])
    y=np.array([-1,-1,-1,-1,-1,-1,1,1,-1,-1])
    clf=AdaBoostClassifier()
    clf.fit(X,y)
    y_predict=clf.predict(X)
    score=clf.score(X,y)
    print("原始输出:",y)
    print("预测输出:",y_predict)
    print("预测正确率：{:.2%}".format(score))

if __name__=="__main__":
    main()

原始输出: [-1 -1 -1 -1 -1 -1  1  1 -1 -1]
预测输出: [-1 -1 -1 -1 -1 -1  1  1 -1 -1]
预测正确率：100.00%


###  下面是基于Python机器学习实战里面的思想
> * 把数据放入文件
> * 读取数据
> * 建立模型，然后评估模型

In [65]:
# 数据事先存在了文件里， 首先获取数据

filename = 'dataset.txt'
data = []

with open(filename, "r") as file:
    for line in file:
        line = line.strip().split(",")
        data.append(line)

dataset =pd.DataFrame(data)
dataset = dataset.astype(int)
array = dataset.values
# print(dataset)

# 获取到数据集
X = array[:, 0:3]
y = array[:,3]
# print(X)
# print(y)

# 创建模型
model = AdaBoostClassifier()
model.fit(X, y)
y_predict = model.predict(X)

print(y_predict)

# 评估模型

error = accuracy_score(y,  y_predict)
print(error)
print(classification_report(y, y_predict))
classes = ['-1', '1']
print(pd.DataFrame(confusion_matrix(y, y_predict), index=classes, columns=classes))

[-1 -1 -1 -1 -1 -1  1  1 -1 -1]
1.0
              precision    recall  f1-score   support

          -1       1.00      1.00      1.00         8
           1       1.00      1.00      1.00         2

    accuracy                           1.00        10
   macro avg       1.00      1.00      1.00        10
weighted avg       1.00      1.00      1.00        10

    -1  1
-1   8  0
1    0  2
