# SVM

In [1]:
import numpy as np
from sklearn import datasets
from sklearn.svm import SVC

In [2]:
iris = datasets.load_iris() 

In [3]:
iris.data[:10,:] #花萼长度，花萼宽度，花瓣长度，花瓣宽度

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [4]:
X = iris['data'][:,(2,3)]

In [5]:
Y = iris['target']==0

In [6]:
cls = SVC()

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html  
**sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False,tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1,
decision_function_shape=None,random_state=None)**   

C:C-SVC的惩罚系数，可理解为优化方向重两个指标(间隔大小，分类准确度)偏好的权重，当C趋于无穷大时，不允许样本出现分类错误，当C趋于0时，不关注分类是否正确，只要求间隔越大越好。  
kernel: linear, poly, rbf(default), sigmoid, precomputed  
degree: 多项式poly函数的维度，默认是3，选择其他核函数时会被忽略。  
gamma： ‘rbf’,‘poly’ 和‘sigmoid’的核函数参数。默认是’auto’为1/n_features。  
coef0: 核函数的常数项，对'poly' 和 'sigmoid'有用。  
probability: 是否含有概率估计。  
tol: 停止训练的误差值大小，默认为1e-3。 
catch_size: 核函数cache缓存大小，默认为200。 
class_weight: 类别的权重，字典形式传递。设置第几类的参数C为weight\*C(C-SVC中的C)。如果class_weight=None，则所有类别的权重为1。  
verbose: 是否允许冗余输出。  
max_iter: 最大迭代次数, max_iter=-1为无限次。  
decision_function_shape: https://blog.csdn.net/weixin_38100489/article/details/78363326  


In [7]:
cls.fit(X,Y)



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [8]:
cls.predict([[-0.8,-1]])

array([False])

# Random forest

In [9]:
from sklearn.ensemble import RandomForestClassifier

In [10]:
rnd_clf = RandomForestClassifier(n_estimators=500)

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=random#sklearn.ensemble.RandomForestClassifier  
**class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)**  

n_estimators: 决策树的数目。  
criterion: 类似于损失函数，衡量分裂性能，Gini(默认)或Entropy。  
max_depth: 树的最大深度，若为None，则分裂直至所有叶子纯净或少于min_sample_split的样本数。  
min_samples_split: 分割内部节点所需要的最小样本数量，可设置为整数或浮点数（min_samples_split\*n_samples作为分隔最小样本数）。  
min_samples_leaf: 叶子结点上所需的最小样本数量。    
min_weight_fraction_leaf: 一个叶子节点所需要的权重总和（所有的输入样本）的最小加权分数。当sample_weight没有提供时，样本具有相同的权重。    
max_features: 寻找最佳分割时需要考虑的特征数目。  
max_leaf_nodes: 最大的叶子节点数。  
min_impurity_decrease: 如果节点的分裂导致的不纯度的下降程度大于或者等于这个节点的值，那么这个节点将会被分裂。 
min_impurity_split: 树早期生长的阈值。如果一个节点的不纯度超过阈值那么这个节点将会分裂，否则它还是一片叶子。  
bootstrap: 是否使用放回抽样。    

In [11]:
rnd_clf.fit(iris['data'],iris['target'])

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=500,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [12]:
rnd_clf.predict([[5.1, 3.5, 1.4, 0.2]])

array([0])

# XGboost

In [13]:
from xgboost import XGBClassifier

In [14]:
xg = XGBClassifier()

https://xgboost.readthedocs.io/en/latest/python/python_api.html  

In [15]:
xg.fit(iris['data'],iris['target'])

XGBClassifier(base_score=0.5, booster=None, colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,
              importance_type='gain', interaction_constraints=None,
              learning_rate=0.300000012, max_delta_step=0, max_depth=6,
              min_child_weight=1, missing=nan, monotone_constraints=None,
              n_estimators=100, n_jobs=0, num_parallel_tree=1,
              objective='multi:softprob', random_state=0, reg_alpha=0,
              reg_lambda=1, scale_pos_weight=None, subsample=1,
              tree_method=None, validate_parameters=False, verbosity=None)

In [17]:
xg.predict(np.array([[5.5, 3.5, 1.3, 0.2]])) #输入不能为list
#xg.predict([[5.5, 3.5, 1.3, 0.2]])

array([0])

xg.predict([[5.5, 3.5, 1.3, 0.2]])  
TypeError: Input data can not be a list

查看文件：  
..\lib\site-packages\xgboost\core.py  
data支持格式:
os.PathLike/string/numpy.array/scipy.sparse/pd.DataFrame/dt.Frame/cudf.DataFrame/cupy.array