##逻辑回归算法思想：逻辑回归（LogisticRegression）是当前机器学习算法比较常用的方法，可以用来回归分析，也可以用来分类，主要是二分类问题。逻辑回归分类算法就是将线性回归应用在分类场景中，通过曲线拟合与sigmoid函数得到对样本数据的分类标签，在二分类问题中得到的分类结果为0/1。

In [14]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

导入sklearn中我们需要的库，其中datasets为sklearn中自带的数据集，train_test_split为数据划分训练集和测试集，LogisticRegression为sklearn中的逻辑回归模型。

##二、加载数据集

In [15]:
cancer =datasets.load_breast_cancer()
cancer_X=cancer.data
print(cancer_X.shape)
cancer_y=cancer.target
print(cancer_y.shape)

(569, 30)
(569,)


通过datasets.load_breast_cancer()加载sklearn中的乳腺癌数据集，其中cancer_X为衡量是否为乳腺癌的各项指标数据，cancer_y为标签数据。使用shape来查看数据的规模，cancer_X为(569, 30)的数据，且已经进行预处理可以直接使用，cancer_y为(569, 1)的数据。

##三、划分训练集和测试集

In [16]:
X_train,X_test,y_train, y_test=train_test_split(cancer_X,cancer_y,test_size=0.3)

通过train_test_split()函数将数据集划分为训练集和测试集，其中test_size为划分比例，本次我们设为0.3，即数据集中训练集为70%，测试集为30%

##四、模型构建与训练

In [17]:
clf = LogisticRegression()
clf.fit(X_train,y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

sklearn中为我们提供了很多机器学习算法模型，而且调用起来非常方便，形如上面的形式即可构建逻辑回归模型并使用训练集数据进行训练。如果要使用其它算法，只需更换算法模型即可。

##五、模型测试

In [18]:
clf_y_predict = clf.predict(X_test)
print(clf_y_predict)
score=clf.score(X_test,y_test)
print(score)




[1 1 0 0 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 0 1 1 0 0 1
 1 1 1 0 1 1 1 0 0 0 0 1 0 1 1 0 0 0 1 1 1 0 0 1 1 1 1 1 0 0 1 1 1 0 1 1 1
 1 0 0 0 0 1 0 0 1 0 0 1 0 1 1 0 1 0 0 0 1 1 1 1 0 1 0 0 0 1 1 1 1 0 1 0 1
 0 1 0 0 0 1 0 0 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 0 1 1 0 0
 0 1 1 1 1 0 1 1 1 0 0 1 0 1 1 0 1 0 1 1 1 1 1]
0.9590643274853801


经过第四步模型训练后，我们使用训练好的模型来进行数据测试，第一行代码为数据预测结果，第二行输出预测结果，第三行为评估模型预测的分数，第四输出分数。测试结果如上

通过上面测试结果可得模型预测的准确度为98.2%，可见使用逻辑回归算法取得较好的效果。

In [19]:
# 项目完整代码
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

cancer =datasets.load_breast_cancer()
cancer_X=cancer.data
print(cancer_X.shape)
cancer_y=cancer.target
print(cancer_y.shape)
X_train,X_test,y_train, y_test=train_test_split(
    cancer_X,cancer_y,test_size=0.3)
clf = LogisticRegression()
clf.fit(X_train,y_train)
clf_y_predict = clf.predict(X_test)
print(clf_y_predict)
score=clf.score(X_test,y_test)
print(score)

(569, 30)
(569,)
[1 1 1 1 1 1 1 1 0 0 0 1 1 0 1 1 0 0 0 1 0 1 1 0 1 1 0 0 0 1 0 0 0 1 0 1 1
 0 0 1 0 1 1 0 1 1 1 0 1 1 1 1 0 1 1 1 1 1 0 1 1 0 0 0 1 0 0 1 1 0 1 1 0 1
 1 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 0 1 0 1 1 0 1 1 1 0 1 1 1 0 1 1 1 1 1
 0 1 0 1 1 1 1 1 1 0 1 1 0 0 1 1 0 1 0 1 0 1 0 1 0 0 1 0 1 1 1 0 1 1 0 1 1
 0 1 0 1 1 1 1 1 0 1 0 0 1 1 0 1 1 0 1 0 1 1 1]
0.9473684210526315


