In [12]:


# 首先导入必要的库
#!pip install pandas
 
# pandas：用于数据操作和分析的库，通常用于加载、处理和分析结构化数据（例如从 CSV 文件中读取数据）。
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
# 从 scikit-learn 中导入的标准化工具，用于对数据进行标准化处理，将特征的均值调整为 0，标准差调整为 1。
# 标准化有助于加速模型的收敛，特别是在特征值范围差别较大的情况下。
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# ssl 是用于处理网络安全和加密连接的 Python 内置库，常用于 HTTPS 通信和安全套接层（SSL/TLS）的相关操作。
import ssl
# 这里的代码是在创建一个默认的 HTTPS 上下文，用于绕过 SSL 证书验证。通常，如果 Python 在访问网络数据时遇到 SSL 证书问题
# （如证书无效或不被信任），会导致连接错误。
# 通过将默认的 HTTPS 上下文修改为 "不验证证书" 的上下文，程序可以忽略 SSL 证书验证，从而避免因证书问题导致的连接错误。
# 这种操作一般在处理访问一些未经验证或自签名的 HTTPS 资源时使用。不过，这种做法会带来安全风险，因为程序不再验证服务器的 SSL 证书。
ssl._create_default_https_context = ssl._create_unverified_context

In [1]:
# 具体流程大致如下：
# 1.获取数据
# 2.基本数据处理
#  2.1 缺失值处理
#  2.2 确定特征值，目标值
#  2.3 分割数据
# 3.特征工程(进行标准化处理)
# 4.进行机器学习(逻辑回归)
# 5.模型评估

In [15]:
# 1.获取数据
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
                   names=names)

data.head()

Unnamed: 0,Sample code number,Clump Thickness,Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses,Class
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2


In [19]:
# 2.基本数据处理
#  2.1 缺失值处理
data = data.replace(to_replace="?",value=np.NaN)
data = data.dropna()
#  2.2 确定特征值和目标值
x = data.iloc[:,1:10]
x.head()
y = data["Class"]
y.head()
#  2.3 分割数据
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

In [20]:
# 3.特征工程 进行 标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)

In [21]:
# 4.进行机器学习
estimator = LogisticRegression()
estimator.fit(x_train, y_train)

In [25]:
# 5.模型评估
y_predict = estimator.predict(x_test)
# 查看模型给每个测试样本的具体分类结果
print(f"Predicted: {y_predict}")
print(f"Actual: {y_test.values}")

estimator.score(x_test,y_test)

Predicted: [2 4 4 2 2 2 2 2 2 2 2 2 2 4 2 2 4 4 4 2 4 2 4 4 4 2 4 2 2 2 2 2 4 2 2 2 4
 2 2 2 2 4 2 4 4 4 4 2 4 4 2 2 2 2 2 4 2 2 2 2 4 4 4 4 2 4 2 2 4 2 2 2 2 4
 2 2 2 2 2 2 4 4 4 2 4 4 4 4 2 2 2 4 2 4 2 2 2 2 2 2 4 2 2 4 2 2 4 2 4 4 2
 2 2 2 4 2 2 2 2 2 2 4 2 4 2 2 2 4 2 4 2 2 2 4 2 2 2 2 2 2 2 2 2 2 2 4 2 4
 2 2 4 4 4 2 2 4 4 2 4 4 2 2 2 2 2 4 4 2 2 2 4]
Actual: [2 4 4 2 2 2 2 2 2 2 2 2 2 4 2 2 4 4 4 2 4 2 4 4 4 2 4 2 2 2 2 2 4 2 2 2 4
 4 2 2 2 4 2 4 4 4 4 2 4 4 2 2 2 2 2 4 2 2 2 2 4 4 4 4 2 4 2 2 4 2 2 2 2 4
 2 2 2 2 2 2 4 4 4 2 4 4 4 4 2 2 2 4 2 4 2 2 2 2 2 2 4 2 2 4 2 2 4 2 4 4 2
 2 2 2 4 2 2 2 2 2 2 4 2 2 2 2 2 4 2 4 2 2 2 4 2 2 2 2 2 2 2 2 2 2 2 4 2 4
 2 2 4 4 4 2 2 4 4 2 4 4 2 2 2 2 2 4 2 2 2 4 4]


0.9766081871345029

In [1]:


# 首先导入必要的库
#!pip install pandas
 
# pandas：用于数据操作和分析的库，通常用于加载、处理和分析结构化数据（例如从 CSV 文件中读取数据）。
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
# 从 scikit-learn 中导入的标准化工具，用于对数据进行标准化处理，将特征的均值调整为 0，标准差调整为 1。
# 标准化有助于加速模型的收敛，特别是在特征值范围差别较大的情况下。
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# ssl 是用于处理网络安全和加密连接的 Python 内置库，常用于 HTTPS 通信和安全套接层（SSL/TLS）的相关操作。
import ssl
# 这里的代码是在创建一个默认的 HTTPS 上下文，用于绕过 SSL 证书验证。通常，如果 Python 在访问网络数据时遇到 SSL 证书问题
# （如证书无效或不被信任），会导致连接错误。
# 通过将默认的 HTTPS 上下文修改为 "不验证证书" 的上下文，程序可以忽略 SSL 证书验证，从而避免因证书问题导致的连接错误。
# 这种操作一般在处理访问一些未经验证或自签名的 HTTPS 资源时使用。不过，这种做法会带来安全风险，因为程序不再验证服务器的 SSL 证书。
ssl._create_default_https_context = ssl._create_unverified_context

# 1.获取数据
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
                   names=names)

# 2.基本数据处理
#  2.1 缺失值处理
data = data.replace(to_replace="?",value=np.NaN)
data = data.dropna()

#  2.2 确定特征值和目标值
x = data.iloc[:,1:10]
y = data["Class"]

#  2.3 分割数据
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

# 3.特征工程 进行 标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)

# 4.进行机器学习
estimator = LogisticRegression()
estimator.fit(x_train, y_train)

# 5.模型评估
y_predict = estimator.predict(x_test)
# 查看模型给每个测试样本的具体分类结果
print(f"Predicted: {y_predict}")
print(f"Actual: {y_test.values}")

estimator.score(x_test,y_test)

Predicted: [2 4 4 2 2 2 2 2 2 2 2 2 2 4 2 2 4 4 4 2 4 2 4 4 4 2 4 2 2 2 2 2 4 2 2 2 4
 2 2 2 2 4 2 4 4 4 4 2 4 4 2 2 2 2 2 4 2 2 2 2 4 4 4 4 2 4 2 2 4 2 2 2 2 4
 2 2 2 2 2 2 4 4 4 2 4 4 4 4 2 2 2 4 2 4 2 2 2 2 2 2 4 2 2 4 2 2 4 2 4 4 2
 2 2 2 4 2 2 2 2 2 2 4 2 4 2 2 2 4 2 4 2 2 2 4 2 2 2 2 2 2 2 2 2 2 2 4 2 4
 2 2 4 4 4 2 2 4 4 2 4 4 2 2 2 2 2 4 4 2 2 2 4]
Actual: [2 4 4 2 2 2 2 2 2 2 2 2 2 4 2 2 4 4 4 2 4 2 4 4 4 2 4 2 2 2 2 2 4 2 2 2 4
 4 2 2 2 4 2 4 4 4 4 2 4 4 2 2 2 2 2 4 2 2 2 2 4 4 4 4 2 4 2 2 4 2 2 2 2 4
 2 2 2 2 2 2 4 4 4 2 4 4 4 4 2 2 2 4 2 4 2 2 2 2 2 2 4 2 2 4 2 2 4 2 4 4 2
 2 2 2 4 2 2 2 2 2 2 4 2 2 2 2 2 4 2 4 2 2 2 4 2 2 2 2 2 2 2 2 2 2 2 4 2 4
 2 2 4 4 4 2 2 4 4 2 4 4 2 2 2 2 2 4 2 2 2 4 4]


0.9766081871345029