In [13]:
# 加载鸢尾花数据集
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

"""
iris鸢尾花数据集合的介绍：
鸢尾花数据集（Iris dataset）是机器学习和统计学中最常用的示例数据集之一。
它是一个多变量数据集，由英国统计学家和生物学家 Ronald Fisher 
于 1936 年在他的论文 “The use of multiple measurements in taxonomic problems” 中首次引入。
这个数据集经常用于分类算法的演示和验证。以下是对鸢尾花数据集的详细介绍：

数据集结构
鸢尾花数据集包含 150 个样本，每个样本对应一朵鸢尾花。每个样本有 4 个特征和 1 个目标变量。
数据集中的鸢尾花属于三个不同的品种，每个品种有 50 个样本。

特征：
鸢尾花数据集中的特征都是数值型的，描述了鸢尾花的形态学特征：
    花萼长度（Sepal Length）：单位是厘米。
    花萼宽度（Sepal Width）：单位是厘米。
    花瓣长度（Petal Length）：单位是厘米。
    花瓣宽度（Petal Width）：单位是厘米。

目标变量：
    目标变量表示鸢尾花的品种，分别是：
        Setosa：山鸢尾
        Versicolor：变色鸢尾
        Virginica：维吉尼亚鸢尾
在数据集中，这些品种通常被编码为整数值：
        0 表示 Setosa
        1 表示 Versicolor
        2 表示 Virginica

"""

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target'], test_size=0.2, random_state=42)

# 创建并训练逻辑回归模型
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = lr.predict(X_test)

"""
计算 Precision、Recall、Accuracy、F1 score：
precision = tp / (tp + fp)
recall = tp / (tp + fn)
accuracy = (tp + tn) / (tp + tn + fp + fn) 即正确分类的样本数量与总样本数量之比
f1_score = 2 * (precision * recall) / (precision + recall)
"""

# 计算准确率、精确率、召回率和 F1 分数
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='macro')
recall = recall_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1 Score:", f1)


Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1 Score: 1.0


In [34]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression


# 加载数据集
iris = load_iris()

# 将数据集转换为DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 显示DataFrame的前几行
# print(df.head())

# 将数据集拆分为训练集和测试集, random_state=42参数可以让每次运行都一样的结果，增加到train_test_split函数中
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target'], test_size=0.2)

# 创建并训练逻辑回归模型
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

# 假设已经评估好了

# # 在测试集上进行预测
# y_pred = lr.predict(X_test)

# # 获取概率估计
# y_prob = lr.predict_proba(X_test)

# 将预测的概率结果转换为DataFrame，并添加到原始DataFrame中


# 训练好以后直接用在整个数据集合上
# df.drop('target', axis=1)
y_pred = lr.predict(df.drop('target', axis=1))
y_prob = lr.predict_proba(df.drop('target', axis=1))

prob_columns = [f'prob_class_{i}' for i in range(y_prob.shape[1])]
# prob_df = pd.DataFrame(y_prob, columns=prob_columns, index=X_test.index)
# 使用整个数据集合的索引
prob_df = pd.DataFrame(y_prob, columns=prob_columns,index=df.index)

# DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
df = df.join(prob_df, how='left')
# 去重
# df.drop_duplicates(subset=['A', 'B']) pandas的去重中的"subset="不能省略

# 打印包含概率列的DataFrame
df


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,prob_class_0,prob_class_1,prob_class_2
0,5.1,3.5,1.4,0.2,0,0.981610,0.018390,5.954399e-08
1,4.9,3.0,1.4,0.2,0,0.969959,0.030041,1.064805e-07
2,4.7,3.2,1.3,0.2,0,0.983736,0.016264,4.635732e-08
3,4.6,3.1,1.5,0.2,0,0.973459,0.026541,1.297281e-07
4,5.0,3.6,1.4,0.2,0,0.984937,0.015063,4.963252e-08
...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,0.000154,0.086607,9.132390e-01
146,6.3,2.5,5.0,1.9,2,0.000568,0.289750,7.096818e-01
147,6.5,3.0,5.2,2.0,2,0.000353,0.170013,8.296345e-01
148,6.2,3.4,5.4,2.3,2,0.000136,0.049396,9.504671e-01
