# 实验六：Softmax回归算法

### 概述
&ensp;&ensp;本实验介绍Softmax回归算法具体应用。

### 实验环境
+ 希冀云实验平台
+ Ubuntu
+ Jupyter NoteBook

### 实验目标
完成本实验后，您能够

1. 通过本实验进一步掌握Softmax回归算法的原理。
2. 掌握如何使用Softmax回归算法解决实际问题。
3. 掌握使用机器学习方法解决现实世界问题的流程。

### 任务：Softmax回归
#### 【任务内容】
    奥托集团是世界上最大的电子商务公司之一，在20多个国家拥有子公司，包括美国的Crate & Barrel，德国的Otto.de和法国的3 Suisse。我们每天在全球销售数以百万计的产品，其中有几千种产品加入到我们的产品线中。
    对我们产品性能的一致分析是至关重要的。然而，由于我们多元化的全球基础设施，许多相同的产品被分类不同。因此，我们产品分析的质量在很大程度上依赖于对相似产品进行准确聚类的能力。分类越好，我们对产品范围的了解就越多。
    我们为超过200,000个产品提供了包含93个特性的数据集。我们的目标是建立一个能够区分我们主要产品类别的预测模型。
#### 【任务目标】
    使用Softmax回归来解决奥托产品分类问题
#### 【任务步骤】
1. 传入特征组和标签，以及学习率和搜索步数
2. 模型训练
3. 使用测试集进行预测
4. 输出准确率

In [None]:
#倒入相关库文件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split

In [None]:
#首先我们先观察一下数据的总体描述
data = pd.read_csv('data.csv')
data.describe(include='all')

In [None]:
#观察数据的任意五行
data.sample(5)

数据集一共61878行95列（包括上述特征和target）
由于target是字符型变量，我们画图展示，代码如下：

In [None]:
sns.countplot(data["target"])
plt.show()

In [None]:
#target一共9个类别。由于是字符型，定义一个函数将target的类别标签转为index表示，方便后面计算交叉熵
def target2idx(targets):
    target_idx = []
    target_labels = ['Class_1', 'Class_2', 'Class_3', 'Class_4', 'Class_5', 'Class_6', 'Class_7', 'Class_8', 'Class_9','Class_10']
    for target in targets:
        target_idx.append(target_labels.index(target))
    return target_idx

#向量转化函数(提供参考，自行选择是否使用)
def convert_to_vectors(c):
    m = len(c)
    k = np.max(c) + 1
    y = np.zeros(m * k).reshape(m,k)
    for i in range(m):
        y[i][c[i]] = 1
    return y

#特征处理函数(提供参考，自行选择是否使用)
def process_features(X):
    scaler = MinMaxScaler(feature_range=(0,1))
    X = scaler.fit_transform(1.0*X)
    m, n = X.shape
    X = np.c_[np.ones((m, 1)), X] 
    return X

In [None]:
#数据获取样例，可自行处理
X = np.array(data)[:,1:-1].astype(float)
c = target2idx(data['target'])
y = convert_to_vectors(c)
#划分训练集和测试集比例在0.1-0.9之间
X_train, X_test, y_train, y_test, c_train, c_test = train_test_split(X, y, c, random_state = 0, test_size = 0.2)

In [None]:
#模型训练及预测





In [None]:
#计算指标，本指标使用加权的方式计算多分类问题，accuracy和recall相等，可将其原因写入报告
accuracy = accuracy_score(c_test, c_pred)
precision = precision_score(c_test, c_pred,average = 'weighted')
recall = recall_score(c_test, c_pred,average = 'weighted')
f1 = f1_score(c_test, c_pred,average = 'weighted')
print("accuracy = {}".format(accuracy))
print("precision = {}".format(precision))
print("recall = {}".format(recall))
print("f1 = {}".format(f1))