# 【实验1】一元线性回归预测电影的票房收入
### 电影投资与收入信息
![电影投资与收入信息](regression-1.png)

## 接下来要拍一部投资2千万的电影，使用一元线性回归预测一下新电影的票房收入。

In [None]:
#步骤一：使用数据绘制图，发现规律
import matplotlib.pyplot as plt
def drawplt():
    plt.figure()
    plt.title('Cost and Income Of a Film')
    plt.xlabel('Cost(Million Yuan)')
    plt.ylabel('Income(Million Yuan)')
    plt.axis([0, 25, 0, 60])
    plt.grid(True)
    
X = [[6], [9], [12], [14], [16]]
y = [[9], [12], [29], [35], [59]]
drawplt()
plt.plot(X, y, 'k.')
plt.show()

In [None]:
#步骤二：线性回归预测电影票房收入
from sklearn import linear_model
def drawplt():
    plt.figure()
    plt.title('Cost and Income Of a Film')
    plt.xlabel('Cost(Million Yuan)')
    plt.ylabel('Income(Million Yuan)')
    plt.axis([0, 25, 0, 60])
    plt.grid(True)

X = [[6], [9], [12], [14], [16]]
y = [[9], [12], [29], [35], [59]]
model = linear_model.LinearRegression()
model.fit(X, y)
# a = model.predict([[20]])
print("投资2千万的电影预计票房收入为：{:.2f}百万元".format(model.predict([[20]])[0][0]))
print("回归模型的系数是：",model.coef_ )
print("回归模型的截距是：",model.intercept_)  
print("最佳拟合线: y = ",int(model.intercept_),"＋", int(model.coef_),"× x")
drawplt()
print(X)
plt.plot(X, y, 'k.')
plt.plot([0,25],[model.intercept_,25*model.coef_+model.intercept_])
plt.show()

# 【实验2】多元线性回归预测电影票房
### 在上面的数据基础上，又搜集到了每部电影的广告费用。

In [None]:
import numpy as np
from sklearn import linear_model

x = np.array([[6,1,9],[9,3,12],[12,2,29],
              [14,3,35],[16,4,59]])
X = x[:,:-1]
Y = x[:,-1]
print('X:',X)
print('Y:',Y)

# 训练数据
regr = linear_model.LinearRegression()
regr.fit(X,Y)
print('系数(w1,w2)为:',regr.coef_)
print('截距(b)为:',regr.intercept_)

# 预测
y_predict = regr.predict(np.array([[10,3]]))
print('投资1千万，推广3百万的电影票房预测为：',y_predict,'百万')

#### 使用sk-learn进行波士顿房价预测

In [None]:
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error #平方绝对误差

boston = datasets.load_boston()
# print(boston.DESCR)   #获得关于房价的描述信息
x = boston.data       #获得数据集的特征属性列
y = boston.target     #获得数据集的label列
df = pd.DataFrame(data = np.c_[x,y],columns=np.append(boston.feature_names,['MEDV'])) 
#np.c_是按列连接两个矩阵，就是把两矩阵左右相加，要求列数相等

df = df[['RM','MEDV']]      #选择房间数属性列、房价属性列（预测目标）
print(df[:5])         #查看前5行的数据格式

x1=df[['RM']] 
y1=df[['MEDV']] 
x_train,x_test,y_train,y_test = train_test_split(x1,y1,test_size=0.4)     #划分数据集

# x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.4)     #划分数据集

scaler = StandardScaler()   #作用：去均值和方差归一化。可保存训练集中的均值、方差参数，然后直接用于转换测试集数据。
x_train = scaler.fit_transform(x_train)
x_test = scaler.fit_transform(x_test)

linreg = LinearRegression()
model = linreg.fit(x_train,y_train)

print('系数(w)为:',model.coef_)
print('截距(b)为:',model.intercept_)

a = model.predict([[12]])
print('预计房价为：',a,'千美元')

print("\nMSE均方误差：",mean_squared_error(y_train,model.predict(x_train)))
print("RMSE均方根误差：",mean_squared_error(y_train,model.predict(x_train)) ** 0.5)
print("MAE平均绝对误差：",mean_absolute_error(y_train,model.predict(x_train)))
print("r2_score决定系数：",r2_score(y_train,model.predict(x_train)))


# 实例：使用逻辑回归（对数几率回归）进行贷款逾期情况预测
## 方法一、使用sklearn的LogisticRegression模块

In [None]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

data=pd.read_csv('credit-overdue.csv') #读文件
#print(data)
X=data.iloc[:,0:2]
y=data.iloc[:,2]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42,stratify=y)

clf = LogisticRegression(random_state=0, solver='lbfgs',multi_class='multinomial').fit(X_train, y_train)

print('coef:\n',clf.coef_)
print('intercept:\n',clf.intercept_ )

print('predict first two:\n',clf.predict(X_train.iloc[:,0:2]))
print('classification score:\n',clf.score(X_train, y_train))

predict_y = clf.predict(X_test)
print('classfication report:\n ',metrics.classification_report(y_test,predict_y))

## 方法二  使用Python实现逻辑回归
### 先自定义Sigmoid 函数、损失函数
### 然后进行梯度下降，经过迭代，确定模型参数

In [None]:
#(1) 步骤一. 加载数据集
import pandas as pd
df = pd.read_csv("credit-overdue.csv", header=0) # 加载数据集
df.head()  #查看前5行数据


In [None]:
#（2）步骤二.绘制数据的散点图，查看数据分布情况
from matplotlib import pyplot as plt
plt.figure(figsize=(10, 6))
plt.scatter(df['debt'],df['income'], c=df['overdue'])
plt.title('Credit-overdue')
plt.xlabel('Debt')
plt.ylabel('Income')

In [None]:
#（3）步骤三. 定义Sigmoid 函数、损失函数，使用梯度下降确定模型参数

#定义Sigmoid函数
def sigmoid(z):
    sigmoid = 1 / (1 + np.exp(-z))
    return sigmoid

#定义对数损失函数
def loss(h, y):
    loss = (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()
    return loss

#定义梯度下降函数
def gradient(X, h, y):
    gradient = np.dot(X.T, (h - y)) / y.shape[0]
    return gradient

# 逻辑回归过程
def Logistic_Regression(x, y, lr, num_iter):
    intercept = np.ones((x.shape[0], 1))  # 初始化截距为 1
    x = np.concatenate((intercept, x), axis=1)  # axis=1表示对应行的数组进行拼接
    w = np.zeros(x.shape[1])  # 初始化参数为 0

    for i in range(num_iter):  # 梯度下降迭代
        z = np.dot(x, w)  # 线性函数
        h = sigmoid(z)  # sigmoid 函数
        g = gradient(x, h, y)  # 计算梯度
        w -= lr * g  # 通过学习率 lr 计算步长并执行梯度下降
        z = np.dot(x, w)  # 更新参数到原线性函数中
        h = sigmoid(z)  # 计算 sigmoid 函数值
        l = loss(h, y)  # 计算损失函数值
    return l, w  # 返回迭代后的损失值和参数


In [None]:
#（4）步骤四. 初始化模型，并对模型进行训练
#初始化参数
import numpy as np
x = df[['debt','income']].values
y = df['overdue'].values
lr = 0.001 # 学习率
num_iter = 10000 # 迭代次数
# 模型训练
L = Logistic_Regression(x, y, lr, num_iter)  # 返回损失值和参数
L  


In [None]:
#（5）步骤五.根据得到的参数，绘制模型分类线
plt.figure(figsize=(10, 6))
plt.scatter(df['debt'],df['income'], c=df['overdue'])

x1_min, x1_max = df['debt'].min(), df['debt'].max(),
x2_min, x2_max = df['income'].min(), df['income'].max(),

xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
grid = np.c_[xx1.ravel(), xx2.ravel()]

probs = (np.dot(grid, np.array([L[1][1:3]]).T) + L[1][0]).reshape(xx1.shape)
plt.contour(xx1, xx2, probs, levels=[0], linewidths=1, colors='red');
plt.title('Credit-overdue')
plt.xlabel('Debt')
plt.ylabel('Income')


In [None]:
"""绘制损失函数变化曲线
"""
def Logistic_Regression(x, y, lr, num_iter):
    intercept = np.ones((x.shape[0], 1))  # 初始化截距为 1
    x = np.concatenate((intercept, x), axis=1)
    w = np.zeros(x.shape[1])  # 初始化参数为 1

    l_list = []  # 保存损失函数值
    for i in range(num_iter):  # 梯度下降迭代
        z = np.dot(x, w)  # 线性函数
        h = sigmoid(z)  # sigmoid 函数

        g = gradient(x, h, y)  # 计算梯度
        w -= lr * g  # 通过学习率 lr 计算步长并执行梯度下降

        z = np.dot(x, w)  # 更新参数到原线性函数中
        h = sigmoid(z)  # 计算 sigmoid 函数值

        l = loss(h, y)  # 计算损失函数值
        l_list.append(l)

    return l_list


lr = 0.01  # 学习率
num_iter = 30000  # 迭代次数
l_y = Logistic_Regression(x, y, lr, num_iter)  # 训练

# 绘图
plt.figure(figsize=(10, 6))
plt.plot([i for i in range(len(l_y))], l_y)
plt.xlabel("Number of iterations")
plt.ylabel("Loss function")


### 绘制损失函数变化曲线:

    可以看到，损失函数的值随着迭代次数的增加而逐渐降低。前面降低地非常快速，达到一定程度后趋于稳定。上面的程序步骤迭代到20000次左右，之后的数据变化比较缓慢，此时就接近于损失函数的极小值。

【MachineLearning】之 逻辑回归（Python 实现）  2020.2.25

https://blog.csdn.net/fanfan4569/article/details/81748980  
    

# 【实验3】使用线性判别分析(LDA)实现分类
# 实例1： 使用Python实现LDA进行二分类

In [None]:
# 用代码实现 LDA

import numpy as np
import matplotlib.pyplot as plt

X=np.loadtxt("22.txt")  

pos0=np.where(X[:,2]==0)  # 0类样本所在行
print(pos0)

pos1=np.where(X[:,2]==1)  # 1类样本所在行
print(pos1)

X1=X[pos0,0:2]    # 取出0类样本
X1=X1[0,:,:]     
print(X1,X1.shape)

X2=X[pos1,0:2]     # 取出1类样本
X2=X2[0,:,:]
print(X2,X2.shape)


In [None]:
#第一步，求各个类别的均值
M1=np.mean(X1,0)
M1=np.array([M1])
print(M1,M1.shape)

M2=np.mean(X2,0)
M2=np.array([M2])
print(M2,M2.shape)

M=np.mean(X[:,0:2],0)
M=np.array([M])
print(M)

p=np.size(X1,0)
print(p)

q=np.size(X2,0)
print(q)

#第二步，求类内散度矩阵
S1=np.dot((X1-M1).transpose(),(X1-M1))
print(S1)
S2=np.dot((X2-M2).transpose(),(X2-M2))
print(S2)
Sw=(p*S1+q*S2)/(p+q)
print(Sw)

#第三步，求类间散度矩阵
Sb1=np.dot((M1-M).transpose(),(M1-M))
print(Sb1)
Sb2=np.dot((M2-M).transpose(),(M2-M))
print(Sb2)
Sb=(p*Sb1+q*Sb2)/(p+q)
print(Sb)

#判断Sw是否可逆
bb=np.linalg.det(Sw)
print("\n判断Sw是否可逆:")
print(bb)

#第四步，求最大特征值和特征向量
[V,L]=np.linalg.eig(np.dot(np.linalg.inv(Sw),Sb))
print(V,L.shape)
list1=[]
a=V
list1.extend(a)
print(list1)

b=list1.index(max(list1))
print(a[b])
W=L[:,b]

print(W,W.shape)

#根据求得的投影向量W画出投影线
k=W[1]/W[0]
b=0;
x=np.arange(2,10)
yy=k*x+b

plt.plot(x,yy)
plt.scatter(X1[:,0],X1[:,1],marker='+',color='r',s=20)
plt.scatter(X2[:,0],X2[:,1],marker='*',color='b',s=20)
plt.grid()

plt.show()


In [None]:
#计算第一类样本在直线上的投影点
xi=[]
yi=[]
for i in range(0,p):
    y0=X1[i,1]
    x0=X1[i,0]
    x1=(k*(y0-b)+x0)/(k**2+1)
    y1=k*x1+b
    xi.append(x1)
    yi.append(y1)
print(xi)

print(yi)

#计算第二类样本在直线上的投影点
xj=[]
yj=[]
for i in range(0,q):
    y0=X2[i,1]
    x0=X2[i,0]
    x1=(k*(y0-b)+x0)/(k**2+1)
    y1=k*x1+b
    xj.append(x1)
    yj.append(y1)
print(xj)
print(yj)

#画出投影后的点
plt.plot(x,yy)
plt.scatter(X1[:,0],X1[:,1],marker='+',color='r',s=20)
plt.scatter(X2[:,0],X2[:,1],marker='>',color='b',s=20)
plt.grid()
plt.plot(xi,yi,'r+')
plt.plot(xj,yj,'b>')

plt.show()


# 实例2：使用sklearn 实现LDA 进行鸢尾花分类

In [None]:
# pandas 读入鸢尾花数据集
import pandas as pd
iris_data = pd.read_csv('data/iris.data')

#由于这个数据没有列名， 所以先给每个列取个名字。
iris_data.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
print(iris_data.head(5))

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 第一步 数据载入
#data = pd.io.parsers.read_csv(filepath_or_buffer='https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',
data = pd.io.parsers.read_csv(filepath_or_buffer='data/iris.data',header=None, names=['sepal length in cm', 'sepal width in cm','petal length in cm', 'petal width in cm', 'names'],
                             sep=',',)
data.dropna(how='all', inplace=True)   # 丢弃缺失数据

data.head()  #查看前5行数据

# 第二步 提取数据的X轴和y轴信息
feature_names = ['sepal length in cm', 'sepal width in cm','petal length in cm', 'petal width in cm']
X = data[feature_names].values
y = data['names'].values

# 第三步 使用Label_encoding进行标签的数字转换
from sklearn.preprocessing import LabelEncoder

model = LabelEncoder().fit(y)
y = model.transform(y) + 1
labels_type = np.unique(y)

# 第四步 建立LDA模型
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

model = LDA(n_components=2)     # n_components=2 ：进行LDA降维时,要降到的维数
sklearn_x = model.fit_transform(X, y)

# 第五步进行画图操作
labels_dict = data['names'].unique()

def plot_lda_sklearn(X, title):
    ax = plt.subplot(111)
    for label, m, c in zip(labels_type, ['*', '+', 'v'], ['red', 'black', 'green']):
        plt.scatter(X[y==label][:, 0], X[y==label][:, 1], c=c, marker=m, alpha=0.6, s=100, label=labels_dict[label-1])

    plt.title(title)
    plt.xlabel('LD1')
    plt.ylabel('LD2')
    leg = plt.legend(loc='upper right', fancybox=True)
    leg.get_frame().set_alpha(0.6)

    plt.tick_params(axis='all', which='all', bottom='off', left='off', right='off', top='off',labelbottom='on', labelleft='on')
    ax.spines['top'].set_visible(False)
    ax.spines['bottom'].set_visible(False)
    ax.spines['left'].set_visible(False)
    ax.spines['right'].set_visible(False)

    plt.tight_layout()
    plt.grid()
    plt.show()

plot_lda_sklearn(sklearn_x, 'The Sklearn LDA')

# 【实验4】 使用imbalanced-learn 解决样本不均衡问题
##  欠采样

In [2]:
#  欠采样-1  使用EasyEnsembleClassifier类
from collections import Counter
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from imblearn.ensemble import EasyEnsembleClassifier   # doctest: +NORMALIZE_WHITESPACE

X, y = make_classification(n_classes=2, class_sep=2,weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0,
                           n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)
print('Original dataset shape: %s' % Counter(y))
# Original dataset shape: Counter({1: 900, 0: 100})   # 1类的样本个数900，0类的样本个数100

X_train, X_test, y_train, y_test = train_test_split(X, y,random_state=0)   # 默认划分比例是：训练集占75%
eec = EasyEnsembleClassifier(random_state=42)
eec.fit(X_train, y_train)   # doctest: +ELLIPSIS

# EasyEnsembleClassifier(...)
y_pred = eec.predict(X_test)

# confusion_matrix
print(confusion_matrix(y_test, y_pred))

Original dataset shape: Counter({1: 900, 0: 100})
[[ 23   0]
 [  2 225]]


In [3]:
#  欠采样-2  使用RandomUnderSampler类
from sklearn.datasets import make_classification
from collections import Counter
X, y = make_classification(n_samples=5000, n_features=2, n_informative=2,
                           n_redundant=0, n_repeated=0, n_classes=3,
                           n_clusters_per_class=1,
                           weights=[0.01, 0.05, 0.94],
                           class_sep=0.8, random_state=0)
print(Counter(y))    
 # 标号2类的样本个数：4674，标号1类的样本个数：262，标号0类的样本个数：64
    
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_sample(X, y)

print(sorted(Counter(y_resampled).items()))

"""
当数据量足够（一万或者十万条记录或更多）时使用欠采样，它记录通过减少丰富类的大小来平衡数据集。
最简单的方法是通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本。
（通过设置replacement=True参数可以实现不放回抽样）
"""

Counter({2: 4674, 1: 262, 0: 64})
[(0, 64), (1, 64), (2, 64)]


'\n当数据量足够（一万或者十万条记录或更多）时使用欠采样，它记录通过减少丰富类的大小来平衡数据集。\n最简单的方法是通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本。\n（通过设置replacement=True参数可以实现不放回抽样）\n'

In [None]:
# from imblearn.ensemble import EasyEnsemble   imblearn 0.4   已过时！

##  过采样

In [1]:
# SMOTE  过采样-1 
from collections import Counter
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE

X, y = make_classification(n_classes=2, class_sep=2,
                           weights=[0.1, 0.9], n_informative=2, n_redundant=0, flip_y=0,
                           n_features=2, n_clusters_per_class=1, n_samples=100,random_state=10)
print('Original dataset shape %s' % Counter(y))

sm = SMOTE(random_state=42)
X_res, y_res = sm.fit_resample(X, y)
print('Resampled dataset shape %s' % Counter(y_res))

# https://blog.csdn.net/u010654299/article/details/103980964

Using TensorFlow backend.
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


Original dataset shape Counter({1: 90, 0: 10})
Resampled dataset shape Counter({1: 90, 0: 90})


In [None]:
#  过采样-2

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
import numpy as np
import pandas as pd
from collections import Counter

from imblearn.combine import SMOTEENN

print(__doc__)

# Generate the dataset
X, y = make_classification(n_classes=2, class_sep=2, weights=[0.1, 0.9],
                           n_informative=3, n_redundant=1, flip_y=0,
                           n_features=20, n_clusters_per_class=1,
                           n_samples=100, random_state=10)

# print(X)
# print(X.shape)

print('Original dataset shape: %s' % Counter(y))
# print(y.shape)
print(y)

sm = SMOTEENN()
X_resampled, y_resampled = sm.fit_sample(X, y)

# print(y_resampled.shape)
print('\n Resampled dataset shape: %s' % Counter(y_resampled))
print(y_resampled)

# https://blog.csdn.net/liweibin1994/article/details/78380841?depth_1-utm_source=distribute.
# pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

In [None]:
#  过/欠采样-3   待完善！ 2020.3.13

import pandas as pd
from imblearn.over_sampling import SMOTE                # 过抽样处理库SMOTE
from imblearn.under_sampling import RandomUnderSampler  # 欠抽样处理库RandomUnderSample
from sklearn.svm import SVC                             # SVM中的分类算法SVC
#from imblearn.ensemble import EasyEnsemble             # 简单集成方法EasyEnsemble     old---    ( imblearn 0.4) 
from imblearn.ensemble import EasyEnsembleClassifier   # 简单集成方法EasyEnsemble   new---  ( imblearn 0.6)

# 导入数据文件
df = pd.read_csv('data2.txt', sep=' ', names=['col1', 'col2','col3', 'col4', 'col5', 'label'])
x = df.iloc[:, :-1]
y = df.iloc[:, -1]
groupby_data_orgianl = df.groupby('label').count()      # 对label做分类汇总
print(groupby_data_orgianl)                             # 输出原始数据集样本分类分布


# SMOTE方法进行过采样处理
model_smote = SMOTE()           # 建立SMOTE模型对象
x_smote_resampled, y_smote_resampled = model_smote.fit_sample(x, y)         # 输入数据做过抽样处理
x_smote_resampled = pd.DataFrame(x_smote_resampled, columns=['col1','col2', 'col3', 'col4', 'col5'])        # 将数据转换为数据框并命名列名
y_smote_resampled = pd.DataFrame(y_smote_resampled,columns=['label'])       # 将数据转换为数据框并命名列名
smote_resampled = pd.concat([x_smote_resampled, y_smote_resampled],axis=1)  # 按列合并数据框
groupby_data_smote = smote_resampled.groupby('label').count()               # 对label做分类汇总
print (groupby_data_smote)      # 打印输出经过SMOTE处理后的数据集样本分类分布


# RandomUnderSampler方法进行欠抽样处理
model_RandomUnderSample = RandomUnderSampler()          # 建立RandomUnderSampler模型对象
x_RandomUnderSampler_resampled, y_RandomUnderSampler_resampled = model_RandomUnderSample.fit_sample(x, y)   # 输入数据做欠抽样处理
x_RandomUnderSampler_resampled = pd.DataFrame(x_RandomUnderSampler_resampled, columns=['col1','col2','col3','col4','col5'])
y_RandomUnderSampler_resampled =pd.DataFrame(y_RandomUnderSampler_resampled,columns=['label'])
RandomUnderSampler_resampled =pd.concat([x_RandomUnderSampler_resampled, y_RandomUnderSampler_resampled], axis= 1)  # 按列合并数据框
groupby_data_RandomUnderSampler =RandomUnderSampler_resampled.groupby('label').count()                              # 对label做分类汇总
print (groupby_data_RandomUnderSampler)                 # 打印输出经过RandomUnderSampler处理后的数据集样本分类分布


# 使用SVM的权重调节处理不均衡样本
model_svm = SVC(class_weight='balanced')                # 创建SVC模型对象并指定类别权重
model_svm.fit(x, y)             # 输入x和y并训练模型


# 使用集成方法EasyEnsemble处理不均衡样本
#model_EasyEnsemble = EasyEnsemble()                     # 建立EasyEnsemble模型对象   ---old
model_EasyEnsemble = EasyEnsembleClassifier()                     # 建立EasyEnsemble模型对象    ---new
# x_EasyEnsemble_resampled, y_EasyEnsemble_resampled = model_EasyEnsemble.fit_sample(x, y)    # 输入数据并应用集成方法处理
x_EasyEnsemble_resampled, y_EasyEnsemble_resampled = model_EasyEnsemble.fit(x, y) 
print (x_EasyEnsemble_resampled.shape)                  # 打印输出集成方法处理后的x样本集概况
print (y_EasyEnsemble_resampled.shape)                  # 打印输出集成方法处理后的y标签集概况


# 抽取其中一份数据做审查
index_num = 1                   # 设置抽样样本集索引
x_EasyEnsemble_resampled_t =pd.DataFrame(x_EasyEnsemble_resampled[index_num],columns=['col1','col2','col3','col4','col5'])      # 将数据转换为数据框并命名列名
y_EasyEnsemble_resampled_t =pd.DataFrame(y_EasyEnsemble_resampled[index_num],columns=['label'])                     # 将数据转换为数据框并命名列名
EasyEnsemble_resampled = pd.concat([x_EasyEnsemble_resampled_t,y_EasyEnsemble_resampled_t], axis = 1)               # 按列合并数据框
groupby_data_EasyEnsemble =EasyEnsemble_resampled.groupby('label').count()                                          # 对label做分类汇总
print (groupby_data_EasyEnsemble) # 打印输出经过EasyEnsemble处理后的数据集样本分类分布