# 1、概要

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from skimage.io import imread, imshow
import cv2

%matplotlib inline
import plotly.offline as py
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.tools as tls

from subprocess import check_output
print(check_output(["ls", "../input/train"]).decode("utf8"))

# 2、准备数据

查看目标变量的分布。当分布不平衡时，根据评分标准和具体模型的使用不同，可能会严重影响性能。

对 Numerical Variable，可以用 Box Plot 来直观地查看它的分布。

对于坐标类数据，可以用 Scatter Plot 来查看它们的分布趋势和是否有离群点的存在。

对于分类问题，将数据根据 Label 的不同着不同的颜色绘制出来，这对 Feature 的构造很有帮助。

绘制变量之间两两的分布和相关度图表。

In [None]:
from glob import glob
basepath = '../input/train/'

all_cervix_images = []

for path in sorted(glob(basepath + "*")):
    cervix_type = path.split("/")[-1]
    cervix_images = sorted(glob(basepath + cervix_type + "/*"))
    all_cervix_images = all_cervix_images + cervix_images

all_cervix_images = pd.DataFrame({'imagepath': all_cervix_images})
all_cervix_images['filetype'] = all_cervix_images.apply(lambda row: row.imagepath.split(".")[-1], axis=1)
all_cervix_images['type'] = all_cervix_images.apply(lambda row: row.imagepath.split("/")[-2], axis=1)
all_cervix_images.head()

## 2.1 图像类型

现在我们有了一个方便的dataframe数据，我们可以对数据进行一些聚合。让我们先看看每个子宫颈类型和它们的文件类型有多少个图像。

所有的文件都是JPG格式的，2型是最常见的一种，在训练数据中，总共有略多于50%的数据，1型在训练数据中略少于20%。

In [None]:
print('We have a total of {} images in the whole dataset'.format(all_cervix_images.shape[0]))
type_aggregation = all_cervix_images.groupby(['type', 'filetype']).agg('count')  # agg：聚合
type_aggregation_p = type_aggregation.apply(lambda row: 1.0*row['imagepath']/all_cervix_images.shape[0], axis=1)

fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(10, 8))

type_aggregation.plot.barh(ax=axes[0])  # barh:水平条形图
axes[0].set_xlabel("image count")
type_aggregation_p.plot.barh(ax=axes[1])
axes[1].set_xlabel("training size fraction")

查看每个类型的文件，以了解图像的外观。

这些图像在样式上似乎有所不同，前两个样本只有一个圆形区域和实际图像，最后一个样本在一个矩形中有图像。

In [None]:
fig = plt.figure(figsize=(12,8))

i = 1
for t in all_cervix_images['type'].unique():
    ax = fig.add_subplot(1,3,i)
    i += 1
    f = all_cervix_images[all_cervix_images['type'] == t]['imagepath'].values[0]
    plt.imshow(plt.imread(f))
    plt.title('sample for cervix {}'.format(t))

## 2.1 图像尺寸

In [None]:
查看下有多少种不同尺寸（shape）的图像。为了减少运行时间，每个类只需要一个子样本。

In [None]:
from collections import defaultdict  # 使用dict时，如果引用的Key不存在，就会抛出KeyError。如果希望key不存在时，返回一个默认值，就可以用defaultdict

images = defaultdict(list)

for t in all_cervix_images['type'].unique():
    sample_counter = 0
    for _, row in all_cervix_images[all_cervix_images['type'] == t].iterrows():
        #print('reading image {}'.format(row.imagepath))
        try:
            img = imread(row.imagepath)
            sample_counter +=1
            images[t].append(img)
        except:
            print('image read failed for {}'.format(row.imagepath))
        if sample_counter > 35:  # 每种图取36幅，总共取108幅
            break

In [None]:
dfs = []
for t in all_cervix_images['type'].unique():
    t_ = pd.DataFrame(
        {
            'nrows': list(map(lambda i: i.shape[0], images[t])),
            'ncols': list(map(lambda i: i.shape[1], images[t])),
            'nchans': list(map(lambda i: i.shape[2], images[t])),
            'type': t
        }
    )
    dfs.append(t_)

shapes_df = pd.concat(dfs, axis=0)  # 合并
# 获取每种图各尺寸的数目统计
shapes_df_grouped = shapes_df.groupby(by=['nchans', 'ncols', 'nrows', 'type']).size().reset_index().sort_values(['type', 0], ascending=False)
shapes_df_grouped

样本中的所有图像都有三个通道，现在可以忽略这些信息。建立一个barplot，通过子宫颈类型了解图像尺寸的分布。

In [None]:
shapes_df_grouped['size_with_type'] = shapes_df_grouped.apply(lambda row: '{}-{}-{}'.format(row.ncols, row.nrows, row.type), axis=1)
shapes_df_grouped = shapes_df_grouped.set_index(shapes_df_grouped['size_with_type'].values)
shapes_df_grouped['count'] = shapes_df_grouped[[0]]

plt.figure(figsize=(10,8))
#shapes_df_grouped['count'].plot.barh(figsize=(10,8))  # pandas(为什么不需要指定y？)
sns.barplot(x="count", y="size_with_type", data=shapes_df_grouped)  # seaborn

## 2.3 t-SNE embedding（数据降维）

**t-SNE(t分布随机相邻嵌入)方法相比PCA等线性降维方法，能有效将数据投影到低维空间并保持严格的分割界面（维持距离）;缺点是计算复杂度大,一般推荐先线性降维然后再用t-SNE降维。**

现在我们将获取所有的示例图像，重新缩放它们并将它们转换为灰度图像。结果将产生一个矩阵，其中每一行都是灰度图像的扁平像素。

由于原始图像是高分辨率的，因此将尺寸范围缩小到100*100将导致信息的大量丢失。因此降维到两个维度可能不会具有良好的结构，这可以通过单独观察宫颈癌类型的分布看到。

同时，我们在每个阶段中只提供很少的图像，TSNE可以用来在这些图像上做一个维持距离的降维。

我添加了一个选项，选择将它们转换为灰度，然后将它们传递给TSNE。每一个默认图像将保留其RGB信息，因此将被转换为100*100*3 = 30000维向量。

In [None]:
def transform_image(img, rescaled_dim, to_gray=False):
    resized = cv2.resize(img, (rescaled_dim, rescaled_dim), cv2.INTER_LINEAR) # INTER_LINEAR：线性插值

    if to_gray:
        resized = cv2.cvtColor(resized, cv2.COLOR_RGB2GRAY).astype('float')
    else:
        resized = resized.astype('float')

    normalized = cv2.normalize(resized, None, 0.0, 1.0, cv2.NORM_MINMAX) # NORM_MINMAX：线性归一化
    timg = normalized.reshape(1, np.prod(normalized.shape)) # 连乘

    return timg / np.linalg.norm(timg)  # L2

rescaled_dim = 100

all_images = []
all_image_types = []

for t in all_cervix_images['type'].unique():
    all_images = all_images + images[t]
    all_image_types = all_image_types + len(images[t])*[t]

# - normalize each uint8 image to the value interval [0, 1] as float image
# - rgb to gray
# - downsample image to rescaled_dim X rescaled_dim
# - L2 norm of each sample = 1
gray_all_images_as_vecs = [transform_image(img, rescaled_dim) for img in all_images]  # list
print(np.array(gray_all_images_as_vecs).shape)  # (108, 1, 30000)

gray_imgs_mat = np.array(gray_all_images_as_vecs).squeeze()  # 压缩维度（移除长度为1的轴），能将矩阵变向量
all_image_types = np.array(all_image_types)
gray_imgs_mat.shape, all_image_types.shape

**3D t-SNE宫颈指标**
现在让我们将100*100*3图像投影到三维图像上，以检查低维图案。

In [None]:
from sklearn.manifold import TSNE
tsne = TSNE(
    n_components=3, # 嵌入空间的维数
    init='random', # pca
    random_state=101,
    method='barnes_hut',
    n_iter=500,
    verbose=2
).fit_transform(gray_imgs_mat)

In [None]:
from sklearn import preprocessing

# https://plot.ly/python/3d-scatter-plots/
trace1 = go.Scatter3d(
    x=tsne[:,0],
    y=tsne[:,1],
    z=tsne[:,2],
    mode='markers',
    marker=dict(
        sizemode='diameter',
        color = preprocessing.LabelEncoder().fit_transform(all_image_types),
        colorscale = 'Portland',
        colorbar = dict(title = 'cervix types'),
        line=dict(color='rgb(255, 255, 255)'),
        opacity=0.9
    )
)

data=[trace1]
layout=dict(height=800, width=800, title='3D embedding of images')
fig=dict(data=data, layout=layout)
py.iplot(fig, filename='3DBubble')

可以清楚地看到，有一个大的各种各样的聚合图和一些非常遥远的离群值。

In [None]:
for t in all_cervix_images['type'].unique():
    tsne_t = tsne[np.where(all_image_types == t), :][0]
    plt.scatter(tsne_t[:, 0], tsne_t[:, 1]) # 散点图
plt.legend(all_cervix_images['type'].unique())  # 显示图例