In [None]:
#--导入所需要的扩展包--
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from IPython.display import Image

In [None]:
房屋数据 = pd.read_csv('house_train.csv')

In [None]:
房屋数据

In [None]:
房屋数据.shape

In [None]:
房屋数据.info()

In [None]:
# 定义需要保留的数值型变量和类属型变量的列表。
数值型变量 = ['SalePrice','LotArea', 'OverallQual', 'OverallCond', 
             'YearBuilt', '1stFlrSF', '2ndFlrSF', 'BedroomAbvGr']

类属型变量 = ['MSZoning', 'LotShape', 'Neighborhood', 'CentralAir', 
             'SaleCondition', 'MoSold', 'YrSold']

In [None]:
房屋数据 = 房屋数据[数值型变量 + 类属型变量]   # 只保留选定的数据列。

In [None]:
房屋数据.shape

In [None]:
# 关于销售价格（标签）的描述统计汇总
房屋数据['SalePrice'].describe()

In [None]:
# 销售价格的直方图
房屋数据['SalePrice'].hist(edgecolor = 'orange', bins = 10)

In [None]:
# 斜度与峰度
print("斜度: {:0.3f}".format(房屋数据['SalePrice'].skew()))
print("峰度: {:0.3f}".format(房屋数据['SalePrice'].kurt()))

In [None]:
# 显示所有数值变量的描述统计汇总
房屋数据[数值型变量].describe()

In [None]:
# 显示所有数值变量的条形图（未正规化的直方图）
房屋数据[数值型变量].hist(edgecolor = 'orange', 
                        bins = 20, 
                        figsize = (14, 5), 
                        layout = (2, 4));

In [None]:
# 构造一个新变量Age
房屋数据['Age'] = 房屋数据['YrSold'] - 房屋数据['YearBuilt']

# 从数值型变量列表中删除变量YearBuilt
数值型变量.remove('YearBuilt')

# 在数值型变量列表中追加上新变量Age
数值型变量.append('Age')

In [None]:
房屋数据[数值型变量].hist(edgecolor = 'orange', 
                         bins = 15, 
                         figsize = (14, 5), 
                         layout = (2,4));

In [None]:
# 绘制条形图
房屋数据['SaleCondition'].value_counts().plot(kind = 'bar', 
                                             title = 'SaleCondition');

In [None]:
# 绘制各类属变量条形图，放置在一起方便对比。
fig, ax = plt.subplots(2,4, figsize = (14,6))
for var, subplot in zip(类属型变量, ax.flatten()):
    房屋数据[var].value_counts().plot(kind = 'bar', 
                                     ax = subplot, 
                                     title = var)

fig.tight_layout()

In [None]:
# 两个数值变量之间关系的散点图
房屋数据.plot.scatter(x = '1stFlrSF', y = 'SalePrice');

In [None]:
# 将变量的分布叠加在散点图上
sns.jointplot(x = '1stFlrSF', y = 'SalePrice', data = 房屋数据, joint_kws = {"s": 10});

In [None]:
# 数值变量的结对图
sns.pairplot(房屋数据[数值型变量[:4]], plot_kws = {"s": 10});

In [None]:
# 另一种风格的结对图
sns.pairplot(房屋数据[['SalePrice'] + 数值型变量[4:]], plot_kws = {"s": 10});

In [None]:
# 数值变量之间相关性
房屋数据[数值型变量].corr()

In [None]:
# 变量按相关度降序排序
房屋数据[数值型变量].corr()['SalePrice'].sort_values(ascending = False)

In [None]:
# 数值变量相关性的热图
数值型变量相关性 = 房屋数据[数值型变量].corr()

fig, ax = plt.subplots(figsize = (7,5))
sns.heatmap(数值型变量相关性, ax = ax);

In [None]:
# 绘制一个变量的箱图
sns.boxplot(x = 'CentralAir', y = 'SalePrice', data = 房屋数据);
plt.savefig('P148-2.png', dpi = 400, bbox_inches = 'tight')

In [None]:
# 同时绘制所有类属变量的箱图
fig, ax = plt.subplots(3,3, figsize = (14,9))
for var, subplot in zip(类属型变量, ax.flatten()):
    sns.boxplot(x = var, y = 'SalePrice', data = 房屋数据, ax = subplot)

fig.tight_layout()

In [None]:
# 按众数排序
分组排序数据 = 房屋数据.groupby('Neighborhood')['SalePrice'].median().sort_values().index.values

# 重画箱图
fig, ax = plt.subplots(figsize = (14,4))

sns.boxplot(x = 'Neighborhood', 
            y = 'SalePrice', 
            data = 房屋数据, 
            order = 分组排序数据, 
            ax = ax)

plt.xticks(rotation = 'vertical');

In [None]:
# 导入PyTorch包
from __future__ import print_function
import torch

In [None]:
import torch
import numpy as np

x = torch.tensor([[1,2,3], [4,5,6]])
y = torch.tensor([[7,8,9], [10,11,12]])
f = 2*x + y

print(f)

In [None]:
形状 = [2, 3]

全零张量 = torch.zeros(形状)
全一张量 = torch.ones(形状)
随机张量 = torch.rand(形状)

print(全零张量)
print(全一张量)
print(随机张量)

In [None]:
torch.manual_seed(42)    # 指定随机种子。

print(随机张量)           # 再次运行产生相同的张量。

In [None]:
import numpy as np

原始NumPy数组 = np.array([[1,2,3], [4,5,6]])

转成PyTorch张量 = torch.from_numpy(原始NumPy数组)    # 将数组转换为张量

print(转成PyTorch张量)

转成PyTorch张量.type()                              # 使用PyTorch内建方法type()来检查张量的类型。

In [None]:
还原的NumPy数组 = 转成PyTorch张量.numpy()  # 将张量转换为数组

type(还原的NumPy数组)                     # 使用Python内建函数type()检查类型。

In [None]:
还原的NumPy数组 == 原始NumPy数组

In [None]:
print(x[0])       # 索引x的第0行

print(x[1][0:2])  # 索引x的第1行、第0，1列的交叉部分。

In [None]:
print(x.size())       # 获取张量的“尺寸”。

print(x.view(-1))     # 将x摊平为一维张量。

print(x.view(3, 2))   # 将x重塑为二维3x2张量。

print(x.view(6, 1))   # 将x重塑为二维6x1张量。

In [None]:
print(x.view(3,-1))   # 仅指定行数，-1表示自动计算列数。

In [None]:
x.transpose(0, 1).size()  # 交换轴（行列互换、转置）运算。

In [None]:
a = torch.ones(1, 2, 3, 4)           # 定义一个4维的张量。

print(a.transpose(0, 3).transpose(1, 2).size())    # 两步内交换所有的轴。
print(a.permute(3, 2, 1, 0).size())                # 一次交换所有的轴。

In [None]:
import torch
import torchvision
import torchvision.transforms as transforms

CIFAR10训练集 = torchvision.datasets.CIFAR10(root = './data',           # 数据根目录 
                                     download = True,                   # 检查数据是否已经下载
                                     transform = transforms.ToTensor()  # 变换为张量
                                     )                                  
CIFAR10训练集

In [None]:
for i in range(len(CIFAR10训练集)):
    print('图像尺寸：{}；类属标签：{}'.format(CIFAR10训练集[i][0].size() , CIFAR10训练集[i][1]))
    if i >= 10: break

In [None]:
#--显示CIFAR10训练集中的图像--
%matplotlib inline
import matplotlib.pyplot as plt

选定的Torch图像 = CIFAR10训练集[0][0]               # 索引第一个元组的第一个元素。
变换的NumPy图像 = 选定的Torch图像.permute(1, 2, 0)  # 将轴(C,H,W)置换为(H,W,C)。

plt.imshow(变换的NumPy图像);                        # 显示图像。

print(CIFAR10训练集[0][1])                         # 显示图像标签。

In [None]:
分批装载训练集 = torch.utils.data.DataLoader(CIFAR10训练集, 
                                            batch_size = 4,    # 批次大小。
                                            shuffle = True     # 是否打乱次序。
                                           )

数据迭代器 = iter(分批装载训练集)     # 从DataLoader对象创建一个迭代器。

图像, 标签 = 数据迭代器.next()       # 为批次中的图像和标签构建张量。

print(标签[0:])                     # 显示一个批次中图像的标签。
print(图像.size())                  # 显示批次张量的大小。 

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pylab as plt

In [None]:
#--阶跃函数的一种NumPy实现。--
def step_function(x):
    return np.array(x > 0, dtype = np.int)

In [None]:
import numpy as np
def sigmoid(x):
    return 1 / (1 + np.exp(-x))                                                             

In [None]:
def relu(x):
    return np.maximum(0, x)

In [None]:
def softmax(x):
    return np.exp(x)/np.sum(np.exp(x))

In [None]:
#--各种激活函数的比较--
import numpy as np
import matplotlib.pylab as plt
import matplotlib.font_manager as fm

# 使用中文字体替换默认字体
myfont = fm.FontProperties(fname = r'C:\Windows\Fonts\simsun.ttc')                          

x = np.arange(-2, 2, 0.2)
y1 = sigmoid(x)
y2 = step_function(x)
y3 = relu(x)
y4 = 0.5 * (np.tanh(x) + 1)            # 适当缩放以匹配其它函数的取值范围。
y5 = softmax(x)
plt.plot(x, y1, label = 'S-形函数')
plt.plot(x, y2, linestyle = '--', label = '阶跃函数')
plt.plot(x, y3, linestyle = '-.', label = 'ReLU函数')
plt.plot(x, y4, linestyle = ':', label = '双曲正切')
plt.plot(x, y5, linestyle = 'dashed', label = 'Softmax函数')
plt.ylim(-0.2, 1.2)

plt.xlabel("x")                                                      # x轴标签
plt.ylabel("y")                                                      # y轴标签
plt.title('各种激活函数的对比', fontproperties = myfont,fontsize = 12) # 显示标题
plt.legend(loc = 'upper left', prop = myfont)                        # 显示图例

plt.savefig('Activation_Fig.png', dpi = 400, bbox_inches = 'tight')  # 保存图像
plt.show()

In [None]:
import torch
import torchvision
import torchvision.transforms as transforms

In [None]:
正规变换 = transforms.Compose([transforms.ToTensor(),
                              transforms.Normalize((0.5, 0.5, 0.5), 
                                                   (0.5, 0.5, 0.5))])

训练集 = torchvision.datasets.CIFAR10(root = './data', 
                                     train = True,
                                     download = True, 
                                     transform = 正规变换)

训练集装载器 = torch.utils.data.DataLoader(训练集, 
                                          batch_size = 4,
                                          shuffle = True, 
                                          num_workers = 2)

测试集 = torchvision.datasets.CIFAR10(root = './data', 
                                     train = False,
                                     download = True, 
                                     transform = 正规变换)

测试集装载器 = torch.utils.data.DataLoader(测试集, 
                                          batch_size = 4,
                                          shuffle = False, 
                                          num_workers = 2)

图像类别 = ('飞机', '轿车', '鸟', '猫', '鹿', '狗', '青蛙', '马', '船', '卡车')

In [None]:
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

net = Net()

In [None]:
import torch.optim as optim

损失函数 = nn.CrossEntropyLoss()
优化算法 = optim.SGD(net.parameters(),     # 获取网络参数
                    lr = 0.001,           # 预置学习率 
                    momentum = 0.9        # 动量参数值
                    )

In [None]:
for epoch in range(2):      # 在数据集上循环（二代）

    累计损失值 = 0.0         # 累计损失值初始化
    for i, data in enumerate(训练集装载器, 0):
        
        # 获取输入
        输入数据, 实际标签 = data

        # 参数的梯度张量清零
        优化算法.zero_grad()

        # 前向传播 + 反向传播 + 优化
        输出数据 = net(输入数据)
        损失值 = 损失函数(输出数据, 实际标签)
        损失值.backward()
        优化算法.step()

        # 显示统计信息
        累计损失值 += 损失值.item()
        if i % 2000 == 1999:                # 2000小批次显示一次。
            print('[%d, %5d] 损失函数: %.3f' %
                  (epoch + 1, i + 1, 累计损失值 / 2000))
            累计损失值 = 0.0

print('训练完成！')

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

# 定义显示图像的函数
def imshow(img):
    img = img / 2 + 0.5     # 去正规化。
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.show()

In [None]:
数据迭代器 = iter(测试集装载器)
测试图像, 实际标签 = 数据迭代器.next()

# 显示图像
imshow(torchvision.utils.make_grid(测试图像))
print('实际标签：', ' '.join('%5s' % 图像类别[实际标签[j]] for j in range(4)))

In [None]:
输出图像 = net(测试图像)

In [None]:
_, 预测的标签 = torch.max(输出图像, 1)

print('预测的标签：', ' '.join('%5s' % 图像类别[预测的标签[j]] for j in range(4)))

In [None]:
预测正确数 = 0
图像总数 = 0
with torch.no_grad():
    for data in 测试集装载器:
        测试图像, 实际标签 = data
        输出图像 = net(测试图像)
        _, 预测标签 = torch.max(输出图像.data, 1)
        图像总数 += 实际标签.size(0)
        预测正确数 += (预测标签 == 实际标签).sum().item()

print('网络在10000幅图像上预测的准确率：%d %%' % (100 * 预测正确数 / 图像总数))

In [None]:
预测正确的类 = list(0. for i in range(10))
图像总的类别 = list(0. for i in range(10))
with torch.no_grad():
    for data in 测试集装载器:
        测试图像, 实际标签 = data
        输出图像 = net(测试图像)
        _, 预测标签 = torch.max(输出图像, 1)
        c = (预测标签 == 实际标签).squeeze()
        for i in range(4):
            标签 = 实际标签[i]
            预测正确的类[标签] += c[i].item()
            图像总的类别[标签] += 1

for i in range(10):
    print('%5s 的预测准确率：%2d %%' % (图像类别[i], 100 * 预测正确的类[i] / 图像总的类别[i]))