In [15]:
import numpy as np

In [16]:
# 1.1 标量等
# 标量
s = 5
# 向量
v = np.array([1, 2])
# 矩阵
m = np.array([[1, 2], [3, 4]])
# 张量
t = np.array([
    [[1, 2, 3], [4, 5, 6], [7, 8, 9]],
    [[11, 12, 13], [14, 15, 16], [17, 18, 19]],
    [[11, 12, 13], [14, 15, 16], [17, 18, 19]],
])
print("标量：" + str(s))
print("向量：" + str(v))
print("矩阵：" + str(m))
print("张量：" + str(t))

标量：5
向量：[1 2]
矩阵：[[1 2]
 [3 4]]
张量：[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[11 12 13]
  [14 15 16]
  [17 18 19]]

 [[11 12 13]
  [14 15 16]
  [17 18 19]]]


In [17]:
# 1.2 矩阵转置
A = np.array([[1.0, 2.0], [1.0, 0.0], [1.0, 3.0]])
A_t = A.transpose()
print("矩阵是", A)
print("矩阵的转置是", A_t)

矩阵是 [[1. 2.]
 [1. 0.]
 [1. 3.]]
矩阵的转置是 [[1. 1. 1.]
 [2. 0. 3.]]


In [18]:
# 1.3 矩阵加法
a = np.array([[1.0, 2.0], [3.0, 4.0]])
b = np.array([[3.0, 4.0], [5.5, 7.5]])
print("矩阵相加：", a + b)

矩阵相加： [[ 4.   6. ]
 [ 8.5 11.5]]


In [19]:
# 1.4 矩阵乘法
m1 = np.array([[1.0,3.0],[1.0,0.0]])
m2 = np.array([[1.0,2.0],[5.0,0.0]])
print("按矩阵乘法规则：", np.dot(m1, m2)) # 此处为 m1 ⊙ m2 的 Hadamard 乘积
print("按逐元素相乘：", np.multiply(m1, m2)) # 此处为 m1 × m2
print("按逐元素相乘：", m1*m2)

v1 = np.array([1.0,2.0])
v2 = np.array([4.0,5.0])
print("向量内积：", np.dot(v1, v2))

按矩阵乘法规则： [[16.  2.]
 [ 1.  2.]]
按逐元素相乘： [[1. 6.]
 [5. 0.]]
按逐元素相乘： [[1. 6.]
 [5. 0.]]
向量内积： 14.0


In [0]:
# 1.5 单位矩阵
E = 4 * np.identity(3)
print(E)

In [0]:
# 1.6 矩阵的逆
A = [[1.0, 2.0], [3.0, 4.0]]
A_inv = np.linalg.inv(A)
print("A 的逆矩阵：", A_inv)

In [0]:
# 1.7 范数
# L^0 范数：如果需要衡量向量中非零元素的个数，但他并不是一个数乘不满足三角不等式和数乘
# L^1 范数：绝对值相加
# L^2 范数：欧几里得范数，是向量到原点的欧几里得距离
# L^∞ 范数：向量元素绝对值的最大值，也被称之为 Max Norm

a = np.array([1.0, 3.0])
print("向量 0 范数", np.linalg.norm(a, ord = 0))
print("向量 1 范数", np.linalg.norm(a, ord = 1))
print("向量 2 范数", np.linalg.norm(a, ord = 2))
print("向量无穷范数", np.linalg.norm(a, ord = np.inf))
a = np.array([[1.0, 3.0], [2.0, 1.0]])
print("向量 F 范数", np.linalg.norm(a, ord = "fro"))

In [None]:
# 1.8 特征值分解
# A = V \diag{\lambda} V^{-1}
A = np.array([[1.0,2.0,3.0],
[4.0,5.0,6.0],
[7.0,8.0,9.0]])

# 计算特征值
print("特征值:", np.linalg.eigvals(A))
# 计算特征值和特征向量
eigvals, eigvectors = np.linalg.eig(A)
print("特征值:", eigvals)
print("特征向量:", eigvectors)

In [None]:
# 1.9 奇异值分解
A = np.array([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
U, D, V = np.linalg.svd(A)
print("U:", U)
print("D:", D)
print("V:", V)

In [0]:
# 1.10 PCA
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
%matplotlib inline

# 载入数据
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target
df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
df.label.value_counts()

# 查看数据
df.tail()

# 查看数据
X = df.iloc[:, 0:4]
y = df.iloc[:, 4]

print("查看第一个数据： \n", X.iloc[0, 0:4])
print("查看第一个标签: \n", y.iloc[0])

class PCA():
    def __init__(self):
        pass
    def fit(self, X, n_components):
        n_samples = np.shape(X)[0]
        covariance_matrix = (1 / (n_samples-1)) * (X - X.mean(axis=0)).T.dot(X - X.mean(axis=0))
        # 对协方差矩阵进行特征值分解
        eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)
        # 对特征值（特征向量）从大到小排序
        idx = eigenvalues.argsort()[::-1]
        eigenvalues = eigenvalues[idx][:n_components]
        eigenvectors = np.atleast_1d(eigenvectors[:, idx])[:, :n_components]
        # 得到低维表示
        X_transformed = X.dot(eigenvectors)
        return X_transformed
    
model = PCA()
Y = model.fit(X, 2)

principalDf = pd.DataFrame(np.array(Y),
columns=['principal component 1', 'principal component 2'])
Df = pd.concat([principalDf, y], axis = 1)
fig = plt.figure(figsize = (5,5))
ax = fig.add_subplot(1,1,1)
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)

targets = [0, 1, 2]
# ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
colors = ['r', 'g', 'b']
for target, color in zip(targets,colors):
    indicesToKeep = Df['label'] == target
    ax.scatter(Df.loc[indicesToKeep, 'principal component 1'], Df.loc[indicesToKeep, 'principal component 2'], c = color, s = 50)
ax.legend(targets)
ax.grid()

# 使用 sklearn 包实现PCA
from sklearn.decomposition import PCA as sklearnPCA
sklearn_pca = sklearnPCA(n_components=2)
Y = sklearn_pca.fit_transform(X)
principalDf = pd.DataFrame(data = np.array(Y), columns = ['principal component 1', 'principal component 2'])
Df = pd.concat([principalDf, y], axis = 1)
fig = plt.figure(figsize = (5,5))
ax = fig.add_subplot(1,1,1)
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = [0, 1, 2]
# ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
colors = ['r', 'g', 'b']
for target, color in zip(targets,colors):
    indicesToKeep = Df['label'] == target
    ax.scatter(Df.loc[indicesToKeep, 'principal component 1'], Df.loc[indicesToKeep, 'principal component 2'], c = color, s = 50)
ax.legend(targets)
ax.grid()

# 版本情况查询
import numpy, pandas, matplotlib, sklearn
print("numpy:", numpy.__version__)
print("pandas:", pandas.__version__)
print("matplotlib:", matplotlib.__version__)
print("sklearn:", sklearn.__version__)

In [0]:
# 2.1 概率
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import uniform
%matplotlib inline

# 生成样本
fig, ax = plt.subplots(1, 1)
r = uniform.rvs(loc=0, scale=1, size=1000)
ax.hist(r, density=True, histtype='stepfilled', alpha=0.5)
# 均匀分布pdf
x = np.linspace(uniform.ppf(0.01), uniform.ppf(0.99), 100)
ax.plot(x, uniform.pdf(x), 'r-', lw=5, alpha=0.8, label='uniform pdf')

In [0]:
# 2.1.4 度量
x = np.array([1,2,3,4,5,6,7,8,9])
y = np.array([9,8,7,6,5,4,3,2,1])
Mean = np.mean(x)
Var = np.var(x) # 默认总体方差
Var_unbias = np.var(x, ddof=1) # 样本方差（无偏方差）
Cov = np.cov(x,y)
Mean, Var, Var_unbias, Cov

In [0]:
# 2.1.5 常用概率分布
# 伯努利分布
def plot_distribution(X, axes=None):
    """ 给定随机变量，绘制PDF，PMF，CDF"""
    if axes is None:
        fig, axes = plt.subplots(1, 2, figsize=(10, 3))
    x_min, x_max = X.interval(0.99)
    x = np.linspace(x_min, x_max, 1000)
    if hasattr(X.dist, 'pdf'): # 判断有没有pdf，即是不是连续分布
        axes[0].plot(x, X.pdf(x), label="PDF")
        axes[0].fill_between(x, X.pdf(x), alpha=0.5) # alpha 是透明度，alpha=0 表示100% 透明，alpha=100 表示完全不透明
    else: # 离散分布
        x_int = np.unique(x.astype(int))
        axes[0].bar(x_int, X.pmf(x_int), label="PMF") # pmf 和pdf 是类似的
    axes[1].plot(x, X.cdf(x), label="CDF")
    for ax in axes:
        ax.legend()
    return axes

from scipy.stats import bernoulli
fig, axes = plt.subplots(1, 2, figsize=(10, 3)) # 画布
p = 0.3
X = bernoulli(p) # 伯努利分布
plot_distribution(X, axes=axes)

In [0]:
# 产生成功的概率
possibility = 0.3
def trials(n_samples):
    samples = np.random.binomial(n_samples, possibility) # 成功的次数
    proba_zero = (n_samples-samples)/n_samples
    proba_one = samples/n_samples
    return [proba_zero, proba_one]
fig, axes = plt.subplots(1, 2, figsize=(10, 3))
# 一次试验， 伯努利分布
n_samples = 1
axes[0].bar([0, 1], trials(n_samples), label="Bernoulli")
# n 次试验， 二项分布
n_samples = 1000
axes[1].bar([0, 1], trials(n_samples), label="Binomial")
for ax in axes:
    ax.legend()

In [0]:
# 范畴分布
def k_possibilities(k):
    """
    随机产生一组10 维概率向量
    """
    res = np.random.rand(k)
    _sum = sum(res)
    for i, x in enumerate(res):
        res[i] = x / _sum
    return res

fig, axes = plt.subplots(1, 2, figsize=(10, 3))
# 一次试验， 范畴分布
k, n_samples = 10, 1
samples = np.random.multinomial(n_samples, k_possibilities(k)) # 各维度“成功”的次数
axes[0].bar(range(len(samples)), samples/n_samples, label="Multinoulli")
# n 次试验， 多项分布
n_samples = 1000
samples = np.random.multinomial(n_samples, k_possibilities(k))
axes[1].bar(range(len(samples)), samples/n_samples, label="Multinomial")
for ax in axes:
    ax.legend()

In [0]:
# 高斯分布、正态分布
from scipy.stats import norm
fig, axes = plt.subplots(1, 2, figsize=(10, 3)) # 画布
mu, sigma = 0, 1
X = norm(mu, sigma) # 标准正态分布
plot_distribution(X, axes=axes)

In [0]:
# 多元高斯分布、正态分布
from scipy.stats import multivariate_normal
import matplotlib.pyplot as plt
x, y = np.mgrid[-1:1:.01, -1:1:.01]
pos = np.dstack((x, y))
fig = plt.figure(figsize=(4,4))
axes = fig.add_subplot(111)
mu = [0.5, -0.2] # 均值
sigma = [[2.0, 0.3], [0.3, 0.5]] # 协方差矩阵
X = multivariate_normal(mu, sigma)
axes.contourf(x, y, X.pdf(pos))

In [0]:
# 指数分布
from scipy.stats import expon
fig, axes = plt.subplots(1, 2, figsize=(10, 3))
# 定义scale = 1 / lambda
X = expon(scale=1)
plot_distribution(X, axes=axes)

In [0]:
# 拉普拉斯分布
from scipy.stats import laplace
fig, axes = plt.subplots(1, 2, figsize=(10, 3))
mu, gamma = 0, 1
X = laplace(loc=mu, scale=gamma)
plot_distribution(X, axes=axes)

In [0]:
# 常见函数的有用性质
# sigmoid 函数和 softplus 函数
x = np.linspace(-10, 10, 100)
sigmoid = 1/(1 + np.exp(-x))
softplus = np.log(1 + np.exp(x))
fig, axes = plt.subplots(1, 2, figsize=(10, 3))
axes[0].plot(x, sigmoid, label='sigmoid')
axes[1].plot(x, softplus, label='softplus')
for ax in axes:
    ax.legend()

## 信息论
# 信息论背后的思想：一个不太可能的事件可能比一个可能的事件更加有信息量
# 信息需要满足三个条件：
# • 比较可能发生的事件的信息量要少。
# • 比较不可能发生的事件的信息量要大。
# • 独立发生的事件之间的信息量应该是可以叠加的。例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷⼀次硬币正面朝上的信息量的两倍。

# 自信息
# 自信息(Self-Information)：对事件x = x，我们定义：
# I(x) = - log P(x)
# 自信息满足上面三个条件，单位是奈特(nats) （底为e）

# 香农熵(Shannon Entropy)：上述的自信息只包含⼀个事件的信息，而对于整个概率分布P，不确定性可以这样衡量：
# $E_{x~P} [I (x)] = - E_{x~P} [log P (x)]$
# 也可以表示成H(P)。香农熵是编码原理中最优编码长度。

# 多个随机变量：
# • 联合熵(Joint Entropy)：表示同时考虑多个事件的条件下（即考虑联合分布概率）的熵。
# $H(X;Y) = Σ_{x;y} P(x;y) | log (P(x;y))$
# • 条件熵(Conditional Entropy)：表示某件事情已经发生的情况下，另外一件事情的熵。
# $H(X|Y) = - Σ_y P(y) Σ_x P(x|y) log(P(x|y))$
# • 互信息(Mutual Information)：表示两个事件的信息相交的部分。
# $I(X;Y) = H(X) + H(Y) − H(X;Y)$
# • 信息变差(Variation of Information)：表示两个事件的信息不相交的部分。
# $V(X;Y) = H(X;Y) − I(X;Y)$

In [0]:
p = np.linspace(1e-6,1-1e-6,100)
entropy = (p-1)*np.log(1-p)-p*np.log(p)
plt.figure(figsize=(4,4))
plt.plot(p,entropy)
plt.xlabel('p')
plt.ylabel('Shannon entropy in nats')
plt.show()

In [0]:
# 最优编码长度
def H(sentence):
    """
    最优编码长度
    """
    entropy = 0
    # 这里有 256 个可能的ASCII 符号
    for character_i in range(256):
        Px = sentence.count(chr(character_i))/len(sentence)
    if Px > 0:
        entropy += -Px * math.log(Px,2) # 注:log 以2 为底
    return entropy

import random
import math
# 只用 64 个字符
simple_message = "".join([chr(random.randint(0,64)) for i in range(500)])
print(simple_message)
H(simple_message)

# KL 散度 (Kullback-Leibler Divergence) 用于衡量两个分布 P(x) 和 Q(x) 之间的差距：
$ D_{KL} (P||Q) = E_{x \sim P} [ \log{\frac{P(x)}{Q(x)}}] = E_{x \sim P} [ \log{P(x)} - \log {{Q(x)}] $
注意$D_{KL}(P||Q) \ne DKL(Q||P)$，不满足对称性。

# 交叉熵(Cross Entropy)：
$H(P;Q) = H(P) + D_{KL}(P||Q) = -E_{x \sim P}[log Q(x)]$

)9<*4746 .7?
7%5 '3:- 6,
2<1
&
631,2	92+:5"3<=//=(@'29, 3	1?!;"=/(2!@68"4-	9	8*489 $2
**.'"= >#02"6)*66/  )5=(-4*.*!<#$
"	8;6(/!-
9(%$3	'9/?,@'8%.-(+/990(-!<68.$< /,:)&9" #1#%60)/*#9;


0