## 稀疏矩阵

In [1]:
import numpy as np
from scipy import sparse

# 1️⃣ 记录非零元素的行索引
row = np.array([0, 2, 2, 4])  # 3 在第0行，4 在第2行，5 在第2行，6 在第4行

# 2️⃣ 记录非零元素的列索引
col = np.array([2, 0, 3, 2])  # 3 在第2列，4 在第0列，5 在第3列，6 在第2列

# 3️⃣ 记录非零元素的值
data = np.array([3, 4, 5, 6])  # 这些索引位置对应的值

# 4️⃣ 生成 5x5 的稀疏矩阵
matrix = sparse.coo_matrix((data, (row, col)), shape=(5, 5))

# 打印矩阵
print(matrix.toarray())  # 转换回普通的二维数组看下
print(matrix.row)
print(matrix.col)
print(matrix.data)


[[0 0 3 0 0]
 [0 0 0 0 0]
 [4 0 0 5 0]
 [0 0 0 0 0]
 [0 0 6 0 0]]
[0 2 2 4]
[2 0 3 2]
[3 4 5 6]


## 概率分布
norm为例

In [8]:
from scipy.stats import norm

In [9]:
# help
print(norm.__doc__)

A normal continuous random variable.

    The location (``loc``) keyword specifies the mean.
    The scale (``scale``) keyword specifies the standard deviation.

    As an instance of the `rv_continuous` class, `norm` object inherits from it
    a collection of generic methods (see below for the full list),
    and completes them with details specific for this particular distribution.
    
    Methods
    -------
    rvs(loc=0, scale=1, size=1, random_state=None)
        Random variates.
    pdf(x, loc=0, scale=1)
        Probability density function.
    logpdf(x, loc=0, scale=1)
        Log of the probability density function.
    cdf(x, loc=0, scale=1)
        Cumulative distribution function.
    logcdf(x, loc=0, scale=1)
        Log of the cumulative distribution function.
    sf(x, loc=0, scale=1)
        Survival function  (also defined as ``1 - cdf``, but `sf` is sometimes more accurate).
    logsf(x, loc=0, scale=1)
        Log of the survival function.
    ppf(q, loc=0, scale

In [10]:
# 属性 方法
rv = norm()
print(dir(rv))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'a', 'args', 'b', 'cdf', 'dist', 'entropy', 'expect', 'interval', 'isf', 'kwds', 'logcdf', 'logpdf', 'logsf', 'mean', 'median', 'moment', 'pdf', 'ppf', 'random_state', 'rvs', 'sf', 'stats', 'std', 'support', 'var']


### **主要方法**
- rvs：随机变量
- pdf：概率密度函数。 （单点处的概率是0，但可以讨论区间上的概率,即pdf区间积分. pdf值表示一点处的可能性密度)
- cdf：累积分布函数
- sf：生存函数 (1-CDF)
- ppf：百分点函数（CDF 的逆函数）
- isf：逆生存函数（SF 的逆函数）
- stats：返回均值、方差、（Fisher 的）偏度或（Fisher 的）峰度
- moment：分布的非中心矩


In [49]:
norm.cdf(0)

np.float64(0.5)

In [36]:
norm.cdf([-1, 0, 1]) # 多个点的cdf

array([0.15865525, 0.5       , 0.84134475])

In [37]:
norm.mean()

np.float64(0.0)

In [38]:
norm.std()

np.float64(1.0)

In [39]:
norm.var()

np.float64(1.0)

In [40]:
norm.ppf(0.5) # 寻找对应分位点

np.float64(0.0)

In [41]:
norm.pdf(0)

np.float64(0.3989422804014327)

### 生成分布随机变量

In [42]:
from numpy.random import default_rng
rng = default_rng()

In [43]:
norm.rvs(size = 5, random_state= rng)

array([ 1.54168013,  0.63091442,  0.63829445, -0.40356971, -1.61088559])

### 移位和缩放
使用均值和标准差。

In [44]:
norm.stats(loc=3, scale=4)

(np.float64(3.0), np.float64(16.0))

### 形状参数
gamma类似分布

In [45]:
from scipy.stats import gamma

In [46]:
gamma(a=1, scale=2.)

<scipy.stats._distn_infrastructure.rv_continuous_frozen at 0x1f2f3719d00>

### zscore 标准分数，（常在正态分布）
衡量一数值在总体中相对位置。

$$
z = \frac{x - \mu}{\sigma}
$$

假设一个班的数学成绩均值是 70，标准差是 10。你考了 85 分：$z = \frac{85 - 70}{10} = 1.5$.表示你比平均水平高了 1.5 个标准差。

