# Timer对于时间快慢

In [1]:
import numpy as np
from timeit import Timer

In [2]:
my_list = list(range(10 ** 6))
my_array = np.array(my_list)

In [3]:
def for_add():
    return [item + 1 for item in my_list]

def vec_add():
    return my_array + 1

10次实验，每次迭代10次,输出每次实验的时间

In [6]:
print('For循环相加:')
print(min(Timer(for_add).repeat(10, 10))) # 取最小

print('向量相加:')
print(min(Timer(vec_add).repeat(10, 10))) # 取最小

For循环相加:
1.080783700000012
向量相加:
0.01692800000000716


# 统计的两大派别

- 描述性统计中，问题是关于数据集的一般特征:平均数量是多少?最大值和最小值的区别是什么?什么值出现得最多?
- 推断统计中，根据描述统计进行预测与推断

从描述性统计的范围来看，有两个主要的子类: **集中趋势统计** 和 **离散统计** 。实际的术语暗示了它们各自的含义:集中趋势统计负责描述给定数据分布的中心，而分散统计则传达数据远离其中心的范围或范围的信息。
![image.png](attachment:image.png)
而mode(众数一般用于分类数据)

由于：均值、中位数、众数(mode)都是表示数据集中趋势（也就是大部分数据都在它门附近），所以这也是为什么利用它门来填补**缺失值**

由于：一般情况下总体均值是不知道的，所以又叫期望值，换句话说，就是我们应该期望该总体中的任意值

# 数据类型

## 分类变量

天气变量的变量值有阴天、晴天、雨天、雷雨，如果用0，1，2，3代替，那么计算机可能会默认有0<1<2<3大小序列，如果模型识别这样类型的变量，很可能会导致模型结果的准确性，所以一版 one-hot处理

## 数值变量

min-max标准化缩放scaling：
![image.png](attachment:image.png)
此最大最小特征缩放大于a 小于b ，自行数学验证

**Chapter03 Exercise3.02**

Z-score标准化缩放方法：

假设你有一个模型假设这个数据的正态分布是标准形式。其中均值为0，标准差为1，如果输入数据不是这种形式，模型将很难从中学习。因此，您希望以某种方式将前面的数据转换为这种标准形式。不牺牲数据的真实模式(特别是一般形状)。
![image.png](attachment:image.png)

有了大量的样本，这两个统计数据提供了一个很好的近似值，可以进一步用于这种类型的转换。有了这些数据，我们现在可以将这些标准化数据输入我们的统计和机器学习模型，以便进一步分析。

为了填补数字属性中缺失的值，通常使用集中趋势度量，如平均值和中位数。在一些特殊情况下，例如时间序列数据集，您可以使用更复杂的缺失值赋值技术，例如插值，我们将缺失值估计为序列中紧挨在它之前和之后的值之间的某个位置。

# 推理统计
- T-Tests （Student's t-tests）
有三个主要类型的t统计:独立样本t(用于比较两个独立样本的方式),配对样本t(用于比较的方法相同的组在不同时间),和一个示例t(用来比较一组预先确定的意思)的均值。

t检验的一般流程是首先声明两个均值确实相等的零假设，然后考虑t检验的输出，即对应的p值。如果p值大于一个固定的阈值(通常是。选择0。05)，则不能拒绝原假设。另一方面，如果p值低于阈值，我们可以拒绝零假设，这意味着两个平均值是不同的。我们看到这是一种推断统计方法，因为从它，我们可以推断我们的数据的事实;在这种情况下，我们感兴趣的两种方法是否不同。

- 机器学习就算推理统计的另一种方法

# 代数与方程

函数f(x)=x 一个输入只能对应一个输出，而多个输入 可以对应一个输出
![image.png](attachment:image.png)

![image.png](attachment:image.png)

- **定义域**和**值域**是函数的两个基本概念。函数的定义域表示函数接受的所有可能输入的集合，而**值域**则指定所有可能输出的集合。
- 一个函数的根是一个属于它的定义域的值，使输出等于零。求函数f(x)的所有根的过程等价于解方程f(x) = 0。这里的项方程表示我们有两个单独的量，f(x)和0，它们在数学表达式中相等。
![image.png](attachment:image.png)
垂线测试，如果相交多个点，不是有效函数而是方程

 **代数** 
代数通常是一种将方程转化为更简单形式以便更容易找到解的技术。转换方程的一些典型方法是在方程两边加上/减去一个常数，两边乘以/除以一个非零常数，或者将方程的所有项都移到一边。一个简单的例子是3x-5 = 6方程。要解出x，我们先把左边的数字5加到右边。方程两边都是5。得到3x=11。最后，两边同时乘以1/3得到变量x的值。这是x = 11/3。

因式分解（也属于代数操作范围）
![image.png](attachment:image.png)

![image.png](attachment:image.png)

## 线性方程组
总的来说，一个系统可以有多少个方程是没有限制的。然而，可以严格地证明，当一个系统的方程数不等于它的变量数时，这个系统要么有无穷多个解，要么没有解。在本节中，我们将只考虑这两个数字匹配的情况。

![image.png](attachment:image.png)

代数 也可以是把其中一个未知数x求解出来，然后代进去求解另一个未知数y

![image.png](attachment:image.png)
增广矩阵：

![image.png](attachment:image.png)
这个方法的目的是把增广矩阵变换成行简化阶梯形，或者，因为我们有一个由n个方程和n个变量组成的方程组，一个单位矩阵，其中行中的h元素是1，行中的其他元素都是0. 本质上，我们想把增广矩阵变换成这个矩阵:

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)
这对应于x= 1 y=2 z=3的解。我们可以通过把这些值代入原始方程组来确保我们的解是正确的，这表明它们确实满足方程组。

## 非线性方程组

![image.png](attachment:image.png)
我们都可以用另一个变量来解一个变量。来做到这一点。我们对每个方程进行代数变换，使一个变量可以完全用另一个变量表示。特别地，y可以表示为x的函数，如下所示:

![image.png](attachment:image.png)

![image.png](attachment:image.png)
这只是一个关于x的多项式方程，我们知道，可以通过因式分解来求解。具体来说，方程可以分解为(x-2) (x-1) = 0，显然可以接受x=1和x=2作为解。每一个x的值都对应一个y的值，可以通过将1和2代入原始方程组得到y的值。最后，方程组有两个解(x=1, y=4)和(x=2, y=3)。总的来说，这种方法叫做代换，表示我们可以通过变换方程来解出另一个变量的形式。然后将这个解代入另一个方程，从而得到一个单变量方程。

# 序列与系列（sequence，series）
序列 2 4 6 8 10 .... 等差
![image.png](attachment:image.png)

几何序列 等比
![image.png](attachment:image.png)

# 三角函数
![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png) 

# 矩阵
