# 本周学习总结

## 学习周期
**周次**：第2、3周  
**学习内容**：Introduction to Economic Modeling and Data Science
 -    Scientific Computing  
 -    DataFrames and Series in Pandas (Intro & Basic)              

## Scientific Computing

### NumPy Arrays
- **数组创建**：`np.array()`创建多维数组，类似列表但运算更高效
- **数组属性**：`shape`查看维度，`dtype`查看数据类型
- **索引切片**：多维数组使用`[行, 列]`索引，`:`表示全选
- **广播机制**：数组与标量或同形状数组的逐元素运算
- **通用函数**：`np.sin()`, `np.log()`等向量化运算

```python
import numpy as np

# 创建数组
x_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(f"数组形状: {x_2d.shape}")  # 输出: (3, 3)
print(f"数据类型: {x_2d.dtype}")  # 输出: int64

# 多维索引
print(f"第2行第3列: {x_2d[1, 2]}")  # 输出: 6
print(f"第一行: {x_2d[0, :]}")      # 输出: [1 2 3]

# 广播运算
x = np.ones((2, 2))
print(f"乘法广播:\n{x * 2}")
# 输出: [[2. 2.]
#        [2. 2.]]

# 通用函数
x = np.linspace(0.5, 25, 10)
print(f"正弦函数:\n{np.sin(x)}")

# 数组统计
print(f"均值: {x.mean():.2f}, 最大值: {x.max():.2f}")
print(f"重塑形状:\n{x.reshape((5, 2))}")
```

### 数据可视化（Matplotlib）
- **Figure与Axis**：Figure是整个画布，Axis是绘图区域
- **常用图表**：折线图、柱状图、散点图、填充图
- **图形定制**：颜色、标题、标签、图例、布局调整


```python
import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline

# 基础折线图
fig, ax = plt.subplots()
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)
ax.plot(x, y)
ax.set_title("正弦函数")
ax.set_xlabel("x")
ax.set_ylabel("sin(x)")

# 多子图
fig, axes = plt.subplots(2, 2)  # 2x2子图
for i, ax in enumerate(axes.flat):
    ax.plot(x, np.sin(x + i))
    ax.set_title(f"图 {i+1}")

# 柱状图与散点图
fig, ax = plt.subplots()
countries = ["CAN", "MEX", "USA"]
populations = [36.7, 129.2, 325.7]
ax.bar(countries, populations, color=['red', 'green', 'blue'])
ax.set_title("三国人口对比（百万）")

# 散点图
N = 50
x = np.random.rand(N)
y = np.random.rand(N)
colors = np.random.rand(N)
size = np.pi * (15 * np.random.rand(N))**2
fig, ax = plt.subplots()
ax.scatter(x, y, s=size, c=colors, alpha=0.5)
```

### Applied Linear Algebra
- **向量矩阵运算**：点积`@`、`np.dot()`、逐元素运算
- **矩阵乘法**：维度匹配规则，`(N×M) @ (M×K) = (N×K)`
- **特殊矩阵**：转置`.T`、单位矩阵`np.eye()`、逆矩阵`np.linalg.inv()`
- **实际应用**：投资组合估值、失业动态模型、NPV计算

```python
# 向量点积
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])
print(f"点积: {x @ y}")  # 输出: 32

# 矩阵乘法
X = np.array([[1, 2], [3, 4], [5, 6]])
Y = np.ones((2, 3))
print(f"矩阵乘法:\n{X @ Y}")

# 投资组合估值
x = np.array([4.0, 2.5, 8.0])  # 持有数量
y = np.array([3.0, 5.0, 1.1])  # 资产价格
portfolio_value = x @ y
print(f"投资组合价值: ${portfolio_value:.2f}")  # 输出: $33.30

# 逆矩阵求解
A = np.array([[1, 2, 0], [3, 1, 0], [0, 1, 2]])
A_inv = np.linalg.inv(A)
print(f"A的逆矩阵:\n{A_inv}")
print(f"验证 A @ A_inv = I:\n{A @ A_inv}")

# 失业动态模型
phi, alpha = 0.1, 0.05
A = np.array([[1-alpha, alpha], [phi, 1-phi]])
x0 = np.array([900_000, 100_000])

# 模拟10期
for t in range(10):
    x0 = A.T @ x0
    print(f"第{t+1}期: 就业={x0[0]:,.0f}, 失业={x0[1]:,.0f}")
```

### Randomness
- **随机数生成**：`np.random.rand()`均匀分布，`np.random.randn()`正态分布
- **蒙特卡洛方法**：大数定律、重复模拟逼近真实分布
- **离散分布**：贷款偿还模拟、向量化计算优化
- **马尔可夫链**：状态转移矩阵、quantecon库
- **连续分布**：正态分布、伽马分布

```python
# 随机数生成
np.random.seed(42)  # 设置随机种子
uniform_vals = np.random.rand(5)  # Uniform[0,1]
normal_vals = np.random.randn(5)  # 标准正态分布
print(f"均匀分布: {uniform_vals}")
print(f"正态分布: {normal_vals}")

# 贷款偿还模拟（向量化版）
def simulate_loan_repayments(N=10000, r=0.05, 
                             repayment_full=25000.0,
                             repayment_part=12500.0):
    random_numbers = np.random.rand(N)
    repayments = np.zeros(N)
    
    full = random_numbers <= 0.75
    partial = (random_numbers > 0.75) & (random_numbers <= 0.95)
    
    repayments[full] = repayment_full
    repayments[partial] = repayment_part
    
    return (1 / (1 + r)) * repayments

# 模拟并计算平均偿还金额
avg_repayment = np.mean(simulate_loan_repayments(25000))
print(f"平均偿还现值: ${avg_repayment:.2f}")

# 马尔可夫链
import quantecon as qe

# 状态转移矩阵（还款、违约、延期）
P = np.array([[0.85, 0.1, 0.05],
              [0.25, 0.6, 0.15],
              [0.0,  0.0,  1.0]])
state_values = ["repaying", "delinquency", "default"]

mc = qe.markov.MarkovChain(P, state_values)
simulation = mc.simulate(12, init="repaying")
print(f"12期状态模拟: {simulation}")

# 正态分布可视化
import scipy.stats as st

x = np.linspace(-5, 5, 100)
pdf = st.norm(0.0, 1.0).pdf(x)

fig, ax = plt.subplots()
ax.plot(x, pdf)
ax.set_title(r"标准正态分布 ($\mu=0, \sigma=1$)")

# 伽马分布比较
fig, ax = plt.subplots(figsize=(10, 6))
x = np.linspace(0.1, 20, 130)
for k, theta in [(2, 1), (3, 1), (3, 2), (3, 0.5)]:
    pdf = st.gamma(k, scale=theta).pdf(x)
    ax.plot(x, pdf, label=f"k={k}, θ={theta}")
ax.legend()
```

### Optimization
- **导数与极值**：`f'(x)=0`处为局部极值
- **数值优化**：`scipy.optimize.minimize_scalar()`
- **消费者理论**：效用函数、预算约束、最优选择
- **多变量优化**：通过约束条件转化为单变量问题

```python
import scipy.optimize as opt

# 定义函数并求极值
def f(x):
    return x**4 - 3*x**2

def fp(x):
    return 4*x**3 - 6*x

# 可视化
x = np.linspace(-2, 2, 100)
fig, ax = plt.subplots(1, 2, figsize=(12, 4))
ax[0].plot(x, f(x))
ax[0].set_title("函数 f(x)")
ax[1].plot(x, fp(x))
ax[1].axhline(0, color='k', linestyle='--')
ax[1].set_title("导数 f'(x)")

# 数值优化求最小值
neg_min = opt.minimize_scalar(f, [-2, -0.5])
pos_min = opt.minimize_scalar(f, [0.5, 2.0])
print(f"负最小值: x={neg_min.x:.4f}, f(x)={neg_min.fun:.4f}")
print(f"正最小值: x={pos_min.x:.4f}, f(x)={pos_min.fun:.4f}")

# 最大值（最小化负函数）
def neg_f(x):
    return -f(x)
max_result = opt.minimize_scalar(neg_f, [-0.35, 0.35])
print(f"最大值: x={max_result.x:.4f}, f(x)={-max_result.fun:.4f}")

# 消费者最优选择问题
def U(A, B, alpha=1/3):
    return B**alpha * A**(1-alpha)

def A_bc(B, W=20, pa=2):
    """预算约束: pa*A + B <= W"""
    return (W - B) / pa

def objective(B, W=20, pa=2):
    """最大化效用"""
    A = A_bc(B, W, pa)
    return -U(A, B)  # 负值用于最小化

# 求解最优消费组合
result = opt.minimize_scalar(objective, bounds=(0, 20))
optimal_B = result.x
optimal_A = A_bc(optimal_B, 20, 2)
optimal_U = U(optimal_A, optimal_B)

print(f"\n最优消费组合:")
print(f"苹果(A): {optimal_A:.2f}个")
print(f"香蕉(B): {optimal_B:.2f}个")
print(f"最大效用: {optimal_U:.4f}")
print(f"总花费: ${2*optimal_A + optimal_B:.2f}")

# 不同价格下的需求曲线
prices_A = np.linspace(0.5, 5, 20)
optimal_As = []
for pa in prices_A:
    result = opt.minimize_scalar(objective, args=(20, pa), bounds=(0, 20))
    optimal_Bs = result.x
    optimal_As.append(A_bc(optimal_Bs, 20, pa))

fig, ax = plt.subplots()
ax.plot(prices_A, optimal_As, 'o-')
ax.set_xlabel("苹果价格")
ax.set_ylabel("苹果需求量")
ax.set_title("需求曲线")
```

## DataFrames and Series in Pandas

### Introduction

#### **Pandas核心对象**
##### **Series**
单列数据，包含行标签（**index**）  
通过`pd.Series(data, index, name)`创建
##### **DataFrame**
多列数据，包含行标签（**index**）和列标签（**columns**）  
通过`pd.DataFrame(data, index)`创建

#### **数据查看方法**

#####  **`.head()`和`.tail()`**  （`.head` and `.tail`）
显示前后n行数据，默认5行
```python
# 显示前3行
print(unemp.head(3))

# 显示后3行
print(unemp.tail(3))
```
##### **查看结构属性**
-  `.index`  : 查看行标签
-  `.values`  : 查看底层numpy数组
-  `.dtype`  : Series的数据类型
-  `.dtypes`  : DataFrame各列数据类型


#### **索引与选择（Indexing）**

#####  **`.loc`索引**  （`.loc` Indexing）
基于标签选择数据，支持单行、单列、多行多列选择

#### **数据运算（Computations）**

##### **列运算**
- 支持逐元素运算（`+`, `-`, `*`, `/`）
- 内置聚合函数（`min`, `max`, `mean`, `std`, `var`, `median`, `corr`）


#### **数据类型（Data Types）**

##### **dtype的重要性**
-  **`.dtype`**  : `float64`, `int64`, `bool`, `object`等
- 错误的dtype会导致意外结果

#### **修改DataFrame**

##### **创建新列（Creating New Columns）**
- 通过赋值创建新列
##### **修改值（Changing Values）**
- `.loc[index, column] = value`
##### **重命名列（Renaming Columns）**
- 使用`.rename(columns=字典)`，注意操作默认返回副本


### Basics

#### **日期数据处理（Dates in pandas）**

##### **DatetimeIndex**
- 使用`parse_dates`参数加载日期数据
- 支持字符串日期索引和范围切片

#### **数据聚合（DataFrame Aggregations）**

##### **内置聚合函数（Built-in Aggregations）**
-  `.mean()`  ,  `.var()`  ,  `.std()`  ,  `.min()`  ,  `.median()`  ,  `.max()`  ,  `.sum()`  ,  `.count()` 
-  `axis=0`  : 按列聚合（默认）
-  `axis=1`  : 按行聚合
##### **自定义聚合函数（Custom Aggregations）**
- 编写函数→使用`.agg()`应用
- 函数接收Series，返回单个值

#### **数据转换（Transforms）**

##### **内置转换函数（Built-in Transforms）**
-  `.pct_change()`  : 百分比变化
-  `.diff()`  : 差分
-  `.cumsum()`  : 累积和
-  `.abs()`  : 绝对值
##### **自定义Series转换（Custom Series Transforms）**
- 编写函数→使用`.apply()`应用
- 函数接收Series，返回新Series
##### **标量转换（Scalar Transforms）**
- 编写函数→使用`.map()`应用
- 函数接收标量，返回标量

#### **Boolean Selection**
##### **Boolean Indexing**
- 支持多条件组合：`&`（与）、`|`（或）、`~`（非）
#####  **`.isin()`**  
- 检查是否属于指定集合
#####  **`.any()`和`.all()`**  
-  `.any()`  : 至少一个为True
-  `.all()`  : 全部为True