### [项目列表](#new_projects)

### [人工智能笔记](#notes)

* [1 因果模型](#casual_model)
    * [1.1 基本概念](#casual_basic)
    * [1.2 确定网络结构](#structure)
    * [1.3 确定条件概率表](#cpt)
    * [1.4 通过观察进行预测](#inference)
    * [1.5 通过观察预测干预效果](#intervention)

* [2 统计模型：监督学习](#supervised)
     * [2.1 模型评估](#metrics)
     * [2.2 经验总结](#best_practice) 
     * [2.3 神经网络](#nn)

* [3 数据探索](#explore)
    * [3.1 数据库基础](#database)
    * [3.2 探索性数据分析](#eda)

### [Python练习](#python)
* [1 Python基础](#python基础)
    * [1.1 .format()](#format)
    * [1.2 字符串](#string)
    * [1.3 元祖](#tuple)
    * [1.4 列表](#list)
    * [1.5 集合](#set)
    * [1.6 字典](#dict)
    * [1.7 运算符](#op)
    * [1.8 for循环](#for)
    * [1.9 datetime](#datetime)
    * [1.10 sort](#sort)
    * [1.11 函数](#function)
    * [1.12 文件操作](#file)
* [2 编程例题](#program)
    * [2.1 求解套路](#patterns)
    * [2.2 求解示例](#example)

## <a id='new_projects'></a>待办事项

* 因果推断
    * 预测足球比赛结果
    * 利用因果关系分析预测中国队何时能再进世界杯。变量：人口（足球人口）， GDP，文化等等。
* 利用因果模型重新解释足球数据分析
* 因果学习
* 进一步应用博弈论分析点球（Professional Play Minimax）：分为左中右三个方向进行讨论。射门方向（由守门员这一侧确定）分布为：左32%，中29%，右39%。守门员扑救方向分布为：左49%，中6%中，右44%。
* 如何分析防守？

### 物理因果关系

* 牛顿第二定律：F=ma

### To Explain or to Predict?
_Galit Shmueli, Statitiscal Science, 2010, Vol. 25, No. 3, 289–310_

Topic: distinction between explanatory and predictive modeling and its sources

Explanatory modeling: use of statistical models for testing causal explanations 
* Most commonly used: regression models. The justification is that the theory itself provides the causality
* “Proper” statistical methodology
    * designed experiments
    * causal inference methods (causal diagrams, discovery algorithms)
* minimize bias

Predictive modeling: applying a statistical model or data mining algorithm to data
* minimize the combination of bias and estimation variance, occasionally sacrificing theoretical accuracy for improved empirical precision
* scientific value
    * uncover potential new causal mechanisms
    * discover new measures
    * suggest improvements to existing explanatory models
    * enable assessing the distance between theory and practice
    
Why difference between explaining and predicting?
* measurable data are not accurate representations of their underlying constructs

Descriptive modeling: summarizing or representing the data structure in a compact manner
* Fitting a regression model can be descriptive if it is used for capturing the association between the dependent and independent variables rather than for causal inference or for prediction

# <a id='notes'></a>人工智能笔记

## <a id='casual_model'></a>1. 因果模型

### <a id='casual_basic'></a>1.1 基本概念

**建模背景**

* 强人工智能需要量化因果关系来回答因果问题
* 当前的统计学并不提供因果关系的数学基础
* 因果论背后的数学模型是（因果）贝叶斯网络和结构方程

**贝叶斯网络**

定义

贝叶斯网络为有向无圈图（directed acyclic graph，DAG）模型。以下两种定义等价：

* 联合概率分解：$p(x_1,...,x_n)=\prod_{i}^np(x_i|pa_i)$
* 父代马尔科夫条件：$p(x_i|pa_i)=p(x_i|x_{i,nond})$。

属性
* d-分离标准：$(X\perp\!\!\!\perp Y|Z)_G\Rightarrow(X\perp\!\!\!\perp Y|Z)_P$

**因果贝叶斯网络**

定义
* 满足无圈（acyclic）和马尔科夫假设的因果图（因果图将满足父代马尔科夫条件成为贝叶斯网络）

马尔科夫假设
* 未观察到的因变量$u_i$（不显示在因果图中）两两独立
* 马尔科夫假设成立需要基于以下假设：
    * 所有的共因变量均存在于因果图中，而不在$u_i$中（即不存在从某个$u_i$指向多个$x_i$的箭头）
    * 不存在没有因果关系的相关关系（即$u_i$之间两两没有箭头）

### <a id='structure'></a>1.2 确定网络结构

**两种途径**
* 利用因果关系（表达已知因果关系）
* 通过数据学习（学习未知因果关系）

**因果学习**

两种方法
* 利用数据中的条件独立信息（主要介绍这种方法）
* 利用数据更新不同因果模型的先验概率（贝叶斯方法）

假设
* 模型结构假设（DAG，有向无圈图）
* 马尔科夫假设。若不成立，则需要将$u_i$在图中显式地表示出来，叫做潜在变量（latent variables）。这样就使得对于包含潜在变量的因果图模型来说马尔科夫假设依然成立。
* 最小化假设（Minimality，奥卡姆剃刀）
* 稳定性假设（Stability/DAG-isoporphism/perfect-mapness/faithfulness）：$(X\perp\!\!\!\perp Y|Z)_P\Leftrightarrow(Y\perp\!\!\!\perp X|Z)_D$

算法
* $IC$算法（Inductive Causation，模型不含潜在变量）
* $IC^*$算法（模型包含潜在变量）

### <a id='cpt'></a>1.3 确定条件概率表：$p(x_i|pa_i)$
* 使用逻辑
    * 逻辑表达式
    * 噪声或/与（Noisy-Or/And）
    * 排名型节点（Ranked Nodes）
* 连续型变量
    * 确定条件概率密度函数
    * 概率更新
        * 精确解：
            * 连续型变量节点的条件概率密度为正态分布。
            * 离散型变量不能有连续型父节点
        * 近似解
            * 对连续型变量进行离散处理转化成离散型变量

### <a id='inference'></a>1.4 通过观察进行预测

目标：
* 计算证据更新后变量$A$的概率分布：

\begin{align}
P(A|e)
&=\frac{\sum_{U\_A}P(U,e)}{P(e)}\\
&=\frac{\sum_{U\_A}\prod_{A\in U}P(A|pa(A))\prod_{i=1}^m e_i}{P(e)}
\end{align}

难点：
* 需要有效的算法计算连乘求和：$P(U, e)=\sum_{U\_A}\prod_{A\in U}P(A|pa(A))\prod_{i=1}^m e_i$

**联合树（Junction Tree）算法**
* 联合树算法基于变量消元法（variable elimination）：使用分配律降低连乘求和计算量
* 需要解决的问题：确定最佳的变量消元顺序（对变量进行连乘求和的顺序）
* 解决步骤：
    1. 由贝叶斯网络生成域图（domain graph）
        * 域图：与贝叶斯网络结构相同，有向连接变成无向连接，有共同子节点的父节点两两之间增加无向连接
    2. 若域图为可三角化图（triangulated graph），由域图的团（clique）组织成连接树（join tree）。
    
        概念解释：
        * 消元（elimination）：在域图中移除节点，去掉与之相连的连接线，其原本相连的节点两两之间若本没有连接，增加无向连接。
        * 完美消元（perfect elimination）：没有引入新连接的消元。
        * 可三角化图：存在完美消元序列（perfect elimination sequences）的无向图
        * 完全集：集合中所有的节点两两相连
        * 团：由域图节点组成的极大完全集（maximal complete set，不是其他完全集的子集）
        * 连接树：树节点由域图的团组成，树中任意两个节点之间路径上的所有节点包含这两个树节点的交集。
    3. 从连接树中依次消除单节点（simplicial nodes），形成完美消元序列
        * 单节点：相连节点组成完全集的节点。
    4. 任意一个以变量$A$结尾的完美消元序列都是计算$P(A)$的最佳消元序列
    5. 在联合树中进行信念传递（message passing）
        * 联合树：连接树+势函数

### <a id='intervention'></a>1.5 通过观察预测干预效果
从定性因果假设（因果图）和非实验（观察）数据预测干预效果

* 基本假设：$P(x_1,...,x_n|\hat x_i')=\prod_{j\neq i}P(x_j|pa_j)$
* 直接原因调整：$P(y|\hat x_i')=\sum_{pa_i}P(y|x_i',pa_i)P(pa_i)$
* 后门调整：$P(y|\hat x)=\sum_zP(y|x,z)P(z)$，其中$z$满足后门标准
* 前门调整：$P(y|\hat x)=\sum_zP(z|x)\sum_{x'}P(y|x',z)P(x')$，其中$z$满足前门标准。在某些混杂因子无法观测时，前门调整比后门调整更准确。
* 通用规则：$do$演算
    * 规则1（条件独立，若观察到变量$w$与$y$无关）：$P(y|\hat x,z,w)=P(y|\hat x,z)$
    * 规则2（有条件删除或添加干预，若$z$阻断了从$x$到$y$的所有后门路径）：$P(y|\hat x,z)=P(y|x,z)$
    * 规则3（无条件删除或添加干预，若从$x$到$y$没有因果路径）：$P(y|\hat x)=P(y|x)$
* 工具变量

## <a id='supervised'></a>2 监督学习

### <a id='metrics'></a>2.1 模型评估

* 查准率（准确率）：真正例在所有预测正例中所占的比例。
* 查全率（召回率）：真正例在所有正例中所占的比例。
* 真阳性率=召回率=$\frac{TP}{TP+FN}$
* F1数：查全率与查准率的调和平均：$\frac{1}{F}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$，若查全率和查准率的重要程度相当时，可以使用F1数作为评价模型性能的综合指标。F1数越大，模型越好。
* ROC曲线：用于评估分类器的分类性能。ROC曲线图的横轴为假正例率，纵轴为真正例率。对于某一个分类器，当分类阈值从0到1变化时，其对应的假正例率和真正例率也会相应变化，从而在ROC图上连成一条曲线。比如当阈值为0时，所有的样本都会被预测为正类，因此假正例率和真正例率都为1，对应ROC图上的(1,1)。当阈值为1时，所有的样本都会被预测为反类，因此假正例率和真正例率都为0，对应ROC图上的(0,0)。

### <a id='best_practice'></a>2.2 经验总结

#### 2.2.1 训练和调试模型

训练模型

* 选择恰当的性能度量标准。对于分类问题，若数据类别不平衡，可使用$F1$，$P-R$曲线，或者$ROC$曲线。
* 建立基准模型。
* 快速建立一个简单的模型并完成测试，打通全部训练步骤。
* 确定足够大的测试集以便更准确地评估模型性能。
* 确定足够大的验证集以便反映不同模型的性能差异。

调试模型

* 利用人类水平（作为贝叶斯误差）与训练集误差的差异调试模型的偏差。
* 利用训练集误差与验证集误差的差异（训练集和验证集同分布）调试模型的方差。
* 处理模型过拟合：
    1. 加入正则化
    2. 减少输入特征个数（不推荐）
    
其他注意事项

* 训练过程不能泄露到测试数据。
* 交叉验证用来选择超参数，然后使用测试集和验证集共同完成训练
* 若使用梯度下降法，需要对输入数据标准化以改善训练效果。

#### 2.2.2 改进数据品质

* 模型过拟合时，搜集更多的数据。
* 验证集和测试集（同分布）需要反映未来真正的应用场景会遇到的数据。

###  <a id='nn'></a>2.3 神经网络（Neural Network）

#### 2.3.1 基本结构

神经网络：非线性统计模型，其非线性特性来源于模型中激活函数的非线性。若激活函数变为线性函数，那么整个神经网络就退化成线性模型。

神经网络包括三种数据层：输入层、隐藏层和输出层。神经网络的层数为隐藏层层数+1（输出层）。深度神经网络（Deep Neural Network）指隐藏层多于一个的神经网络。

隐藏层层数一般由实验和应用背景来确定。总的来说，深度神经网络比浅层神经网络要好。一个直观的解释是：为构建一个具有深度神经网络性能的浅层神经网络，其需要的隐藏单元数相对于深度神经网络来说需要呈指数级增加。

#### 激活函数（activation function）

隐藏层常用的非线性激活函数有3种：

1. ReLU（修正线性单元，Rectified Linear Unit）函数：$a(z)=\max⁡(0,z)$，当前默认使用的激活函数。
2. Sigmoid函数：$a(z)=1/(1+e^{-z})$，现在只用于一种情形：二元分类问题的输出层。
3. Tanh函数：$a(z)=(e^z-e^{-z})/(e^z+e^{-z})$。

Sigmoid和Tanh函数共同的一个问题是：当$z$很大或者很小时，激活函数的梯度非常小（梯度消失），这会导致梯度下降法的学习速度变得非常慢。

输出层的激活函数一般有两种：
* 对于回归问题，输出层的激活函数为恒等函数：$a(z)=z$。
* 对于多分类问题，输出层的激活函数为softmax函数（Sigmoid函数的一般形式）：$a(z_k)=e^{z_k}/\sum_{i=1}^Ke^{z_i}$。

#### 2.3.2 训练神经网络

#### 误差逆传播算法

训练神经网络模型是通过梯度下降法来最小化经验损失，这种方法也叫做逆传播（Back-Propagation，BP）。具体算法如下：

1. 前向传播：利用当前模型参数$\boldsymbol\omega$计算模型的预测值，然后计算经验损失$J$。
2. 逆传播：计算当前经验损失$J$对于模型参数的梯度：$-\partial J(\boldsymbol\omega)/\partial\boldsymbol\omega$
3. 更新参数：$\boldsymbol\omega≔\boldsymbol\omega-\alpha\cdot\partial J(\boldsymbol\omega)/\partial\boldsymbol\omega$。

梯度为向量，定义了对经验损失进行优化的方向。在更新参数时，最重要的不是梯度的大小，而是梯度的方向，即对各个参数$\omega_i$更新的比例。$\alpha$为学习率，是无量纲常数。学习率可以成比例地改变所有参数每一步更新的大小。

#### 2.3.3 与机器学习相关的问题

#### 处理过拟合的方法

* 正则化（Regularization）
* Dropout正则化：完全关闭部分隐藏单元。注意：在测试模型性能时不能使用dropout。

其他方法：数据增强（data augmentation），早停法（early stopping）。

#### 迷你批次（mini-batch）学习

由对参数进行一次更新所使用样本数量$s$（训练样本总数量为$m$）的不同把神经网络的训练分为3种类型：

1. $s=m$，全批次梯度下降，适用于训练集很小（$m<=2000$）的学习；
2. $s=1$，随机（stochastic）梯度下降，适用于在线学习；
3. $1<s<m$：迷你批次梯度下降，适用于训练集数据超过CPU/GPU内存的学习。常用的迷你批次大小$s$为：64，128，256和512。迷你批次大小需要与CPU/GPU的内存相匹配。

“一代”（epoch）：使用迷你批次学习时，将所有训练数据使用一遍称为“一代”。

#### 可调参数

1. 学习率
2. 隐藏层层数
3. 隐藏单元个数
4. dropout值/正则化参数
5. 迷你批次大小

#### 其他

若没有测试集而只有验证集可能也是可以的。

#### 2.3.4 解决神经网络模型自身问题的技巧

#### 加快训练速度的方法

* 对输入数据进行归一化，这使得所有参数可以以相同量级的速度进行更新。如果没有对输入数据进行归一化，学习率需要设定得非常小，否则优化可能会发散。
* 使用Adam算法，修正梯度下降的方向。Adam = Momentum + RMSprop。
* 缓慢降低学习率。

#### 参数初始化（Weight Initialization）

模型参数需要在0附近进行随机初始化（Random Initialization），而参数中的偏差$b$的初始值可以为0。模型参数不能初始化为相同的值（比如0或者1），否则同一层所有隐藏单元的参数更新会一模一样，这就导致了无论使用多少个隐藏单元都会退化为一个隐藏单元。参数也不宜太大，否则会导致sigmoid和tanh激活函数的梯度很小，降低学习速度。当然，若使用ReLU激活函数这一问题没有那么严重。

#### 梯度消失和梯度爆炸（Vanishing and Exploding Gradients）

深度神经网络具有梯度消失和梯度爆炸的问题。这一问题的根本原因是：靠前层的梯度是其后所有层的乘积，后面层的梯度值会以乘积的形式放大到靠前层，导致靠前层的梯度要么过小（梯度消失），要么过大（梯度爆炸）。

解决梯度消失的方法有：使用ReLU激活函数, RNN中使用LSTM，以及Batch Normalization。

另外，恰当的模型初始化也可以缓解梯度消失和梯度爆炸的问题（源于Andrew Ng的深度学习课程）。恰当的模型初始化是指控制依据前一层输入单元的个数，调整参数初始值的范围：

$$\omega^{[L]}=np.random.randn(shape)\times np.sqrt(\frac{2}{n^{[L-1]}})$$

这一方法推荐配合ReLU激活函数使用。

#### 批标准化（Batch Normalization）

* 类似于对输入进行标准化，可以加快训练速度（解决梯度消失的问题）；
* 还有一点正则化的效果；
* 在激活函数之前而不是之后对输入$z$进行批标准化（Andrew Ng的深度学习课程推荐方法）；
* 在使用迷你批次学习时，批标准化需要被用于单个迷你批次上。

#### 迁移学习（Transfer Learning）

将从任务A学习到的模型迁移到任务B，对任务B的数据进行学习。

适用迁移学习的情形有：

* 任务A和任务B有相同的输入；
* 任务A的数据比任务B的数据多得多；
* 从任务A中学习到的底层特征对任务B有帮助。

#### 2.3.5 卷积神经网络（Convolutional Neural Network）

为什么做卷积？
* 参数共享：使用一个特征识别器识别图片不同部位的相同特征。
* 关联的稀疏性：输出往往只与输入的很少一部分特征相关联，卷积可以把这些输入特征提取出来。

两类特殊的数据层：
1. 卷积层（convolutional layer）

    过滤器（filter）
        * 训练的目的就是学到过滤器的参数
        * 过滤器深度与输入数据的深度保持一致
        * 同一卷积层中可以有多个过滤器

    步长（stride）
        * 步长为过滤器每一步的移动距离

    填充（padding）
        * 相等填充（same padding），保持输入和输出的大小一致
        * 合理填充（valid padding）/0填充（zero padding）：不进行填充

    $$O=\frac{W-K+2P}{S}+1$$

    $O$：输出高度/长度，$W$：输入高度/长度，$K$：过滤器大小，$P$：填充大小，$S$：步长
2. 池化层（pooling layer）
    * 池化层过滤器的步长与其大小相同
    * 最大池化（maxpooling）和平均池化（average pooling）
    
#### 2.3.6 循环神经网络（Recurrent Neural Network）

模型输入
* 序列数据（Sequence Data）或叫做序列向量（Sequence of Vectors），例如一段文字、语言等。

模型输出
* 模型输出不仅与序列向量当前的输入有关，也与序列向量当前输入之前所有的输入有关（有时也与当前输入之后的输入有关）。

激活函数
* Tanh/ReLU函数

处理梯度消失
* 使用GRU模型和LSTM模型

RNN模型
* GRU模型（Gated Recurrent Unit）
* LSTM模型（Long-short Term Memory，GRU的一般版本）
* 双向RNN模型

## <a id='explore'></a>3 数据探索

### <a id='database'></a>3.1 数据库基础

#### 数据类型
* CHAR(n)，若长度小于n，会填充成n个字符
* VARCHAR(n)，不固定长度，最多为n个字符
* BOOLEAN：TRUE/FALSE/UNKNOWN
* INT
* FLOAT
* DATE，特定格式的字符串，'1948-05-14'
* TIME，特定格式的字符串，'15:00:02.5'

#### 数据库声明/改动
* CREATE DATABASE DB
* DROP DATABASE DB

* CREATE TABLE R (A1 CHAR(100), A2 INT, A3 DATE)
* DROP TABLE R
* ALTER TABLE R ADD A CHAR(16)
* ALTER TABLE R DROP A
* A CHAR(10) DEFAULT default_value
* A CHAR(10) PRIMARY KEY
* PRIMARY KEY (A1, A2)
* INSERT INTO R(A1,...,An) VALUES (v1,...,vn)
* DELETE FROM R WHERE C
* UPDATE R SET A1=v1, A2=v2 WHERE C

#### 简单查询

* SELECT A FROM R WHERE C

SELECT子句

* SELECT *
* SELECT A1, A2
* SELECT A1 AS a1，AS非必须
* SELECT DISTINCT A1
* SELECT SUM/AVG/MIN/MAX/COUNT(A1)

WHERE子句

* =/<>
* AND，OR和NOT
* s LIKE p：p中的"%"匹配s中任意长度（包括长度0）的字符串，"_"匹配s中长度为1的任意字符
* s LIKE '[abc]%'，s LIKE '[a-c]%'，s LIKE '[!abc]%'
* IS NULL
* A BETWEEN v1 and v2
* IN (v1,v2)
* NOT LIKE/NOT BETWEEN/NOT IN/IS NOT NULL
        
ORDER BY子句

* 放在最后
* ORDER BY A1
* ORDER BY A1, A2
* ORDER BY A1, A2 DESC

GROUP BY子句
* SELECT COUNT(A1), A2 FROM R GROUP BY A2

HAVING子句：在GROUP BY之前对元祖进行筛选

* SELECT SUM(A1), A2 FROM R GROUP BY A2 HAVING MIN(A3) < v3
        
#### 在多于一个关系中进行查询

* R.A：区分不同关系中的相同属性
* 可以对关系以及子查询结果关系表进行重命名
* UNION，INTERSECT和EXCEPT：用于对两个查询结果进行集合操作。每一个子查询需要加括号。
* 若子查询结果为一个元祖（tuple），则认为子查询返回一个常量。若这一元祖只有一个属性，则认为是一个常数。
* R1 INNER/OUTER/LEFT/RIGHT JOIN R2 ON R1.A1=R2.A1

### <a id='eda'></a>3.2 探索性数据分析 (Exploratory Data Analysis)

#### 数据可视化原则

1. 正确显示
    * 图像反映数据真实（Have graphical integrity）
2. 易于阅读
    * 保持简单（Keep it simple）
    * 使用恰当的图示方式（Use the right display）
    * 使用恰当的颜色（Use color strategically）
3. 赋予逻辑
    * 利用数据讲故事（Tell a story with data）

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# <a id='python'></a>Python练习

## <a id='python基础'></a>1 Python基础

### <a id='format'></a>1.1 .format()

#### 1.1.1 填充和对齐字符串

In [21]:
# align right
'{:>10}'.format('test')

'      test'

In [27]:
# align left (default)
'{:10}'.format('test')

'test      '

In [29]:
# align left
'{:<10}'.format('test')

'test      '

In [25]:
# padding character
'{:_<10}'.format('test')

'test______'

In [30]:
# align center
'{:^10}'.format('test')

'   test   '

In [32]:
# align center
'{:^6}'.format('zip')

' zip  '

#### 1.1.2 截断长字符串

In [33]:
'{:.5}'.format('xylophone')

'xylop'

#### 1.1.3 同时对字符串进行填充和截断

In [34]:
'{:10.5}'.format('xylophone')

'xylop     '

#### 1.1.4 数字

In [38]:
'{:d}'.format(42)

'42'

In [39]:
'{:f}'.format(3.141592653589793)

'3.141593'

#### 1.1.5 填充数字

In [42]:
# align right (default)
'{:4d}'.format(42)

'  42'

In [46]:
'{:<4d}'.format(42)

'42  '

In [15]:
'{:06.2f}'.format(3.141592653589793)

'003.14'

### <a id='string'></a> 1.2 字符串（String）

#### 1.2.1 特殊字符

`\n` `\t` `\\` `\'` `\"`

#### 1.2.2 字符串截取操作

In [17]:
# slice index can be out of range. same applied to list and tuple.
s = 'Python'
s[1:100]

'ython'

In [18]:
# reverse
s = 'Python'
s_reversed = s[::-1]
s_reversed

'nohtyP'

#### 1.2.3 计数

In [9]:
S = 'AAAAaaaab'
S.count('b')

1

In [16]:
J = 'Aa'
S = 'AAAAaaaab'
sum(map(J.count, S))

8

### <a id='tuple'></a>1.3 元祖（Tuple）

#### 1.3.1 创建元祖

In [52]:
tup1 = (0, -1, 12, 212.23, 100)
tup1

(0, -1, 12, 212.23, 100)

In [53]:
empty_tup1 = ()
empty_tup1

()

In [54]:
single_tup1 = (100, )
single_tup1

(100,)

In [105]:
# covert a list to a tuple
listx = [1,2,3,4]
tuplex = tuple(listx)
tuplex

(1, 2, 3, 4)

### <a id='list'></a>1.4 列表（List）

#### 1.4.1 删除列表元素之前对列表进行复制

In [98]:
# copy
a = [1,2,3,4,5]
b = a[:]
a.remove(5)
a, b

([1, 2, 3, 4], [1, 2, 3, 4, 5])

#### 1.4.2 翻转列表元素顺序

In [99]:
# reverse and create a new list
a = [1,2,3,4,5]
b = a[::-1]
a, b

([1, 2, 3, 4, 5], [5, 4, 3, 2, 1])

In [101]:
# reverse in place
a = [1,2,3,4,5]
a.reverse()
a

[5, 4, 3, 2, 1]

#### 1.4.3 enumerate & zip

In [19]:
# same applied to other sequence objects

alist = [1,2,3,4,5]
list(enumerate(alist))

[(0, 1), (1, 2), (2, 3), (3, 4), (4, 5)]

In [20]:
asquaredlist = [i*i for i in alist]
list(zip(alist, asquaredlist))

[(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]

`例题：请写出一个函数满足以下条件：该函数的输入是一个仅包含数字的list,输出一个新的list，其中每一个元素要满足以下条件：`

`1、该元素是偶数`

`2、该元素在原list中是在偶数的位置(index是偶数)`

In [57]:
num = [0,1,11,3,4,5,6,7,8,9,10]
[value for index, value in enumerate(num) if (index%2==0)|(value%2==0)]

[0, 11, 4, 6, 8, 10]

### <a id='set'></a>1.5 集合（Set）

#### 1.5.1 创建集合

In [22]:
# 由字符串创建集合
set("abcdefghijklmnopqrstuvwxyz")

{'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z'}

In [23]:
# 由列表创建集合
a = [1, 2, 1, 3, 0, 0, 4, 7, 8, 6]
b = [5, 5, 7, 8, 7, 9, 6, 1, 1, 2]
s1 = set(a)
s2 = set(b)
s1, s2

({0, 1, 2, 3, 4, 6, 7, 8}, {1, 2, 5, 6, 7, 8, 9})

#### 1.5.2 集合操作

In [61]:
# union
s1 | s2

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

In [62]:
# intersection
s1 & s2

{1, 2, 6, 7, 8}

In [65]:
# difference
s1 - s2

{0, 3, 4}

In [63]:
# symmetric difference (union-intersection)
s1 ^ s2

{0, 3, 4, 5, 9}

`例题：给定两个列表，怎么找出他们相同的元素和不同的元素？`

In [44]:
list1 = [1,2,3]
list2 = [3,4,5]

print(set(list1)&set(list2))
print(set(list1)^set(list2))

{3}
{1, 2, 4, 5}


`例题：`

`全字母短句 PANGRAM 是包含所有英文字母的句子，比如：A QUICK BROWN FOX JUMPS OVER THE LAZY DOG。`

`定义并实现一个方法 get_missing_letter, 传入一个字符串采纳数，返回参数字符串变成一个 PANGRAM 中所缺失的字符。应该忽略传入字符串参数中的大小写，返回应该都是小写字符并按字母顺序排序（请忽略所有非 ACSII 字符）`

In [51]:
def get_missing_letter(input_str):
    a = set("abcdefghijklmnopqrstuvwxyz")
    b = set(input_str.lower())

    output = sorted(list(a - b))

    return ''.join(output)

get_missing_letter("Lions, and tigers, and bears, oh my!")

'cfjkpquvwxz'

### <a id='dict'></a>1.6 字典（Dictionaries）

#### 1.6.1 创建字典

In [38]:
# construct dictionary
d = {'Red': 1, 'Green': 2, 'Blue': 3}
d.items(), d.keys(), d.values()

(dict_items([('Red', 1), ('Blue', 3), ('Green', 2)]),
 dict_keys(['Red', 'Blue', 'Green']),
 dict_values([1, 3, 2]))

In [12]:
#### construct dictionary using list comprehension
alist = [1,2,3,4,5]
asquaredlist = [i*i for i in alist]
mydict = {k:v for k,v in zip(alist, asquaredlist)}
mydict

{1: 1, 2: 4, 3: 9, 4: 16, 5: 25}

In [13]:
#### construct dictionary using dict function
dict(a=1, b=2)

{'a': 1, 'b': 2}

### <a id='op'></a>1.7 运算符

In [67]:
x = 14
y = 5
x%y, x**y, x//y

(4, 537824, 2)

### <a id='for'></a>1.8 for循环

#### 1.8.1 range()

In [69]:
for a in range(2,7):
    print(a)

2
3
4
5
6


In [70]:
for a in range(2,19,5):
    print(a)

2
7
12
17


#### 1.8.2 在字典中进行循环

In [106]:
d = {'Red': 1, 'Green': 2, 'Blue': 3}

for key, value in d.items():
    print(key, value)

Green 2
Blue 3
Red 1


### <a id='datetime'></a>1.9 datetime

#### 1.9.1 datetime.strftime()

In [75]:
from datetime import datetime
now = datetime.now()
print(now)

2019-10-15 16:44:10.584967


In [93]:
day = now.strftime('%m/%d/%Y')
day

'10/15/2019'

In [92]:
day = now.strftime('%m/%d/%y')
day

'10/15/19'

#### 1.9.2 date
#### 输入日期， 判断这一天是这一年的第几天？

In [15]:
from datetime import date

year = input("Please input year: ")
month = input("Please input month: ")
day = input("Please input day: ")

def dayofyear(year, month, day):
    """
    year: str
    month: str
    day: str
    """
    date1 = date(int(year), int(month), int(day))
    date0 = date(int(year), 1, 1)
    
    delta = (date1-date0).days + 1
    
    return delta

dayofyear(year, month, day)

Please input year: 2019
Please input month: 10
Please input day: 16


289

### <a id='sort'></a> 1.10 排序（sort）

#### 1.10.1 对列表进行排序

In [27]:
# sort in place
color_list = ['Red', 'Blue', 'Green', 'Black']
color_list.sort(key=None, reverse=False)
color_list

['Black', 'Blue', 'Green', 'Red']

In [28]:
color_list = ['Red', 'Blue', 'Green', 'Black']
color_list_sorted = sorted(color_list, reverse=False)
color_list, color_list_sorted

(['Red', 'Blue', 'Green', 'Black'], ['Black', 'Blue', 'Green', 'Red'])

#### 1.10.2 对字典进行排序

In [29]:
# sort a dictionary will get a list
color_dict = {'red': '#FF0000',
              'green': '#008000',
              'black': '#000000',
              'white': '#FFFFFF'}

sorted(color_dict)

['black', 'green', 'red', 'white']

#### 现有字典 d= {'a':24,'g':52,'i':12,'k':33}，请按value值进行排序。

In [32]:
d = {'a':24, 'g':52, 'i':12, 'k':33}
d_sorted = sorted(d.items(), key=lambda x:x[1])
d, d_sorted

({'a': 24, 'g': 52, 'i': 12, 'k': 33},
 [('i', 12), ('a', 24), ('k', 33), ('g', 52)])

#### 按alist中元素的age由大到小排序

In [43]:
alist = [{'name':'a','age':20},{'name':'b','age':30},{'name':'c','age':25}]
sorted(alist, key=lambda x:x['age'], reverse=True)

[{'age': 30, 'name': 'b'}, {'age': 25, 'name': 'c'}, {'age': 20, 'name': 'a'}]

### <a id='function'></a>1.11 函数（Function）

#### 1.11.1 不定数量参数

In [3]:
# variable number of positional arguments will be wrapped in a tuple
# variable number of keyword arguments will be wrapped in a dictionary

def total(a=5, *numbers, **phonebook):
    print('a', a)
    
    for single_item in numbers:
        print('single_item', single_item)
    
    for first_part, second_part in phonebook.items():
        print(first_part, second_part)

print(total(10, 1,2,3, Jack=1123, John=2331, Inge=1568))

a 10
single_item 1
single_item 2
single_item 3
Inge 1568
Jack 1123
John 2331
None


#### 1.11.2 lambda

In [118]:
(lambda x, y: (x+y)/2)(4,3)

3.5

In [48]:
d = {'red':10, 'blue':2, 'green':3}
sorted(d.items(), key=lambda x:x[1])

[('blue', 2), ('green', 3), ('red', 10)]

In [7]:
# map
list(map(lambda x: x * x, [1, 2, 3, 4]))

[1, 4, 9, 16]

In [9]:
# reduce
from functools import reduce

reduce(lambda x, y: x * y, [1, 2, 3, 4])

24

In [12]:
# filter
list(filter(lambda x:x>5,[1,2,3,4,5,6,7,8]))

[6, 7, 8]

### 1.12 <a id='file'></a>文件操作

#### 1.12.1 打开文件

In [46]:
with open('test.txt') as f:
    text = f.read()
text

'test'

#### 1.13.2 文件路径

`os.listdir`
`os.path.pardir`
`os.path.join`
`os.path.isfile`
`os.path.isdir`

In [None]:
def print_directory_contents(s_path):
    """
    这个函数接收文件夹的名称作为输入参数
    返回该文件夹中文件的路径
    以及其包含文件夹中文件的路径
    """
    import os
    for s_child in os.listdir(s_path):
        s_child_path = os.path.join(s_path, s_child)
        if os.path.isdir(s_child_path):
            print_directory_contents(s_child_path)
        else:
            print(s_child_path)

print_directory_contents('New folder')

#### 设计实现遍历目录与子目录，抓取.pyc文件

In [49]:
from glob import glob
import os

def scan_path(path, postfix):
    result = []
    for i in glob(os.path.join(path, '**\\*.{}'.format(postfix)), recursive=True):
        result.append(i.split('\\')[-1])
    
    return result

In [50]:
scan_path('C:\\Users\\ZAO_LI_XU\\Documents\\Dell\\python_projects\\pcbatest_pkgs','pyc')

['diff.cpython-35.pyc',
 'factory.cpython-35.pyc',
 'md5.cpython-35.pyc',
 'platform.cpython-35.pyc',
 'usage.cpython-35.pyc',
 '__init__.cpython-35.pyc',
 'export.cpython-35.pyc',
 'process.cpython-35.pyc',
 'query.cpython-35.pyc',
 '__init__.cpython-35.pyc']

## <a id='program'></a>2 编程例题

### <a id='patterns'></a>2.1 求解套路

#### 2.1.1 一般性原则

* After you write the code for a problem, immediately verify that the code works by tracing through it with an example.
* Make sure you check your code for all error and special cases, especially boundary conditions.
* Big-O Analysis: identify the operations that are dependent on the input size.
    * $O(1)$
    * $O(\log n)$
    * $O(n \log n)$
    * $O(n^c)$
    * $O(c^n)$
    * $O(n!)$

* Arrays and hash tables: $O(1)$(worse-case lookup for hash table is $O(n)$, but the average case is $O(1)$)

#### 2.1.2 patterns

`Serach and Operation on 2 items in 2 arrays (can be the same array)`
* build hash table (dictionary) for search: $O(n)$ for runtime

`Delete an item from an array`
* In place deletion by tracking the read location and write location: $O(n)$ for runtime

`Reverse words in a string`
* Reverse entire string, and then reverse characters in each word.

`Integer/String Conversions`
* From String to Integer: subtract '0'
* Horner's Rule: scan from left to right, multiply by a factor of 10  and then add the new digit
* From Integer to String: add '0'
* % and //; treat negative as positive, set flag

`Sorting`

Most sorting algorithms in standard libraries are comparison algorithms. No comparison algorithm can have a more optimal worst-case running time than $O(n \log n)$.

* Selection Sort: $O(n^2)$ running time
* Insertion Sort: $O(n^2)$ running time for average and worst cases, $O(n)$ for best case.
* Quicksort: best case: $O(n \log n)$, worse case: $O(n^2)$, average case: $O(n \log n)$
* Merge Sort: best, average, and worst-case run time: $O(n \log n)$, but requires $O(n)$ additional memory.

### <a id='example'></a>2.2 求解示例

<!-- /TOC -->

#### 2.2.1 斐波那契数列

**数列定义: **

$f_0 = f_1 = 1$

$f_n = f_{n-1} + f_{n-2}$

#### 根据定义

速度很慢，另外(暴栈注意！⚠️️） `O(fibonacci n)`

```python
def fibonacci(n):
    if n == 0 or n == 1:
        return 1
    return fibonacci(n - 1) + fibonacci(n - 2)
```

#### 线性时间的

**状态/循环**

```python
def fibonacci(n):
    a, b = 1, 1
    for _ in range(n):
       a, b = b, a + b
    return a
```

**递归**

```python
def fibonacci(n):
    def fib(n_, s):
        if n_ == 0:
            return s[0]
        a, b = s
        return fib(n_ - 1, (b, a + b))
    return fib(n, (1, 1))
```

**map(zipwith)**

```python
def fibs():
    yield 1
    fibs_ = fibs()
    yield next(fibs_)
    fibs__ = fibs()
    for fib in map(lambad a, b: a + b, fibs_, fibs__):
        yield fib
        
        
def fibonacci(n):
    fibs_ = fibs()
    for _ in range(n):
        next(fibs_)
    return next(fibs)
```

#### Logarithmic

**矩阵**

```python
import numpy as np
def fibonacci(n):
    return (np.matrix([[0, 1], [1, 1]]) ** n)[1, 1]
```

**不是矩阵**

```python
def fibonacci(n):
    def fib(n):
        if n == 0:
            return (1, 1)
        elif n == 1:
            return (1, 2)
        a, b = fib(n // 2 - 1)
        c = a + b
        if n % 2 == 0:
            return (a * a + b * b, c * c - a * a)
        return (c * c - a * a, b * b + c * c)
    return fib(n)[0]
```

<!-- /TOC -->

#### 2.2.2 青蛙跳台阶问题

一只青蛙要跳上n层高的台阶，一次能跳一级，也可以跳两级，请问这只青蛙有多少种跳上这个n层台阶的方法？

方法1：递归

设青蛙跳上n级台阶有f(n)种方法，把这n种方法分为两大类，第一种最后一次跳了一级台阶，这类共有f(n-1)种，第二种最后一次跳了两级台阶，这种方法共有f(n-2)种，则得出递推公式f(n)=f(n-1) + f(n-2),显然f(1)=1,f(2)=2，这种方法虽然代码简单，但效率低，会超出时间上限

```python
class Solution:
    def climbStairs(self,n):
        if n ==1:
            return 1
        elif n==2:
            return 2
        else:
            return self.climbStairs(n-1) + self.climbStairs(n-2)
```

方法2：用循环来代替递归

```python
class Solution:
    def climbStairs(self,n):
        if n==1 or n==2:
            return n
        a,b,c = 1,2,3
        for i in range(3,n+1):
            c = a+b
            a = b
            b = c
        return c
```