# Python编程环境

## Guido Van Rossum和版本 

### [Guido](https://gvanrossum.github.io/)是[Python](https://www.python.org/)的作者![avatar](http://bazhou.blob.core.windows.net/learning/mpp/guido.jpg)


在下面的访谈中，[Peter Norvig](https://en.wikipedia.org/wiki/Peter_Norvig)也没有念对他的名字，Guido的主页有它的荷兰语发音。
<br><br>

<video width="80%" controls src="http://bazhou.blob.core.windows.net/learning/mpp/142_Guido_Van_Rossum.mp4" />

>他在[stackoverflow](https://stackoverflow.com/users/818274/guido-van-rossum)和[github](https://github.com/gvanrossum)上非常活跃。他的[twitter](https://twitter.com/gvanrossum)更新很勤。

![Guido_twitter](http://bazhou.blob.core.windows.net/learning/mpp/guido_tweet_996.png)

- 抛开Python的[前世、今生和未来](http://bazhou.blob.core.windows.net/learning/mpp/python-past-present-and-future-with-guido-van-rossum.mp3) 第一个现实问题是：版本。
- Python有两个版本：2和3。
- 我们用版本3，再确切些，3.6.5。
- 版本问题会引起很大的麻烦，这门课的解决方法是Docker。

### 我们使用Python[3.6](https://docs.python.org/3/whatsnew/3.6.html)![py3ver](http://bazhou.blob.core.windows.net/learning/mpp/py3ver.gif)

## Shell Script  REPL

- Shell 命令输入处

- Script 命令

- REPL Read-Evaluate-Print-Loop

### 挑战：获得这门课程的词汇表

- 17段视频的字幕文件

![shell_challenge](http://bazhou.blob.core.windows.net/learning/mpp/shell_challenge.gif)

- 输入数据[例子](http://bazhou.blob.core.windows.net/learning/mpp/msxpy/16_253_6.2-wCnbczfN91s.txt)

4

00:00:14,010 --> 00:00:19,009

In practice, you'll be working with data of
different types: numerical values, strings,

5

00:00:19,009 --> 00:00:21,279

booleans and so on.


- 用管道连接脚本

```bash
cat *.txt|./clean.sh #清洗字幕文件，分词
```

```bash
cat *.txt|./clean.sh|sort|uniq #去掉重复，排序
```

```bash
cat *.txt|./clean.sh|sort|uniq|wc #统计单词数
```

- 清洗字幕脚本 [clean.sh](http://bazhou.blob.core.windows.net/learning/mpp/msxpy/clean.sh)

```bash
#!/bin/sh
tr '[:blank:]' '\n'|tr '[:upper:]' '[:lower:]'|tr -d '\r'|grep -vE "'"|grep -vE "\."|tr -d '[:punct:]'|grep -vE "^[^a-zA-Z].*"|grep -vE ".*[0-9].*"

```

## Jupyter

[命名](https://news.ycombinator.com/item?id=16978364)
![jupiter](http://bazhou.blob.core.windows.net/learning/mpp/jupiter.jpg)

## Jupyter

>Jupyter像Shell一样，在cell里编辑，在cell里运行，循环往复

- R 编辑cell，Enter
- E 运行cell，Shift+Enter
- P 打印cell
- L 下个cell



In [110]:
print("hello world")

hello world


# 变量和数据类型

## 数字及其运算

- 计算身高体重指数
- BMI(Body Mass Index) 公式
  \begin{equation}BMI = \frac{weight}{height^{2}}\end{equation}

In [17]:
height = 1.79 # 身高1米79

In [6]:
weight = 68.7 # 体重68.7公斤

In [18]:
bmi = weight / height ** 2

In [19]:
bmi

21.44127836209856

- 数据类型
- float/int
- str
- bool

In [22]:
type(bmi)

float

In [23]:
type(2)

int

In [26]:
type("hello world")

str

In [21]:
type(True)

bool

In [27]:
2 + True # 数据类型转换

3

In [28]:
"hello" + 2 # 运算是有类型的 

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [31]:
"hello" + "world" # + : 字符串连接

'helloworld'

In [34]:
2 + 22.4 # + ： 加法; 数据类型转换 int → float 

24.4

In [35]:
77 % 17 # 取模

9

In [36]:
77 // 17 # 求商

4

## 字符串及其运算
>字符串是字符的集合

```python
he = "他"
didnt = "没"
verb = "上"
obj = "上海的车"
# 用字符串组成另一个字符串
he + didnt + verb * 3 + obj
```

In [None]:
he = "他"
didnt = "没"
verb = "上"
obj = "上海的车"
# 用字符串组成另一个字符串
he + didnt + verb * 3 + obj

- 如果 + * 代表往字符串集合中增加元素
- 那么 - / 运算是取字符串集合的子集？

In [None]:
obj - verb

In [None]:
obj / verb

In [None]:
obj[1]

In [49]:
obj[0]

'上'

In [53]:
(he + didnt + verb * 3 + obj)[2:6] # 包括第2，但不包括第6，从第0开始

'上上上上'

## 布尔型及其运算

In [54]:
bmi > 25

False

In [96]:
type(bmi > 25)

bool

In [55]:
bmi > 20

True

In [56]:
bmi > 20 and not bmi > 25 # and, or, not

True

In [57]:
bmi > 20 and bmi < 25  # 更符合阅读习惯的写法

True

In [58]:
bmi == bmi or bmi != bmi # 完全正确

True

In [60]:
bmi == he or bmi != he 

True

## 分支

In [62]:
bmi = 40
if bmi > 40:                 # Python用缩进区分block
    print("hyper obese")     # 注意这行的开头有TAB

In [95]:
bmi = 45                       # 改变bmi，观察分支选择
if bmi > 40:
    print("hyper obese")
else:
    print("not hyper obese")

hyper obese


In [None]:
# 对bmi值进行分类
if bmi > 40:
    print("hyper obese")
elif bmi > 35 and bmi <= 40:
    print("super obese")
elif bmi > 30 and bmi <= 35:
    print("obese")
elif bmi > 25 and bmi <= 30:
    print("over weight")
elif bmi > 18.5 and bmi <= 25:
    print("normal")
elif bmi > 16 and bmi <= 18.5:
    print("under weight")
else :
    print("slim") # https://en.wikipedia.org/wiki/Body_mass_index

#### 根据[肥胖分类定义](https://en.wikipedia.org/wiki/Body_mass_index)补全上面的分类代码

| type                      | from |   to |
|---------------------------|------|------|
| very severely underweight |      |   15 |
| severely underweight      |   15 |   16 |
| underweight               |   16 | 18.5 |
| normal                    | 18.5 |   25 |
| overweight                |   25 |   30 |
| moderately obese          |   30 |   35 |
| severely obese            |   35 |   40 |
| very severely obese       |   40 |   45 |
| morbidly obese            |   45 |   50 |
| super obese               |   50 |   60 |
| hyper obese               |   60 |      |

>可见，各个种族，地区，年龄段对于肥胖的定义是有很大差别的

# 列表和循环

## 列表是数据的容器
>已经学过一种容器：str

## 列表及其运算
- 从通用List开始
- 以后基本只关注数值类型容器
- 注意程序语言和数学语言的映射

In [72]:
ret = he + didnt + verb * 3 + obj # 用一个变量保存计算结果
l = list(ret)                     # 转换为列表
l                                 # 可以把一个字符串转换为列表，反之？

['他', '没', '上', '上', '上', '上', '海', '的', '车']

In [73]:
type(l)

list

In [98]:
l[2:6]  # 重复之前的操作，取出'上'

['上', '上', '上', '上']

In [83]:
l[:2]   # 到第2个为止，不包括第2个，从第0个开始

['他', '没']

In [84]:
l[2:]   # 从第2个开始

['上', '上', '上', '上', '海', '的', '车']

In [85]:
l[-1]   # 最后一个，或者，从右边开始第1个，注意不是从第0个开始

'车'

##### 负数索引

|-9|-8|-7|-6|-5|-4|-3|-2|-1|0|1|2|3|4|5|6|7|8|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|他|没|上|上|上|上|海|的|车|他|没|上|上|上|上|海|的|车|

In [86]:
l[-2:-1] # 虽然索引是从右往左计数的，但范围和这些数字的排列顺序是一致的

['的']

|-9|-8|-7|-6|-5|-4|-3|-2|-1|0|1|2|3|4|5|6|7|8|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|他|没|上|上|上|上|海|的|车|他|没|上|上|上|上|海|的|车|

In [87]:
l[-2:]

['的', '车']

|-9|-8|-7|-6|-5|-4|-3|-2|-1|0|1|2|3|4|5|6|7|8|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|他|没|上|上|上|上|海|的|车|他|没|上|上|上|上|海|的|车|

In [88]:
l[-7:-3]

['上', '上', '上', '上']

|-9|-8|-7|-6|-5|-4|-3|-2|-1|0|1|2|3|4|5|6|7|8|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|他|没|上|上|上|上|海|的|车|他|没|上|上|上|上|海|的|车|

In [89]:
l[:]

['他', '没', '上', '上', '上', '上', '海', '的', '车']

|-9|-8|-7|-6|-5|-4|-3|-2|-1|0|1|2|3|4|5|6|7|8|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|他|没|上|上|上|上|海|的|车|他|没|上|上|上|上|海|的|车|

In [90]:
len(l)

9

In [92]:
c = [6, 7, 3, 3, 3, 3, 10, 8, 4] # 特征：笔画数
f = l + c
len(f)

18

In [93]:
f

['他', '没', '上', '上', '上', '上', '海', '的', '车', 6, 7, 3, 3, 3, 3, 10, 8, 4]

#### 列表里面的数据可以是不同类型的

In [104]:
g = f      # g只是f的另一个名字
g[9] = 0   # 改变列表
f          # f也会跟着变化

['他', '没', '上', '上', '上', '上', '海', '的', '车', 0, 7, 3, 3, 3, 3, 10, 8, 4]

In [105]:
g = list(f) # 新创建一个列表
f[9] = 6    # 改回去
g           # g[9]仍然是0

['他', '没', '上', '上', '上', '上', '海', '的', '车', 0, 7, 3, 3, 3, 3, 10, 8, 4]

In [106]:
del g[9]   # 删掉第9个元素
g

['他', '没', '上', '上', '上', '上', '海', '的', '车', 7, 3, 3, 3, 3, 10, 8, 4]

In [107]:
len(g)

17

In [108]:
len(f)

18

## 循环

In [120]:
for v in f:
    print(type(v)) # 注意这行的开头有TAB

<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>


In [116]:
len(range(1)) # 只生成一个数

1

In [117]:
range(1)[0]   # 这个数是0

0

In [118]:
range(len(f)) # f → f的索引

range(0, 18)

In [114]:
for i in range(len(f)): # 以索引做循环变量
    print(i, type(f[i]))

0 <class 'str'>
1 <class 'str'>
2 <class 'str'>
3 <class 'str'>
4 <class 'str'>
5 <class 'str'>
6 <class 'str'>
7 <class 'str'>
8 <class 'str'>
9 <class 'int'>
10 <class 'int'>
11 <class 'int'>
12 <class 'int'>
13 <class 'int'>
14 <class 'int'>
15 <class 'int'>
16 <class 'int'>
17 <class 'int'>


In [119]:
for i, v in enumerate(f): # 上例的简化版本
    print(i, type(v))

0 <class 'str'>
1 <class 'str'>
2 <class 'str'>
3 <class 'str'>
4 <class 'str'>
5 <class 'str'>
6 <class 'str'>
7 <class 'str'>
8 <class 'str'>
9 <class 'int'>
10 <class 'int'>
11 <class 'int'>
12 <class 'int'>
13 <class 'int'>
14 <class 'int'>
15 <class 'int'>
16 <class 'int'>
17 <class 'int'>


# 函数和库

## 函数的例子

#### 问题：求阶乘\begin{equation}n!\end{equation}

In [138]:
def fac(n):                        # 求阶乘
    if n == 1:                     # 收敛条件
        return 1
    else:
        return n * fac(n - 1)      # 递归引用本函数的函数名
fac(5)

120

In [137]:
for i in range(9):                      # 需要解决fac函数的一个bug
    print(fac(i))

1
1
2
6
24
120
720
5040
40320


#### \begin{equation}0!=1\end{equation}

In [None]:
fac(0)

#### 用循环来定义阶乘函数
```python
def fac_loop(n):
    ret = 1
    for i in range(n):
        ret = ret * (i + 1)
    return ret
```


In [143]:
def fac_loop(n):
    ret = 1
    for i in range(n):
        ret = ret * (i + 1)
    return ret
print(fac_loop(5))
print(fac_loop(0))
print(fac_loop(1))

120
1
1


#### 问题：求组合数 \begin{equation}{n\choose k}=\frac{n!}{(n-k)!k!}\end{equation}

In [126]:
def combination(n, k):             # 求组合数
    return fac(n) / (fac(n - k) * fac(k))
combination(52, 4)

270725.0

## 函数的类型

##### 函数的类型？
```python
type(fac)
```

In [144]:
type(fac) # 和type(True)不是一样？

function

>函数的类型是参数类型到返回值类型两个类型集合的映射关系
#### \begin{equation} fac : int→int \end{equation}\begin{equation} combination: int, int → int \end{equation}

In [145]:
max([23, 37, 13, 47]) # 输入类型是一个list，输出类型是一个数值

47

## 方法
>第一个参数是固定函数

In [148]:
pl = [23, 37, 13, 47]
pl.sort()              # 输入类型是一个list，输出类型是一个list，类型实例和函数名之间用一个.连接
pl

[13, 23, 37, 47]

In [150]:
help(list.sort)        # 获得在线帮助

Help on method_descriptor:

sort(...)
    L.sort(key=None, reverse=False) -> None -- stable sort *IN PLACE*



In [153]:
pl.sort(reverse=True) # 命名参数
pl

[47, 37, 23, 13]

In [151]:
help(list)             # 列出list的全部方法

Help on class list in module builtins:

class list(object)
 |  list() -> new empty list
 |  list(iterable) -> new list initialized from iterable's items
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iadd__(self, value, /)
 |      Implement self+=value.
 |  
 |  __imul__(self, value, /)
 |      Implement self*=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __l

#### 问题：伟人排序
|像|姓名|出生年|寿命|
|-|-|-|-|
| ![buddha](http://bazhou.blob.core.windows.net/learning/mpp/buddha.jpg)       |  佛陀       | 480BC  |   80 |
| ![confucius](http://bazhou.blob.core.windows.net/learning/mpp/confucius.jpg) |  孔子       | 551BC  |   73 |
| ![plato](http://bazhou.blob.core.windows.net/learning/mpp/plato.jpg)         |  柏拉图     | 428BC  |   80 |
| ![zoroaster](http://bazhou.blob.core.windows.net/learning/mpp/zoroaster.jpg) | 琐罗亚斯德 | 500BC  |    ?  |






In [178]:
# 新数据类型：dict
great = [{'name':'Buddha', 'birth':-480, 'age':80}, 
         {'name':'Confucius', 'birth':-551, 'age':73}, 
         {'name':'Plato', 'birth':-428, 'age':80}, 
         {'name':'Zoroaster', 'birth':-500, 'age':float('nan')}]

In [163]:
great[0]['name'] # dict可以按照名字索引

'Buddha'

In [164]:
great[1]['age']  # dict本事可以是list的元素

73

##### 无名函数
\begin{equation}\lambda\end{equation}
>先定义一个函数再使用它有时不如在用它的地方定义它

In [190]:
great = [{'name':'Buddha', 'birth':-480, 'age':80}, 
         {'name':'Confucius', 'birth':-551, 'age':73}, 
         {'name':'Plato', 'birth':-428, 'age':80}, 
         {'name':'Zoroaster', 'birth':-500, 'age':float('nan')}]
great.sort(key=lambda person: person['age'], reverse=True) # key 参数要求一个函数类型，lambda在这里非常方便
great

[{'name': 'Buddha', 'birth': -480, 'age': 80},
 {'name': 'Plato', 'birth': -428, 'age': 80},
 {'name': 'Confucius', 'birth': -551, 'age': 73},
 {'name': 'Zoroaster', 'birth': -500, 'age': nan}]

In [189]:
great = [{'name':'Buddha', 'birth':-480, 'age':80}, 
         {'name':'Confucius', 'birth':-551, 'age':73}, 
         {'name':'Plato', 'birth':-428, 'age':80}, 
         {'name':'Zoroaster', 'birth':-500, 'age':float('nan')}]
great.sort(key=lambda o: o['birth'])
great

[{'name': 'Confucius', 'birth': -551, 'age': 73},
 {'name': 'Zoroaster', 'birth': -500, 'age': nan},
 {'name': 'Buddha', 'birth': -480, 'age': 80},
 {'name': 'Plato', 'birth': -428, 'age': 80}]

## 库的安装和引用

```sh
pip3 install algorithms
```

```sh
python3 -c 'from algorithms.sort import merge_sort'
```

In [192]:
from algorithms.sort import merge_sort
test_list = [1, 8, 3, 5, 6]
result_list = merge_sort(test_list)
result_list

[1, 3, 5, 6, 8]

# Numpy

## 引入Numpy的目的

## 关于类型

## 线性代数和数理统计

# 图形绘制

## Matplot

## 基本图表类型

## 直方图