# A Python3 Tour

下学期的数据分析workshop将会更关注于数据分析的策略、原理、应用上。为了能够涵盖更广泛的数据类型，同时兼顾上手的难度；我们选择了Python3作为数据分析的工具。

在这里只是对Python3中我们可能会涉及到的概念和知识点做一简单的罗列和简述。如果大家对其中任何一个概念有不清楚的地方，还请利用这个假期补充补充知识。

如果有问题，很欢迎提问；但希望大家能够在提问前先做到以下几点：

1. 是否阅读了官方文档和其他论坛的说明
1. 是否阅读了报错信息
1. 是否在网络(推荐stackoverflow)上找过类似问题的解决方法

如果依然有问题无法解决或者有概念无法理解，可以在github上建立issue，我会尽快给出答复或者建议，同时也可供其他人参考。

---

在学习一门新的编程语言时，输出"Hello, world!"几乎成为了一个传统。而在Python中，用一句话就可以实现。
```python
print("Hello, world!")
```

In [None]:
# demo
print("Hello, world!")

Python不需要用`main()`函数来作为程序的入口，而是直接自动的依次执行写在全局域里的代码；同时，也不需要在每一个语句结束时写上`;`。

## Content
- [Simple Values and Mutability](#Simple-Values-and-Mutability)
- [Control Flow](#Control-Flow)
- [Data Collections](#Data-Collections)
- [Functions and Closures](#Functions-and-Closures)
- [Objects and Classes](#Objects-and-Classes)
- [Error Handling](#Error-Handling)
- [More on Styles](#More-on-Styles)
- [Further Reading](#Further-Reading)

## Simple Values and Mutability

Python是一门动态的语言，意味着一个变量名可以被先后赋予不同类型的数据；同时，Python并不会严格区分变量和常量，也不需要在赋值前对变量名进行声明。Python的基本数据类型包括整数型`int`，浮点数型`float`，布尔型`bool`，字符串`str`。【不同于其他大多数语言，Python没有区分数据类型的精度。】

在Python中，字符串可以用`'`或者`"`表示，两者没有本质区别。也可以用`"""`来表示包含多行的字符串
```python
"""
this string 
contains 
multiple lines
"""
```

In [None]:
## Demo

variable = 1  #整数型 int
print("variable =", variable)

variable = 1.0  #浮点数型 float
print("variable = %.2f"%(variable))

variable = True  #bool

variable = "1"  #字符串 str
print("variable = {}".format(variable))

## Data Collections

除了基本数据类型，Python还有几种数据集合：
- 列表 `list`
- 元组 `tuple`
- 集合 `set`
- 字典 `dict`

__列表__ 为一种有序的数据集合，内部的每个单元可以是不同的数据类型，也可以是不同的数据集合；用`[ ]`或者`list(...)`来定义。特别的，Python里的索引从0开始。
```python
[1, 1.0, 'hello', ['another', 'list'], ]
```

__元组__ 与列表一样也是一种有序的数据集合，与列表最大的区别在于元组内部的数据是不可改变的(其实是地址不可变)；用`( )`或者`tuple(...)`来定义。特别的，只有一个元素的元组需要在第一元素后面加上`,`。
```python
(1, 1.0, 'hello', ['another', 'list'])
(1,) # 这是一个只有一个元素的元组
(1)  # 这不是元组，而是加了括号的1
```


In [None]:
## Demo
a = [1,2,3]  # list
print(a)

## concatenation
b = a + [10, 11, 12, 55, 56, 57]
print(b)

## indexing
c = b[3:5]  # a[i:j] ==> i <= idx < j
print(c)

## length
d = len(a)
print(d)

## maximum, minimum
e = max(a), min(a)
print(e)

## existence
f = 1 not in a
print(f)

## repeating
g = a * 3
print(g)

__集合__ ，顾名思义，与数学里的集合概念相对应。因而内部元素的值都是唯一的，彼此不相等的；用`{ }`或者`set(...)`来定义。
```python
set([1, 1.0, 'hello']) #==> {1, 'hello'}
```

__字典__ 是一种 键-值 形式的数据集合。像字典一样，每一个值都有一个keyword来作为索引。用`{key: value}`来定义。
```python
{'key1': 'value1',
 2: 434,
 3.4: [1, 1.0, 'hello'],
}
```

In [None]:
## Demo
a = {'fruits':['apple', 'banana', 'cherry', 'durian', 'grape'],
     'price': [12,33,5,12,3],
     'date':'19-01-08'}
_ = dict([('one', 1), ('two', 2), ('three', 3)])
print(a)

## length
b = len(a)
print(b)

## queueing d[key], d.items, d.keys, d.values
print(a['fruits'])
print(a.items())
print(a.keys())
print(a.values())

## update
a["fruits"] = "none"
print(a)

## Control Flow

Python使用空格缩进来代表代码块之间的关系。

### 条件判断
Syntax:
```python
if <判断条件 1>:
    <判断1为真则执行这里的语句>
    
elif <判断条件 2>:
    <判断2为真则执行这里的语句>
    
else:
    <判断1，2为假则执行这里的语句>
```

特别的，条件判断还有一个缩写形式：
```python
a = 10
b = 4 if a > 10 else 5
```

### 循环

在循环中有两个特殊的控制符：
- `continue`: 顾名思义，跳过下面的语句而直接进入下一个循环
- `break`: 顾名思义，直接终止循环语句

#### while 循环
Syntax:
```python
while <判断条件>:
    <判断为真则继续执行这里的语句>
```

#### for-in 循环
形式最丰富也最灵活的一个控制语句。
Basic Syntax:
```python
for <参数> in <被循环的对象>:
    <循环执行的语句>
```

##### list comprehension
Syntax:
```python
[<一行代码> for <参数> in <被循环的对象>]
[<一行代码> for <参数> in <被循环的对象> if <参数的条件判断>]
```

In [None]:
## Demo
for idx in range(4):
    print('this is %d'%a[idx])
print()

a = [1,2,3,4,5]
for item in a:
    print('this is %d'%item)
print()
    
b = {'apple':1, "banana":4, "cherry":5}
for (k, v) in b.items():
    print('the amount of %s is %d.'%(k, v))
print()

## range object
[item ** 2 for item in a if item < 5]

## Functions and Closures
a function is an object that maps a tuple of argument values to a return value.

### Functions
Syntax: 
```python
def func_name(<参数列表>):
    <函数语句块>
```

#### Return Keyword


### Closures and Anonymous Funcitons
Without parentheses, the expression function refers to the function object, and can be passed around like any value


In [None]:
# Demo
def hello(name, age = 12, height=180):
    print('hello, %s! you are %d years old and %d cm height.'%(name, age, height))
    
hello("Jack")

a = [1,2,3,4,5,6,7,8,9,10]
isodd = lambda x: x%2 == 1
iseven = lambda x: x%2 == 0

b = list(filter(iseven, a))
print(b)

c = list(map(isodd, a))
print(c)

def double_filter(arr, op):
    double = lambda x: x*2
    return list(map(double, filter(op, arr)))

d = double_filter(a, iseven)
print(d)

def make_addition(sub):
    def add_sub(x):
        return x + sub
    
    return add_sub

e = make_addition(5)
print(e(5))
    

## Objects and Classes

编程中也存在着不同的范式或者模式，比较经典的范式包括有面向过程，面向对象，以及函数式编程。
在上面，我们所讨论的内容主要集中在面向过程的编程，而闭包和匿名函数属于函数式编程的一部分。

不难看出，面向过程的编程的核心在于算法，或者是中心在于解决问题的流程；强调的是流水线式的思考。
而面向对象的编程不同，它的核心在于对不同的类的抽象，中心在于问题的本身或者说是数据本身；强调的是模块化的思考。

- **类** 简单的说就是一个集合，其中包含了一些列与这个类相关的变量的定义，以及与该类有关的各类方法。
- **对象** 简单的说就是类的实例化。

面向对象的编程把世界描绘成主动性的“活物”之间的交互；而面向过程的编程则是有一个“上帝之手”，通过制定一系列规则来操纵一堆“死物”。

https://www.zhihu.com/question/19701980/answer/12700411

In [None]:
# demo
class Beverage(object): # 定义新的类
    def __init__(self, price, volumn, flavor, brand):  # 实例化时的入口，可以接受不同的参数。
        self.price = price
        self.volumn = volumn
        self.flavor = flavor
        self.brand = brand
    
    def sip(self, vol=10):  # 定义的类的方法
        self.volumn -= vol  # self指代实例化后的对象本身。

class PepsiCoke(Beverage):  # 这个操作为”继承“，PepsiCoke包含了Beverge的所以方法和变量
    def __init__(self):
        super().__init__(5, 330, 'coke', 'Pepsi')  # 初始化
        
    def refill(self):  # 添加额外的方法
        self.volumn = 330

a = PepsiCoke()
a.sip()
print(a.volumn)
a.refill()
print(a.volumn)

## Error Handling

In [None]:
# demo
a = [1,2,3,4]

try:
    b = a[4]
except IndexError:
    print('catch an index error')
    b = 0
except ValueError:
    print('catch an value error')
finally:
    print('finally')
print('finished')

## More on Styles

- name variables and functions with meaningful names
- comment necessary statements with precise words
- make docstring for every callable function or method
- keep everything simple 
- write functions, not just scripts
- write functions with consistent argument ordering
- split single file into multiple ones
- don't overload built-in methods

In [None]:
import this

## Further Reading

- string formatting and interpolation
- regular expression
- usefule built-in modules
    - time
    - os
    - sys

- [free programming books](https://github.com/EbookFoundation/free-programming-books#readme) - 
[中文](https://github.com/EbookFoundation/free-programming-books/blob/master/free-programming-books-zh.md)