# 第3章 Python基础知识
* Python是一种面向对象的解释性脚本语言。
* 在Notebook的Code Cell中输入代码后按“Shift+Enter键”就可以立刻得到代码的执行结果。

In [None]:
print('Hello, world!')

* Jupyter Notebook中的常用的**快捷键**。
    * Enter：转入编辑模式。
    * Shift+Enter：运行本单元，选中下个单元。
    * Ctrl+Enter：运行本单元。
    * Alt+Enter：运行本单元，在其下插入新单元。
    * Ctrl+X：剪切选中的单元。
    * Ctrl+C：复制选中的单元。
    * Ctrl+V：粘贴到下方单元。
    * Ctrl+Z：撤销一步，恢复删除的最后一个单元。
    * Tab：代码补全或缩进

## 1. 帮助
* help()：查看函数、类、模块等对象的详细说明。
* dir()：查看对象的属性或方法，返回对象的属性和方法列表。
* ?：查看具体对象的帮助信息。

In [None]:
help(sum)

In [None]:
dir(list)

In [None]:
?max

## 2. 标识符
* 标识符(identifiers)：即对象的名字，由字母、数字、下划线组成，不能以数字开头。
* **标识符是区分大小写的**，如someid和SomeID是两个不同的标识符。
* 以**下划线**开头的标识符是有特殊意义的。
    * (1) 以单下划线开头：如\_foo\_，代表不能随意访问的类属性。 
    * (2) 以双下划线开头：如\_\_foo\_\_，代表类的私有成员。
    * (3) 以双下划线开头和结尾：如\_\_foo\_\_，代表Python里特殊方法专用的标识。
        * 如：\_\_init\_\_()代表类的构造函数；\_\_version\_\_()表示所调用包的版本信息。
* Python系统中还有**保留字符**，也称之为**关键字**(keywords)。
    * 保留字符是不能用作任何其他标识符名称的。
    * 保留字符可以通过运行如下代码查看：

In [None]:
import keyword
keyword.kwlist

## 3. 行与缩进
* 每一行代码就是Python的一个语句，不需要使用“;”等符号来断行。
* 如需把不同语句放在同一行，可以使用“;”来断行，如：

In [None]:
a=10;b=100;print(a+b)  #三行语句

* Python的代码块不使用“{}”等符号，Python是用**缩进**来标识代码块或模块。
* 缩进的空格数量是可变的，可以使用空格、制表(Tab键)等进行缩进；
    * 一个Tab键一般表示4个空格。
* **同一个代码块的语句必须包含相同的缩进**。

In [None]:
def squares(n=10):  # 这是一个函数代码块
    print('Generating squares from 1 to %d'% (n**2))
    for i in range (1,n+1):  # 这是一个循环代码块
        print (i**2, end=' ')  # 循环代码块结束，函数代码块结束

squares()

* **长句跨行**：
    * 如果是在[]、{}、或()中，可直接使用**回车键**换行；
    * 除此之外，可使用**反斜杠**“\”来换行，不加会报错。

In [None]:
a=1+2+3+\
  4+5+6+\
  7+8+9
a

## 4. 变量与对象
* Python中的任何数值、字符串、数据结构、函数、类、模块等都是**对象**。
* 每个对象都有标识符、类型(type)和值(value)。
* 几乎所有对象都有方法和属性，访问该对象内部数据的方式有两种：
    * “对象名.方法(参数1,参数2,$\cdots$,参数n)”
    * “对象名.属性”

In [None]:
dir(sum)  #查看对象的属性和方法
sum.__call__

* **变量**是统计学中的一个概念，也是进行数据分析的基础。
* Python中的变量也是对象，**在被引用时应当事先声明（定义）**，如：

In [None]:
print(b)  #变量b没有事先声明，对其直接引用系统会提示错误。

* 因Python中“一切皆对象”，**变量中存放的只是对象的引用**。
* **赋值**即为创建赋值号“=”右侧对象的一个引用，如：

In [None]:
a=[1,2,3]  #把列表[1,2,3]赋值给对象a
print("a=",a)
b=a
print("b=",b)
a.append(4)  #append是列表对象的一个方法，即：在对象a引用的列表中增加一个元素
print("a=",a)
print("b=",b)
a is b

* 从上述结果可以看出：
    * 对象b赋值为a后，便创建了b对a的一个引用，二者id是一样的；
    * a的值发生变化则b也会对应发生变化，这种情形被称为**绑定**。
    * 但是如果对a重新赋值，则绑定自动解除。

In [None]:
a=['a','b','c']
print("a=",a)
print("b=",b)
a is b

* 从上面的内容可以看出，对象之间的赋值并不是复制。
* **复制**：指复制对象与原始对象不是同一个对象，原始对象发生任何变化都不会影响复制对象的变化。
    * 对象之间的复制可以调用copy包来实现。
* **浅复制**：指复制了对象的，对象的元素被复制，但**对于对象中的子元素仍然是引用**，如：

In [None]:
a=[1,2,['a','b']]  #对象a含有3个子元素，其中第3个子元素又含有两个子元素

from copy import copy  #调用Python基本库之外的其他模块或包中的某项功能
b=copy(a)
print("a=",a)
print("b=",b)
a is b

In [None]:
a.append(3)
print("a=",a)
print("b=",b)

In [None]:
a[2].append('c')  #索引号是从0开始的
print("a=",a)
print("b=",b)

* **深复制**：指完全复制一个对象的所有元素及其子元素，如：

In [None]:
a=[1,2,['a','b']]
from copy import deepcopy
b=deepcopy(a)
print("a=",a)
print("b=",b)

In [None]:
a.append(3)
print("a=",a)
print("b=",b)

In [None]:
a[2].append('c')
print("a=",a)
print("b=",b)

## 5. 数字与表达式
* 在Python3中使用数字和表达式要注意其数字类型。
* **数字类型**注意有：
    * int：整型
    * float：浮点型
    * bool：布尔型或逻辑型
    * complex：复数型
* type()是一个可以查看Python对象类型的函数，返回对象类型。

In [None]:
print(10, type(10))
2**10, type(2**10)  #整数型

In [None]:
3.14, type(3.14)  #浮点型

In [None]:
1==2, type(1==2)  #逻辑型

In [None]:
1+2e3j, type(1+2e3j)  #复数型

#### 表3-1 常见数据类型的转换函数

In [None]:
int(3.14)  #转换为整数型

In [None]:
str(3.14)  #转换为字符串

In [None]:
tuple('apple')  #转换为元组

In [None]:
list('apple')  #转换为列表

## 6. 运算符
* Python中提供了诸多运算符对数据进行操作，如**表3-2**所示。
    * 算数运算符
    * 比较运算符
    * 赋值运算符
    * 位运算符
    * 逻辑运算符：and、or和not
    * 成员运算符：in和not in
    * 身份运算符：is和is not
* 这些运算符具有不同的**优先级**，如：
    * 赋值运算符 >> 身份运算符 >> 成员运算符 >> 逻辑运算符

In [None]:
1+2**3*4/5-100

In [None]:
1+2>2 and 4>5+10

In [None]:
a=[1,2,3]
print(3 in a)
10*(3 in a)

## 7. 字符串
* 字符串是Python中最常用的数据类型之一，可以使用**单引号**或**双引号**来创建。
* 当字符串中含有单引号时，只能用双引号来创建；

In [None]:
"Let's go!"

* 当字符串中含有双引号时，只能用单引号来创建；

In [None]:
'"Hello, world" pringting always is the first program.'

* 字符串可以**自动拼接**，也可以使用加号“+”进行**拼接**。

In [None]:
"Hello, " 'world!'

In [None]:
"Hello, "+'world!'

* 字符串可以使用星号“\*”进行**重复**。

In [None]:
"Hello, world!"+'!'*10

* 单个字符也是字符串。
* 字符串可以通过**索引号**把对应位置的内容索引出来。
    * 索引号：用来标注字符在字符串中所处的位置；
    * 索引号可以**从左至右从0开始**，也可以从右至左从-1开始。

In [None]:
a="Python"
a[1]

In [None]:
a[-1]

In [None]:
a[2:5]  #":"的前后分别表示索引的起始位置和终止位置，终止位置不包括在内

* **字符串是不可变的**，即不能直接对字符串的内容进行修改，如：

In [None]:
a="Python"
a[0]='C'

### 补充：字符串的编码方式
#### 1. ASCII编码
* ASCII码使用指定的7位或8位二进制数组合来表示256种可能的字符。
* 0～128号表示**标准ASCII码**也叫**基础ASCII码**，使用7位二进制数(剩下的1位二进制为0)来表示字符。
    * 0～31及127：表示控制字符或通信专用字符；
    * 32～126：表示字符，其中32号表示空格，48～57表示0到9十个阿拉伯数字；
    * 65～90：为26个大写英文字母；
    * 97～122：为26个小写英文字母；
    * 123~128：为一些标点符号、运算符号等。
* 129～256号表示**扩展ASCII码**。
* 不难看出，**常用的三种字符对应的ASCII值大小关系为：数字 < 小写字母 < 小写字母**。

#### 2. Unicode编码
* Unicode是一个编码方案，Unicode 是为了解决传统的字符编码方案的局限而产生的；
* 它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。
* Unicode 编码共有三种具体实现，分别为utf-8,utf-16,utf-32，其中
    * utf-8占用一到四个字节；
    * utf-16占用二或四个字节；
    * utf-32占用四个字节。
* Unicode 码在全球范围的信息交换领域均有广泛的应用。
    * Python3中所有的字符串均采用Unicode字符串。
    
#### 字符串比较大小
* 字符串的大小比较是通过比较ASCII码值实现的。
    * 从字符串的第一个字符开始比较，谁的ASCII码大谁就大；
    * 如果第一个相同，则比较第二个，以此类推。
    * 如果都相同则相等。

In [None]:
'A'>'AB'

In [None]:
'a'>'AB'

### 转义字符：
* 字符串可以使用“\”对特定字符进行转义，以实现特殊功能。
* **当“\”后面跟上特定字符时，才能发挥转义作用**。如：
    * “\n”表示换行；
    * “\r”表示回车；

#### 表3-3 字符串中的转义字符。

In [None]:
ch="c:\program files \norton antivirus \ officesv.dll"
print(ch)

* 在转义字符前再加上“\”，或在字符串之前加上“r”字符，可以实现**反转义**。
    * 即：所有字符按照原本样子进行解释。

In [None]:
ch="c:\program files \\norton antivirus \ officesv.dll"
print(ch)

In [None]:
ch=r"c:\program files \norton antivirus \ officesv.dll"
print(ch)

### 字符串格式化
* Python中字符串采用的格式化方式主要用“%”实现。
* %是占位符，有几个%占位符，后面就跟着几个变量或值，顺序是**一一对应**的。
    * 如果只有一个%，括号可以省略。
    * %s 这种格式永远起作用，它会把任何数据类型转换为字符串。

#### 表3-4 字符串格式化的格式

In [None]:
"Hello, %s"  %'world!'

In [None]:
"Hello, %s This is %s"  %('world!','Python.')

In [None]:
"Pi is %.2f"  %3.1415926

In [None]:
"Age: %s Gender: %s"  %(25,'Male')

In [None]:
"We must keep the growth rate at %s %%"  %7

* 字符串的格式化还可以使用字符串对象的**format**和**format_map**方法来实现。
* 在Python3中使用format和format_map方法都可以进行字符串格式化。
    * **format**是一种所有情况都能使用的格式化方法；
    * **format_map**仅使用于字符串格式中可变数据参数来源于字典等**映射关系数据**时才可以使用。
* format_map的参数不需传入“关键字=真实值”，而是直接传入真实的字典值。

#### 例：现有一个字典，分别使用format和format_map输出相关信息：

In [None]:
student={'name':'小明','class':'20190301','score':597.5}
s1='{st[class]}班{st[name]}总分：{st[score]}'.format(st=student)
s1

In [None]:
s2='{class}班{name}总分：{score}'.format_map(student)
s2

### 字符串的内置方法
* Python内置的字符串的属性和方法有40多种，可使用dir()来查看。

In [None]:
dir(str)

#### 表3-5 字符串内置方法

In [None]:
ss="this is sample No.1"
ss.capitalize()  #将字符串的第一个字符转换为大写

In [None]:
ss.casefold()  #将字符串的所有大写字符转换为小写

In [None]:
ss.count('i',6,10)  #返回str在字符串中出现的次数

## 8. 日期和时间
* Python内置的**datetime模块**提供了datetime、date以及time等类型；
* 可以满足数据分析中对日期时间、日期和时间数据类型的需求。

In [None]:
from datetime import datetime
dt=datetime(2017,3,20,10,8,0)  #2017年3月20日上午10点8分
dt

* 日期和时间可以运算差值。

In [None]:
dt1=datetime(2016,3,20,10,8,0)
dt-dt1

* 在Python中，可以将日期和时间格式化为不同格式，也可以把其他类型数据转化为指定格式的日期时间。
* 如，日期时间对象的strftime方法可以将日期和时间格式化为字符串：

In [None]:
dt.strftime("%m/%d/%Y %H:%M")

* 可以用日期时间对象的replace方法替换日期和时间中的部分字段：

In [None]:
dt.replace(year=2018,hour=12)

* 字符串可以用datetime模块中的strptime函数将其转换为datetime对象：

In [None]:
datetime.strptime('20170320','%Y%m%d')

#### 表3-6 日期和时间格式化代码的主要功能

|代码|说明||代码|说明|
|--|--|--|--|--|
|%y|4位数的年||%Y|2位数的年|
|%m|2位数的月||%d|2位数的日|
|%H|24小时制的时||%I|12小时制的时|
|%M|2位数的分||%S|秒|

* datetime模块定义了date、time、datetime、timedelta、tzinfo等类，这些类的对象都是**不可变的**。
* 除了datetime模块外，Python还可以使用time、calendar、pytz、dateutil、pandas等模块来操作、处理日期和时间。

In [None]:
import calendar
c=calendar.month(2017,3)  #2017年3月的日历
c

In [None]:
print(c)

## 9. 语法糖
* 语法糖(syntax sugar)给编程人员提供了一种更实用的编写代码的方式。
* 这种方式**只是一种编程技巧**，并没有给计算机语言添加新功能。

In [None]:
a=100;b=10
print("before swap: a="+str(a)+" b="+str(b))
a,b=b,a  #语法糖
print("after swap: a="+str(a)+" b="+str(b))

In [None]:
a>b>1  #语法糖

In [None]:
'1' * 100  #语法糖

In [None]:
[1,2,3,4] + [5,6,7,8]  #语法糖

* 上述的这些语法，在其它语言里通常不会出现的。但是在Python中却神奇的被支持了，所以这些都是当之无愧的**Python语法糖**。
* Python中语法糖的用法非常多，如：
    * **with语法糖**：
    * **else语法糖**：第5章内容；
        * 条件语句：if-else
        * 循环语句：for-else，while-else，try-else
    * **推导式**：第4章4.5节内容；
    * **函数的动态参数/不定参数**：第6章6.2节内容；
    * **匿名函数**：第6章6.4节内容；
    * **yield语法糖**：第7章7.2节内容；
        * 带有yield的函数在Python中被称之为**生成器**(generator)。
    * **装饰器**：第7章7.3节内容。
    
### 补充：with语法糖
* with语法糖实现的是一个**上下文管理器**。
* **目的**：从流程图中把try，except和finally关键字和资源分配释放相关代码统统去掉；
    * **简化try…except…finlally的处理流程**。
* **条件**：with通过__enter__方法初始化，然后在__exit__中做善后以及处理异常。
    * 即：使用with处理的对象**必须**有__enter__()和__exit__()这两个方法。
    * __enter__()方法：在语句体（with语句包裹起来的代码块）执行之前进入运行；
    * __exit__()方法：在语句体执行完毕退出后运行。
* **应用场合**：with语句适用于对资源进行访问的场合，确保不管使用过程中是否发生异常都会执行必要的“清理”操作，释放资源。
    * 比如：文件使用后自动关闭、线程中锁的自动获取和释放等。
* **基本语法格式**：  
    **with expression [as target]:**      
    **with_body**
    * expression：是一个需要执行的表达式；
    * target：是一个变量或者元组，存储的是expression表达式执行返回的结果，可选参数；
    * with_body：
* **工作原理**：
    * 紧跟with后面的语句会被求值，返回对象的__enter__()方法被调用，这个方法的返回值将被赋值给as关键字后面的变量；
    * 当with后面的代码块全部被执行完之后，将调用前面返回对象的__exit__()方法。
* with语句最关键的地方在于**被求值对象必须有__enter__()和__exit__()这两个方法**，那我们就可以通过自己实现这两方法来自定义with语句处理异常。
* 例：

In [None]:
with opened(r'd:\\test.txt') as f:
    for line in f.readlines():
        print line

* opened中的\__enter\__()方法返回的是自身的引用，这个引用可以赋值给as子句中的f变量；
* 返回值的类型可以根据实际需要设置为不同的类型，不必是上下文管理器对象本身。
* \__exit\__()方法中对变量exc_trackback进行检测：
    * 如果不为None，表示发生了异常，返回False表示需要由外部代码逻辑对异常进行处理；
    * 如果没有发生异常，缺省的返回值为None，在布尔环境中也是被看做False；
        * 但是由于没有异常发生，__exit__() 的三个参数都为 None，上下文管理代码可以检测这种情况，做正常处理。
        * __exit__()方法的3个参数，分别代表异常的类型、值、以及堆栈信息。

## 10. 魔术命令
* 魔术命令(built-in magic commands)：是常规python代码的增强，通常以“%”字符为前缀。
* 这些命令由IPython内核提供，基本上是为了解决常见问题而添加的，同时也为代码提供了一些快捷方式。
* 魔术命令有两种类型：%前缀和%%前缀。
    * % 前缀表示命令在一行代码上操作；
    * %% 前缀允许命令在整个计算单元上操作。
* 要查看能够使用的所有魔术命令的详细信息，可用如下魔术命令：

In [None]:
%magic

* %pwd：显示当前工作环境的路径。
* %cd：更改当前工作目录。

In [None]:
%pwd

In [None]:
%cd "D:\\"
%pwd

* %time：一次执行一行语句，返回报告的总体执行时间。
* %timeit：自动多次执行一行语句，返回**更精确**的平均执行时间。

In [None]:
%time pow(100,100000)

In [None]:
%timeit pow(100,100000)

* %%time：返回多行代码的执行时间。
* %%timeit：返回多行代码的平均执行时间。

In [None]:
%%time
a=0
for i in range(10000):
    a=a+i**2

In [None]:
%%timeit
a=0
for i in range(10000):
    a=a+i**2

* %who：列出整个notebook中定义的所有变量。
* %who int：列出整个notebook中定义的所有整数型变量。

In [None]:
%who

In [None]:
%who int

* %matplotlib inline：将matplotlib调入当前工作环境中，进而显示Matplotlib图形。
* 这个命令激活matplotlib对Jupyter Notebook的交互式支持。

In [None]:
import matplotlib.pyplot as plt 
%matplotlib inline

a = [1,2,3]
plt.plot(a)

* 其他常用的魔术命令：

|魔术命令|含义|
|--|--|
|%load|导入python文件|
|%history|显示历史记录|