# Python语言简介

Python诞生于1991年，已经有接近30年的历史了。最初创始人Guido van Rossum是为了创造一门脚本语言，仅仅用来处理简单的任务。随着Python的逐步发展，由于Python可以方便的与其他语言如C\C++等进行交互，因而很快Python成为了「胶水语言」。随后随着Python的逐步完善，特别是进入大数据时代以来，由于Python丰富的API和包，其简单易用性和丰富的扩展性使得越来越多的编程人员开始使用这门语言。

Python作为一门编程语言具有如下特点：
* 解释型语言，不需要编译（compile）为机器码，Python**解释器（interpreter）**边解释边运行。
* 动态类型，程序运行时检查变量的类型，如有必要进行类型转换
* 支持多种编程范式，包括：
    - 面向对象，使用类和对象进行抽象
    - 部分支持函数式编程
    - 过程式编程
* 全局锁（global interpreter lock, GIL），由于Python的内存管理不是线程安全（thread-safe）的，为了防止线程间数据一致性和状态同步的困难，Python解释器在执行多个线程时，实际并非同时在执行多个线程，而是同一时间只执行多个线程中的某一个线程。

由于以上特点，Python非常容易学习，且开发非常简单。但是同时，也因为以上的特点，Python具有**执行慢**的特点。

Python几乎是一门全能的语言，在各个领域，包括网络编程、数值计算、机器学习等，都有广泛应用。然而，Python也有运行速度慢的致命缺点，基于以上特点，Python比较适合：

* 探索性编程或者数据分析
* 对计算性能不高的任务
* 性能瓶颈不在计算，而在I/O的任务，如爬虫等
* 胶水语言，结合不同语言的特点进行开发

虽然Python执行效率相对较低，但是一般情况下可以大大节省程序员编程的时间，因而对于不同的任务，需要*权衡开发人员的时间与程序运行的时间*。大多数情况下，往往人的时间比机器的时间更加宝贵。当然，如果程序过于复杂，可以将计算最为复杂的部分使用其他高性能语言，如C、Java、Julia代替，计算简单的部分使用Python，并使用Python进行调用其他高性能语言。

此外，Python的流行与其设计哲学密不可分。Python的设计哲学是**优雅（beautiful）、明确（explicit）、简单（simple）**。Python开发者的哲学是“用一种方法，最好是只有一种方法来做一件事”。在设计Python语言时，如果面临多种选择，Python开发者一般会拒绝花俏的语法，而选择明确没有或者很少有歧义的语法。这些准则被称为“Python之禅（The Zen of Python）”。


# Python安装之前：版本与工具

Python作为一门脚本语言，在\*nix系统下通常具有原生的支持。在这里，我们分别介绍Python在不同环境下的安装。

在安装之前，我们必须首先搞清楚，我么到底要安装什么。

## Python语言的版本
首先，我们需要区分Python的版本。由于某些历史遗留问题，Python目前有不兼容的两个版本：

* Python 2.7+
* Python 3+

截至目前，Python最高的版本为3.7.1。值得注意的是，Python2和Python3之间语法很大程度上是无法互通的，比如在 Python2 中，输出一个字符串的语法是：

```python
print "hello world"
```
而在 Python3 中则变为：

```python
print("hello world")
```

由于Python官方将在不久的将来停止对Python2的支持和更新，而且绝大多数的库都已经迁移到了Python3中，因而我们**强烈建议未来不要继续学习和使用Python2，而是直接使用Python3**。

## Python解释器的版本

其次，我们需要注意我们是，Python本身只是一门脚本语言，而其运行需要一个**解释器（interpreter）**。解释器的作用是解释并执行Python语言，而Python的解释器也有不同的版本，比如：

* CPython：最流行的也是默认的Python解释器，我们通常的Python指的就是CPython
* PyPy：一个JIT的解释器，速度比CPython更快

此外，Python本身作为一门脚本语言，以上的解释器是不对程序进行编译（compile）的，也有将Python首先编译为其他语言的解决方案，比如：

* Cython：Python编译成C
* Jython：Python编译成Java
* Pyjs：Python编译成JavaScript
* Numba：使用LLVM把Python直接编译为机器码
* ......

理论上将Python进行编译后运行速度会大幅提升，然而以上编译方案通常不能完全支持Python的所有特性，因而用途有限。

此外，值得一提的是，Python的运行速度通常比较慢， Intel®针对Python的数值运算包（包括NumPy、SciPy、scikit-learn等）使用MKL等Intel的数值运算库进行了优化和加速，在进行一些数值密集型的任务时可以考虑使用。

接下来，我们所有的讲解都基于CPython以及Python 3。




# Windows下的安装

在Windows下安装Python的第一种方法是首先安装Python的解释器，再分别安装所需要的其他组件，比如各种包以及开发环境。或者，也可以直接安装如Anaconda，其中包含了Python解释器以及常用的包、开发环境等。一般初学者可以考虑直接安装Anaconda。

## Python解释器的安装

Python解释器可以从官方网站：https://www.python.org/downloads/windows/ 中进行下载，一般默认选择最新版本（目前为3.7.3）。此外，对于64位的Windows操作系统，尽量选择带有“x86-64”标志的版本，一般情况下，我们会选择：

* Windows x86-64 executable installer

进行安装。

下载之后，按照Windows程序的正常安装过程即可安装。在这里需要注意的是，为了能够在cmd或者Powershell里面方便的使用Python，需要勾选“Add Python 3.7 to PATH”选项：

![](pic/install_py.png "安装Python解释器")

安装之后（有时可能需要重启计算机以激活环境变量），就可以在cmd或者Powershell中，键入“python”命令进入到Python的交互环境中：

## Anaconda的安装

Anaconda可以从 https://www.anaconda.com/distribution/#download-section 下载，同样，对于64位机器，尽量选择64位版本；此外，如果之前没有安装过Python，建议勾选一下“Add Anaconda to the system PATH enviroment variable”选项：

![](pic/install_anaconda.png "安装Anaconda")

如果已经安装过Python3，请谨慎勾选，否则容易导致混乱。

安装完成后，可以看到开始菜单中出现了新的项目：

![](pic/start_menu.png "安装Anaconda")

### Anaconda Prompt

首先，我们可以点击Anaconda Prompt，会弹出一个交互式对话框，可以输入：

```shell
python
```

后回车，即进入了Python的交互式Shell，输入：
```python
import this
```
会弹出所谓的“Python之禅”：

![](pic/anaconda_prompt.png "Anaconda Navigator")

按下“ctrl+d”键，就可以退出Python Shell。

Anaconda Prompt最有用的地方在于安装一些其他的包，比如，如果我们需要安装用于解析HTML的包“bs4”，可以直接键入：
```shell
pip install bs4
```

或者，如果需要更新已安装的Web框架“flask”到新的版本，可以键入：
```shell
pip install flask --upgrade
```
如下图所示：
![](pic/pip_install.png "Anaconda Navigator")


### Anaconda Navigator

如果点击Anaconda Navigator，会出现如下界面：

![](pic/anaconda_navi.png "Anaconda Navigator")

其中我们会用到的有：

* Jupyter Notebook：也就是写本教程的工具，提供了一个网页版的可以运行Python的交互环境，通常可以用来写用以展示、备忘的Python代码等。
* IPython：一个交互式的Python Shell，但是功能比Python原生的Shell强大。
* Spyder：一个Python的集成开发环境，提供比较强大的编辑、查看变量、debug等综合工具。
* VS Code：一个轻量而又强大的文本编辑器，适用于进阶的Python编程。


### Jupyter Notebook

Jupyter Notebook是一个展示代码、为代码做记录的强大工具。此教程就是以Jupyter Notebook写作而成。虽然Jupyter Notebook不适于工业级的大规模使用，但是在进行探索式的程序设计、数据分析时是非常有用且方便的工具，我们在这里也初步介绍一下Jupyter Notebook的使用。

启动Jupyter Notebook有如下几种方法：

* 点击开始菜单中的「Jupyter Notebook」
* 在Anaconda Navigator中点击「Jupyter Notebook」
* 在Anaconda Prompt中输入「jupyter-notebook」并回车

开启Jupyter Notebook后，会打开一个网页（一般域名是localhost:8888，如果没有打开，需要按照提示手动在浏览器输入网址），界面如下所示：

![](pic/jupyter_notebook.png "Jupyter Notebook")

各主要按钮功能如下：

* Files：当前目录的文件，可以进行简单的文件操作
* Running：显示正在运行中的terminal以及notebook，可以进行关闭等操作
* Upload：上传文件
* New：新建文件或者terminal：
    * Python3：新建一个Python的Notebook
    * Terminal：新建一个命令行终端

新建Notebook后，就可以在Notebook中边写Python代码、Markdown等。

### VSCode

VSCode是一款非常强大的文本编辑工具，提供了自动补全、自动缩进、缩略图以及debug等多种强大的工具。VSCode可以从其官网：https://code.visualstudio.com 中免费下载得到。

在安装结束之后，还需要为Python安装插件，可以点击左边的「extensions」按钮，从弹出的输入框中输入「python」，点击「install」即可，如下图所示：

![](pic/vscode_python.png "Installing Python extension in VSCode")


# Linux下的安装

一般情况下，Linux的发行版中都包含了Python，比如在最流行的Linux发行版Ubuntu中，包含了Python2以及Python3两个版本。值得注意的是，一般而言如果在Linux的Terminal中使用「python」命令：
```shell
python
```
将会运行Python2而非Python3，为了运行Python3，需要使用「python3」命令：
```shell
python3
```
与此类似，用于安装Python包的「pip」命令，也需要使用「pip3」来代替「pip」。

有时系统中安装了不止一个Python，比如可能会同时存在Python2、Python3、Intel的Python以及Anaconda的Python，为了区分某一条命令具体使用的哪一个Python，可以使用「which」命令。比如如果我们不知道Python3究竟使用的是哪个版本，可以使用：
```shell
which python3
which pip3
```
以上命令将会分别返回「python3」命令的路径以及「pip3」命令的路径，便于区分。

如果Ubuntu的版本比较老，可能Python3没有默认安装，需要使用：
```shell
sudo apt-get install python3
```
进行安装。

当然，在Linux中也可以安装Anaconda、VSCode等，我们相信Linux用户不会困惑于这些工具的安装，在此不再赘述。

# Mac下的安装

在Mac中通常也包含了Python2，但是没有包含Python3，像Windows中一样，需要手动安装Python3的解释器，或者直接安装Mac版的Anaconda。

## Python解释器的安装

如果仅仅想安装Python3的解释器，可以从： https://www.python.org/downloads/mac-osx/ 中下载「macOS 64-bit installer」，接着打开「python-3.****.pkg」，按照提示安装即可。安装好后，查看Applications文件夹可以看到Python：
![](pic/python_inter_mac.png "Python IDLE in Mac")

值得注意的是，如果需要在terminal中执行「python3」或者「pip3」命令，需要手动修改用户的home文件夹（「~/」）下的「.bash_profile」文件（如果没有则创建），加入一行：

```shell
PATH="/Library/Frameworks/Python.framework/Versions/3.7/bin:${PATH}"
export PATH
```
注意以上路径「/Library/Frameworks/Python.framework/Versions/3.7/bin」为Python默认的安装路径，针对不同版本可能不同，需要在terminal中进行确认。

## Anaconda的安装

如果需要安装Anaconda，同样可以从 https://www.anaconda.com/distribution/ 中下载，其安装过程与以上类似，安装好之后同样需要寻找Anaconda的路径，并将其添加到「.bash_profile」中。

# GitHub简介

为了介绍GitHub，我们需要先从Git说起。

Git是一个版本控制软件，使用Git，可以方便地进行多人团队的合作开发以及代码的版本控制，在中大型的软件项目上，是非常强大的开发工具。比如，使用Git，我们可以方便地解决如下问题：

* 版本控制，可以方便地回溯软件项目之前的版本，并方便地比较修改历史。
* 分支（branch）功能，一个项目可以有不同的分支，每个分支有不同的功能。也可以方便地比较不同分支上代码的差别。
* 合并（merge），可以方便的将不同的分支进行合并。
* 多人协作，每个人负责一个项目中的一小部分内容，或者在一个分支上进行开发，最终可以将所有人的贡献合并。

限于时间所限，我们在这里将不系统介绍Git工具的用法，感兴趣的读者可以自行参阅相关资料。

而GitHub，作为一个网站，是建立在Git工具上的一个开源平台和代码托管平台，因为只支持Git作为管理工具，故取名GitHub。

GitHub（ https://github.com/ ）目前已经成为全球最大、最被广泛使用的开源和代码托管平台。在GitHub上，可以方便的浏览、使用其他人的代码，或者为其他人的代码做出修改和改进。

当然，也可以在GitHub上公布自己的代码，一方面为社区贡献，其他人可以使用自己的代码；另一方面好的项目也可以吸引其他人一起开发和完善这个项目。

在GitHub上，我们可以很方便地搜索我们需要的代码，这往往可以大量节省我们的开发时间。比如，如果我们希望找有关中文分词的工具或者代码，可以直接在GitHub的搜索栏上搜索：“分词”，就会有很多已经有的工具供我们选择使用：
![](pic/github_search.png "Search in GitHub")


如果我们点进某一个仓库（repository），会有如下界面：

![](pic/github.png "GitHub")

其中：
* 最左上角显示了作者以及该仓库的名称
* 右上角的三个按钮分别有不同的作用，不能混淆：
    * Watch：关注这个仓库，有动态时在timeline上提醒
    * Star：收藏
    * Fork：意思是把别人的仓库复制一份成为自己的仓库，从而可以自己修改并发布到GitHub上，一般除非能够对这个仓库做出重大修改或者贡献，很少使用
* Clone or Download也有不同的作用：
    * Clone是使用“git clone”命令将该仓库完全下载到本地，包含分支信息、历史修改信息等，从而可以在本地修改，并可以通过“commit”以及“push”的方式提交修改
    * Download是直接下载，一般如果不需要对这些代码做出修改而是直接使用，可以直接下载
* README.md：一般所有的仓库都含有这个文件，用以对仓库和代码做出一些必要的说明，如代码结构、如何使用等。

出于“不要重复造轮子”的原则，一般而言我们都推荐在需要完成某一功能时，可以优先从GitHub上查找一下，是否有已经有比较成熟的实现，再来决定是否要自己重新实现这个功能。

# Python的学习方法

Python是一门非常容易学习、上手的语言，而且由于其强大的包库，大大减轻了编写程序人员的负担。当然，容易学习不代表容易学好，在这里我们给出几个学习Python，或者其他编程语言的一些学习方法：

* 无论在任何阶段，动手的学习效率是最高的。编程不是看书就能看懂的，一定是写代码训练出来的。
* 有条件可以多阅读其他人的代码。比如可以在GitHub上找一些自己能够理解的仓库，并阅读其源代码，比如：
    * https://github.com/vinta/awesome-python 这个仓库分门别类展示了很多Python代码仓库，可以当做索引使用。
    * https://github.com/Alfred1984/interesting-python 这个仓库收集了Python实现的有趣的小项目，包括爬虫、数据分析等。
    * https://github.com/facert/awesome-spider 这个仓库收集了各种爬虫的实现
* 从原理学起。比如学习爬虫，可以在很短的时间内上手，但是如果不懂http的原理、JavaScript甚至一些深度学习的方法、数据库、内存数据库等，就无法写出快速、高效、稳定的爬虫。
* 适时重复造轮子。虽然在工作中重复造轮子显得有些多余且低效，但是在学习阶段，很多时候重复造轮子可以加深理解，在以后碰到问题的时候能够游刃有余。这里重复造轮子并不一定是起手写，有时阅读其他人的代码也是不错的学习方法。
* 尽早适应英文文档和英文技术社区。

此外，推荐一些学习资料：

**书籍**

* Python基础教程（第三版）：基础教程
    ![](pic/beginning_python.jpg "Python基础教程")
* Python Cookbook：高阶应用手册
    ![](pic/python_cookbook.jpg "Python Cookbook")
* Python数据科学手册：数据科学相关
    ![](pic/python_data_science.jpg "Python数据科学手册")
    
**文档**：最权威的Python学习材料和手册

* 英文文档：https://docs.python.org/3/
* 中文文档：https://docs.python.org/zh-cn/3/
* 其他第三方包的文档。

**网站**

* Google/bing
* Stack Overflow
* Stack Exchange
* CSDN

## Python程序的执行：Hello, Python

接下来我们以一个最简单的Python程序展示Python程序的执行方式。

首先，可以使用任何文本编辑器，写入以下代码：

```python
print("Hello, Python!")
```

将其保存为“hello.py”，打开terminal，并在terminal中输入：

```bash
python3 hello.py
```

就可以看到程序的输出结果。

Python程序就是一个文本文件，实际上也不一定必须使用“.py”作为后缀名，只要使用命令“python3 程序文件”，Python的解释器就会读取这个文本文件并执行。

如果使用的时VSCode，写完代码后，直接按F5键，选择“Python File”就可以直接执行了。如果使用Spyder，可以直接点击“Run”按钮。

此外，在Linux下，还可以加入一行：

```python
#!/usr/bin/python3
print("Hello, Python!")
```

然后在terminal中输入：
```bash
chmod +x hello.py
./hello.py
```

也可以直接执行。其中print语句前面一行用于告诉Linux shell，使用哪个解释器执行该稳健，而chmod +x命令代表将hello.py这个文件加上可执行的属性。

此外还要注意的是，以上“#!/usr/bin/python3”这一行是以“#”号开头的，在Python中，不管在任何位置，“#”符号代表注释的开始，Python解释器在碰到#号之后，一直到这一行的最后，都将不再解释和执行。