## 前言

在开始讲述机器学习之前，必须要知道有一些知识还有环境是必备的，在我们在篇教程中，最基础的设施就是Python了。之前也看到一些观点说Python不过就是个脚本语言，居然能火到现在的程度简直不可思议。我在没有过一遍Python基础之前也有类似的感觉，不过自从用尝试用Python写过一些小脚本之后就开始为Python所折服了。Python最为令人心醉的特性就是对开发者很友好，开发效率够高，入门也比较容易，这在下文的介绍与例子中也会有所体现。


## Python的魔力

我觉得有必要在介绍一些Python基本特性之前先举几个例子来真正感受一下Python的魔力在哪里。



In [None]:
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" },
    { "id": 2, "name": "Sue" },
    { "id": 3, "name": "Chi" },
    { "id": 4, "name": "Thor" },
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" },
    { "id": 7, "name": "Devin" },
    { "id": 8, "name": "Kate" },
    { "id": 9, "name": "Klein" }
]

In [None]:
friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
               (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

## Python 之道

### 空格与缩进

许多编程语言使用`{}`形成代码块（比如java），在Python中用代码缩进来分割代码块，一般4个空格来代表一个缩进:

In [None]:
for i in [1, 2, 3]:
    print (i)
    for j in [1, 2, 3]:
        print (j)
        print (i + j)
    print (i)
print("done looping")

这种编码风格好处在于可读性较强，不过与此同时带来的问题是我们需要时时刻刻注意代码缩进。不过在括号中空格是缩进效果被忽略了，所以如果要定义一些数据结构或者做计算的话，不必担心缩进带来的问题:

In [2]:
long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 +
                           13 + 14 + 15 + 16 + 17 + 18 + 19 + 20)
print (long_winded_computation)

210


也可以利用这个特性增加代码可读性：

In [None]:
list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
easier_to_read_list_of_lists = [ [1, 2, 3],
                                                 [4, 5, 6],
                                                 [7, 8, 9] ]

### Modules

在Python中许多功能不是默认加载的。如果要使用这些没有默认加载的功能，首先需要使用`import`来引入。

In [1]:
import re
my_regex = re.compile("[0-9]+", re.I)

上面的代码中`re`这个模块的功能是支持正则表达式，如果像上面代码的方式来加载模块想调用这个模块中的方法就需要加`re`这个前缀。
当然如果在你的代码中`re`是有其它用处的，那么也可以给它设置别名：

In [2]:
import re as regex
my_regex = re.compile("[0-9]+", regex.I)

这种方式对于那些名字很长的模块就很有效了，毕竟每次都要写那么长的名字容易出错。比如用来画图展示数据的`matplotlib`可以为它设置一个简单一些的别名:

In [3]:
import matplotlib.pyplot as plt

  'Matplotlib is building the font cache using fc-list. '


如果对于相关的模块已经很熟悉了，也可以精确的引用:

In [4]:
from collections import defaultdict, Counter

lookup = defaultdict(int)
my_counter = Counter()

### Lists

在Python中可能最常用的数据结构就是`list`了。所谓`list`就是一个有序的数据集合。下面是几个`list`的例子：

In [4]:
integer_list = [1, 2, 3]
heterogeneous_list = ["string", 0.1, True]
list_of_lists = [ integer_list, heterogeneous_list, [] ]

list_length = len(integer_list)
list_sum = sum(integer_list)

print("integer_list: %s" % integer_list)
print("heterogeneous_list: %s" % heterogeneous_list)
print("list_of_lists: %s" % list_of_lists)

print("list_length: %s" % list_length)
print("list_sum: %s" % list_sum)

integer_list: [1, 2, 3]
heterogeneous_list: ['string', 0.1, True]
list_of_lists: [[1, 2, 3], ['string', 0.1, True], []]
list_length: 3
list_sum: 6


可以使用`in`操作符来检查元素是否包含在list中

In [2]:
print(1 in [1, 2, 3])

print(0 in [1, 2, 3])

True
False


不过这个操作很耗时，如果这个list很大的话还是不要这么用，当然如果不关注是否耗时，那就无所谓了。

扩展list也是一个比较常用的功能

In [None]:
x = [1, 2, 3]
x.extend([4, 5, 6])

print(x)

x = [1, 2, 3]
y = x + [4, 5, 6]

print(y)

## 进阶

### 排序

Python的`list`有一个`sort`的方法可以帮助我们对数组进行排序，如果不想改变数组，也可以调用`sorted`方法，这个方法会返回一个新的数组。


In [3]:
x = [4,1,2,3]
y = sorted(x)

print("now y is: %s, and x is unchanged: %s" % (y, x))

x.sort()

print("now x is: %s" % x)

y is: [1, 2, 3, 4], and x is unchanged: [4, 1, 2, 3]
now x is: [1, 2, 3, 4]


`sort`和`sorted`默认是将数组升序排列的，如果想要倒序排列的话可以传入`reverse=True`这个参数，更进阶一点的话，我们可以定义自己的函数，根据函数返回的结果来排序：

In [5]:
# 根据数据的绝对值从大到小排序
x = sorted([-4,1,-2,3], key=abs, reverse=True) 

print("absolute value: %s" % x)

absolute value: [-4, 3, -2, 1]


### list进阶

我们通常需要对list做的操作包括从一个list复制到另一个list，或者选择list中的某几个特定的元素之类的，用Python的方式会非常方便:


In [6]:
even_numbers = [x for x in range(5) if x % 2 == 0]
print("even_numbers: %s" % even_numbers)

squares = [x * x for x in range(5)]

print("squares: %s" % squares)

even_squares = [x * x for x in even_numbers]

print("even_squares: %s" % even_squares)

even_numbers: [0, 2, 4]
squares: [0, 1, 4, 9, 16]
even_squares: [0, 4, 16]


### Tuples进阶

要说List与Tuples的关系就非常近了，基本上List能做的操作Tuples都能做，除了一点，Tuples不能修改。

In [2]:
my_list = [1, 2]
my_tuple = (1, 2)

my_list[1] = 3
print ("now my_list modify: %s" % my_list)

try:
    my_tuple[1] = 3
except TypeError:
    print ("cannot modify a tuple")

now my_list modify: [1, 3]
cannot modify a tuple


对于函数来说，Tuples有一个作用就是可以很方便的返回多个值：

In [4]:
def sum_and_product(x, y):
    return (x + y), (x * y)

sp = sum_and_product(2, 3)
s, p = sum_and_product(5, 10)

print("sp : %s, s: %s, p: %s" % (sp, s, p))

sp : (5, 6), s: 15, p: 50


### Dictionaries

dictionary，java里是Map，本质上一样，都是键-值对：

In [5]:
empty_dict = {}
grades =  { "Joel" : 80, "Tim" : 95 }

joels_grade = grades["Joel"]

print ("joels_grade: %s" % joels_grade)

joels_grade: 80


### 生成器与迭代器

对于`list`来说有一个令人头疼的问题就是数据及容易变得非常庞大。像`range(1000000)`就创建了一百万个元素。如果我们只是想处理一次，或者只是需要处理其中几个元素，那么这么庞大的队列很有可能会造成内存溢出的问题。

In [None]:
def lazy_range(n):
    i = 0
    while i < n:
        yield i
        i += 1
        
for i in lazy_range(10):
    print (i)

### enumerate

有时候，我们想要迭代一个list，不过我们既想要list中的元素，也想要知道元素的所在的位置，那么是时候请出`enumerate`了：

In [6]:
documents = ['a', 'b']
for i, document in enumerate(documents):
    print (i, document)

0 a
1 b
