# Python 机器学习实战 ——代码样例

# 第二十一章 Python 机器学习工具

## 21.1.3.	NumPy代码示例

In [1]:
import numpy as np

# 创建一个 Numpy 数组。

a = np.array ([1.5, 2.0, 3.5])
a



array([ 1.5,  2. ,  3.5])

In [3]:
# 输出数组对象的结构，这里 a 是一个一维的数组，因此结构是 3*1 ( 1 被省略 )。

a.shape


(3,)

In [4]:
# 输出数组对象中元素的数据类型，这里是 64 位浮点数类型。

a.dtype


dtype('float64')

In [6]:
# 数组的算术运算。

a = np.array([10, 20, 30])
a


array([10, 20, 30])

In [7]:
b = np.arange(3)
b


array([0, 1, 2])

In [8]:
c = a - b  
c

array([10, 19, 28])

In [9]:
# 数学统计。

a = np.array([10, 20, 30])
np.mean(a)


20.0

In [12]:
# 矩阵乘法。

A = np.array( [[1,1], [0,1]] )
B = np.array( [[2,0], [3,4]] )
np.dot(A , B)


array([[5, 4],
       [3, 4]])

## 21.2.3	Series 与 DataFrame

Pandas 最主要的两个数据结构即 Series 和 DataFrame，下面我们对这两者做个简单的介绍。

Series 是一个一维的数组对象，包含一个数组的数据和一个与数组关联的数据标签，也称为“索引”。需要注意的是，Series 中只能存储相同的数据类型 ( 可以是任何 NumPy的数据类型 )。最简单的 Series 是由一个数组的数据构成，下面的程序清单展示了怎样创建一个 Series 对象以及一些简单的操作：

In [13]:
import pandas as pd
import numpy as np
from pandas import Series

# 创建一个简单的 Series。

obj = Series([1, 2, 3, 4]) 
obj


0    1
1    2
2    3
3    4
dtype: int64

In [14]:
# 创建带有索引的 Series。 

obj2 = Series([6, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2


d    6
b    7
a   -5
c    3
dtype: int64

In [15]:
# 绝对索引访问 Series。

obj2['d']  


6

In [16]:
# 利用判别式进行数值筛选。

obj2[obj2 > 0]  


d    6
b    7
c    3
dtype: int64

In [17]:
# 乘法运算，作用到 Series 中的每一个元素。

obj2 * 2


d    12
b    14
a   -10
c     6
dtype: int64

DataFrame 是一个二维的表格型的数据结构，本质上是 Series 的容器，它将多个 Series 通过索引联合在一起。 由于一个 Series 中的数据类型一定是相同的，不同 Series 的数据结构可以不同，因此对于 DataFrame 来说，每一列的数据结构都是相同的，而不同的列之间则可以是不同的数据结构。

In [18]:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame

# 通过字典方式创建 DataFrame。

frame_data = {'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]}
df = DataFrame(frame_data)
df


Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [19]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [20]:
df.columns 

Index(['A', 'B', 'C'], dtype='object')

In [21]:
df.loc[0:1] 

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8


In [22]:
df.loc[:,'A'] 

0    1
1    2
2    3
Name: A, dtype: int64

In [23]:
# decribe 方法可以计算各个列的基本描述统计值，包含计数，平均数，标准差，最大值，最小值及 4 分位差。

df.describe()


Unnamed: 0,A,B,C
count,3.0,3.0,3.0
mean,2.0,5.0,8.0
std,1.0,1.0,1.0
min,1.0,4.0,7.0
25%,1.5,4.5,7.5
50%,2.0,5.0,8.0
75%,2.5,5.5,8.5
max,3.0,6.0,9.0
