In [2]:
import numpy as np

# 第二章

## 2.2 IPython基础

### 创建字典

In [5]:
data = {i:np.random.randn() for i in range(7)}
data

{0: 0.13916463474855895,
 1: -0.7881522542441998,
 2: -1.4429258821471795,
 3: 0.1768773061213112,
 4: 0.4371492035803889,
 5: -0.5275405262824596,
 6: -1.3117797213964362}

data.[tab]

### 对象内省

In [6]:
data?

如果对象是一个函数或实例方法且文档字符串已经写好，则文档字符串会显示出来。假设已经写好如下函数（你可以在IPython或Jupyter中复现）：

In [9]:
def add_numbers(a,b):
    '''return a+b'''
    return a+b

In [10]:
add_numbers?

In [11]:
add_numbers??

?有一个终极用途，可以像标准Unix或Windows命令行一样搜索IPython命名空间。把一些字符和通配符（星号*）结合在一起，会显示所有匹配通配符表达式的命名。例如，我们可以得到NumPy顶层函数中包含load的函数名列表：

In [12]:
np.*load*?

### 关于魔术命令

IPython的特殊命令（没有内建到Python自身中去）被称为“魔术”命令。这些命令被设计用于简化常见任务，确保用户更容易控制IPython系统的行为。魔术命令的前缀符号是百分号%。例如，你可以使用%timeit来检查一段Python语句的执行时间

点积(dot product)

In [13]:
a = np.random.randn(100,100)
%timeit np.dot(a,a)

60.8 µs ± 10.5 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [17]:
a.shape

(100, 100)

In [19]:
np.dot(a,a).shape

(100, 100)

魔术命令可以看作是IPython系统内部的命令行程序。大多数魔术命令都可以使用？查看额外的“命令行”选项：

In [2]:
%debug?

In [1]:
%pwd?

In [23]:
pwd

'/Users/bella/Desktop'

在IPython命令行中，运行%matplotlib命令可以生成多个绘图窗口，而无须干扰控制台的会话。

In [2]:
%matplotlib

Using matplotlib backend: MacOSX


In [3]:
%matplotlib inline

## Python语言基础

### 变量和参数传递

在某些语言中，会是数据[1, 2, 3]被拷贝的过程。在Python中，a和b**实际上是指向了相同的对象**，即原来的[1, 2, 3]（在图2-7中示范）。你可以通过向a中添加一个元素，然后检查b来证明：

In [4]:
a = [1,2,3]
b = a
a.append(4)
b

[1, 2, 3, 4]

### 动态引用、强类型

In [3]:
a = 5

In [4]:
type(a)

int

df[col].dtype

### isinstance函数

isinstance函数: 检查一个对象是否是特定类型的实例

In [5]:
isinstance(5,int)

True

In [7]:
isinstance(5,str)

False

isinstance接受一个包含类型的元组，你可以检查对象的类型是否在元组中的类型中

In [8]:
isinstance(5,(str,int))

True

## 字节与Unicode

In [11]:
val = 'test我爱❤️'

In [12]:
val_utf = val.encode('utf-8')
val_utf

b'test\xe6\x88\x91\xe7\x88\xb1\xe2\x9d\xa4\xef\xb8\x8f'

In [13]:
type(val_utf)

bytes

### Tips: type(), dtype(), .type

In [15]:
val_utf.decode()

'test我爱❤️'

### None

In [16]:
a = None

In [17]:
a

In [19]:
a is not None

False

None不仅是一个关键字，它还是NoneType类型的唯一实例：

In [21]:
type(None)

NoneType

## 日期和时间

In [24]:
from datetime import datetime,date,time

In [27]:
dt = datetime.today()
dt.date()

datetime.date(2021, 3, 13)

strftime方法将datetime转换为字符串

In [28]:
dt.strftime('%m/%d/%Y')

'03/13/2021'

字符串可以通过strptime函数转换为datetime对象

## 控制流

### for

continue和break都是搭配for循环使用

使用continue关键字可以跳过conitnue后面的代码进入下一次循环。

使用break关键字可以结束一个for循环；break关键字只结束最内层的for循环；外层的for循环会继续运行：

### while

while循环会在条件符合时一直执行代码块，直到条件判断为False或显式地以break结尾时才结束：

### 三元表达式

(express,true,false)

# 第三章：内建数据结构、函数及文件

我们将开始介绍Python的常用数据结构：元组、列表、字典和集合

## 数据结构和序列

### 元组

In [30]:
tup = 1,2,3

In [31]:
tup

(1, 2, 3)

可以使用tuple函数将任意序列或迭代器转换为元组：

In [32]:
tuple([4,2,3])

(4, 2, 3)

### 元组拆包

In [33]:
seq = [(1,2,3),(4,5,6),(7,8,9)]

In [34]:
for a ,b ,c in seq:
    print(a,b,c)

1 2 3
4 5 6
7 8 9


In [36]:
a,*rest = seq

In [38]:
rest

[(4, 5, 6), (7, 8, 9)]

In [39]:
a,*_ = seq

In [40]:
_

[(4, 5, 6), (7, 8, 9)]

### list

与字典、集合（后面会介绍）相比，检查列表中是否包含一个值是非常**缓慢**的。这是因为Python在列表中进行了线性逐个扫描，而在字典和集合中Python是同时检查所有元素的（基于哈希表）。

extend和append的区别：

extend与append方法的相似之处在于都是将新接收到参数放置到已有列表的后面。而extend方法只能接收list，且把这个list中的每个元素添加到原list中。

而append方法可以接收任意数据类型的参数，并且简单地追加到list尾部。

###  二分搜索和已排序列表的维护

内建的bisect模块实现了二分搜索和已排序列表的插值。bisect.bisect会**找到元素应当被插入的位置，并保持序列排序**，而bisect.insort将元素插入到相应位置：

bisect模块的函数并不会检查列表是否已经排序，因为这么做代价太大。因此，对未排序列表使用bisect的函数虽然不会报错，但可能会导致不正确的结果。

### 切片

当需要对列表或元组进行翻转时，一种很聪明的用法就是向步进传值-1：

In [42]:
seq = [1,2,3,4,5,6,7]
seq[::-1]

[7, 6, 5, 4, 3, 2, 1]

### 内建序列函数

#### enumerate

In [49]:
some_list = ['foo','bar','baz','ear','mouse','at']
mapping = {}
for i,v in enumerate(some_list):
    mapping[v] = i

In [50]:
mapping

{'foo': 0, 'bar': 1, 'baz': 2, 'ear': 3, 'mouse': 4, 'at': 5}

In [52]:
# 按顺序排好：string类型按照英文首字母形式排好
sorted(mapping)

['at', 'bar', 'baz', 'ear', 'foo', 'mouse']

#### zip

给定一个已“配对”的序列时，zip函数有一种机智的方式去“拆分”序列。这种方式的另一种思路就是将行的列表转换为列的列表。语法看上去略显魔幻：

#### enumerate和zip搭配

###  字典

dict（字典）可能是Python内建数据结构中**最重要**的。它更为常用的名字是**哈希表或者是关联数组**。字典是拥有灵活尺寸的键值对集合，其中键和值都是Python对象。用大括号{}是创建字典的一种方式，在字典中用逗号将键值对分隔：

### 列表、集合和字典的推导式

In [54]:
strings = ['a','as','bat','car','dove','python']

In [56]:
set(map(len,strings))

{1, 2, 3, 4, 6}

In [57]:
{val:index for index,val in enumerate(strings)}

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

## 函数

### 数据预处理

In [60]:
import re

def clean_strings(strings):
    # 去掉空格
    strings = strings.strip()
    strings = re.sub('[! #?]','',strings)
    # Python title() 方法返回"标题化"的字符串,就是说所有单词的首个字母转化为大写，其余字母均为小写(见 istitle())。
    strings = strings.title()
    return strings

### 柯里化：部分参数应用

通过部分参数应用的方式从已有的函数中衍生出新的函数

内建的functools模块可以使用pratial函数简化这种处理：

### 生成器

生成器则“惰性”地返回一个多结果序列，在每一个元素产生之后暂停，直到下一个请求

如需创建一个生成器，只需要在函数中将返回关键字return替换为yield关键字

### itertools模块

标准库中的itertools模块是适用于大多数数据算法的生成器集合。

## 文件与操作系统

用sys模块来检查文件的默认编码：

In [61]:
import sys

In [62]:
sys.getdefaultencoding()

'utf-8'

# 第四章：NumPy基础：数组与向量化计算

NumPy，是Numerical Python的简称，它是目前Python数值计算中最为重要的基础包。大多数计算包都提供了基于NumPy的科学函数功能，将NumPy的数组对象作为数据交换的通用语。

## NumPy ndarray：多维数组对象

In [4]:
int_array = np.arange(10)
int_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### NumPy数组算术

数组之所以重要是因为它允许你进行批量操作而无须任何for循环。NumPy用户称这种特性为**向量化**。任何在两个等尺寸数组之间的算术操作都应用了逐元素操作的方式：

### 布尔索引

### 神奇索引

神奇索引是NumPy中的术语，用于描述使用整数数组进行数据索引。

In [5]:
arr = np.empty((8,4))
arr

array([[-2.68156159e+154, -2.68156159e+154,  8.39911598e-323,
         0.00000000e+000],
       [ 2.46151512e-312,  5.02034658e+175,  2.25085998e+184,
         8.60536380e-067],
       [ 3.08985157e-057,  3.69484820e-057,  5.01163192e+217,
         5.49419094e-143],
       [ 1.50008929e+248,  1.06396443e+224,  6.72967340e+199,
         4.31451112e-096],
       [ 9.08366793e+223,  7.11080362e-038,  1.05165371e-046,
         2.19310181e-056],
       [ 9.27055893e-072,  2.24729309e+174,  1.56605686e-076,
         5.34161158e-038],
       [ 6.37075899e-062,  1.65713891e-076,  1.28625693e+248,
         4.24948967e-086],
       [ 4.24948967e-086,  1.39804329e-076, -2.68156159e+154,
         2.00390162e+000]])

In [12]:
for i in range(8):
    arr[i] = -i

In [13]:
arr

array([[ 0.,  0.,  0.,  0.],
       [-1., -1., -1., -1.],
       [-2., -2., -2., -2.],
       [-3., -3., -3., -3.],
       [-4., -4., -4., -4.],
       [-5., -5., -5., -5.],
       [-6., -6., -6., -6.],
       [-7., -7., -7., -7.]])

In [14]:
arr.shape

(8, 4)

找到第4，3，0，6行索引所对应的数据

In [15]:
arr[[4,3,0,6]]

array([[-4., -4., -4., -4.],
       [-3., -3., -3., -3.],
       [ 0.,  0.,  0.,  0.],
       [-6., -6., -6., -6.]])

In [11]:
arr[[-3,-5,-7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

### 数组转置和换轴

In [16]:
arr = np.arange(16).reshape((2,2,4))
arr


array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [17]:
arr.shape

(2, 2, 4)

In [18]:
arr[0]

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [20]:
arr[0,0]

array([0, 1, 2, 3])

In [19]:
arr[1]

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

## 通用函数：快速的逐元素数组函数

通用函数，也可以称为ufunc，是一种在ndarray数据中进行逐元素操作的函数。某些简单函数接收一个或多个标量数值，并产生一个或多个标量结果，而通用函数就是对这些简单函数的向量化封装。

有很多ufunc是简单的逐元素转换，比如sqrt或exp函数：

## 用数组进行面向数组编程

这种利用数组表达式来替代显式循环的方法，称为**向量化**。通常，向量化的数组操作会比纯Python的等价实现在速度上快一到两个数量级（甚至更多），这对所有种类的数值计算产生了最大的影响。

假设我们想要对一些网格数据来计算函数sqrt(x^2 + y^2)的值。np.meshgrid函数接收两个一维数组，并根据两个数组的所有(x, y)对生成一个二维矩阵：

In [26]:
points = np.arange(-5,5,1)
points

array([-5, -4, -3, -2, -1,  0,  1,  2,  3,  4])

In [27]:
points.shape

(10,)

In [28]:
xs,ys = np.meshgrid(points,points)

In [29]:
xs

array([[-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4],
       [-5, -4, -3, -2, -1,  0,  1,  2,  3,  4]])

In [31]:
xs.shape

(10, 10)

In [30]:
ys

array([[-5, -5, -5, -5, -5, -5, -5, -5, -5, -5],
       [-4, -4, -4, -4, -4, -4, -4, -4, -4, -4],
       [-3, -3, -3, -3, -3, -3, -3, -3, -3, -3],
       [-2, -2, -2, -2, -2, -2, -2, -2, -2, -2],
       [-1, -1, -1, -1, -1, -1, -1, -1, -1, -1],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
       [ 2,  2,  2,  2,  2,  2,  2,  2,  2,  2],
       [ 3,  3,  3,  3,  3,  3,  3,  3,  3,  3],
       [ 4,  4,  4,  4,  4,  4,  4,  4,  4,  4]])

### 将条件逻辑作为数组操作

In [34]:
help(np.where)

Help on function where in module numpy:

where(...)
    where(condition, [x, y])
    
    Return elements chosen from `x` or `y` depending on `condition`.
    
    .. note::
        When only `condition` is provided, this function is a shorthand for
        ``np.asarray(condition).nonzero()``. Using `nonzero` directly should be
        preferred, as it behaves correctly for subclasses. The rest of this
        documentation covers only the case where all three arguments are
        provided.
    
    Parameters
    ----------
    condition : array_like, bool
        Where True, yield `x`, otherwise yield `y`.
    x, y : array_like
        Values from which to choose. `x`, `y` and `condition` need to be
        broadcastable to some shape.
    
    Returns
    -------
    out : ndarray
        An array with elements from `x` where `condition` is True, and elements
        from `y` elsewhere.
    
    See Also
    --------
    choose
    nonzero : The function that is called when x and y

### 数学和统计方法

### 排序

In [35]:
arr = np.random.randn(5,3)
arr

array([[-0.45967281,  2.21803041, -0.99686121],
       [-0.9063157 ,  0.01581067, -1.15014452],
       [ 1.46119056,  0.20680362, -0.92739911],
       [-1.41081593,  1.05621454,  2.17880879],
       [ 2.88853142, -1.32547485,  0.43950728]])

In [39]:
arr.sort(1) # 按行排序
arr

array([[-1.41081593, -0.9063157 ,  0.01581067],
       [-1.32547485, -0.45967281,  1.46119056],
       [-1.15014452,  0.20680362,  2.17880879],
       [-0.99686121,  0.43950728,  2.21803041],
       [-0.92739911,  1.05621454,  2.88853142]])

In [40]:
 arr.sort(0) # 按列排序
arr

array([[-1.41081593, -0.9063157 ,  0.01581067],
       [-1.32547485, -0.45967281,  1.46119056],
       [-1.15014452,  0.20680362,  2.17880879],
       [-0.99686121,  0.43950728,  2.21803041],
       [-0.92739911,  1.05621454,  2.88853142]])

## 线性代数

numpy.linalg拥有一个矩阵分解的标准函数集，以及其他常用函数，例如求逆和行列式求解。

# pandas入门

dataframe.loc[行所索引]

## 基本功能

### 索引、选择与过滤

In [50]:
import pandas as pd
import numpy as np

In [43]:
obj = pd.Series(np.arange(4),index=['a','b','c','d'])
obj

a    0
b    1
c    2
d    3
dtype: int64

In [44]:
obj['b']

1

In [45]:
obj[1]

1

In [46]:
obj[2:4]

c    2
d    3
dtype: int64

In [47]:
obj[obj<2]

a    0
b    1
dtype: int64

In [55]:
x = np.arange(16)

In [58]:
x.reshape(4,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [59]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [60]:
data[:2]

Unnamed: 0,one,two,three,four
a,0,1,2,3
b,4,5,6,7


In [61]:
data[data.three > 5]

Unnamed: 0,one,two,three,four
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


### 使用loc和iloc选择数据

特殊的索引符号loc和iloc:
    
轴标签（loc）或整数标签（iloc）

In [62]:
data

Unnamed: 0,one,two,three,four
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [64]:
data.loc['a','two']

1

In [65]:
data.loc['a']

one      0
two      1
three    2
four     3
Name: a, dtype: int64

In [66]:
data.iloc[0]

one      0
two      1
three    2
four     3
Name: a, dtype: int64

In [68]:
data.iloc[1,[2,3]]

three    6
four     7
Name: b, dtype: int64

除了单个标签或标签列表之外，索引功能还可以用于切片

In [69]:
data.iloc[:,:3][data.three > 5]

Unnamed: 0,one,two,three
b,4,5,6
c,8,9,10
d,12,13,14


### 算术和数据对齐

### DataFrame和Series间的操作

### 函数应用和映射

In [71]:
frame = pd.DataFrame(np.random.rand(4,3),columns=list('bde'),index=['utah','ohio','texas','oregon'])
frame

Unnamed: 0,b,d,e
utah,0.68759,0.984584,0.172986
ohio,0.688492,0.11482,0.137696
texas,0.230509,0.204134,0.29635
oregon,0.519925,0.721254,0.056676


In [72]:
np.abs(frame)

Unnamed: 0,b,d,e
utah,0.68759,0.984584,0.172986
ohio,0.688492,0.11482,0.137696
texas,0.230509,0.204134,0.29635
oregon,0.519925,0.721254,0.056676


另一个常用的操作是将函数应用到一行或一列的一维数组上。DataFrame的**apply**方法可以实现这个功能：

lambda函数，不仅仅可以应用在一列上，还可以应用在dataframe上

In [74]:
f = lambda x:x.max() - x.min()

In [77]:
frame.apply(f)   # 按行进行这个函数

b    0.457983
d    0.869764
e    0.239675
dtype: float64

In [79]:
frame.apply(f,axis=1) 

utah      0.811598
ohio      0.573673
texas     0.092217
oregon    0.664579
dtype: float64

In [80]:
frame.apply(f,axis='columns') 

utah      0.811598
ohio      0.573673
texas     0.092217
oregon    0.664579
dtype: float64

传递给apply的函数并不一定要返回一个标量值，也可以返回带有多个值的Series:

In [88]:
def f(x):
    return pd.Series([x.max(),x.min()],index=['max','min'])

In [84]:
frame.apply(f)

Unnamed: 0,b,d,e
max,0.688492,0.984584,0.29635
min,0.230509,0.11482,0.056676


逐元素的Python函数也可以使用。假设你想要根据frame中的每个浮点数计算一个格式化字符串，可以使用applymap方法：

比一列列的for循环，然后lambda round（x,2）也简洁太多了叭！

In [89]:
format = lambda x:'%.2f' %x

In [90]:
frame.applymap(format)

Unnamed: 0,b,d,e
utah,0.69,0.98,0.17
ohio,0.69,0.11,0.14
texas,0.23,0.2,0.3
oregon,0.52,0.72,0.06


使用applymap作为函数名是因为Series有map方法，可以将一个逐元素的函数应用到Series上：

In [91]:
frame['e'].map(format)

utah      0.17
ohio      0.14
texas     0.30
oregon    0.06
Name: e, dtype: object

### 排序和排名

dense, max, min, average(default)

## 描述性统计的概述与计算

In [None]:
skwe, kurt, idmax, idmin, argmin, argmax

### 唯一值、计数和成员属性

In [92]:
obj = pd.Series(['c','a','d','a','a','b','b','c','c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

isin执行向量化的成员属性检查，还可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集：

In [94]:
mask = obj.isin(['b','c'])

In [95]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [96]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

# 数据载入、存储及文件格式

输入和输出通常有以下几种类型：读取文本文件及硬盘上其他更高效的格式文件、从数据库载入数据、与网络资源进行交互（比如Web API）。