# 第一讲 Python提升探索、Numpy & Pandas

## 第一部分 Python提升探索

尝试着潜入水中，往大洋的深处扎一个小小的猛子

### 1. 数据类型的底层实现

#### 1.1 奇怪的列表

- 错综复杂的复制

In [2]:
list_1 = [1, [22, 33, 44], (5, 6, 7), {'name':'Admond'}]

#直接赋值，对象的引用（别名）
list_2 = list_1

#浅拷贝，拷贝父对象，不会拷贝对象内部的子对象
list_3 = list_1.copy()
list_4 = list_1[:]
list_5 = list(list_1)

#深拷贝，copy模块的deepcopy方法，完全拷贝了父对象及其子对象
import copy

list_6 = copy.deepcopy(list_1)

#### 1.2 列表的底层实现

**引用数组的概念**

列表内的元素可以分散地存储在内存中

列表内存储的，实际上是这些**元素的地址！**——地址的存储

![列表与引用数组](.\image\list.png)

In [3]:
list_1 = [1, [22, 33, 44], (5, 6, 7), {'name':'Admond'}]
list_2 = list_1.copy()

- 新增元素

In [4]:
list_1.append(100)
list_2.append('n')

print('list_1: ', list_1)
print('list_2: ', list_2)

list_1:  [1, [22, 33, 44], (5, 6, 7), {'name': 'Admond'}, 100]
list_2:  [1, [22, 33, 44], (5, 6, 7), {'name': 'Admond'}, 'n']


![如何实现](.\image\list_copy_append.png)

- 修改元素

list_1[0] = 10
list_2[0] = 20

print('list_1: ', list_1)
print('list_2: ', list_2)

![修改如何实现](.\image\list_copy_change.png)

- 对列表型元素进行操作

In [5]:
list_1[1].remove(44)
list_2[1] += [55, 66]

print('list_1: ', list_1)
print('list_2: ', list_2)

list_1:  [1, [22, 33, 55, 66], (5, 6, 7), {'name': 'Admond'}, 100]
list_2:  [1, [22, 33, 55, 66], (5, 6, 7), {'name': 'Admond'}, 'n']


![如何实现](.\image\list_copy_change_1.png)

- 对元组型元素进行操作

In [6]:
list_2[2] += (8, 9)

print('list_1: ', list_1)
print('list_2: ', list_2)

list_1:  [1, [22, 33, 55, 66], (5, 6, 7), {'name': 'Admond'}, 100]
list_2:  [1, [22, 33, 55, 66], (5, 6, 7, 8, 9), {'name': 'Admond'}, 'n']


![如何实现](.\image\list_copy_change_2.png)

元组是不可变的，一旦进行了拼接操作，会形成新的元组

- 对字典型元素进行操作

In [7]:
list_1[-2]['age'] = 18

print('list_1: ', list_1)
print('list_2: ', list_2)

list_1:  [1, [22, 33, 55, 66], (5, 6, 7), {'name': 'Admond', 'age': 18}, 100]
list_2:  [1, [22, 33, 55, 66], (5, 6, 7, 8, 9), {'name': 'Admond', 'age': 18}, 'n']


![如何实现](.\image\list_copy_change_3.png)

- **引入深拷贝**

深拷贝将所有层级的相关元素全部复制，完全分开，泾渭分明，避免了上述问题

In [8]:
import copy

list_1 = [1, [22, 33, 44], (5, 6, 7), {'name':'Admond'}]
list_2 = copy.deepcopy(list_1)
list_1[-1]['age'] = 18
list_2[1].append(55)

print('list_1: ', list_1)
print('list_2: ', list_2)

list_1:  [1, [22, 33, 44], (5, 6, 7), {'name': 'Admond', 'age': 18}]
list_2:  [1, [22, 33, 44, 55], (5, 6, 7), {'name': 'Admond'}]


#### 1.2 神秘的字典

- 快速的查找

In [8]:
import time
import random

ls_1 = list(range(1000000))
random.shuffle(ls_1)
ls_2 = list(range(500)) + [-10] * 500

start = time.time()
count = 0
for n in ls_2:
    if n in ls_1:
        count += 1
end = time.time()
print('查找{}个元素，在ls_1列表中的有{}个，共用时{}秒'.format(len(ls_2), count, round((end-start), 2)))

查找1000个元素，在ls_1列表中的有500个，共用时30.31秒


In [None]:
import time

d = {i: i for i in range(1000000)}
shuffle(d)
ls_2 = list(range(500)) + [-10] * 500

start = time.time()
count = 0
for n in ls_2:
    try:
        d[n]
    except:
        pass
    else:
        count += 1
end = time.time()
print('查找{}个元素，在ls_1列表中的有{}个，共用时{}秒'.format(len(ls_2), count, round((end-start), 2)))

- 字典的底层实现

通过稀疏数组来实现值的存储与访问

- **字典的创建过程**

    > 第一步：创建一个散列表（稀疏数组 N >> n）

In [None]:
d = {}

    > 第二步：通过hash()计算键的散列值

In [None]:
print(hash('python'))
print(hash(1024))
print(hash(1.2))

In [None]:
d['age'] = 18   #增加键值对的操作，首先会计算键的散列值hash('age')
print(hash('age'))

    > 第三步：根据计算的散列值确定在散列表中的位置
    
    极个别时候，散列值会发生冲突，而内部有相应的解决冲突的办法
    
    > 第四步：在该位置上存入值
    
![字典的底层实现](.\image\dict.png)
    
- **键值对的访问过程**

In [None]:
d['age']

    > 第一步：计算要访问键的散列值
    
    > 第二步：根据计算的散列值，通过一定的规则，确定其在散列表中的位置
    
    > 第三步：读取该位置上存储的值
    
        如果存在，则返回该值
        
        如果不存在，则报错KeyError
        
- **小结**

**（1）字典数据类型，通过空间换时间，实现了快速的数据查找**

但同时空间利用效率低下

**（2）因为散列值对应位置的顺序与键在字典中显式的顺序可能不同，因此表现出来字典是无序的**

N >> n
如果N == n， 会产生很多位置冲突

#### 1.3 紧凑的字符串

**通过紧凑数组来实现字符串的存储**

![字符串实现](.\image\str.png)

数据在内存中是连续存放的，效率更高，节省空间

为什么列表采用引用数组，而字符串采用紧凑数组？

#### 1.4 是否可变

- **不可变类型：数字、字符串、元组**

    在生命周期中保持内容不变。换言之，改变了值就不是它自己了（内存中的id变了），不可变对象的+=操作，实际上创建了一个新的对象

In [None]:
x = 1
y = 'Python'

print('x id:', id(x))
print('y id:', id(y))

'''
x += 2
y += '3.8'

print('x id:', id(x))
print('y id:', id(y))
'''

x = x + 5
y = y + 'beta'

print('x id:', id(x))
print('y id:', id(y))

元组也并不是不可变的

In [None]:
t = (1, [2])
print('t id:', id(t))

t[1].append(3)
print(t)
print('t id:', id(t))

- **可变类型：列表、字典、集合**

    id 保持不变，但是里面的内容可以变。可变对象的 += 操作实际在元对象的基础上就地修改。

In [None]:
ls = [1, 2, 3]
d = {'name': 'Sarah', 'age': 18}

print('ls id: ', id(ls))
print('d id: ', id(d))

ls += [4, 5]
d_2 = {'sex': 'Female'}
d.update(d_2)

print('ls id: ', id(ls))
print('d id: ', id(d))

#### 1.5 列表操作的几个小例子

【例1】删除列表内的特定元素

方法1：存在运算删除法

缺点：每次存在运算，都要从头对列表进行遍历、查找，效率低

In [None]:
alist = ['d', 'd', 'd', 2, 2, 'd', 'd', 4]
s = 'd'
while True:
    if s in alist:
        alist.remove(s)  #remove(s)删除列表中第一次出现的该元素
    else:
        break
print(alist)

方法2：一次性遍历元素执行删除

In [None]:
alist = ['d', 'd', 'd', 2, 2, 'd', 'd', 4]
for s in alist:
    if s == 'd':
        alist.remove(s)
print(alist)

解决方法：使用负向索引

In [None]:
alist = ['d', 'd', 'd', 2, 2, 'd', 'd', 4]
for i in range(-len(alist), 0):
    if alist[i] == 'd':
        alist.remove(alist[i])  #remove(s)删除列表中第一次出现的该元素
print(alist)

【例2】多维列表的创建

In [None]:
ls = [[0]*10]*5
ls

In [None]:
ls[0][0] = 1
ls

### 2. 更加简洁的语法

#### 2.1 解析语法

In [None]:
ls = [[0]*10]*5
ls

In [None]:
ls = [[0]*10 for i in range(5)]
ls

In [None]:
ls[0][0] = 1
ls

- 解析语法的基本结构——以列表解析为例（也称为列表推导、列表生成式等）

[**expression** for value in **iterable** if condition]

- 三要素：表达式、可迭代对象、if条件（可选）

**执行过程**

    > 第一步，从可迭代对象中拿出一个元素
    
    > 第二步，通过if条件（如果有），对元素进行筛选
        
        若通过筛选，则把元素传递给表达式
        
        若未通过，则进入下一次迭代
      
    > 第三步，将传递给表达式的元素，代入表达式处理，产生结果
    
    > 第四步，将第三步产生的结果作为列表的一个元素进行存储
    
    > 第五步，重复一至四步，直到迭代结束，返回新创建的列表

In [None]:
#等价于如下代码
result = []
for value in iteralbe:
    if condition:
        result.append(expression)

【例】求20以内奇数的平方

In [None]:
square = []
for i in range(1, 21):
    if i%2 == 1:
        square.append(i**2)
print(square)

In [None]:
squares = [i**2 for i in range(1, 21) if i%2 == 1]
print(square)

**支持多变量和嵌套循环**

In [None]:
x = [1, 2, 3]
y = [4, 5, 6]

results = [i*j for i, j in zip(x, y)]
results

In [None]:
colors = ['black', 'white']
sizes = ['s', 'm', 'l']
tshirts = ['{} {}'.format(color, size) for color in colors for size in sizes]
tshirts

#### 2.2 其他解析语法的例子

- 解析语法构造字典（字典生成式）

In [None]:
squares = {i : i**2 for i in range(10)}
for k, v in squares.items():
    print(k, ': ', v)

- 解析语法构造集合（集合生成式）

In [None]:
squares = {i**2 for i in range(10)}
squares

- 生成器表达式

In [None]:
squares = (i**2 for i in range(10))
squares

In [None]:
colors = ['black', 'white']
sizes = ['s', 'm', 'l']
tshirts = ('{} {}'.format(color, size) for color in colors for size in sizes)
for tshirt in tshirts:
    print(tshirt)

#### 2.3 条件表达式

expr1 if condition else expr2

【例】将变量n的绝对值赋给变量x

In [None]:
n = 10
if n >= 0:
    x = n
else:
    x = -n
x

In [None]:
n = -10
x = n if n>=0 else -n
x

**条件表达式和解析语法简单实用，运行速度相对快一些，相信大家慢慢会爱上它们**

### 3. 三大神器

#### 3.1 生成器

In [None]:
ls = [i**2 for i in range(1, 1000001)]

In [None]:
for i in ls:
    pass

缺点：占用大量内存

**生成器**

（1）采用惰性计算的方式

（2）无需一次性存储海量数据

（3）一边执行一边计算，只计算每次需要的值

（4）实际上一直在执行next()操作，直到无值可取

- **生成器表达式**

海量数据，不需存储

In [None]:
squares = (i**2 for i in range(1000000))

In [None]:
for i in squares:
    pass

In [None]:
#求0-100的和

sum(i for i in range(101))

- **生成器函数——yield**

In [None]:
#生产斐波那契数列
def fib(max):
    ls = []
    n, a, b = 0, 1, 1
    while n < max:
        ls.append(a)
        a, b = b, a + b
        n = n+1
    return ls

fib(10)

In [None]:
#依次输出斐波那契数列
def fib(max):
    n, a, b = 0, 1, 1
    while n < max:
        print(a)
        a, b = b, a + b
        n + n +1

fib(10)

构造生成器函数，在每次调用next()的时候执行，遇到yield语句返回，再次执行时从上次返回yield语句处继续执行

In [None]:
def fib(max):
    n, a, b = 0, 1, 1
    while n < max:
        yield a
        a, b = b, a + b
        n + n +1

fib(10)

In [None]:
for i in fib(10):
    print(i)

#### 3.2 迭代器

- **可迭代对象**

可直接作用于for循环的对象统称为可迭代对象：iterable

**（1）列表、元组、字符串、字典、集合、文件**

可以使用isinstance()判断一个对象是否可迭代（iterable）


In [None]:
from collections import Iterable

isinstance([1, 2, 3], Iterable)

In [None]:
isinstance({'name':'Joe'}, Iterable)

In [None]:
isinstance('Python', Iterable)

**（2）生成器**

In [None]:
squares = {i**2 for i in range(5)}
isinstance(squares, Iterable)

生成器不但可以用于for循环，还可以被next()调用

In [None]:
print(next(squares))
print(next(squares))
print(next(squares))
print(next(squares))
print(next(squares))

直到没有数据可取，抛出Stopiteration

In [None]:
print(next(squares))

可以被next()调用，并不断返回下一个值，直至没有数据可取的对象成为**迭代器：Iterator**

- **迭代器**

**（1）生成器都是迭代器**

In [None]:
from collections import Iterator

squares = {i**2 for i in range(5)}
isinstance(squares, Iterator)

**（2）列表、元组、字符串、字典、集合不是迭代器**

In [None]:
isinstance([1, 2, 3], Iterator)

可以通过*iter(iterable)*创建迭代器

In [None]:
isinstance(iter([1, 2, 3]), Iterator)

for iterm in Iterable  等价于：
    
    先通过iter()函数获取Iterable的迭代器Iterator
    
    然后对获取到的迭代器不断调用next()方法来获取下一个值并将其赋值给iterm
    
    当遇到StopIteration的异常后循环结束
    
**（3）zip enumarate等 itertools里的函数是迭代器**

In [None]:
x = [1, 2]
y = ['a', 'b']
zip(x, y)

In [None]:
for i in zip(x, y):
    print(i)
    
isinstance(zip(x, y), Iterator)

In [None]:
numbers = [1, 2, 3, 4, 5]
enumerate(numbers)

In [None]:
for i in enumerate(numbers):
    print(i)
    
isinstance(enumerate(numbers))

**（4）文件是迭代器**

In [None]:
with open('test.txt', 'r', encoding = 'utf-8') as f:
    print(isinstance(f, Iterator))

**（5）迭代器是可以耗尽的**

In [None]:
squares = {i**2 for i in range(5)}
for square in squares:
    print(square)

In [None]:
for sauqre in squares:
    print(square)

**（6）range()不是迭代器**

In [None]:
numbers = range(10)
print(isinstance(numbers, Iterable))
print(isinstance(numbers, Iterator))

In [None]:
print(len(numbers))    #有长度，而迭代器无长度
print(numbers[0])      #可索引，而迭代器不可索引
print(9 in numbers)    #可存在计算，而迭代器不可存在计算
next(numbers)          #不可被next()调用，而迭代器可以被next()调用

In [None]:
for number in numbers:
    print(number)

for number in numbers:
    print(number)

range()不会被耗尽，可以称其为一个**懒序列（惰性序列)**

    它是一种序列
    
    但并不包含任何内存中的内容
    
    而是通过计算来回答问题
    
#### 3.3 装饰器

- **为什么要有装饰器？**

（1）需要对已开发上线的程序添加某些功能

（2）不能对程序中函数的源代码进行修改

（3）不能改变程序中函数的调用方式

比如说，**要统计每个函数运行的时间**，这个时候可以用装饰器

In [None]:
def f1():
    pass


def f2():
    pass


def f3():
    pass


f1()
f2()
f3()

- **函数对象**

函数是Python中的第一类对象

（1）可以把函数赋值给变量

（2）对该变量进行调用，可实现原函数的功能

（3）可以把函数当作参数进行传递、返回

In [None]:
def square(x):
    return x**2

print(type(square))     #square 是 function 类的一个实例

In [None]:
pow_2 = square
print(pow_2(5))
print(square(5))

- **高阶函数**

（1）接收函数作为参数

（2）或者返回一个函数

**满足上述条件之一的函数称之为高阶函数**

In [None]:
def square(x):
    return x**2

def pow_2(fun):
    return fun

f = pow_2(square)
f(8)

- **嵌套函数**

**在函数内部定义一个函数**

In [None]:
def outer():
    print('outer is running')
    
    def inner():
        print('inner is running')
        
    inner()
    
    
outer()

- **闭包**

In [None]:
def outer():
    x = 1
    z = 10
    
    def inner():
        y = x + 100
        return y, z
    
    return inner


f = outer()
print(f)

In [None]:
print(f.__closure__)  # __closure__属性中包含了来自外部函数的信息
for i in f.__closure__:
    print(i.cell__contents)

In [None]:
res = f()
print(res)

**闭包：延伸了作用域的函数**

如果一个函数定义在另一个函数的作用域内，并且引用了外层函数的变量，则该函数称为闭包

闭包是由函数及其相关的引用环境组合而成的实体（闭包 = 函数 + 引用环境）

- 一旦在内层函数重新定义了相同名字的变量，则变量称为局部变量

In [None]:
def outer():
    x = 1
    
    def inner():
        x = x + 100
        return x
    
    return inner

f = outer()
f()

In [None]:
def outer():
    x = 1
    
    def inner():
        nonlocal x
        x = x + 100
        return x
    
    return inner

f = outer()
f()

- **一个简单的装饰器**

**嵌套函数实现**

In [None]:
import time

def timer(func):
    
    def inner():
        print('inner run')
        start = time.time()
        func()
        end = time.time()
        print('{}函数运行用时：{:.2f}秒'.format(func.__name__, (end - start)))
    
    return inner


def f1():
    print('f1 run')
    time.sleep(1)
    

f1 = timer(f1)    #包含inner()和timer的环境，如传递过来的参数func
f1()

**语法糖**

In [None]:
import time

def timer(func):
    
    def inner():
        print('inner run')
        start = time.time()
        func()
        end = time.time()
        print('{}函数运行用时：{:.2f}秒'.format(func.__name__, (end - start)))
    
    return inner

@timer      #相当于 f1 = timer(f1) 语句
def f1():
    print('f1 run')
    time.sleep(1)
    

f1()

被修饰函数有参数的情况

In [None]:
import time

def timer(func):
    
    def inner(*args, **kwargs):
        print('inner run')
        start = time.time()
        func(*args, **kwargs)
        end = time.time()
        print('{}函数运行用时：{:.2f}秒'.format(func.__name__, (end - start)))
    
    return inner

@timer      #相当于 f1 = timer(f1) 语句
def f1(n):
    print('f1 run')
    time.sleep(n)
    

f1(2)

被装饰函数有返回值的情况

In [None]:
import time

def timer(func):
    
    def inner(*args, **kwargs):
        print('inner run')
        start = time.time()
        res = func(*args, **kwargs)
        end = time.time()
        print('{}函数运行用时：{:.2f}秒'.format(func.__name__, (end - start)))
        return res
    
    return inner

@timer      #相当于 f1 = timer(f1) 语句
def f1(n):
    print('f1 run')
    time.sleep(n)
    return 'wake up'
    

res = f1(2)
print(res)

- **带参数的装饰器**

装饰器本身要传递一些额外参数

- 需求：有事需要统计绝对时间，有时需要统计绝对时间的2倍

In [None]:
import time

def timer(method):
    
    def outer(func):
        
        def inner(*args, **kwargs):
            print('inner run')
            if method == 'origin':
                print('origin_inner run')
                start = time.time()
                res = func(*args, **kwargs)
                end = time.time()
                print('{}函数运行用时：{:.2f}秒'.format(func.__name__, (end - start)))
            elif method == 'double':
                print('double_inner run')
                start = time.time()
                res = func(*args, **kwargs)
                end = time.time()
                print('{}函数运行双倍用时：{:.2f}秒'.format(func.__name__, 2*(end - start)))
            return res
    
        return inner
    
    return outer

@timer(method='origin')      #相当于 timer = timer(method='origin')    f1 = timer(f1)
def f1(n):
    print('f1 run')
    time.sleep(n)
    return 'wake up'
    

@timer(method='double')      #相当于 timer = timer(method='double')    f1 = timer(f1)
def f2(n):
    print('f2 run')
    time.sleep(n)
    return 'wake up'

res = f1(2)
print(res)

res = f2(2)
print(res)

**理解闭包是关键！！！**

- **何时执行装饰器？**

一装饰就执行，不必等调用

In [None]:
func_names = []

def find_function(func):
    print('run')
    func_names.append(func)
    return func

@find_function
def f1():
    print('f1 run')

    
@find_function
def f2():
    print('f2 run')
    
    
@find_function
def f3():
    print('f3 run')

In [None]:
for func in func_names:
    print(func.__name__)
    func()
    print()

- **回归本源**

**原函数的属性倍掩盖了**

In [None]:
import time

def timer(func):
    def inner():
        print('inner run')
        start = time.time()
        func()
        end = time.time()
        print('{}函数运行用时{:.2f}秒'.format(func.__name__, (end-start)))
    
    return inner

@timer
def f1():
    time.sleep(1)
    print('f1 run')
    

print(f1.__name__)

@wraps

In [None]:
import time

def timer(func):
    @wraps(func)
    def inner():
        print('inner run')
        start = time.time()
        func()
        end = time.time()
        print('{}函数运行用时{:.2f}秒'.format(func.__name__, (end-start)))
    
    return inner

@timer
def f1():
    time.sleep(1)
    print('f1 run')
    

print(f1.__name__)

## 第二部分 Numpy

*问题：有了列表、元组那么多组合数据类型，为什么还要用Numpy？*

In [None]:
%run answer.py

[Numpy](https://numpy.org/)是一个开源的python科学计算基础库。

1.一个强大的N维数组对象ndarray

2.广播功能函数

3.整合C/C++/Fortran代码的工具

4.线性代数、傅里叶变换、随机数生成等功能

NumPy是SciPy、Pandas等数据处理或科学计算库的基础。

### 1. Ndarray

**一维数据**：一般认为，是对同一个参数多次观测而得到的一组数据。

**二维数据**：由多个一维数据构成，是一维数据组合形式。

**高维数据**：高维数据仅利用最基本的二元关系展示数据间的复杂结构

如果我们使用Python的基本数据类型来表示一维数据，可以使用列表和集合类型

In [None]:
a = ['00120345','00120346', '00120347'] #有序

b = {'小蓝', '小红', '小黄'} #无序

In [10]:
如果我们要表征二维数据或高维数据，可以使用嵌套列表。

SyntaxError: invalid character in identifier (<ipython-input-10-f927f6e3b3f0>, line 1)

In [None]:
a = [[20190101,20190102,20190103],
     ['happy','sad','happy']]

但如前所述，如果使用嵌套列表，会存在很多问题，使用起来也很不方便。

【例1】如果我们要计算$\frac{A^{2} + B^{2}}{2}$，其中，A和B是一维数组

In [None]:
def pySum(a, b):
    c=[]
    for i in range(len(a)):
        c.append((a[i]**2+b[i]**2)/2)
    return c

a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
print(pySum(a, b))

上述方法我们还是将我们的工作点放在一个一个元素的运算上，这并不是一种科学计算（不够抽象）的思想和方式。

Numpy使用了另外一种思路。如下：

In [None]:
import numpy as np  #引入numpy模块
import pandas as pd

def npSum(a, b):    
    c = (a**2 + b**2) / 2   # '**' 数组中每个元素的次方
    return c

a = np.array([0,1,2,3,4]) #生成一个数组
b = np.array([9,8,7,6,5])
print(npSum(a, b))

#### 1.1 ndarray

- **ndarray的优势**

    1. 数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据。

    2. 通过设置专门的数组对象，经过优化，可以提升这类应用的运算速度。

        - NumPy的底层实现是由C来完成的，在进行数组运算的时候，底层的C会提供非常高效和快速的运算性能。
        - 由于在科学计算中，一个维度所有数据的类型往往相同（见一维数据的一般定义），数组对象采用相同的数据类型，有助于节省运算和存储空间。

- **ndarray的内部构成**

    1.实际的数据（data）

    2.描述这些数据的元数据（metadata），如数据维度、数据类型等

ndarray数组一般要求所有元素类型相同（同质），数组下标从0开始。

注：当然，ndarray数组可以由非同质对象构成。其元素为对象类型。非同质ndarray无法有效发挥NumPy优势，尽量避免使用。

- **ndarray的一些属性**

In [None]:
a=np.array([[0,1,2,3,4],
            [9,8,7,6,5]])
a

In [None]:
print(a) # 打印时元素由空格分割

In [None]:
a.ndim  # 秩，即轴的数量或维度的数量

In [None]:
a.shape # ndarray对象的尺度，对于矩阵，n行m列

In [None]:
a.size  # ndarray对象元素的个数，相当于.shape中的n*m的值

In [None]:
a.dtype # ndarray对象的元素类型

[dtype有哪些？为什么？](https://numpy.org/doc/1.18/user/basics.types.html)

In [None]:
a.itemsize  # ndarray对象中每个元素的大小，以字节为单位

*轴与秩*

轴（axis）:保存数据的维度

秩（rank）:轴的数量，即有几个维度

ndarray的元素类型（支持的数据类型可自行百度或见[numpy doc](https://numpy.org/doc/1.18/user/basics.types.html)）

    1. 科学计算涉及数据较多，对存储和性能都有较高要求。

    2. 对元素类型精细定义，有助于NumPy合理使用存储空间并优化性能。

    3. 对元素类型精细定义，有助于程序员对程序规模有合理评估。

- **ndarray的创建**

1.从Python中的列表、元组等类型中创建ndarray数组

In [None]:
x = np.array(list/tuple)
x = np.array(list/tuple, dtype = np.float32) #指定元素的数据类型

# 当np.array()不指定dtype时，NumPy根据数据情况关联一个dtype类型

2.使用NumPy中的内建函数来创建ndarray数组，如：arange,ones,zero等np.zeros()

函数|说明
:--|:--
np.arange(n)|类似range()函数，返回ndarray类型，元素从0到n-1
np.ones(shape）|根据shape生成一个全1数组，shape是元组类型
np.zeros(shape)|根据shape生成一个全0数组，shape是元组类型
np.full(shape,val)|根据shape生成一个数组，每个元素值都是val
np.eye(n)|创建一个正方的n\*n单位矩阵，对角线为1，其余为0


In [None]:
a = np.arange(100)
a

In [None]:
a = np.ones((3,4), dtype=np.int8)
a

In [None]:
a = np.zeros((3, 3, 3))
a

In [None]:
a = np.full((3, 3), 666)
a

In [None]:
a = np.eye(3)
a

除了上述方法，还可以：

函数|说明
:--|:--
np.ones_like(a)|根据数组a的形状生成一个全1的数组
np.zeros_like(a)|根据数组a的形状生成一个全0的数组
np.full_like(a,val)|根据数组a的形状状生成一个数组,每个元素值都是val
np.linspace(start,end,num)|根据起止数据及元素个数等间距地填充数据，形成数组，如果将参数endpoint置为False,end将不作为最后一个元素出现
np.concatenate(a)|将两个或多个数组合并成一个新数组,a为一个元组

In [None]:
a = np.ones_like([99, 8, 1])
a

In [None]:
a = np.zeros_like([[3], [3,4], [3,4,5]])
a

In [None]:
a = np.full_like([1, 1, 1, 1], 666)
a

In [None]:
a = np.linspace(1, 10, 4)
a

In [None]:
b = np.linspace(1, 10, 4, endpoint=False)
b

In [None]:
c = np.concatenate((a, b))
c

此外，还可以：

3.从字节流（raw bytes）中创建ndarray数组。

4.从文件中读取特定格式，创建ndarray数组。

本部分暂略。

- **ndarray的维度变换**

对于创建后的ndarray数组，可以对其进行维度变换和元素类型变换，这在数据整理和计算环节应用广泛。

维度变换的方法主要有：

方法|说明
:--|:--
.reshape(shape)|不改变数组元素，返回一个shape（shape是一个元组）形状的数组，原数组不变
.resize(shape)|与.reshape()功能一致，但修改原数组
.swapaxes(ax1,ax2)|将数组n个维度中的两个维度进行调换
.flatten()|对数组进行降维，返回折叠后的一维数组，原数组不变

*ndarray转为列表*  .tolist() 方法

In [None]:
a = np.ones((2,3,4),dtype=np.int32)
a

In [None]:
a.reshape((5, 3))

In [None]:
a

In [None]:
a.resize((3, 8))

In [None]:
a

In [None]:
a = np.ones((2,3,4),dtype=np.int32)
a

In [None]:
a.flatten()

In [None]:
a

In [None]:
b = a.flatten()
b

In [None]:
a = np.ones((2,3,4),dtype=np.int32)
a

In [None]:
b = a.astype(np.float)
b

#astype()方法一定会创建新的数组（原始数据的一个拷贝），即使两个类型一致

In [None]:
a = np.ones((2,3,4),dtype=np.int32)
a

In [None]:
a.tolist()

- **ndarray的操作**

数组的索引和切片

索引：获取数组中特定位置元素的过程

切片：获取数组元素子集的过程

其中，一维数组的索引和切片与python的列表类似，同样允许反向切片和反向索引

另外需要注意的是，每个维度一个索引值，逗号分割

In [None]:
a=np.arange(1, 10)
a

In [None]:
a[2]

In [None]:
a[1:4:2] #切片  [起止编号：终止编号（不含）：步长]

对多维数组而言，索引操作如下：

In [None]:
a=np.arange(50).reshape((2,5,5))
a

In [None]:
a[1,2,3]

In [None]:
a[0,1,2]

In [None]:
a[-1,-2,-3]  # -1表示数组中最后一个元素值，-2表示倒数第二个元素值

对多维数组而言，切片操作如下：

In [None]:
a[:,1,-3]  #选取整个维度，此处表示第一维度的每个元素都要进行切片


In [None]:
a[:,1:3,:]  #每个维度切片方法与一维数组相同

In [None]:
a[:,:,::2]     # 每个维度可以使用步长跳跃切片

- **ndarray数组的运算**

1.数组与标量之间的运算作用于数组的每一个元素

相当于矩阵乘以标量

$$        \alpha \cdot \begin{pmatrix}
        x_{11} & x_{12} & \cdots & x_{1n} \\
        x_{21} & x_{22} & \cdots & x_{2n} \\
         \vdots & \vdots & \ddots & \vdots \\
        x_{m1} & x_{m2} & \cdots & x_{mn} \\
        \end{pmatrix} = 
        \begin{pmatrix}
        \alpha \cdot x_{11} & \alpha \cdot x_{12} & \cdots & \alpha \cdot x_{1n} \\
        \alpha \cdot x_{21} & \alpha \cdot x_{22} & \cdots & \alpha \cdot x_{2n} \\
         \vdots & \vdots & \ddots & \vdots \\
        \alpha \cdot x_{m1} & \alpha \cdot x_{m2} & \cdots & \alpha \cdot x_{mn} \\
        \end{pmatrix} $$

In [None]:
a=np.arange(50).reshape((2,5,5))
a

In [None]:
a.mean()  #求a中所有元素平均值

In [None]:
a = a / a.mean()  #计算a与元素平均值的商
a

- **NumPy一元函数**

对ndarray中的数据执行元素级运算的函数

<table>
    <tr>
        <th>函数</th>
        <th>说明</th>
    </tr>
    <tr>
        <td>np.abs(x) np.fabs(x)</td>
        <td>计算数组各元素（整数、浮点数）的绝对值</td>
    </tr>
    <tr>
        <td>np.sqrt(x)</td>
        <td>计算数组各元素的平方根</td>
    </tr>
    <tr>
        <td>np.square(x)</td>
        <td>计算数组各元素的平方</td>
    </tr>
    <tr>
        <td>np.log(x) np.log10(x)</td>
        <td rowspan="2">计算数组各元素的自然对数、10底对数和2底对数</td>
    </tr>
    <tr>
        <td>np.log2(x) </td>
    </tr>
    <tr>
        <td>np.ceil(x) np.floor(x)</td>
        <td>计算数组各元素的ceiling值（向上取整）或floor值（向下取整）</td>
    </tr>
    <tr>
        <td>np.rint(x)</td>
        <td>计算数组各元素的四舍五入值</td>
    </tr>
    <tr>
        <td>np.modf(x)</td>
        <td>将数组各元素的小数和整数部分以两个独立数组形式返回</td>
    </tr>
    <tr>
        <td>np.cos(x) np.cosh(x)</td> 
        <td rowspan="3">计算数组各元素的普通型和双曲型三角函数</td>
    </tr>
    <tr>
        <td>np.sin(x) np.sinh(x)</td>
    </tr>
    <tr>
        <td>np.tan(x) np.tanh(x)</td>
    </tr>
    <tr>
        <td>np.exp(x)</td>
        <td>计算数组各元素的指数值</td>
    </tr>
    <tr>
        <td>np.sign(x)</td>
        <td>计算数组各元素的符号值，1(+),0,-1(-)</td>
    </tr>
</table>

In [None]:
a=np.arange(50).reshape((2,5,5))
a

In [None]:
np.square(a)

In [None]:
a

In [None]:
a = np.sqrt(a)
a

In [None]:
np.modf(a)

- **Numpy二元函数**

函数|说明
:--|:--
+ - * / **|两个数组各元素进行对应运算
np.maximum(x,y) np.fmax()|返回一个元素为两个数组对应位置中较大的元素组成的数组
np.minimum(x,y) np.fmin()|返回一个元素为两个数组对应位置中较小的元素组成的数组
np.mod(x,y)|元素级的模运算
np.copysign(x,y)|将数组y中各元素值的符号赋值给数组x对应元素
\> < >= <= == !=|算术比较，产生布尔型数组


In [None]:
a=np.arange(50).reshape((2,5,5))
a

In [None]:
b = np.sqrt(a)
b

In [None]:
np.maximum(a, b)

In [None]:
a > b

## 第三部分 Numpy数据存取与函数

### 1. csv文件读写

#### 1. 读取

一般来说,我们常用CSV文件（Comma-Separated Value,逗号分隔值）来存储二维批量数据。

![](coronavirus.png)

但Numpy并不能直接打开csv文件，但可以把csv文件当作一个txt文件来解码。（其实csv本质也是一个txt）[方法](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html)是：

numpy.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding='bytes', max_rows=None)


参数|说明
:---|:---
fname|文件、字符串或产生器，可以是.gz或.bz2的压缩文件
dtype|数据类型，可选
delimiter|分割字符串，默认是任何空格
unpack|如果True，读入属性将分别写入不同变量

但千万注意，np.loadtxt()方法会把读取文件的内容转化为一个ndarray，所以当文件中有不同数据类型的数据时，可能会导致错误。对数据文件来说，**Each row in the text file must have the same number of values.**

In [None]:
a = np.loadtxt('coronavirus.csv', delimiter=',')
a

In [None]:
a = np.loadtxt('a.csv', delimiter=',')
a

#### 1.2 写入

虽然不能很方便的打开复杂的数据文件，但我们可以用[np.savetxt()方法](https://docs.scipy.org/doc/numpy/reference/generated/numpy.savetxt.html)将文件写入CSV文件：

numpy.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='n', header='', footer='', comments='# ', encoding=None)

参数|说明
:---|:---
fname|文件（如：a.csv）、字符串或产生器，可以是.gz或.bz2的压缩文件。
array|存入文件的数组。
fmt|写入文件的格式，例如：%d %.2f %.18e(科学计数法保留18位小数).a.csv
delimiter|分割字符串，默认是空格。

另外需要注意的是，csv文件适用于二维数据，如果数维度据过于复杂，请不要使用np.savetxt()方法。

In [None]:
b = np.arange(100).reshape((2, 5, 10))
np.savetxt('b.csv', b, fmt='%d', delimiter=',')

In [None]:
b = np.arange(100).reshape(10, 10)
np.savetxt('b.csv', b, fmt='%d', delimiter=',')

In [None]:
b = np.arange(100).reshape(10, 10)
np.savetxt('b.csv', b, fmt='%.1f', delimiter=',')

#### 1.3 CSV文件的局限性

CSV文件只能有效存储一维和二维数组

np.savetxt() np.loadtxt()只能有效存取一维和二维数组

#### 1.4 任意维度数据的存取

- **维度的丢失**

**np.ndarray.tofile()**

利用[np.ndarray.tofile()方法](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.tofile.html)

np.ndarray.tofile(fid, sep="", format="%s")

参数|说明
:--|:--
fid|一个已经打开的文件对象或文件地址。
sep|数据分割字符串，如果是空串，写入文件为二进制。
format|写入数据的格式。

In [None]:
a = np.arange(100).reshape((2, 5, 10))
print(a)
a.tofile('a.dat', sep=',', format='%d')

但是，使用ndarray.tofile()存储数据，会失去维度信息。

打开文件后，没有维度信息，只是将数组中的元素逐一地列出并输出到该文件中，是个文本文件。

我们可以使用[np.fromfile()方法](https://docs.scipy.org/doc/numpy/reference/generated/numpy.fromfile.html)打开这个文件看看。

**np.fromfile()**

numpy.fromfile(file, dtype=float, count=-1, sep='', offset=0)


参数|说明
:--|:--
frame|文件、字符串。
dtype|读取的数据类型。
count|读入元素的个数，-1表示读入整个文件。
sep|数据分割字符串，如果是空串，写入文件为二进制。
offset|The offset (in bytes) from the file’s current position. Defaults to 0. Only permitted for binary files.

注意：该方法需要读取时知道存入文件时数组的维度和元素类型

ndarray.tofile()和np.fromfile()需要配合使用

为了解决上述问题，我们可以通过再写一个文件，将要存储的数组的每个元素的类型及数组的维度作为元信息存储起来，读入数组时通过元文件获取该数组的信息。

这样的方法显然有一些复杂和麻烦，但是对于一些大规模数据存储时这样的方法还是有效的。

In [None]:
b = np.fromfile('a.dat', dtype=np.int, sep=',')

b

只有我们通过ndarray.reshape()方法，才能把读入文件的数据重新整理成为我们想要的维度。

In [None]:
c = np.fromfile("a.dat",dtype=np.int,sep='').reshape((5,2,10)  #利用reshape方法得到想要的数组维度

- **使用np.save()保存维度信息**

使用[np.save()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.save.html)可以很好地解决多维数组的存取问题

这种方法文件的读取和写入是基于numpy自定义的文件格式(.npy)，如果你不想用这种文件格式，就用上一种方法，如果无所谓，就使用这种方法。

numpy.save(file, arr, allow_pickle=True, fix_imports=True)

参数|说明
:--|:--
frame|文件名称，以.npy为扩展名 。这种文件是numpy自定义的文件类型
array|数组变量

打开.npy文件需要使用[np.load()方法](https://docs.scipy.org/doc/numpy/reference/generated/numpy.load.html)

numpy.load(file, mmap_mode=None, allow_pickle=False, fix_imports=True, encoding='ASCII')


In [None]:
a = np.arange(100).reshape((2, 5, 10))

np.save('a.npy', a)

b = np.load('a.npy')

b

### 2. Numpy函数

Numpy下提供了一系列子库，来帮助我们实现许多专门针对数组（或者说矩阵）的科学计算。

#### 2.1 numpy的随机数函数子库

调用：

np.random.*

函数|说明
:--|:--
rand(d0,d1,…dn)|根据d0-dn创建随机数数组，浮点数，\[0,1),均匀分布
randn(d0,d1,…dn)|根据d0-dn创建随机数数组，标准正态分布
randint(low[,high,shape])|根据shape创建随机整数或整数数组，范围是[low,high)
seed(s)|随机数种子，s是给定的种子值

In [13]:
import numpy as np

a = np.random.rand(3, 4, 5)

a

array([[[ 0.59681127,  0.02667126,  0.51460419,  0.94721204,  0.19789692],
        [ 0.10024366,  0.14418368,  0.46280433,  0.14513631,  0.94636394],
        [ 0.34020967,  0.41036069,  0.30391701,  0.51424916,  0.12915557],
        [ 0.25875872,  0.30504911,  0.93953048,  0.91017628,  0.3793624 ]],

       [[ 0.12334194,  0.40916894,  0.52825972,  0.09428966,  0.9115838 ],
        [ 0.44136913,  0.42367452,  0.96557259,  0.22835105,  0.36517107],
        [ 0.38651744,  0.18184143,  0.92658909,  0.57568911,  0.06019857],
        [ 0.03197147,  0.22628539,  0.09415259,  0.3673241 ,  0.8032427 ]],

       [[ 0.31193377,  0.04916177,  0.42092399,  0.24508466,  0.51393682],
        [ 0.1166268 ,  0.0311872 ,  0.42764972,  0.40703555,  0.31740228],
        [ 0.21361418,  0.04668915,  0.31918625,  0.78754106,  0.51783106],
        [ 0.31626732,  0.46849685,  0.12616543,  0.29358229,  0.28680984]]])

In [14]:
b = np.random.randn(3, 4, 5)

b

array([[[ 0.0096029 ,  0.39005631,  0.06028984,  2.08340831, -0.18639839],
        [ 0.33409774, -0.24322648, -0.47744267,  0.10147294,  1.47331993],
        [ 0.69479618,  0.75015632, -1.01996512,  0.42726785, -0.09331923],
        [-0.53552049,  1.75808658,  0.47255945,  0.17644677,  1.87138484]],

       [[-0.72060796, -0.85849889, -0.66080736,  0.96234456, -0.77610856],
        [ 0.10623383, -1.08139342, -1.03583717,  0.17435812, -0.48084228],
        [-0.80008444,  0.2923613 ,  0.54164184, -0.38103277, -0.60495526],
        [ 0.99458812, -3.19024302, -0.49591681,  0.94570547,  2.2664439 ]],

       [[-0.23846489,  0.64953486,  0.32890306,  1.55140417,  0.63096472],
        [-1.10860706, -0.15436756, -0.06120377, -0.80896513,  0.24840792],
        [ 0.02629778, -0.24078609, -0.39898805,  0.28727336,  0.91996996],
        [-0.21317497, -0.83538437,  0.47246429, -0.45307583, -0.3556994 ]]])

In [15]:
c = np.random.randint(100, 200, (3, 4))

c

array([[129, 164, 165, 140],
       [142, 180, 136, 183],
       [187, 104, 145, 157]])

In [16]:
np.random.seed(10)

np.random.randint(100, 200, (3, 4))

array([[109, 115, 164, 128],
       [189, 193, 129, 108],
       [173, 100, 140, 136]])

In [17]:
np.random.seed(10)

np.random.randint(100, 200, (3, 4))

array([[109, 115, 164, 128],
       [189, 193, 129, 108],
       [173, 100, 140, 136]])

函数|说明
:--|:--
shuffle(a)|根据数组a的第一轴（最外层维度）进行随机排列，改变数组x
permutation(a)|根据数组a的第一轴产生一个新的乱序数组，不改变x
choice(a\[,size,replace,p\])|从一维数组a中以概率p抽取元素，形成size形状新数组，replace表示是否可以重用元素，默认为False

In [18]:
a = np.random.randint(100, 200, (3, 4))

a

array([[116, 111, 154, 188],
       [162, 133, 172, 178],
       [149, 151, 154, 177]])

In [19]:
np.random.shuffle(a)

a

array([[116, 111, 154, 188],
       [149, 151, 154, 177],
       [162, 133, 172, 178]])

In [20]:
a

array([[116, 111, 154, 188],
       [149, 151, 154, 177],
       [162, 133, 172, 178]])

In [21]:
a = np.random.randint(100, 200, (3, 4))

a

array([[125, 113, 192, 186],
       [130, 130, 189, 112],
       [165, 131, 157, 136]])

In [22]:
np.random.permutation(a)

array([[125, 113, 192, 186],
       [130, 130, 189, 112],
       [165, 131, 157, 136]])

In [23]:
a

array([[125, 113, 192, 186],
       [130, 130, 189, 112],
       [165, 131, 157, 136]])

In [24]:
a = np.arange(10)

a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
np.random.choice(a, (2, 2))

array([[6, 7],
       [8, 8]])

In [26]:
np.random.choice(a, (2, 2), replace=False)

array([[5, 4],
       [8, 1]])

In [27]:
np.random.choice(a, (2, 2), p=a/np.sum(a))

array([[8, 7],
       [9, 4]])

函数|说明
:--|:--
uniform(low,high,size)|产生具有均匀分布的数组，low 起始值，high结束值，size形状
normal（loc，scale，size)|产生具有正态分布的数组，loc均值，scale标准差，size形状
poisson(lam,size)|产生具有泊松分布的数组，lam随机事件发生率，size形状

In [28]:
a = np.random.uniform(0, 10, (3, 4))

a

array([[ 8.56850302,  3.51652639,  7.54647692,  2.95961707],
       [ 8.8393648 ,  3.25511638,  1.65015898,  3.92529244],
       [ 0.93460375,  8.21105658,  1.5115202 ,  3.84114449]])

In [29]:
b = np.random.normal(10, 5, (3, 4))

b

array([[ 16.41138338,   9.14097309,  12.8882903 ,   2.6251256 ],
       [ 10.39394227,  14.59206826,   7.5365132 ,  10.48231186],
       [  6.73620032,   8.89118781,   4.65856717,   3.86153973]])

In [30]:
c = np.random.poisson(0.5, (3, 4))

c

array([[1, 0, 0, 1],
       [0, 2, 0, 0],
       [0, 0, 0, 0]])

#### 2.2 numpy的统计函数

统计函数即可以对数组进行统计计算的函数,numpy提供了库一级别的统计类函数

调用 ： np.*

函数|说明
:--|:--
sum(a,axis=None)|根据给定轴axis计算数组a相关元素之和，axis整数或元组
mean(a,axis=None)|根据给定轴axis计算数组a相关元素的期望，axis整数或元组
average(a,axis=None,weights=None)|根据给定轴axis计算数组a相关元素的加权平均值
std(a,axis=None)|根据给定轴axis计算数组a相关元素的标准差
var(a,axis=None)|根据给定轴axis计算数组a相关元素的方差


In [31]:
a = np.arange(15).reshape(5, 3)

a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [32]:
np.sum(a)

105

In [33]:
np.mean(a, axis=0)

array([ 6.,  7.,  8.])

In [34]:
np.mean(a, axis=1)

array([  1.,   4.,   7.,  10.,  13.])

In [35]:
np.average(a, axis=0, weights=[10, 8, 6, 4, 2])

array([ 4.,  5.,  6.])

In [36]:
np.std(a)

4.3204937989385739

In [37]:
np.var(a)

18.666666666666668

函数|说明
:--|:--
min(a) max(a)|计算数组a中元素的最小值、最大值
argmin(a) argmax(a)|计算数组a中元素的最小值、最大值的降成一维数组后下标
unravel_index(index,shape)|根据shape将一维下表index转换成多维下标
ptp(a)|计算数组a中元素的最大值和最小值的差
median(a)|计算数组a中元素的中位数（中值）

说明：axis=None 是统计函数的标配参数，表示对数组中所有元素进行统计计算。


In [38]:
a = np.arange(15, 0, -1).reshape(3, 5)

a

array([[15, 14, 13, 12, 11],
       [10,  9,  8,  7,  6],
       [ 5,  4,  3,  2,  1]])

In [39]:
np.max(a)

15

In [40]:
np.argmax(a)  #扁平化后的下标 

0

In [41]:
np.unravel_index(np.argmax(a), a.shape)  #重塑成多维下标

(0, 0)

In [42]:
np.ptp(a)

14

In [43]:
np.median(a)

8.0

#### 2.3 numpy中的梯度函数

函数|说明
:---|:---
np.gradient(f)|计算数组f中元素的梯度，当f为多维时，返回每个维度的梯度

![](grad1.png)

![](grad2.png)

![](grad3.png)

![](grad4.png)

![](grad5.png)

梯度：连续值之间的变化率，即斜率。 梯度有助于我们发现图像的边缘。

XY坐标轴连续三个X坐标对应的Y轴值：a,b,c, 其中，b的梯度是：(c-a)/2

In [44]:
a = np.random.randint(0, 20, (5))

a

array([6, 0, 2, 3, 3])

In [45]:
np.gradient(a)

array([-6. , -2. ,  1.5,  0.5,  0. ])

In [46]:
b = np.random.randint(0, 20, (5))

b

array([18, 13, 11, 16, 13])

In [47]:
np.gradient(b)

array([-5. , -3.5,  1.5,  1. , -3. ])

In [48]:
c = np.random.randint(0, 50, (3, 5))

c

array([[11, 49, 22, 37, 11],
       [21, 33, 31, 43, 24],
       [32, 37,  9, 40, 37]])

In [49]:
np.gradient(c)

[array([[ 10. , -16. ,   9. ,   6. ,  13. ],
        [ 10.5,  -6. ,  -6.5,   1.5,  13. ],
        [ 11. ,   4. , -22. ,  -3. ,  13. ]]),
 array([[ 38. ,   5.5,  -6. ,  -5.5, -26. ],
        [ 12. ,   5. ,   5. ,  -3.5, -19. ],
        [  5. , -11.5,   1.5,  14. ,  -3. ]])]

## 第四部分 Numpy实例

初学Numpy库，能够直接上手的实例并不多，最常见的上手案例是对图像的操作。

图像操作需要用到PIL库，这是一个具有强大图像处理能力的第三方库。

Anaconda已经安装该库，没有使用anaconda的同学可以通过pip安装。

```
pip install pillow
```

在这里，大家不需要深入学习PIL的内部，只需要使用PIL的Image子库接口打开图片，解析为ndarray，就可以使用Numpy来进行操作。

图像一般使用RGB色彩模式，图像是一个由像素组成的二维矩阵，每个元素是一个RGB值（R, G, B），也就是一个 m * n * 3 的ndarray

![](cat.jpg)

In [None]:
from PIL import Image
import numpy as np

im = np.array(Image.open('cat.jpg'))

print(im.shape, im.dtype)
print(im)

通过改变ndarray中元素的数值，我们可以对图像实现各种各样的操作,修改后保存为新的文件就可改变图像。

当然，如果要实现各种高级的图像变换功能，除了需要了解数据处理方面的知识，还要懂得一些计算机图像理论，譬如不同图像效果的视觉特征和数值特征，灰度变化与人类视觉的关系等。

In [1]:
from PIL import Image
import numpy as np

a = np.asarray(Image.open('./cat.jpg').convert('L')).astype('float')

depth = 10.            # (0-100)
grad = np.gradient(a)  #取图像灰度的梯度值
grad_x, grad_y = grad  #分别取横纵图像梯度值
grad_x = grad_x*depth/100.
grad_y = grad_y*depth/100.
A = np.sqrt(grad_x**2 + grad_y**2 + 1.)
uni_x = grad_x/A
uni_y = grad_y/A
uni_z = 1./A

vec_el = np.pi/2.2     # 光源的俯视角度，弧度值
vec_az = np.pi/4.      # 光源的方位角度，弧度值
dx = np.cos(vec_el)*np.cos(vec_az) #光源对x 轴的影响
dy = np.cos(vec_el)*np.sin(vec_az) #光源对y 轴的影响
dz = np.sin(vec_el)                #光源对z 轴的影响

b = 255*(dx*uni_x + dy*uni_y + dz*uni_z)  #光源归一化
b = b.clip(0,255)

im = Image.fromarray(b.astype('uint8'))   #重构图像
im.save('./catHD.jpg')

![](catHD.jpg)

In [3]:
from PIL import Image
import numpy as np

a = np.array(Image.open('cat.jpg'))

b = np.random.randn(425, 640, 3)

b = 10 * np.sign(b)

a = a + b

im = Image.fromarray(a.astype('uint8'))   #重构图像

im.save('./cat_2.jpg')

![](cat_2.jpg)

## 第五部分 Pandas ##


[Pandas](https://pandas.pydata.org/)是SciPy生态下的重要Python第三方库。

[发展简史](https://pandas.pydata.org/about/)

![](https://pandas.pydata.org/static/img/pandas.svg)

#### Library Highlights

- A fast and efficient **DataFrame** object for data manipulation with integrated indexing;

- Tools for **reading and writing data** between in-memory data structures and different formats: CSV and text files, Microsoft Excel, SQL databases, and the fast HDF5 format;

- Intelligent **data alignment** and integrated handling of **missing data**: gain automatic label-based alignment in computations and easily manipulate messy data into an orderly form;

- Flexible **reshaping** and pivoting of data sets;

- Intelligent label-based **slicing**, **fancy indexing**, and **subsetting** of large data sets;

- Columns can be inserted and deleted from data structures for **size mutability**;

- Aggregating or transforming data with a powerful **group by** engine allowing split-apply-combine operations on data sets;

- High performance **merging and joining** of data sets;

- **Hierarchical axis indexing** provides an intuitive way of working with high-dimensional data in a lower-dimensional data structure;

- **Time series**-functionality: date range generation and frequency conversion, moving window statistics, date shifting and lagging. Even create domain-specific time offsets and join time series without losing data;

- Highly **optimized for performance**, with critical code paths written in Cython or C.

- Python with pandas is in use in a wide variety of **academic and commercial** domains, including Finance, Neuroscience, Economics, Statistics, Advertising, Web Analytics, and more.

In [5]:
import numpy as np
import pandas as pd

Pandas基于NumPy实现，常与Numpy和Matplotlib一同使用。

Pandas下有两个重要的数据类型，Series 、DataFrame，并支持基于Series和DataFrame的各类操作，包括基本操作，运算操作，特征类操作，关联类操作。

NumPy|Pandas
:--|:--
基础数据类型|基于np.array的扩展数据类型 Series 、DataFrame
关注数据的结构表达（即数据之间的维度表达）|关注数据的应用表达（如何提取、运算）
维度：数据之间|数据与索引间关系

## 第六部分 Series类型

Series类型由一组数据及与之相关的数据索引组成。

索引|————|数据
:--|-:-|--:
index_0|————|data_a
index_1|————|data_b
index_2|————|data_c
index_3|————|data_d



In [10]:
from pandas import Series

### 1. 基本概念

- Series可看成一个定长的有序字典，通过shape,size,index,values可得到其属性

- 可通过head(),tail()快速查看其对象样式

- 当索引没有对应值时，显示NaN

- 检测缺失数据：pd.isnull(),pd.notnull或自带的isnull(),notnull()

- Series对象本身及其索引都有一个name值

### 2. Series类型的创建

Series类型可以由如下类型创建(数据源的维度必须是一维）：

#### 2.1 列表

In [11]:
a = Series([1, 2, 3, 4, 5])  #自动索引和Numpy中的数据类型
print('shape: ', a.shape)
print('size: ', a.size)
print('index: ', a.index)
print('values: ', a.values)
print('name: ', a.name)
a

shape:  (5,)
size:  5
index:  RangeIndex(start=0, stop=5, step=1)
values:  [1 2 3 4 5]
name:  None


0    1
1    2
2    3
3    4
4    5
dtype: int64

In [12]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
print('shape: ', b.shape)
print('size: ', b.size)
print('index: ', b.index)
print('values: ', b.values)
print('name: ', b.name)

shape:  (5,)
size:  5
index:  Index(['Python', 'Java', 'C', 'C#', 'Ruby'], dtype='object')
values:  [90 89 86 84 82]
name:  None


#### 2.2 标量值

In [13]:
s = Series(25,index=['a','b','c'])  #通过标量值创建，不能省略index,index表达了Series类型的尺寸
s

a    25
b    25
c    25
dtype: int64

#### 2.3 字典

In [14]:
d = Series({'a':9,'b':8,'c':7})# 用字典创建，键变为原来值的索引
d

a    9
b    8
c    7
dtype: int64

In [15]:
e = Series({'a':9,'b':8,'c':7},index=['c','a','b','d'])#通过index指定Series结构
e

c    7.0
a    9.0
b    8.0
d    NaN
dtype: float64

#### 2.4 ndarray

In [16]:
n = Series(np.arange(5))
n

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [17]:
m = Series(np.arange(5),index=np.arange(9,4,-1))
m

9    0
8    1
7    2
6    3
5    4
dtype: int32

#### 2.5 其他函数

如range()

In [18]:
o = Series(range(5),index=np.arange(9,4,-1))
o

9    0
8    1
7    2
6    3
5    4
dtype: int64

### 3. Series类型的基本操作

Series类型包括index和values(ndarray)两部分，其操作类似于np.ndarray类型和Python字典类型。

Series的基本操作包括索引、切片等。

#### 3.1 索引

In [19]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
b

Python    90
Java      89
C         86
C#        84
Ruby      82
dtype: int64

In [20]:
b.index #获得索引

Index(['Python', 'Java', 'C', 'C#', 'Ruby'], dtype='object')

In [21]:
b.values #获得数据

array([90, 89, 86, 84, 82], dtype=int64)

Series类型实际上是将Numpy中的ndarray类型作为保留值，并在内部新建立index类型。

index类型和numpy中的ndarray类型结合到一起就是Series类型。

In [23]:
b['C'] 

86

In [24]:
b[2]

86

**两套索引**

虽然用户自定义了索引，但Series自动生成的索引也存在。两套索引并存但不能混用。

自动索引|自定义索引|值
:--|:--|:--
0|'Python'|90
1|'Java'|89
2|'C'|86
3|'C#'|84
4|'Ruby'|82

In [25]:
b[['Python', 'C', 4]]  #多个索引要放在一个列表里

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike
  return self.loc[key]


Python    90.0
C         86.0
4          NaN
dtype: float64

In [26]:
b[['C#', 'Java', 'C']]

C#      84
Java    89
C       86
dtype: int64

Series类型的操作类似ndarray类型

如：

    1. 索引方法相同，采用[]；
    2. NumPy中运算和操作可用于Series类型。
    3. 可以通过自定义索引的列表进行切片。
    4. 可以通过自动索引进行切片，如果存在自定义索引，则一同被切片。切片后仍然是Series类型

In [28]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
b

Python    90
Java      89
C         86
C#        84
Ruby      82
dtype: int64

In [29]:
b[3]

84

In [30]:
b[:3]

Python    90
Java      89
C         86
dtype: int64

In [31]:
b[b>b.median()]    #中位数为86

Python    90
Java      89
dtype: int64

In [32]:
np.exp(b)

Python    1.220403e+39
Java      4.489613e+38
C         2.235247e+37
C#        3.025077e+36
Ruby      4.093997e+35
dtype: float64

Series类型的操作与Python字典类型也有类似之处

如：

    1. 通过自定义索引访问
    2. 保留字in操作。不会判断自动索引，只会判断自定义索引
    3. 使用.get()方法

In [33]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
b

Python    90
Java      89
C         86
C#        84
Ruby      82
dtype: int64

In [34]:
b['C']

86

In [35]:
'Java' in b  #'c'是否是b中索引的一部分

True

In [36]:
0 in b # 判断 0 是否在用户自定义索引中

False

In [37]:
b.get('Go',100) # 从b中提取索引‘f’ 对应的值，如果不存在就返回100

100

#### 3.2 对齐

数据对齐是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN

实现方式：Series+Series

Series类型在运算中会自动对齐不同索引的数据，这种运算更加精确，更不容易出错。

In [39]:
s1 = Series(range(10, 20), index = range(10))
s2 = Series(range(20, 25), index = range(5))

print('s1: ')
print(s1)
print()
print('s2: ')
print(s2)

s1: 
0    10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19
dtype: int64

s2: 
0    20
1    21
2    22
3    23
4    24
dtype: int64


In [40]:
s1 + s2

0    30.0
1    32.0
2    34.0
3    36.0
4    38.0
5     NaN
6     NaN
7     NaN
8     NaN
9     NaN
dtype: float64

#### 3.3 Name属性

Series对象和索引都可以有一个名字，存在属性.name中

In [41]:
b.name='编程语言评分'  #可以认为是对象的名字，也可认为是对象对应值的名字
b.index.name='索引列'
b

索引列
Python    90
Java      89
C         86
C#        84
Ruby      82
Name: 编程语言评分, dtype: int64

#### 3.4 Series类型的修改

Series对象可以随时修改并即刻生效

In [42]:
b['Python']=15
b.name='Series'
b

索引列
Python    15
Java      89
C         86
C#        84
Ruby      82
Name: Series, dtype: int64

In [43]:
b.name='New series'
b['C','C#']=20
b

索引列
Python    15
Java      89
C         20
C#        20
Ruby      82
Name: New series, dtype: int64

## 第六部分 DataFrame类型

### 1. 基础知识

Series是Pandas库中的一维数据类型，DataFrame是Pandas库中的二维数据类型，是由共用相同索引的一组列组成，即索引加多列数据构成。

![](https://img-blog.csdnimg.cn/2019090815143997.png)

DataFrame是一个类似于关系型数据库的表格数据类型，每列值类型可以不同。

DataFrame既可以做行索引，也可以做列索引。

DataFrame常用于表达二维数据，也可以表达多维数据。

### 2. DataFrame类型的创建

#### 2.1 可以从二维ndarray对象创建

In [45]:
from pandas import DataFrame

In [46]:
d = DataFrame(np.arange(10).reshape(2,5))
d  #可以看出DataFrame是原始数据增加横向和纵向的索引构成。

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9


#### 2.2 可以从一维ndarray对象字典创建

In [47]:
dt = {'one':pd.Series([1,2,3],index=['a','b','c']),
    'two':pd.Series([9,8,7,6],index=['a','b','c','d'])}
d = DataFrame(dt)
d     #字典中的键自动成为了列索引

Unnamed: 0,one,two
a,1.0,9
b,2.0,8
c,3.0,7
d,,6


In [48]:
DataFrame(dt,index=['b','c','d'],columns=['two','three']) #three列不存在，自动补齐

Unnamed: 0,two,three
b,8,
c,7,
d,6,


#### 2.3 可以从列表类型字典创建

In [49]:
d1 = {'one':[1,2,3,4],'two':[9,8,7,6]}
d = DataFrame(d1,index = ['a','b','c','d'])
d

Unnamed: 0,one,two
a,1,9
b,2,8
c,3,7
d,4,6


【例】新冠疫情数据

In [50]:
d1 = {'疫情地区':['香港','湖北','台湾','上海','北京'],
    '新增':[24, 0, 10, 2, 0],
    '现有':[694, 518, 311, 143, 131],
    '累计':[914, 67803, 373, 538, 587],
    '治愈':[216, 64073, 57, 389, 448],
    '死亡':[4, 3212, 5, 6, 8]}
d = DataFrame(d1,index=['c1','c2','c3','c4','c5'])
d #字典是无序的，所以对象d中列之间的关系并不和字典给出的顺序相同

Unnamed: 0,疫情地区,新增,现有,累计,治愈,死亡
c1,香港,24,694,914,216,4
c2,湖北,0,518,67803,64073,3212
c3,台湾,10,311,373,57,5
c4,上海,2,143,538,389,6
c5,北京,0,131,587,448,8


In [51]:
d.index

Index(['c1', 'c2', 'c3', 'c4', 'c5'], dtype='object')

In [52]:
d.columns

Index(['疫情地区', '新增', '现有', '累计', '治愈', '死亡'], dtype='object')

In [53]:
d.values

array([['香港', 24, 694, 914, 216, 4],
       ['湖北', 0, 518, 67803, 64073, 3212],
       ['台湾', 10, 311, 373, 57, 5],
       ['上海', 2, 143, 538, 389, 6],
       ['北京', 0, 131, 587, 448, 8]], dtype=object)

In [54]:
d['现有']  #每一列是Series对象

c1    694
c2    518
c3    311
c4    143
c5    131
Name: 现有, dtype: int64

In [55]:
d.iloc[2]   #依据行列值，生成对应行列的Series对象，切片

疫情地区     台湾
新增       10
现有      311
累计      373
治愈       57
死亡        5
Name: c3, dtype: object

In [56]:
d.loc[:, '现有']   #依据行列名，生成对应行列的Series对象，切片

c1    694
c2    518
c3    311
c4    143
c5    131
Name: 现有, dtype: int64

In [57]:
d['现有']['c2']

518

### 3. 对Series和DataFrame的操作

如何改变Series和DataFrame对象？

#### 3.1 增加或重排：重新索引

方法： .reindex()能够改变或重排Series和DataFrame索引

In [58]:
c = d.reindex(index=['c5','c4','c3','c2','c1'])
c

Unnamed: 0,疫情地区,新增,现有,累计,治愈,死亡
c5,北京,0,131,587,448,8
c4,上海,2,143,538,389,6
c3,台湾,10,311,373,57,5
c2,湖北,0,518,67803,64073,3212
c1,香港,24,694,914,216,4


In [59]:
c = c.reindex(columns=['疫情地区','现有','死亡'])
c

Unnamed: 0,疫情地区,现有,死亡
c5,北京,131,8
c4,上海,143,6
c3,台湾,311,5
c2,湖北,518,3212
c1,香港,694,4


.reindex(index=None，columns=None,…)的参数

参数|说明
:--|:--
index, columns|新的行列自定义索引
fill_value|重新索引中，用于填充缺失位置的值
method|填充方法, ffill当前值向前填充，bfill向后填充
limit|最大填充量
copy|默认True，生成新的对象，False时，新旧相等不复制

In [60]:
newc = d.columns.insert(4,'国别')  #行索引加一个
newd = d.reindex(columns=newc,fill_value='中国')
newd

Unnamed: 0,疫情地区,新增,现有,累计,国别,治愈,死亡
c1,香港,24,694,914,中国,216,4
c2,湖北,0,518,67803,中国,64073,3212
c3,台湾,10,311,373,中国,57,5
c4,上海,2,143,538,中国,389,6
c5,北京,0,131,587,中国,448,8


In [61]:
d.index

Index(['c1', 'c2', 'c3', 'c4', 'c5'], dtype='object')

In [62]:
d.columns

Index(['疫情地区', '新增', '现有', '累计', '治愈', '死亡'], dtype='object')

Series和DataFrame的索引是index类型

Index对象是不可修改的类型

索引类型的常用方法

方法|说明
:--|:--
.append(idx)|连接另一个Index对象，产生新的Index对象
.diff(idx)|计算差集，产生新的Index对象
.intersection(idx)|计算交集
.union(idx)|计算并集
.delete(loc)|删除loc位置处的元素
.insert(loc,e)|在loc位置增加一个元素e

In [63]:
c

Unnamed: 0,疫情地区,现有,死亡
c5,北京,131,8
c4,上海,143,6
c3,台湾,311,5
c2,湖北,518,3212
c1,香港,694,4


#### 3.2 删除指定索引对象

.drop()能够删除Series和DataFrame指定行或列索引

In [64]:
a = Series([1,3,5,7],index=['a','b','c','d'])
a

a    1
b    3
c    5
d    7
dtype: int64

In [65]:
a.drop(['b','c'])

a    1
d    7
dtype: int64

In [66]:
d

Unnamed: 0,疫情地区,新增,现有,累计,治愈,死亡
c1,香港,24,694,914,216,4
c2,湖北,0,518,67803,64073,3212
c3,台湾,10,311,373,57,5
c4,上海,2,143,538,389,6
c5,北京,0,131,587,448,8


In [67]:
d.drop('c5')

Unnamed: 0,疫情地区,新增,现有,累计,治愈,死亡
c1,香港,24,694,914,216,4
c2,湖北,0,518,67803,64073,3212
c3,台湾,10,311,373,57,5
c4,上海,2,143,538,389,6


In [68]:
d.drop('累计',axis=1)  #如果没有axis=1，则默认操作0轴上的元素


Unnamed: 0,疫情地区,新增,现有,治愈,死亡
c1,香港,24,694,216,4
c2,湖北,0,518,64073,3212
c3,台湾,10,311,57,5
c4,上海,2,143,389,6
c5,北京,0,131,448,8


## 第七部分 利用Pandas库进行数据分析

### 1. 基础知识

#### 1.1 数据分析流程与Pandas 

数据分析从流程上看，包括以下部分：
    1. 分析设计
    2. 数据收集
    3. 数据清洗
    4. 数据整理
    5. 描述统计
    6. 建模分析
    7. 可视化
    8. 形成结论

Pandas可以用于从数据清洗到建模分析的许多环节。

#### 1.2 对数据分析的理解

数据分析的过程是降维的过程。如一组数据：

a = {3.141, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376}

一组数据表达一个或多个含义

统计分析的过程，也可以理解为“摘要”的过程，即从数据种抽象出一些特征，这个过程是有损的。

通过统计分析我们能获得数据的：

* 基本统计（含排序）
* 分布/累计统计
* 数据特征(相关性，周期性等)
* 数据挖掘（形成知识）

在这个过程中，我们经常使用的方法包括数据运算、排序、统计描述、相关、回归等。

In [69]:
import numpy as np
import pandas as pd

### 2. 数据运算

包括算术运算和比较运算两大类

#### 2.1 算术运算

算术运算根据行列索引，补齐后运算，运算默认产生浮点数。

补齐时缺项填充NaN（空值）

二维和一维、一维和零维间为广播运算

采用+ - * / 符号进行的二元运算产生新的对象

In [71]:
a = DataFrame(np.arange(12).reshape(3,4))
a

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [72]:
b = DataFrame(np.arange(20).reshape(4,5))
b

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [None]:
a + b   #一个矩阵缺项就补为NaN

In [None]:
a * b

数据类型的算术运算的方法

方法|说明
:--|:--
.add(d, \*\*argws)|类型间加法运算，可选参数
.sub(d, \*\*argws)|类型间减法运算，可选参数
.mul(d, \*\*argws)|类型间乘法运算，可选参数
.div(d, \*\*argws)|类型间除法运算，可选参数

In [None]:
a = DataFrame(np.arange(12).reshape(3,4))
a

In [None]:
b = DataFrame(np.arange(20).reshape(4,5))
b

In [None]:
b.add(a,fill_value=100)  # fill_value参数替代NaN，替代后参与运算，也就是缺值用100补

In [None]:
a.mul(b,fill_value=0)  #相乘

In [None]:
b= DataFrame(np.arange(20).reshape(4,5))
b

In [None]:
c = Series(np.arange(4))
c

In [None]:
c - 10  #广播，不同维度间的运算会作用到高维的每一个元素上


In [None]:
b - c   #同理，也是广播    b中每一行和c相减

不同维度间为广播运算，一维Series默认在轴1参与运算

要在零轴参与运算，需指定axis=0

In [None]:
b.sub(c,axis=0)

#### 2.2 比较运算

比较运算只能比较相同索引的元素，不进行补齐。 (只能同维度运算，尺寸一致)

二维和一维、一维和零维间为广播运算。默认在1轴。

采用> < >= <= == != 等符号进行的二元运算产生布尔对象。

In [None]:
a = DataFrame(np.arange(12).reshape(3,4)) 
a

In [None]:
d = DataFrame(np.arange(12,0,-1).reshape(3,4))
d

In [None]:
a > d  #必须同维度，不进行填充

In [None]:
a == d

In [None]:
a = DataFrame(np.arange(12).reshape(3,4)) 
a

In [None]:
c = Series(np.arange(4))
c

In [None]:
a > c #不同维度，广播运算，默认在1轴

In [None]:
c > 0

### 3. 数据排序

#### 3.1 Pandas库的数据排序

- **按索引排序**

DataFrame.sort_index(axis=0,ascending=True) 

在指定轴上根据索引进行排序，默认升序,ascending指递增排序。

In [None]:
b = DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

In [None]:
c = b.sort_index()  #默认在0轴进行操作
c

In [None]:
c = c.sort_index(axis=1 ,ascending=False)
c

- **按值排序**

.sort_values()方法在指定轴上根据数值进行排序，默认升序

DataFrame.sort_values(by,axis=0,ascending=True)

by: axis轴上的某个索引或索引列表

Series.sort_values(axis=0,ascending=True)

In [None]:
c = b.sort_values(2,ascending=False) #按第二列数据降序排列
c

In [None]:
c = c.sort_values('a',axis=1,ascending=False)
c

In [None]:
a = DataFrame(np.arange(12).reshape(3, 4), index=['a', 'b', 'c'])
a

In [None]:
b = DataFrame(np.arange(20).reshape(4, 5), index=['d', 'c', 'b', 'a'])
b

In [None]:
c = a + b
c

In [None]:
c.sort_values(axis=0, by=2, ascending=False) #NaN统一放到排序的末尾

In [None]:
c.sort_values(axis=0, by=2, ascending=True) #NaN统一放到排序的末尾

### 4. 基本统计分析

#### 4.1 基本的统计分析函数

适用于Series和DataFrame类型

方法|说明
:--|:--
.sum()|计算数据的总和，按0轴计算，下同
.count()|非NaN值的数量
.mean() .median()|计算数据的算术平均值、算术中位数
.var() .std()|计算数据的方差、标准差
.min() .max()|计算数据的最小值、最大值
.describe()|针对0轴（各列）的统计汇总

适用于Series类型

方法|说明
:--|:--
.argmin() .argmax()|计算数据最大值、最小值所在位置的索引位置（自动索引）
.idxmin() .idxmax()|计算数据最大值、最小值所在位置的索引（自定义索引）


In [None]:
a = Series([9,8,7,6],index=['a','b','c','d'])
a

In [None]:
a.describe()

In [None]:
type(a.describe())

In [None]:
a.describe()['count']

In [None]:
a.describe()['max']

In [None]:
b = DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b.describe()

In [None]:
type(b.describe())

In [None]:
b.describe().ix['max']  #  以Series对象返回

In [None]:
b.describe()[2]

#### 4.2 累计统计分析

适用于Series 和 DataFrame类型

方法|说明
:--|:--
.cumsum()|依次给出前1、2、…、n个数的和
.cumprod()|依次给出前1、2、…、n个数的积
.cummax()|依次给出前1、2、…、n个数的最大值
.cummin()|依次给出前1、2、…、n个数的最小值

In [None]:
b = DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

In [None]:
b.cumsum()  #以列为单位，计算每个元素前面的累加和

In [None]:
b.cumprod()  #乘积

In [None]:
b.cummin()

In [None]:
b.cummax()

适用于Series和DataFrame类型。

滚动计算（窗口计算），依次计算w相邻的元素的统计值

方法|说明
:--|:--
.rolling(w).sum()|依次计算相邻w个元素的和
.rolling(w).mean()|依次计算相邻w个元素的算术平均值
.rolling(w).var()|依次计算相邻w个元素的方差
.rolling(w).std()|依次计算相邻w个元素的标准差
.rolling(w).min() .max()|依次计算相邻w个元素的最小值和最大值

In [None]:
b = DataFrame(np.arange(20).reshape(4,5), index=['d', 'c', 'b', 'a'])
b

In [None]:
b.rolling(2).sum()# 在纵向上以两个元素为单位，做相关的求和运算。

In [None]:
b.rolling(3).sum()

#### 4.3 数据的相关分析

相关分析： 两个事物，表示为X,Y，如何判断他们之间存在相关性？

相关性
X增大，Y增大，两个变量正相关。
X增大，Y减小，两个变量负相关。
X增大，Y无视，两个变量不相关。

如何度量俩个变量的相关性?

协方差方法：

$$cov(X, Y) = \frac{\sum_{i=1}^{n}{(X_i - \overline{X})(Y_i - \overline{Y})}}{n-i}$$

协方差>0，X和Y正相关。
协方差<0，X和Y负相关。
协方差=0，X和Y独立无关。

Peason相关系数

$$r = \frac{\sum_{i=1}^{n}{(x_i - \overline{x})(y_i - \overline{y})}}{\sqrt{\sum_{i=1}^{n}{(x_i-\overline{x})^2}}\sqrt{\sum_{i=1}^{n}{(y_i-\overline{y})^2}}}$$

r的取值范围\[-1,1\].
|r|：
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0-0.2 极弱相关或不相关

相关分析函数

方法|说明
:--|:--
.cov()|计算协方差矩阵
.corr()|计算相关系数矩阵, Pearson、Spearman、Kendall等系数

【例】世界各国总储蓄与GDP是否相关？

总储蓄指可支配总收入用于最终消费后的余额。国民总储蓄指各部门的总储蓄之和。总储蓄和居民储蓄的概念不同，总储蓄是宏观的概念，是可支配收入减去最终消费后，用于一个国家或地区投资资金的主要来源。

GDP是国内生产总值, Gross Domestic Product的缩写。它指一个国家或地区在一定时期内生产活动(最终产品和服务)的总量,是衡量经济规模和发展水平最重要的方法之一。

In [None]:
saving = pd.Series([6.29, 3.82, 1.39, 1.16, 0.84] ,index=['中国','美国','日本','德国','印度'])

gdp = pd.Series([13.61, 20.54, 4.97, 3.95, 2.72],index=['中国','美国','日本','德国','印度'])

saving.corr(gdp)