# 利用python数据分析
2021-03-16

## numpy
将数据处理任务转为简洁的数组表达式，用数组替代循环表达，通常称为矢量化。
### 基本方法
1. array 创建，可以指定类型，也可以自动推断
2. arange 返回一个ndarray
3. ones,zeros,empty,eye 快捷创建
4. dtype 数据类型
5. ndim 维度
6. reshape 重塑
7. T 转置，不拷贝
8. where 条件 x if cond else y

In [2]:
import numpy as np

In [3]:
a = list(range(6))
arr = np.array(a)

In [5]:
arr.dtype

dtype('int64')

In [6]:
arr.ndim

1

In [7]:
print(arr)

[0 1 2 3 4 5]


In [8]:
float_arr = arr.astype(np.float32)

In [9]:
float_arr.dtype

dtype('float32')

In [10]:
print(float_arr)

[0. 1. 2. 3. 4. 5.]


In [38]:
tmp = np.random.randn(6,3)
np.dot(tmp.T, tmp)

array([[ 2.20967909, -1.76838637, -0.52918567],
       [-1.76838637, 13.46069263,  1.02722627],
       [-0.52918567,  1.02722627, 16.45662418]])

### 标量算术运算
+-* / 都作用到每个元素，而不是矩阵乘法

In [13]:
arr = np.array([[1,2,3], [4,5,6]])

In [14]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [15]:
arr + arr

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [16]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [17]:
arr / arr

array([[1., 1., 1.],
       [1., 1., 1.]])

In [18]:
arr ** arr

array([[    1,     4,    27],
       [  256,  3125, 46656]])

In [19]:
arr * 10

array([[10, 20, 30],
       [40, 50, 60]])

### 索引和切片
1. numpy的数组索引和切片不存在副本操作，都会直接修改原数据，如果需要副本操作，需要使用copy显示执行
2. 索引方式和C数组一样，可以多个[]可以简写为逗号分割的list
3. 索引支持布尔索引,而且可以和数值索引整合使用
4. 花式索引返回副本

In [31]:
names = np.array(['xu', 'jin', 'guang', 'xu'])
data = np.array([[1,5],[2,6],[3,7],[4,8]])

In [26]:
data[names == 'xu']

array([[1, 5],
       [4, 8]])

In [27]:
data[names == 'xu', :1]

array([[1],
       [4]])

In [28]:
data[names != 'xu']

array([[2, 6],
       [3, 7]])

In [32]:
mask = (names == 'xu') | (names == "jin")

In [33]:
mask

array([ True,  True, False,  True])

In [35]:
data[mask]

array([[1, 5],
       [2, 6],
       [4, 8]])

In [36]:
size = np.array([1,0,1,0])

In [37]:
data[size > 0] #使用关系布尔

array([[1, 5],
       [3, 7]])

## pandas
基于numpy

In [39]:
from pandas import Series, DataFrame

In [40]:
obj = Series([2,5,3,-1])

In [41]:
obj

0    2
1    5
2    3
3   -1
dtype: int64

In [42]:
obj.values

array([ 2,  5,  3, -1])

In [43]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [44]:
obj2 = Series([2,5,3,-1], index=['a','b','c','d'])

In [45]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [46]:
obj2[obj2>0]

a    2
b    5
c    3
dtype: int64

In [47]:
obj2 * 2

a     4
b    10
c     6
d    -2
dtype: int64

In [48]:
np.exp(obj)

0      7.389056
1    148.413159
2     20.085537
3      0.367879
dtype: float64