In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Numpy

### RClass对象np.r_
+ 用于对多个np.array沿第一个轴进行快速连接,并产生一个新shape的array. (功能有点类型与pd.concat)
    * 索引表达式有两种用法。      
        1. 如果索引表达式为逗号分隔的数字字符串(如:'stackAxisIndex:DimNum:thirdNum')，则将其沿其第一个数字表示的轴堆叠。
        2. 如果索引表达式为切片符号或标量，则创建一个一维数组，其范围由切片符号指示。

#### 不使用索引表达式时，在第一个维度进行拼接

In [2]:
# 不使用索引表达式时，在第一个维度进行拼接
# np.r_返回的array与要拼接的array维度相同
a = np.array([[1,2,3], [4,5,6]])        # a.shape为(2, 3)
b = np.array([[10,20,30], [40,50,60]])  # b.shape为(2, 3)
c = np.r_[a, b]   # c.shape为(4, 3), --相当于在第一个维度进行拼接
c
# >> array([[ 1,  2,  3],
#           [ 4,  5,  6],
#
#           [10, 20, 30],
#           [40, 50, 60]])

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [10, 20, 30],
       [40, 50, 60]])

#### 使用索引表达式

In [3]:
# 如果索引表达式为切片符号或标量，则创建一个一维数组，其范围由切片符号指示。

# 切片形式的索引表达式格式为'x:y:z',根据z是否为虚数, 
# 分别对应np.range(start:stop:step)--z为非虚数 或 np.linspace(start:stop:num) --z为虚数 
np.r_[np.array([1,2,3]), 0, 0, np.array([4,5,6])] # 直接进行连接
# >> array([1, 2, 3, 0, 0, 4, 5, 6])

# 索引表达式最后一项为非虚数
np.r_[0:10:2, [0]*3, 5, 6] # 将[0,10)按照步长2生成序列，再进行拼接
# >> array([0, 2, 4, 6, 8, 0, 0, 0, 5, 6])

# 索引表达式最后一项为虚数
np.r_[0:10:2j, [0]*3, 5, 6] # 在[0,10]中按np.linspace取2个数据，再进行拼接
# >> array([0, 2, 4, 6, 8, 0, 0, 0, 5, 6]

array([ 0., 10.,  0.,  0.,  0.,  5.,  6.])

```
# 如果索引表达式为逗号分隔的数字字符串(如:'stackAxisIndex:DimNum:thirdNum')，则将其沿其第一个数字表示的轴堆叠 
# 逗号分隔的数字字符串索引表达式格式为'-1'或'stackAxisIndex:DimNum:thirdNum'(第三个数可)
# 为'-1'时：
# 将提升生产的新array的shape的最后一维,默认值为'-1'

a = np.array([[1,2,3], [4,5,6]])        # a.shape为(2, 3)
b = np.array([[10,20,30], [40,50,60]])  # b.shape为(2, 3)
c = np.r_['-1', a, b]  # c.shape为(2, 6), --相当于在最后一个维度进行拼接
c
# >> array([[ 1,  2,  3, 10, 20, 30],
#           [ 4,  5,  6, 40, 50, 60]])

# 为'stackAxisIndex:DimNum:thirdNum'时：
# stackAxisIndex:表示np.r_操作在该轴上进行堆叠,　
# DimNum:表示操作后生成的新array的维度数
# thirdNum: 为0时,生成的新array的最后一个维度为1(即shape为(D1, D2, ..., 1))
#           为1时,生成的新array的最后一个维度保持

# c.shape为(2,　1, 2, 3), --指定在索引为0的轴进行拼接
# 因为在索引表达式引指定了输出array的维度(且比a,b维度都大)，所以返回指定维度的array(4维)
c = np.r_['0, 4', a, b] 
c
# >>array([ [ [ [ 1,  2,  3],
#               [ 4,  5,  6]]],
#
#           [ [ [10, 20, 30],
#               [40, 50, 60]]]])


# c.shape为(1, 2, 2, 3), --指定在索引为1的轴进行拼接
# 因为在索引表达式引指定了输出array的维度(且比a,b维度都大)，所以返回指定维度的array(4维)
c = np.r_['1, 4', a, b] 
c
# >>array([ [ [ [ 1,  2,  3],
#               [ 4,  5,  6]]],
#
#             [ [10, 20, 30],
#               [40, 50, 60]]])


c = np.r_['1, 4', a, b] 
array([[[[ 1,  2,  3],
         [ 4,  5,  6]],

        [[10, 20, 30],
         [40, 50, 60]]]])
相当于先将a维度扩充到4维,　再在第2个维度连接b.

a: [[1,2,3], [4,5,6]]
维度扩充到4维: [[[[1,2,3], [4,5,6]]]]
在第2个维度连接b: [[[[1,2,3], [4,5,6]], [[10,20,30], [40,50,60]]]]
```

In [5]:
np.r_[a, b] 

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [10, 20, 30],
       [40, 50, 60]])

## Series

Series是pandas中暴露给我们使用的基本对象，它是由相同元素类型构成的一维数据结构，同时具有列表和字典的属性（字典的属性由索引赋予）。

+ Series：有序，有索引
+ list：  有序，无索引
+ dict：  无序，有索引

### 创建Series

In [6]:
data = [1, 2, 3]
index = ['a','b','c']

#不指定index时,如果data是有索引的则使用data的索引,否则使用从0开始的下标作为索引
seriesObj = pd.Series(data=data, index=index, name = 'seriesName')
print(seriesObj)


data2 = { 'a':1, 'b':2,'c':3 }
index2 = ['a', 'b', 'c', 'd']
#seriesObj = pd.Series(data = data2) #不指定index时,如果data是有索引的则使用data的索引,否则使用从0开始的下标作为索引
#seriesObj = pd.Series(data = data2, index = index2)
#print(seriesObj)

a    1
b    2
c    3
Name: seriesName, dtype: int64


### Series四属性
+ 索引: seriesObj.index
+ 名字: seriesObj.name
+ 值: seriesObj.values
+ 元素类型: seriesObj.dtype

In [7]:
print(seriesObj.index)
print(seriesObj.name)
print(seriesObj.values)
print(seriesObj.dtype)

Index(['a', 'b', 'c'], dtype='object')
seriesName
[1 2 3]
int64


### Series的查、改、增、 删¶

#### 查

##### [],  基于位置,基于索引
基于位置,基于索引,切片(范围),指定索引(列表枚举),掩码

In [8]:
seriesObj[1] # 索引从0开始算起

2

In [9]:
seriesObj[0:2] # 取索引为[0, 2)范围内的元素

a    1
b    2
Name: seriesName, dtype: int64

In [10]:
seriesObj[[0,2]] # 通过列表枚举要获取元素的索引 -- 返回第0和第2个

a    1
c    3
Name: seriesName, dtype: int64

In [11]:
mask = [False, True, False]  #mask，类似于列表枚举，只是长度必须和Series相同，返回Series中的指定元素
seriesObj[mask]

b    2
Name: seriesName, dtype: int64

##### .loc[]，基于索引
可通过.loc[]进行查询方式同样可以通过[]进行

In [12]:
seriesObj.loc['b'] # 单索引，返回一个值
#seriesObj['b']

2

In [13]:
seriesObj.loc['a':'c']  # 范围，注意：左闭右闭，返回Series切片
#seriesObj['a':'c']

a    1
b    2
c    3
Name: seriesName, dtype: int64

In [14]:
seriesObj.loc[['a','c']] # 列表枚举，返回指定索引的Series元素 --通过列表指定要返回元素的索引
#seriesObj[['a', 'c']]

a    1
c    3
Name: seriesName, dtype: int64

In [15]:
mask = [False, True, False] # mask，和iloc[]效果等同，返回指定的Series元素
seriesObj.loc[mask]

b    2
Name: seriesName, dtype: int64

##### .iloc[]，基于位置
可通过.iloc[]进行查询方式同样可以通过[]进行

In [16]:
seriesObj.iloc[1] # 返回一个值
#seriesObj[1] 

2

In [17]:
seriesObj.iloc[0:2] # 取索引为[0, 2)范围内的元素
#seriesObj[0:2] 

a    1
b    2
Name: seriesName, dtype: int64

In [18]:
seriesObj.iloc[[0,2]] # 通过列表枚举要获取元素的索引 -- 返回第0和第2个
#seriesObj[[0,2]] 

a    1
c    3
Name: seriesName, dtype: int64

In [19]:
mask = [False, True, False]  #mask，类似于列表枚举，只是长度必须和Series相同，返回Series中的指定元素
seriesObj.iloc[mask]
#seriesObj[mask]

b    2
Name: seriesName, dtype: int64

#### 改

In [20]:
seriesObj2 = seriesObj.copy()  # 深copy，拷贝数据结构包含的所有信息

##### 查的基础上赋值，就可以修改

In [21]:
seriesObj2['a'] = 10

##### Series.replace()

几个主要参数:
+ to_replace：要修改的值，可以为列表
+ value：改为的值，可以为列表，与to_repalce要匹配；
+ inplace：是否在原地修改；


In [22]:
seriesObj2.replace(to_replace = 10, value = 100, inplace=False)

a    100
b      2
c      3
Name: seriesName, dtype: int64

#### 改索引

##### 直接改index
index类似于tuple，只能引用到别处，不能切片修改.

In [23]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2.index)
seriesObj2.index = ['a','e','f']
print(seriesObj2.index)

Index(['a', 'b', 'c'], dtype='object')
Index(['a', 'e', 'f'], dtype='object')


##### Series.rename()

几个常用参数:
+ index：list or dict，list时必须和已有索引长度相同，dict可以部分修改；
+ level：多重索引时，可以指定修改哪一重，从0开始递增；
+ inplace：是否原地修改。


In [24]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2.index)
tmpS = seriesObj2.rename( index = {'a':'A'}, inplace = False)
print(tmpS.index)

Index(['a', 'b', 'c'], dtype='object')
Index(['A', 'b', 'c'], dtype='object')


#### 增

##### 直接增一行

In [25]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
seriesObj2['d'] = 4
print(seriesObj2)

a    1
b    2
c    3
Name: seriesName, dtype: int64
a    1
b    2
c    3
d    4
Name: seriesName, dtype: int64


##### 函数删多行 Series.append() 
几个常用参数:
+ to_append: 另一个series或多个Series构成的列表；
+ ignore_index：False-保留原有索引，True-清除所有索引，生成默认数值索引；
+ verify_integrity：True的情况下，如果to_append索引与当前索引有重复，则报错。


In [26]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
tmpS = pd.Series([22, 33], index = ['x', 'y']) #创建一个Series对象
seriesObj3 = seriesObj2.append(tmpS, ignore_index=False)
print(seriesObj3)

a    1
b    2
c    3
Name: seriesName, dtype: int64
a     1
b     2
c     3
x    22
y    33
dtype: int64


#### 删

##### 直接删一行¶

In [27]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
del seriesObj2['b']
print(seriesObj2)

a    1
b    2
c    3
Name: seriesName, dtype: int64
a    1
c    3
Name: seriesName, dtype: int64


##### 函数删多行 Series.drop()
几个常用参数:
+ labels：索引，单索引或索引的列表；
+ level：多重索引需要设置；
+ inplace：是否本地修改。


In [28]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
seriesObj2.drop(['a','c'], inplace=True)
print(seriesObj2)

a    1
b    2
c    3
Name: seriesName, dtype: int64
b    2
Name: seriesName, dtype: int64


## DataFrame

### 创建DataFrame

#### 根据文件创建DataFrame

##### pd.read_csv()

read_csv的参数很多，但这几个参数就够我们使用了：
+ filepath_or_buffer：路径和文件名不要带中文，带中文容易报错。
+ sep: csv文件数据的分隔符，默认是','，根据实际情况修改；
+ header：如果有列名，那么这一项不用改；
+ names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
+ index_col：int型，选取这一列作为索引。
+ encoding：根据你的文档编码来确定，如果有中文读取报错，试试encoding = 'gbk'
+ index_col: 指定作为索引的列(如:index_col=“DateCol”指定列名为DateCol的列作为索引);当指定Date格式的列作为索引时，最好对该列进行parse_dates处理.
+ 对日期相关的列进行处理:
    - parse_dates: 将指定的列按照Date进行解析
    - dayfirst: Date格式是否为day在前(如: 23/08/2019). 
      

In [29]:
path =  './data/ex1data1.txt'
data = pd.read_csv(path, header=None, names=['Population', 'Profit'])


##### pd.read_excel()

read_excel的参数很多，但这几个参数就够我们使用了：

+ header：如果有列名，那么这一项不用改；
+ names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
+ index_col：int型，选取这一列作为索引。


#### 使用pd.DataFrame()创建

pd.DataFrame(data=None, index=None, columns=None) --这里只关注三个主要参数
- 如果data中不包含行索引或列索引信息,且没有通过参数显式指定时,将生成从0开始的默认索引.


In [30]:
# data无行索引，无列索引 -- data 为 ndarray(2D) or list(2D)
data1 = np.array([[1,2,3],
                  [4,5,6]] )
index1 = ['a','b']
columns1 = ['A','B','C']
#df = pd.DataFrame(data=data)
df = pd.DataFrame(data=data1, index = index1, columns = columns1)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [31]:
# data无行索引，有列索引 -- data为 dict of ndarray(1D) or list(1D)
data2 = { 'A': [1, 4], 
          'B': [2, 5], 
          'C': [3, 6] }
index2 = ['a','b']
columns2 = ['A', 'B', 'C', 'D']
df = pd.DataFrame(data=data2, index = index2)
#df = pd.DataFrame(data=data2, index = index2, columns = columns2)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [32]:
# data有行索引，有列索引 -- data为 dict of Series or dict
# data3 = { 'A' : pd.Series([1,4] ,index = ['a','b']), 'B' : pd.Series([2,5] ,index = ['a','b']), 'C' : pd.Series([3,6] ,index = ['a','c']) }
data3 = { 'A' : { 'a':1, 'b':4}, 'B': {'a':2,'b':5}, 'C':{'a':3, 'c':6} }
df = pd.DataFrame(data=data3)
df

Unnamed: 0,A,B,C
a,1.0,2.0,3.0
b,4.0,5.0,
c,,,6.0


### DataFrame属性
+ 行索引: df.index
+ 列索引: df.columns
+ 值: df.values
+ 各列元素类型: df.dtypes

In [33]:
data = [[1,2,3],
        [4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index = index, columns = columns)
print(df)
print(df.index)
print(df.columns)
print(df.values)
print(df.dtypes)

   A  B  C
a  1  2  3
b  4  5  6
Index(['a', 'b'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')
[[1 2 3]
 [4 5 6]]
A    int64
B    int64
C    int64
dtype: object


### DataFrame的查、改、增、 删

#### 查

##### []  --使用除切片外的其他方式时,都是基于列进行的
基于列索引,基于列表枚举列索引,基于行切片(范围),基于掩码

In [51]:
df2 = df.copy()
df2

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [35]:
# 基于列索引
df2['A'] # 列操作，单列索引，返回Series

a    1
b    4
Name: A, dtype: int64

In [36]:
# 基于列表枚举列索引
df2[['A','C']] # 列操作，列表枚举列索引，返回DataFrame

Unnamed: 0,A,C
a,1,3
b,4,6


In [37]:
# 无法通过单元行索引访问 --但可以通过行切片访问
# df2[0]  # 报错
# df2['a']  # 报错(无法通过行索引访问)

In [38]:
# 基于行切片(范围)
df2[0:1]  # 行操作，位置范围，返回DataFrame. 位置索引左闭右开[,)

Unnamed: 0,A,B,C
a,1,2,3


In [39]:
# 基于行切片(范围)
df2['a':'c']  # 行操作，位置范围，返回DataFrame. 索引左闭右闭[,]

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [40]:
# df2[[0,1]] #报错

In [41]:
# 基于掩码
mask = [False,True] 
df2[mask] # 行操作，mask，必须和行长度一致，返回DataFrame

Unnamed: 0,A,B,C
b,4,5,6


##### .loc[]，基于索引  --先行后列，.loc只有单个[]时按行索引
.loc[]在DataFrame中与[]不一致.

    DataFrame 有两维，每一维都和 Series 的 .loc[] 用法相同；
    Series有四种方式，所以DataFrame有16种方式;
    可以缺省后面维度，默认补全为 ':' 。


In [42]:
dfx = pd.DataFrame( [[1, 2, 3],
                     [4, 5, 6],
                     [7, 8, 9],
                     [10, 11, 12]]
                  )
# 返回[0, 2]行  --不同于dfx[rowStart:rowEnd], .loc[rowStart:rowEnd, :]方式是包含rowEnd行的
dfx.loc[0:2, :] 

# 返回[0, 2)行
dfx[0:2] 

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [53]:
dfx.loc[0] # 行索引， 返回第0行

dfx.loc[0][1] # 单个值 -- 第0行，第1列

2

In [43]:
df2.loc['b','B'] # 返回单一值，因为两维都是单索引
#df2['b','B'] #error

5

In [44]:
df2.loc['a':'b', 'B'] #返回Series，如果有一维是单索引
# df2['a':'b', 'B'] #error

a    2
b    5
Name: B, dtype: int64

In [45]:
#返回Series，如果有一维是单索引 -- 以列表的方法直接指定了索引位置而不是范围
df2.loc[['a','b'], 'B'] 

a    2
b    5
Name: B, dtype: int64

In [46]:
mask1 = [False, True] 
df2.loc[mask1,'B']

b    5
Name: B, dtype: int64

In [47]:
df2.loc[['a','b'], ['A','B']] # 返回DataFrame

Unnamed: 0,A,B
a,1,2
b,4,5


##### .iloc[]，基于位置


    DataFrame 有两维，每一维都和 Series 的 .iloc[] 用法相同；
    Series有四种方式，所以DataFrame有16种方式；
    可以缺省后面维度，默认补全为 ':' 。


In [48]:
df2.iloc[1,1] # 返回单一值

5

In [49]:
df2.iloc[[0,1],[0,2]] # 返回DataFrame

Unnamed: 0,A,C
a,1,3
b,4,6


In [50]:
mask1 = [False, True, False]  # 返回DataFrame
mask2 =[True, False]
df2.iloc[mask1, mask2]

IndexError: Item wrong length 3 instead of 2.

#### 改

##### 直接查的基础上赋值进行修改

In [None]:
df2 = df.copy()
print(df2, '\n')
df2['D'] = 10  # 注意直接使用[]操作的是列
print(df2)

In [None]:
# .loc[]方法确保在原地修改，否则会报warning
df2 = df.copy()
print(df2, '\n')
df2.loc['a','A'] = 10
print(df2)

In [None]:
# 通过[]行切片产生的是一个副本
df2 = df.copy()
print(df2, '\n')
df2['a':'b']['A'] = [11, 12] #df2本身并没有被修改
print(df2)


df2.loc['a':'b', 'A'] = [11, 12] #df2被原地修改了
print(df2)

##### 函数批量任意修改  DataFrame.replace()
几个常用参数:
+ to_replace：要修改的值，可以为列表
+ value：改为的值，可以为列表，与to_repalce要匹配；
+ inplace：是否在原地修改；


In [None]:
df2.replace(to_replace = 10, value = 100, inplace=False)

##### 交换两列

In [None]:
print(df2, '\n')
df2[['A','B']] = df2[['B','A']]  #交换两列
print(df2, '\n')

#### 改索引

##### 直接改索引
索引类似于tuple，必须全改，不能切片修改

In [None]:
df2 = df.copy()
print(df2.index, df2.columns)
df2.index = ['e','f']
df2.columns = ['E','F','G']
print(df2.index, df2.columns)

##### 函数修改   DataFrame.rename()
几个常用参数:
+ index：list or dict，list时必须长度相同，dict时可以部分修改；
+ columns：list or dict，list时必须长度相同，dict时可以部分修改；
+ level：多重索引时，可以指定修改哪一重，目前还用不着；
+ inplace：是否原地修改。


In [None]:
df2 = df.copy()
print(df2.index, df2.columns)
df2.rename( index = {'e':'b'}, columns = {'E':'A'}, inplace = False)
print(df2.index, df2.columns)

#### 增

##### 直接增一行

In [None]:
df2 = df.copy()
print(df2, '\n')
df2.loc['c'] = [7,8,9]
print(df2, '\n')

##### 函数增多行  pd.concat(objs, axis=0)

     axis=0时连接行,此时最好确保列索引相同.（其实这个函数并不要求列索引相同，它可以选择出相同的列。而我写这个教程遵循了python的宣言—明确：做好一件事有一种最好的方法，精确控制每一步，可以少犯错。）
    参数说明:
        objs: list of DataFrame；
        axis=0: 按行连接。


In [None]:
df2 = df.copy()
print(df2, '\n')
tmpDf = pd.DataFrame([[22,33,44],[55,66,77]], index = ['c','d'],columns = ['A','B','C'])
df3 = pd.concat([df2, tmpDf], axis=0 )
print(df3, '\n')

##### 直接增一列

In [None]:
print(df2, '\n')
df2 = df.copy()
df2['H'] = [7, 8]
print(df2, '\n')

##### 函数增多列 pd.concat(objs, axis=1)¶


    axis=1时连接列,此时最好确保行索引相同.
    参数说明:
        objs: list of DataFrame；
        axis=1: 按列连接。

In [None]:
df2 = df.copy()
print(df2, '\n')
tmpDf = pd.DataFrame([[22,33],[44,55]], index = ['a','b'],columns = ['D','E'])
df3 = pd.concat([df2,tmpDf], axis =1)
print(df3, '\n')

##### 插入列  df.insert()
将列插入DataFrame的指定位置。

In [None]:
df2 = df.copy()
print(df2, '\n')

# 在df2中插入列索引为0的列,列名为'addColumn'(df2中已有同名列的将报错,除非`allow_duplicates`设置为True)
df2.insert(0, 'addColumn', np.arange(len(df2))) 
df2.head()

In [None]:
df3 = df.copy()
arrays = [[1, 1, 2], ['A', 'B', 'C']]
df3.columns =  pd.MultiIndex.from_arrays(arrays, names=('index_1', 'index_2'))
df3

In [None]:
dates = pd.date_range('20191022', periods=3)
dates

In [None]:
df3.insert(0, ('', 'addColumn'), dates) 
df3.head()


df3.insert(0, 'addColumn2', dates) 
df3.head()

In [None]:
index = pd.index

In [None]:
df3.insert?

#### 删

##### 函数删多行  DataFrame.drop()

几个常用参数:
+ labels：索引，单索引或索引的列表；
+ axis：0-删行；
+ level：多重索引需要指定；
+ inplace：是否本地修改。


In [None]:
df2 = df.copy()
print(df2, '\n')
df2.drop(['a'], axis=0, inplace=True)
print(df2, '\n')

##### 直接删一列

In [None]:
df2 = df.copy()
print(df2, '\n')
del df2['A']
print(df2, '\n')

##### 函数删多列  DataFrame.drop()
几个常用参数:
+ labels：索引，单索引或索引的列表；
+ axis：1-删列；
+ level：多重索引需要指定；
+ inplace：是否本地修改。


In [None]:
df2 = df.copy()
print(df2, '\n')
df2.drop(['A', 'C'], axis=1, inplace=True)
print(df2, '\n')

### 处理DataFrame中的异常数据

从文件中读取的数据可能包含有NaN,

#### dropna()删除带NaN的行或列
+ axis:0删除行(默认)，
     1删除列
+ how: 'all'只有将行(或列)全为NaN时才删除该行(或列)

In [None]:
# dropna()删除带NaN的行或列
# axis:0删除行(默认)，
#      1删除列
df.dropna() 

#### fillna()使用指定的值来填充NaN


In [None]:
# 使用均值填充NaN
df.fillna(df.mean(1), axis=1) 

#### Group By 和 aggregate()
transform()
apply()
filter()
 

In [None]:
df.aggregate?

### pd.merge()详解

pd.merge(left, right, how='inner', on=None, left_on=None, 
         right_on=None, left_index=False, right_index=False, 
         sort = False)
+ left,right： 要对齐合并的两个DataFrame；
+ how： 先做笛卡尔积操作，然后按照要求保留需要的，缺失的数据填充NaN；
     - left: 以左DataFrame为基准，即左侧DataFrame的数据全部保留（不代表完全一致、可能会存在复制），保持原序.
     - right: 以右DataFrame为基准，保持原序
     - inner: 交，保留左右DataFrame在on上完全一致的行，保持左DataFrame顺序
     - outer: 并，按照字典顺序重新排序
+ on：列索引或列索引列表，如果要在DataFrame相同的列索引做对齐，用这个参数；
+ left_on, right_on, left_index, right_index：
     - on用于对两个DataFrame中相同的列索引或列索引列表进行对齐; 当要对齐不同列名的DataFrame时使用left_on和right_on.
     - index对应要使用的index，建议不要使用这俩参数，因为可以用concat方法代替。
+ sort: True or False，是否按字典序重新排序。

concat函数本质上是在所有索引上同时进行对齐合并，而如果想在任意列上对齐合并，则需要merge函数

In [None]:
df1 = pd.DataFrame([[1,2],[3,4]], index = ['a','b'],columns = ['A','B'])
df2 = pd.DataFrame([[1,3],[4,8]], index = ['b','d'],columns = ['B','C'])
print('df1=\n', df1, '\n')
print('df2=\n', df2, '\n')

#### 如果单纯的按照index对齐，不如用concat方法

In [None]:
# 如果单纯的按照index对齐，不如用concat方法，所以一般不建议使用left_index, right_index.
pd.merge(left = df1, right = df2, how = 'inner' ,left_index = True, right_index = True)

In [None]:
# 区别是concat对重复列没有重命名，但是重名的情况不多，而且重名了说明之前设计就不大合理。
pd.concat([df1,df2], join = 'inner',axis =1)  

#### on 用法

设置 how = 'inner'

In [None]:
#取left和right两个表中在'B'列上相同的行。 
pd.merge(left = df1, right = df2, how = 'inner' , on =['B']) 

In [None]:
# 取left表'A'列 与 right表'C'列 取值相同的行。
pd.merge(left = df1, right = df2, how = 'inner',left_on = ['A'] ,right_on = ['C'])

#### how 用法

In [None]:
# 保持左侧DataFrame不变，使用右表的'B'列来跟左表的'B'列对齐，对不上的填NaN。 
pd.merge(left = df1, right = df2, how = 'left', on = ['B'] )

In [None]:
# 保持右侧DataFrame不变，使用左表的'A'列来跟右表的'C'列对齐，对不上的填NaN。
pd.merge(left = df1, right = df2, how = 'right', left_on = ['A'] ,right_on = ['C'] )

## Index对象

Index对象是pandas其核心对象之一.

    索引类似于元组，其本身是不能赋值修改的；
    其在数据进行整体运算时，辅助自动对齐，这是pandas不同于其他数据处理库的一大特征；
    多层索引可以帮助改变表的形态，如透视表等。


### 单层索引

#### 创建单层索引

pd.Index(data, dtype = Object, name = None) --data为一维列表时创建的是单层索引
+ data：data为一维列表时创建的是单层索引
+ dtype：索引元素的类型，默认为object型
+ name：索引的名字，类似于列的名字


In [None]:
data = ['a','b','c']
index = pd.Index(data, name = 'indexName')
index

#### Index三要素:
+ index.name
+ index.values
+ index.dtype

#### 查
查询方式和一维ndarray或Series的.iloc[]完全一样

In [None]:
#单元素
index[0]

#范围
index[0:2]

#枚举列表指定元素
index[[0,2]]

#掩码
mask = [True,False,True]
index[mask]

#### 改索引名

索引的值是不能修改的，但是名字确是可以修改的

##### 直接改

In [None]:
print(index)
index.name = 'new_name' 
print(index)

##### 函数改

Index.set_names(names, inplace=False)
+ names：要设置的名字，可以为名字的列表；
+ inplace：是否原地修改。


In [None]:
print(index)
index.set_names('indexName', inplace=True)
print(index)

#### 增

##### 按位置添加一个元素    Index.insert(loc, value)

Index.insert(loc, value)
+ loc：位置编号
+ value：值


In [None]:
idx = index.copy()
print(idx)
idx2 = idx.insert(1,'d')
print(idx)
print(idx2)

##### 尾部添加多个元素 Index.append(other)

Index.append(other)
+ other：添加到尾部的其他索引对象

In [None]:
idx = index.copy()
print(idx)
idx2 = pd.Index(['x', 'y'])
idx3 = idx.append(idx2)
print(idx3)

##### 并
Index.union(other)
+ other：要并入当前索引的其他索引对象.(可用于去重) 

In [None]:
idx = index.copy()
print(idx)

idx2 = pd.Index(['b','c','d'])
print(idx2)

idx.union(idx2)

#### 删

##### 按位置删除一行  Index.delete(loc)
Index.delete(loc)
+ loc：位置编号

In [None]:
idx = index.copy()
print(idx)
idx.delete(1)

##### 按索引删除多行  Index.drop(labels)
Index.drop(labels)
+ labels：索引列表

In [None]:
idx = index.copy()
print(idx)
idx2 = idx.drop(['a','b'])
print(idx)
print(idx2)

##### 交 Index.intersection(other)

In [None]:
idx = index.copy()
print(idx)

idx2 = pd.Index(['b','c','d'])
idx.intersection(idx2) 

### 多层索引

#### 创建

pd.MultiIndex.from_tuples(labels, names = None)
 labels：元组或列表的列表；
+ names：名字的列表。



In [None]:
# data = [['a','one'],['a','two'],['b','one']]
data = [('a','one'),('a','two'),('b','one')]
mulIndex = pd.MultiIndex.from_tuples( data, names = ['name1','name2'])
mulIndex

# 输出说明:
# MultiIndex(levels=[['a', 'b'], ['one', 'two']], -- 表示两层索引;第一层索引levels[0]=[a, b],第二层索引levels[1]=['one', 'two']
#            labels=[[0, 0, 1], [0, 1, 0], -- 对应一个索引组合：(levels[0][labels[0][i]], levels[1][labels[1][i]]) -- 对应data[i]
#            names=['name1', 'name2'])


In [None]:
data2 = [('a', 'x', 'one'),('a', 'y', 'two'),('b', 'z', 'one')]
mulIndex2 = pd.MultiIndex.from_tuples( data2, names = ['name1', 'name2', 'name3'])
mulIndex2

# 输出说明:
# MultiIndex(levels=[['a', 'b'], ['x', 'y', 'z'], ['one', 'two']],
#           labels=[[0, 0, 1], [0, 1, 2], [0, 1, 0]],
#           names=['name1', 'name2', 'name3'])
#  levels -- 表示三层索引：
#               第一层索引levels[0]=[a, b]
#               第二层索引levels[1]=['x', 'y', 'z']
#               第三层索引levels[2]=['one', 'two']
#  labels -- 对应一个索引组合（以矩阵的方式表示data2）：
#               (levels[0][labels[0][i]], levels[1][labels[1][i]]， levels[2][labels[2][i]]) -- 对应data2[i]

#### 查
查询方法和单层索引完全一致。

In [None]:
#单元素
mulIndex[0]

#范围
mulIndex[0:2]

#枚举列表指定元素
mulIndex[[0,2]]

#掩码
mask = [True,False,True]
mulIndex[mask]

##### 获取某一层索引：MultiIndex.get_level_values(level)
MultiIndex.get_level_values(level)
+ level：int，选中的那一层

In [None]:
print(mulIndex)
print(mulIndex.get_level_values(0))
print(mulIndex.get_level_values(1))

#### 改

##### 改索引名（函数改）
MultiIndex.set_names(names, level=None, inplace=False)
+ names：要设置的名字，可以为名字的列表；
+ level：多层索引需要设置修改的索引层次，可以为列表，要与names匹配；
+ inplace：是否原地修改。


In [None]:
tmpMulIndex = mulIndex.copy()
print(tmpMulIndex)
# 返回一个tmpMulIndex的副本,原tmpMulIndex不变
tmpMulIndex.set_names('new_name',level=0)

##### 改索引层次顺序
MultiIndex.swaplevel(i=-2, j=-1)
改变level i 和level j的次序


In [None]:
tmpMulIndex = mulIndex.copy()
print(tmpMulIndex)
tmpMulIndex.swaplevel()

##### 另外两个更实用的函数:
* Series.swaplevel(i=-2, j=-1)
* DataFrame.swaplevel(i=-2, j=-1, axis = 1)
  + axis：0-行索引，1-列索引

In [None]:
seriesObj = pd.Series([1,2,3], index = index)
seriesObj.swaplevel()

In [None]:
columns = index.copy()
print(columns)
columns.set_names( names = ['name3','name4'], level = [0, 1], inplace = True) #列索引取和行索引相同，只是改了名字
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index= index, columns = columns)
df

In [None]:
df.swaplevel( axis =1)  # 交换列索引顺序

#### 多层索引使用方法
当对values进行查看时，多层索引可以分开使用。

In [None]:
df1 = df.copy()
df1

##### 对于外层索引
记住：
+ 无论是Series还是DataFrame，外层索引都是可以直接使用，也就是说可以认为只有这一层索引；
+ 用法和第二篇查、改、增、删提到的方法完全相同。


###### []   --只有通过数字切片时才是通过行操作,其他均为列操作

In [None]:
df1['b']  # 列外层 ---取列索引为'b'

In [None]:
df1['a':'b'] # 列外层 --取列索引['a','b']的列

In [None]:
df1[['a','b']] # 列外层  --取列索引为'a'和'b'的列 （以枚举方式指定列索引）

In [None]:
df1[0:2]  # 行外层

In [None]:
mask =[True,False,True]  # 行外层  --对应第一，第三行
df1[mask]

In [None]:
.loc[]

In [None]:
df1.loc['a','b']  # 取行索引为'a'，列索引为'b'的所有单元格数据 

In [None]:
#取行索引为['a', 'b']，列索引为'b' 范围内的所有单元格数据。
# --这里行索引以范围的方式给出。（参考excel中的范围表示） 
df1.loc['a':'b','b']

In [None]:
#取行索引为'a'或'b'，列索引为'b' 范围内的所有单元格数据。--这里行索引以枚举的方式给出。
df1.loc[['a','b'],'b'] 

In [None]:
mask = [True, False, True] # mask
df1.loc[mask,'b'] #取第一和第三行，列索引为'b' 范围内的所有单元格数据

###### iloc[]

In [None]:
df1.iloc[0, 0:2] #取第一行，第[0,2)列 区域内的所有单元格数据

In [None]:
df1.iloc[0:2,0:2] #取第[0,2)行，第[0,2)列 区域内的所有单元格数据

In [None]:
df1.iloc[[0,1],0:2]  #取第0，第1行; 第[0,2)列 区域内的单元格数据. --这里行索引以枚举的方式给出。

In [None]:
mask = [True, False, True]
df1.iloc[mask,0:2] #取第一和第三行，第[0,2)列 范围内的单元格数据. --这里行索引以掩码的方式给出。

##### 对于内层索引

+ **内层索引不可直接使用，必须先外层、再内层，直接使用会报错；**
+ 内层只能使用单索引形式，其他形式报错。

###### [ , ] 快捷操作(基于列)

In [None]:
#取一列，先外层单列索引，再内层单列索引，其他形式都报错. 
# --注意：这里'a','one'都是列索引
df1['a','one']  

###### .loc[ , ]   (基于行)

In [None]:
print(df1)
# 取一行，先外层单行索引，再内层单列索引，其他形式都报错. 
# --注意：这里'a','one'都是行索引
df1.loc['a','one'] 

###### .iloc[ , ]

因为.iloc[]无视索引，只按照位置定位; 所以操作方式外层索引部分完全相同

##### xs直接选取法

适合在单层level选取，不能行列同时操作。
Series.xs(key, level=None, drop_level=True)
DataFrame.xs(key, axis=0, level=None, drop_level=True)
+ key: 要选取的索引值或其列表；
+ axis：0-行索引，1-列索引；
+ level：索引层次；
+ drop_level：True or False，是否显示用于选取的level索引，默认不显示。


In [None]:
df1 = df.copy()
df1.xs( 'one', axis = 0, level = 1 )  # 行索引的level 1, 有两行

In [None]:
df1.xs( 'two', axis = 1, level = 1 ) # 列索引的level 1，有一列

## 绘图

### df.plot() --基于df列的Series绘制

+ kind： 指定绘图样式 
    - 默认为拆线图
    - bar或barh为条形  --作对比
        df.plot.bar()
    - hist为直方图     --看单维度分布
        df.plot.hist()
    - boxplot为盒型图(箱线图) --看单维度数据(分析异常点)
        df.plot.boxplot()
    - area为面积图 
        df.plot.area()
    - scatter为散点图 --看关联
        df.plot.scatter()
    

## 常用函数

quantile() --分位数

In [None]:
# 以概率阈值p进行随机失活
p = 0.5
H = np.array([[0.51518527, 0.11805243, 0.95007683],
              [0.11505597, 0.69643386, 0.85712275],
              [0.45662133, 0.42227228, 0.53639051],
              [0.21948539, 0.510739  , 0.78275228]]) 
U = np.random.rand(*H.shape) > p #构造随机失活矩阵
OutH = H * U #得到随机失活后的矩阵

print(U)
print(OutH)