In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Series

Series是pandas中暴露给我们使用的基本对象，它是由相同元素类型构成的一维数据结构，同时具有列表和字典的属性（字典的属性由索引赋予）。

+ Series：有序，有索引
+ list：  有序，无索引
+ dict：  无序，有索引

### 创建Series

In [50]:
data = [1, 2, 3]
index = ['a','b','c']

#不指定index时,如果data是有索引的则使用data的索引,否则使用从0开始的下标作为索引
seriesObj = pd.Series(data=data, index=index, name = 'seriesName')
print(seriesObj)


data2 = { 'a':1, 'b':2,'c':3 }
index2 = ['a', 'b', 'c', 'd']
#seriesObj = pd.Series(data = data2) #不指定index时,如果data是有索引的则使用data的索引,否则使用从0开始的下标作为索引
#seriesObj = pd.Series(data = data2, index = index2)
#print(seriesObj)

a    1
b    2
c    3
Name: seriesName, dtype: int64


### Series四属性
+ 索引: seriesObj.index
+ 名字: seriesObj.name
+ 值: seriesObj.values
+ 元素类型: seriesObj.dtype

In [25]:
print(seriesObj.index)
print(seriesObj.name)
print(seriesObj.values)
print(seriesObj.dtype)

Index(['a', 'b', 'c'], dtype='object')
seriesName
[1 2 3]
int64


### Series的查、改、增、 删¶

#### 查

##### [],  基于位置,基于索引
基于位置,基于索引,切片(范围),指定索引(列表枚举),掩码

In [43]:
seriesObj[1] # 索引从0开始算起

2.0

In [45]:
seriesObj[0:2] # 取索引为[0, 2)范围内的元素

a    1.0
b    2.0
dtype: float64

In [46]:
seriesObj[[0,2]] # 通过列表枚举要获取元素的索引 -- 返回第0和第2个

a    1.0
c    3.0
dtype: float64

In [56]:
mask = [False, True, False]  #mask，类似于列表枚举，只是长度必须和Series相同，返回Series中的指定元素
seriesObj[mask]

b    2
Name: seriesName, dtype: int64

##### .loc[]，基于索引
可通过.loc[]进行查询方式同样可以通过[]进行

In [77]:
seriesObj.loc['b'] # 单索引，返回一个值
#seriesObj['b']

2

In [76]:
seriesObj.loc['a':'c']  # 范围，注意：左闭右闭，返回Series切片
#seriesObj['a':'c']

a    1
b    2
c    3
Name: seriesName, dtype: int64

In [75]:
seriesObj.loc[['a','c']] # 列表枚举，返回指定索引的Series元素 --通过列表指定要返回元素的索引
#seriesObj[['a', 'c']]

a    1
c    3
Name: seriesName, dtype: int64

In [66]:
mask = [False, True, False] # mask，和iloc[]效果等同，返回指定的Series元素
seriesObj.loc[mask]

b    2
Name: seriesName, dtype: int64

##### .iloc[]，基于位置
可通过.iloc[]进行查询方式同样可以通过[]进行

In [79]:
seriesObj.iloc[1] # 返回一个值
#seriesObj[1] 

2

In [74]:
seriesObj.iloc[0:2] # 取索引为[0, 2)范围内的元素
#seriesObj[0:2] 

a    1
b    2
Name: seriesName, dtype: int64

In [80]:
seriesObj.iloc[[0,2]] # 通过列表枚举要获取元素的索引 -- 返回第0和第2个
#seriesObj[[0,2]] 

a    1
c    3
Name: seriesName, dtype: int64

In [81]:
mask = [False, True, False]  #mask，类似于列表枚举，只是长度必须和Series相同，返回Series中的指定元素
seriesObj.iloc[mask]
#seriesObj[mask]

b    2
Name: seriesName, dtype: int64

#### 改

In [83]:
seriesObj2 = seriesObj.copy()  # 深copy，拷贝数据结构包含的所有信息

##### 查的基础上赋值，就可以修改

In [86]:
seriesObj2['a'] = 10

a    10
b     2
c     3
Name: seriesName, dtype: int64

##### Series.replace()

几个主要参数:
+ to_replace：要修改的值，可以为列表
+ value：改为的值，可以为列表，与to_repalce要匹配；
+ inplace：是否在原地修改；


In [87]:
seriesObj2.replace(to_replace = 10, value = 100, inplace=False)

a    100
b      2
c      3
Name: seriesName, dtype: int64

#### 改索引

##### 直接改index
index类似于tuple，只能引用到别处，不能切片修改.

In [96]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2.index)
seriesObj2.index = ['a','e','f']
print(seriesObj2.index)

Index(['a', 'b', 'c'], dtype='object')
Index(['a', 'e', 'f'], dtype='object')


##### Series.rename()

几个常用参数:
+ index：list or dict，list时必须和已有索引长度相同，dict可以部分修改；
+ level：多重索引时，可以指定修改哪一重，从0开始递增；
+ inplace：是否原地修改。


In [95]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2.index)
tmpS = seriesObj2.rename( index = {'a':'A'}, inplace = False)
print(tmpS.index)

Index(['a', 'b', 'c'], dtype='object')
Index(['A', 'b', 'c'], dtype='object')


#### 增

##### 直接增一行

In [100]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
seriesObj2['d'] = 4
print(seriesObj2)

a    1
b    2
c    3
Name: seriesName, dtype: int64
a    1
b    2
c    3
d    4
Name: seriesName, dtype: int64


##### 函数删多行 Series.append() 
几个常用参数:
+ to_append: 另一个series或多个Series构成的列表；
+ ignore_index：False-保留原有索引，True-清除所有索引，生成默认数值索引；
+ verify_integrity：True的情况下，如果to_append索引与当前索引有重复，则报错。


In [106]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
tmpS = pd.Series([22, 33], index = ['x', 'y']) #创建一个Series对象
seriesObj3 = seriesObj2.append(tmpS, ignore_index=False)
print(seriesObj3)

a    1
b    2
c    3
Name: seriesName, dtype: int64
a     1
b     2
c     3
x    22
y    33
dtype: int64


#### 删

##### 直接删一行¶

In [112]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
del seriesObj2['b']
print(seriesObj2)

a    1
b    2
c    3
Name: seriesName, dtype: int64
a    1
c    3
Name: seriesName, dtype: int64


##### 函数删多行 Series.drop()
几个常用参数:
+ labels：索引，单索引或索引的列表；
+ level：多重索引需要设置；
+ inplace：是否本地修改。


In [113]:
seriesObj2 = seriesObj.copy() 
print(seriesObj2)
seriesObj2.drop(['a','c'], inplace=True)
print(seriesObj2)

a    1
b    2
c    3
Name: seriesName, dtype: int64
b    2
Name: seriesName, dtype: int64


## DataFrame

### 创建DataFrame

#### 根据文件创建DataFrame

##### pd.read_csv()

read_csv的参数很多，但这几个参数就够我们使用了：
+ filepath_or_buffer：路径和文件名不要带中文，带中文容易报错。
+ sep: csv文件数据的分隔符，默认是','，根据实际情况修改；
+ header：如果有列名，那么这一项不用改；
+ names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
+ index_col：int型，选取这一列作为索引。
+ encoding：根据你的文档编码来确定，如果有中文读取报错，试试encoding = 'gbk'

In [35]:
path =  './data/ex1data1.txt'
data = pd.read_csv(path, header=None, names=['Population', 'Profit'])


##### pd.read_excel()

read_excel的参数很多，但这几个参数就够我们使用了：

+ header：如果有列名，那么这一项不用改；
+ names：如果没有列名，那么必须设置header = None， names为列名的列表，不设置默认生成数值索引；
+ index_col：int型，选取这一列作为索引。


#### 使用pd.DataFrame()创建

pd.DataFrame(data=None, index=None, columns=None) --这里只关注三个主要参数
- 如果data中不包含行索引或列索引信息,且没有通过参数显式指定时,将生成从0开始的默认索引.


In [31]:
# data无行索引，无列索引 -- data 为 ndarray(2D) or list(2D)
data1 = np.array([[1,2,3],
                  [4,5,6]] )
index1 = ['a','b']
columns1 = ['A','B','C']
#df = pd.DataFrame(data=data)
df = pd.DataFrame(data=data1, index = index1, columns = columns1)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [33]:
# data无行索引，有列索引 -- data为 dict of ndarray(1D) or list(1D)
data2 = { 'A': [1, 4], 
          'B': [2, 5], 
          'C': [3, 6] }
index2 = ['a','b']
columns2 = ['A', 'B', 'C', 'D']
df = pd.DataFrame(data=data2, index = index2)
#df = pd.DataFrame(data=data2, index = index2, columns = columns2)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [34]:
# data有行索引，有列索引 -- data为 dict of Series or dict
# data3 = { 'A' : pd.Series([1,4] ,index = ['a','b']), 'B' : pd.Series([2,5] ,index = ['a','b']), 'C' : pd.Series([3,6] ,index = ['a','c']) }
data3 = { 'A' : { 'a':1, 'b':4}, 'B': {'a':2,'b':5}, 'C':{'a':3, 'c':6} }
df = pd.DataFrame(data=data3)
df

Unnamed: 0,A,B,C
a,1.0,2.0,3.0
b,4.0,5.0,
c,,,6.0


### DataFrame属性
+ 行索引: df.index
+ 列索引: df.columns
+ 值: df.values
+ 各列元素类型: df.dtypes

In [15]:
data = [[1,2,3],
        [4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index = index, columns = columns)
print(df)
print(df.index)
print(df.columns)
print(df.values)
print(df.dtypes)

   A  B  C
a  1  2  3
b  4  5  6
Index(['a', 'b'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')
[[1 2 3]
 [4 5 6]]
A    int64
B    int64
C    int64
dtype: object


### DataFrame的查、改、增、 删

#### 查

##### []  --使用除切片外的其他方式时,都是基于列进行的
基于列索引,基于列表枚举列索引,基于行切片(范围),基于掩码

In [118]:
df2 = df.copy()

In [119]:
# 基于列索引
df2['A'] # 列操作，单列索引，返回Series

a    1
b    4
Name: A, dtype: int64

In [120]:
# 基于列表枚举列索引
df2[['A','C']] # 列操作，列表枚举列索引，返回DataFrame

Unnamed: 0,A,C
a,1,3
b,4,6


In [None]:
# df2[0]  # 报错
# df2['a']  # 报错

In [121]:
# 基于行切片(范围)
df2[0:1]  # 行操作，位置范围，返回DataFrame. 位置索引左闭右开[,)

Unnamed: 0,A,B,C
a,1,2,3


In [122]:
# 基于行切片(范围)
df2['a':'c']  # 行操作，位置范围，返回DataFrame. 索引左闭右闭[,]

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [None]:
# df2[[0,1]] #报错

In [124]:
# 基于掩码
mask = [False,True] 
df2[mask] # 行操作，mask，必须和行长度一致，返回DataFrame

Unnamed: 0,A,B,C
b,4,5,6


##### .loc[]，基于索引
.loc[]在DataFrame中与[]不一致.

    DataFrame 有两维，每一维都和 Series 的 .loc[] 用法相同；
    Series有四种方式，所以DataFrame有16种方式;
    可以缺省后面维度，默认补全为 ':' 。


In [129]:
df2.loc['b','B'] # 返回单一值，因为两维都是单索引
#df2['b','B'] #error

5

In [131]:
df2.loc['a':'b', 'B'] #返回Series，如果只有一维是单索引
# df2['a':'b', 'B'] #error

a    2
b    5
Name: B, dtype: int64

In [132]:
#返回Series，如果只有一维是单索引 -- 以列表的方法直接指定了索引位置而不是范围
df2.loc[['a','b'], 'B'] 

a    2
b    5
Name: B, dtype: int64

In [133]:
mask1 = [False, True, False] 
df2.loc[mask1,'B']

b    5
Name: B, dtype: int64

In [139]:
df2.loc[['a','b'], ['A','B']] # 返回DataFrame

Unnamed: 0,A,B
a,1,2
b,4,5


##### .iloc[]，基于位置


    DataFrame 有两维，每一维都和 Series 的 .iloc[] 用法相同；
    Series有四种方式，所以DataFrame有16种方式；
    可以缺省后面维度，默认补全为 ':' 。


In [137]:
df2.iloc[1,1] # 返回单一值

Unnamed: 0,A,C
a,1,3
b,4,6


In [141]:
df2.iloc[[0,1],[0,2]] # 返回DataFrame

Unnamed: 0,A,C
a,1,3
b,4,6


In [142]:
mask1 = [False, True, False]  # 返回DataFrame
mask2 =[True, False]
df2.iloc[mask1, mask2]

Unnamed: 0,A
b,4


#### 改

##### 直接查的基础上赋值进行修改

In [16]:
df2 = df.copy()
print(df2, '\n')
df2['D'] = 10  # 注意直接使用[]操作的是列
print(df2)

   A  B  C
a  1  2  3
b  4  5  6 

   A  B  C   D
a  1  2  3  10
b  4  5  6  10


In [144]:
# .loc[]方法确保在原地修改，否则会报warning
df2 = df.copy()
print(df2, '\n')
df2.loc['a','A'] = 10
print(df2)

   A  B  C
a  1  2  3
b  4  5  6 

    A  B  C
a  10  2  3
b   4  5  6


##### 函数批量任意修改  DataFrame.replace()
几个常用参数:
+ to_replace：要修改的值，可以为列表
+ value：改为的值，可以为列表，与to_repalce要匹配；
+ inplace：是否在原地修改；


In [145]:
df2.replace(to_replace = 10, value = 100, inplace=False)

Unnamed: 0,A,B,C
a,100,2,3
b,4,5,6


##### 交换两列

In [146]:
print(df2, '\n')
df2[['A','B']] = df2[['B','A']]  #交换两列
print(df2, '\n')

    A  B  C
a  10  2  3
b   4  5  6 

   A   B  C
a  2  10  3
b  5   4  6 



#### 改索引

##### 直接改索引
索引类似于tuple，必须全改，不能切片修改

In [149]:
df2 = df.copy()
print(df2.index, df2.columns)
df2.index = ['e','f']
df2.columns = ['E','F','G']
print(df2.index, df2.columns)

Index(['a', 'b'], dtype='object') Index(['A', 'B', 'C'], dtype='object')
Index(['e', 'f'], dtype='object') Index(['E', 'F', 'G'], dtype='object')


##### 函数修改   DataFrame.rename()
几个常用参数:
+ index：list or dict，list时必须长度相同，dict时可以部分修改；
+ columns：list or dict，list时必须长度相同，dict时可以部分修改；
+ level：多重索引时，可以指定修改哪一重，目前还用不着；
+ inplace：是否原地修改。


In [150]:
df2 = df.copy()
print(df2.index, df2.columns)
df2.rename( index = {'e':'b'},columns = {'E':'A'}, inplace = False)
print(df2.index, df2.columns)

Index(['a', 'b'], dtype='object') Index(['A', 'B', 'C'], dtype='object')
Index(['a', 'b'], dtype='object') Index(['A', 'B', 'C'], dtype='object')


#### 增

##### 直接增一行

In [151]:
df2 = df.copy()
print(df2, '\n')
df2.loc['c'] = [7,8,9]
print(df2, '\n')

   A  B  C
a  1  2  3
b  4  5  6 

   A  B  C
a  1  2  3
b  4  5  6
c  7  8  9 



##### 函数增多行  pd.concat(objs, axis=0)

     axis=0时连接行,此时最好确保列索引相同.（其实这个函数并不要求列索引相同，它可以选择出相同的列。而我写这个教程遵循了python的宣言—明确：做好一件事有一种最好的方法，精确控制每一步，可以少犯错。）
    参数说明:
        objs: list of DataFrame；
        axis=0: 按行连接。


In [154]:
df2 = df.copy()
print(df2, '\n')
tmpDf = pd.DataFrame([[22,33,44],[55,66,77]], index = ['c','d'],columns = ['A','B','C'])
df3 = pd.concat([df2, tmpDf], axis=0 )
print(df3, '\n')

   A  B  C
a  1  2  3
b  4  5  6 

    A   B   C
a   1   2   3
b   4   5   6
c  22  33  44
d  55  66  77 



##### 直接增一列

In [155]:
print(df2, '\n')
df2 = df.copy()
df2['H'] = [7, 8]
print(df2, '\n')

   A  B  C
a  1  2  3
b  4  5  6 

   A  B  C  H
a  1  2  3  7
b  4  5  6  8 



##### 函数增多列 pd.concat(objs, axis=1)¶


    axis=1时连接列,此时最好确保行索引相同.
    参数说明:
        objs: list of DataFrame；
        axis=1: 按列连接。

In [156]:
df2 = df.copy()
print(df2, '\n')
tmpDf = pd.DataFrame([[22,33],[44,55]], index = ['a','b'],columns = ['D','E'])
df3 = pd.concat([df2,tmpDf], axis =1)
print(df3, '\n')

   A  B  C
a  1  2  3
b  4  5  6 

   A  B  C   D   E
a  1  2  3  22  33
b  4  5  6  44  55 



##### 插入列  df.insert()
将列插入DataFrame的指定位置。

In [158]:
df2 = df.copy()
print(df2, '\n')

# 在df2中插入列索引为0的列,列名为'addColumn'(df2中已有同名列的将报错,除非`allow_duplicates`设置为True)
df2.insert(0, 'addColumn', np.arange(len(df2))) 
df2.head()

   A  B  C
a  1  2  3
b  4  5  6 



Unnamed: 0,addColumn,A,B,C
a,0,1,2,3
b,1,4,5,6


#### 删

##### 函数删多行  DataFrame.drop()

几个常用参数:
+ labels：索引，单索引或索引的列表；
+ axis：0-删行；
+ level：多重索引需要指定；
+ inplace：是否本地修改。


In [165]:
df2 = df.copy()
print(df2, '\n')
df2.drop(['a'], axis=0, inplace=True)
print(df2, '\n')

   A  B  C
a  1  2  3
b  4  5  6 

   A  B  C
b  4  5  6 



##### 直接删一列

In [167]:
df2 = df.copy()
print(df2, '\n')
del df2['A']
print(df2, '\n')

   A  B  C
a  1  2  3
b  4  5  6 

   B  C
a  2  3
b  5  6 



##### 函数删多列  DataFrame.drop()
几个常用参数:
+ labels：索引，单索引或索引的列表；
+ axis：1-删列；
+ level：多重索引需要指定；
+ inplace：是否本地修改。


In [169]:
df2 = df.copy()
print(df2, '\n')
df2.drop(['A', 'C'], axis=1, inplace=True)
print(df2, '\n')

   A  B  C
a  1  2  3
b  4  5  6 

   B
a  2
b  5 



### pd.merge()详解

pd.merge(left, right, how='inner', on=None, left_on=None, 
         right_on=None, left_index=False, right_index=False, 
         sort = False)
+ left,right： 要对齐合并的两个DataFrame；
+ how： 先做笛卡尔积操作，然后按照要求保留需要的，缺失的数据填充NaN；
     - left: 以左DataFrame为基准，即左侧DataFrame的数据全部保留（不代表完全一致、可能会存在复制），保持原序.
     - right: 以右DataFrame为基准，保持原序
     - inner: 交，保留左右DataFrame在on上完全一致的行，保持左DataFrame顺序
     - outer: 并，按照字典顺序重新排序
+ on：列索引或列索引列表，如果要在DataFrame相同的列索引做对齐，用这个参数；
+ left_on, right_on, left_index, right_index：
     - on用于对两个DataFrame中相同的列索引或列索引列表进行对齐; 当要对齐不同列名的DataFrame时使用left_on和right_on.
     - index对应要使用的index，建议不要使用这俩参数，因为可以用concat方法代替。
+ sort: True or False，是否按字典序重新排序。

concat函数本质上是在所有索引上同时进行对齐合并，而如果想在任意列上对齐合并，则需要merge函数

In [21]:
df1 = pd.DataFrame([[1,2],[3,4]], index = ['a','b'],columns = ['A','B'])
df2 = pd.DataFrame([[1,3],[4,8]], index = ['b','d'],columns = ['B','C'])
print('df1=\n', df1, '\n')
print('df2=\n', df2, '\n')

df1=
    A  B
a  1  2
b  3  4 

df2=
    B  C
b  1  3
d  4  8 



#### 如果单纯的按照index对齐，不如用concat方法

In [25]:
# 如果单纯的按照index对齐，不如用concat方法，所以一般不建议使用left_index, right_index.
pd.merge(left = df1, right = df2, how = 'inner' ,left_index = True, right_index = True)

Unnamed: 0,A,B_x,B_y,C
b,3,4,1,3


In [23]:
# 区别是concat对重复列没有重命名，但是重名的情况不多，而且重名了说明之前设计就不大合理。
pd.concat([df1,df2], join = 'inner',axis =1)  

Unnamed: 0,A,B,B.1,C
b,3,4,1,3


#### on 用法

设置 how = 'inner'

In [28]:
#取left和right两个表中在'B'列上相同的行。 
pd.merge(left = df1, right = df2, how = 'inner' , on =['B']) 

Unnamed: 0,A,B,C
0,3,4,8


In [31]:
# 取left表'A'列 与 right表'C'列 取值相同的行。
pd.merge(left = df1, right = df2, how = 'inner',left_on = ['A'] ,right_on = ['C'])

Unnamed: 0,A,B_x,B_y,C
0,3,4,1,3


#### how 用法

In [29]:
# 保持左侧DataFrame不变，使用右表的'B'列来跟左表的'B'列对齐，对不上的填NaN。 
pd.merge(left = df1, right = df2, how = 'left', on = ['B'] )

Unnamed: 0,A,B,C
0,1,2,
1,3,4,8.0


In [30]:
# 保持右侧DataFrame不变，使用左表的'A'列来跟右表的'C'列对齐，对不上的填NaN。
pd.merge(left = df1, right = df2, how = 'right', left_on = ['A'] ,right_on = ['C'] )

Unnamed: 0,A,B_x,B_y,C
0,3.0,4.0,1,3
1,,,4,8


## Index对象

Index对象是pandas其核心对象之一.

    索引类似于元组，其本身是不能赋值修改的；
    其在数据进行整体运算时，辅助自动对齐，这是pandas不同于其他数据处理库的一大特征；
    多层索引可以帮助改变表的形态，如透视表等。


### 单层索引

#### 创建单层索引

pd.Index(data, dtype = Object, name = None) --data为一维列表时创建的是单层索引
+ data：data为一维列表时创建的是单层索引
+ dtype：索引元素的类型，默认为object型
+ name：索引的名字，类似于列的名字


In [34]:
data = ['a','b','c']
index = pd.Index(data, name = 'indexName')
index

Index(['a', 'b', 'c'], dtype='object', name='indexName')

#### Index三要素:
+ index.name
+ index.values
+ index.dtype

#### 查
查询方式和一维ndarray或Series的.iloc[]完全一样

In [37]:
#单元素
index[0]

#范围
index[0:2]

#枚举列表指定元素
index[[0,2]]

#掩码
mask = [True,False,True]
index[mask]

Index(['a', 'c'], dtype='object', name='indexName')

#### 改索引名

索引的值是不能修改的，但是名字确是可以修改的

##### 直接改

In [42]:
print(index)
index.name = 'new_name' 
print(index)

Index(['a', 'b', 'c'], dtype='object', name='new_name')
Index(['a', 'b', 'c'], dtype='object', name='new_name')


##### 函数改

Index.set_names(names, inplace=False)
+ names：要设置的名字，可以为名字的列表；
+ inplace：是否原地修改。


In [49]:
print(index)
index.set_names('indexName', inplace=True)
print(index)

Index(['a', 'b', 'c'], dtype='object', name='new_name2')
Index(['a', 'b', 'c'], dtype='object', name='indexName')


#### 增

##### 按位置添加一行    Index.insert(loc, value)

Index.insert(loc, value)
+ loc：位置编号
+ value：值


In [54]:
idx = index.copy()
print(idx)
idx2 = idx.insert(1,'d')
print(idx)
print(idx2)

Index(['a', 'b', 'c'], dtype='object', name='indexName')
Index(['a', 'b', 'c'], dtype='object', name='indexName')
Index(['a', 'd', 'b', 'c'], dtype='object', name='indexName')


##### 尾部添加多行 Index.append(other)

Index.append(other)
+ other：添加到尾部的其他索引对象

In [60]:
idx = index.copy()
print(idx)
idx2 = pd.Index(['x', 'y'])
idx3 = idx.append(idx2)
print(idx3)

Index(['a', 'b', 'c'], dtype='object', name='indexName')
Index(['a', 'b', 'c', 'x', 'y'], dtype='object')


##### 并
Index.union(other)
+ other：要并入当前索引的其他索引对象.(可用于去重) 

In [62]:
idx = index.copy()
print(idx)

idx2 = pd.Index(['b','c','d'])
print(idx2)

idx.union(idx2)

Index(['a', 'b', 'c'], dtype='object', name='indexName')
Index(['b', 'c', 'd'], dtype='object')


Index(['a', 'b', 'c', 'd'], dtype='object')

#### 删

##### 按位置删除一行  Index.delete(loc)
Index.delete(loc)
+ loc：位置编号

In [66]:
idx = index.copy()
print(idx)
idx.delete(1)

Index(['a', 'b', 'c'], dtype='object', name='indexName')


Index(['a', 'c'], dtype='object', name='indexName')

##### 按索引删除多行  Index.drop(labels)
Index.drop(labels)
+ labels：索引列表

In [70]:
idx = index.copy()
print(idx)
idx2 = idx.drop(['a','b'])
print(idx)
print(idx2)

Index(['a', 'b', 'c'], dtype='object', name='indexName')
Index(['a', 'b', 'c'], dtype='object', name='indexName')
Index(['c'], dtype='object', name='indexName')


##### 交 Index.intersection(other)

In [71]:
idx = index.copy()
print(idx)

idx2 = pd.Index(['b','c','d'])
idx.intersection(idx2) 

Index(['a', 'b', 'c'], dtype='object', name='indexName')


Index(['b', 'c'], dtype='object')

### 多层索引

#### 创建

pd.MultiIndex.from_tuples(labels, names = None)
 labels：元组或列表的列表；
+ names：名字的列表。



In [81]:
# data = [['a','one'],['a','two'],['b','one']]
data = [('a','one'),('a','two'),('b','one')]
mulIndex = pd.MultiIndex.from_tuples( data, names = ['name1','name2'])
mulIndex

# 输出说明:
# MultiIndex(levels=[['a', 'b'], ['one', 'two']], -- 表示两层索引;第一层索引levels[0]=[a, b],第二层索引levels[1]=['one', 'two']
#            labels=[[0, 0, 1], [0, 1, 0], -- 对应一个索引组合：(levels[0][labels[0][i]], levels[1][labels[1][i]]) -- 对应data[i]
#            names=['name1', 'name2'])


MultiIndex(levels=[['a', 'b'], ['one', 'two']],
           labels=[[0, 0, 1], [0, 1, 0]],
           names=['name1', 'name2'])

In [82]:
data2 = [('a', 'x', 'one'),('a', 'y', 'two'),('b', 'z', 'one')]
mulIndex2 = pd.MultiIndex.from_tuples( data2, names = ['name1', 'name2', 'name3'])
mulIndex2

# 输出说明:
# MultiIndex(levels=[['a', 'b'], ['x', 'y', 'z'], ['one', 'two']],
#           labels=[[0, 0, 1], [0, 1, 2], [0, 1, 0]],
#           names=['name1', 'name2', 'name3'])
#  levels -- 表示三层索引：
#               第一层索引levels[0]=[a, b]
#               第二层索引levels[1]=['x', 'y', 'z']
#               第三层索引levels[2]=['one', 'two']
#  labels -- 对应一个索引组合（以矩阵的方式表示data2）：
#               (levels[0][labels[0][i]], levels[1][labels[1][i]]， levels[2][labels[2][i]]) -- 对应data2[i]

MultiIndex(levels=[['a', 'b'], ['x', 'y', 'z'], ['one', 'two']],
           labels=[[0, 0, 1], [0, 1, 2], [0, 1, 0]],
           names=['name1', 'name2', 'name3'])

#### 查
查询方法和单层索引完全一致。

In [83]:
#单元素
mulIndex[0]

#范围
mulIndex[0:2]

#枚举列表指定元素
mulIndex[[0,2]]

#掩码
mask = [True,False,True]
mulIndex[mask]

MultiIndex(levels=[['a', 'b'], ['one', 'two']],
           labels=[[0, 1], [0, 0]],
           names=['name1', 'name2'])

##### 获取某一层索引：MultiIndex.get_level_values(level)
MultiIndex.get_level_values(level)
+ level：int，选中的那一层

In [87]:
print(mulIndex)
print(mulIndex.get_level_values(0))
print(mulIndex.get_level_values(1))

MultiIndex(levels=[['a', 'b'], ['one', 'two']],
           labels=[[0, 0, 1], [0, 1, 0]],
           names=['name1', 'name2'])
Index(['a', 'a', 'b'], dtype='object', name='name1')
Index(['one', 'two', 'one'], dtype='object', name='name2')


#### 改

##### 改索引名（函数改）
MultiIndex.set_names(names, level=None, inplace=False)
+ names：要设置的名字，可以为名字的列表；
+ level：多层索引需要设置修改的索引层次，可以为列表，要与names匹配；
+ inplace：是否原地修改。


In [89]:
tmpMulIndex = mulIndex.copy()
print(tmpMulIndex)
# 返回一个tmpMulIndex的副本,原tmpMulIndex不变
tmpMulIndex.set_names('new_name',level=0)

MultiIndex(levels=[['a', 'b'], ['one', 'two']],
           labels=[[0, 0, 1], [0, 1, 0]],
           names=['name1', 'name2'])


MultiIndex(levels=[['a', 'b'], ['one', 'two']],
           labels=[[0, 0, 1], [0, 1, 0]],
           names=['new_name', 'name2'])

##### 改索引层次顺序
MultiIndex.swaplevel(i=-2, j=-1)
改变level i 和level j的次序


In [91]:
tmpMulIndex = mulIndex.copy()
print(tmpMulIndex)
tmpMulIndex.swaplevel()

MultiIndex(levels=[['a', 'b'], ['one', 'two']],
           labels=[[0, 0, 1], [0, 1, 0]],
           names=['name1', 'name2'])


MultiIndex(levels=[['one', 'two'], ['a', 'b']],
           labels=[[0, 1, 0], [0, 0, 1]],
           names=['name2', 'name1'])

##### 另外两个更实用的函数:
* Series.swaplevel(i=-2, j=-1)
* DataFrame.swaplevel(i=-2, j=-1, axis = 1)
  + axis：0-行索引，1-列索引

In [96]:
seriesObj = pd.Series([1,2,3], index = index)
seriesObj.swaplevel()

name2  name1
one    a        1
two    a        2
one    b        3
dtype: int64

In [101]:
columns = index.copy()
print(columns)
columns.set_names( names = ['name3','name4'], level = [0, 1], inplace = True) #列索引取和行索引相同，只是改了名字
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index= index, columns = columns)
df

MultiIndex(levels=[['a', 'b'], ['one', 'two']],
           labels=[[0, 0, 1], [0, 1, 0]],
           names=['name1', 'name2'])


Unnamed: 0_level_0,name3,a,a,b
Unnamed: 0_level_1,name4,one,two,one
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,one,1,2,3
a,two,4,5,6
b,one,7,8,9


In [98]:
df.swaplevel( axis =1)  # 交换列索引顺序

Unnamed: 0_level_0,name4,one,two,one
Unnamed: 0_level_1,name3,a,a,b
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,one,1,2,3
a,two,4,5,6
b,one,7,8,9


#### 多层索引使用方法
当对values进行查看时，多层索引可以分开使用。

In [103]:
df1 = df.copy()
df1

Unnamed: 0_level_0,name3,a,a,b
Unnamed: 0_level_1,name4,one,two,one
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,one,1,2,3
a,two,4,5,6
b,one,7,8,9


##### 对于外层索引
记住：
+ 无论是Series还是DataFrame，外层索引都是可以直接使用，也就是说可以认为只有这一层索引；
+ 用法和第二篇查、改、增、删提到的方法完全相同。


###### []   --只有通过数字切片时才是通过行操作,其他均为列操作

In [104]:
df1['b']  # 列外层 ---取列索引为'b'

Unnamed: 0_level_0,name4,one
name1,name2,Unnamed: 2_level_1
a,one,3
a,two,6
b,one,9


In [105]:
df1['a':'b'] # 列外层 --取列索引['a','b']的列

Unnamed: 0_level_0,name3,a,a,b
Unnamed: 0_level_1,name4,one,two,one
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,one,1,2,3
a,two,4,5,6
b,one,7,8,9


In [106]:
df1[['a','b']] # 列外层  --取列索引为'a'和'b'的列 （以枚举方式指定列索引）

Unnamed: 0_level_0,name3,a,a,b
Unnamed: 0_level_1,name4,one,two,one
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,one,1,2,3
a,two,4,5,6
b,one,7,8,9


In [107]:
df1[0:2]  # 行外层

Unnamed: 0_level_0,name3,a,a,b
Unnamed: 0_level_1,name4,one,two,one
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,one,1,2,3
a,two,4,5,6


In [108]:
mask =[True,False,True]  # 行外层  --对应第一，第三行
df1[mask]

Unnamed: 0_level_0,name3,a,a,b
Unnamed: 0_level_1,name4,one,two,one
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,one,1,2,3
b,one,7,8,9


In [None]:
.loc[]

In [109]:
df1.loc['a','b']  # 取行索引为'a'，列索引为'b'的所有单元格数据 

name4,one
name2,Unnamed: 1_level_1
one,3
two,6


In [110]:
#取行索引为['a', 'b']，列索引为'b' 范围内的所有单元格数据。
# --这里行索引以范围的方式给出。（参考excel中的范围表示） 
df1.loc['a':'b','b']

Unnamed: 0_level_0,name4,one
name1,name2,Unnamed: 2_level_1
a,one,3
a,two,6
b,one,9


In [111]:
#取行索引为'a'或'b'，列索引为'b' 范围内的所有单元格数据。--这里行索引以枚举的方式给出。
df1.loc[['a','b'],'b'] 

Unnamed: 0_level_0,name4,one
name1,name2,Unnamed: 2_level_1
a,one,3
a,two,6
b,one,9


In [112]:
mask = [True, False, True] # mask
df1.loc[mask,'b'] #取第一和第三行，列索引为'b' 范围内的所有单元格数据

Unnamed: 0_level_0,name4,one
name1,name2,Unnamed: 2_level_1
a,one,3
b,one,9


###### iloc[]

In [113]:
df1.iloc[0, 0:2] #取第一行，第[0,2)列 区域内的所有单元格数据

name3  name4
a      one      1
       two      2
Name: (a, one), dtype: int64

In [114]:
df1.iloc[0:2,0:2] #取第[0,2)行，第[0,2)列 区域内的所有单元格数据

Unnamed: 0_level_0,name3,a,a
Unnamed: 0_level_1,name4,one,two
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,one,1,2
a,two,4,5


In [115]:
df1.iloc[[0,1],0:2]  #取第0，第1行; 第[0,2)列 区域内的单元格数据. --这里行索引以枚举的方式给出。

Unnamed: 0_level_0,name3,a,a
Unnamed: 0_level_1,name4,one,two
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,one,1,2
a,two,4,5


In [116]:
mask = [True, False, True]
df1.iloc[mask,0:2] #取第一和第三行，第[0,2)列 范围内的单元格数据. --这里行索引以掩码的方式给出。

Unnamed: 0_level_0,name3,a,a
Unnamed: 0_level_1,name4,one,two
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,one,1,2
b,one,7,8


##### 对于内层索引

+ **内层索引不可直接使用，必须先外层、再内层，直接使用会报错；**
+ 内层只能使用单索引形式，其他形式报错。

###### [ , ] 快捷操作(基于列)

In [None]:
#取一列，先外层单列索引，再内层单列索引，其他形式都报错. 
# --注意：这里'a','one'都是列索引
df1['a','one']  

###### .loc[ , ]   (基于行)

In [119]:
print(df1)
# 取一行，先外层单行索引，再内层单列索引，其他形式都报错. 
# --注意：这里'a','one'都是行索引
df1.loc['a','one'] 

name3         a       b
name4       one two one
name1 name2            
a     one     1   2   3
      two     4   5   6
b     one     7   8   9


name3  name4
a      one      1
       two      2
b      one      3
Name: (a, one), dtype: int64

###### .iloc[ , ]

因为.iloc[]无视索引，只按照位置定位; 所以操作方式外层索引部分完全相同

##### xs直接选取法

适合在单层level选取，不能行列同时操作。
Series.xs(key, level=None, drop_level=True)
DataFrame.xs(key, axis=0, level=None, drop_level=True)
+ key: 要选取的索引值或其列表；
+ axis：0-行索引，1-列索引；
+ level：索引层次；
+ drop_level：True or False，是否显示用于选取的level索引，默认不显示。


In [122]:
df1 = df.copy()
df1.xs( 'one', axis = 0, level = 1 )  # 行索引的level 1, 有两行

name3,a,a,b
name4,one,two,one
name1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,1,2,3
b,7,8,9


In [123]:
df1.xs( 'two', axis = 1, level = 1 ) # 列索引的level 1，有一列

Unnamed: 0_level_0,name3,a
name1,name2,Unnamed: 2_level_1
a,one,2
a,two,5
b,one,8
