# Series和DataFrame对象的查、改、增、 删
这一节主要介绍如何对Series和DataFrame对象进行查、改、增、删。

In [1]:
__auther__ = 'zhenhang.sun@gmail.com'

In [2]:
pwd

'D:\\github\\pandas-tutorial'

In [3]:
import numpy as np
import pandas as pd

# 1. Series

## 1.1 查

In [4]:
data = [1, 2, 3]
index = ['a', 'b', 'c']
s = pd.Series(data=data, index=index)
s

a    1
b    2
c    3
dtype: int64

### 1.1.1 []，快捷查看

In [5]:
s[1] # scalar, 返回一个值

2

In [6]:
s[0:2] # 范围，左闭右开，返回Series切片

a    1
b    2
dtype: int64

In [7]:
s[[0,2]] #列表，返回Series切片

a    1
c    3
dtype: int64

In [8]:
mask = [False, True, False]  #mask，类似于列表，只是长度必须和Series相同，返回Series切片
s[mask]

b    2
dtype: int64

### 1.1.2  .loc[]，基于索引
.loc[]查询方式和[]完全一致。

In [9]:
s.loc['b'] # 单索引，返回一个值

2

In [10]:
s.loc['a':'c'] # 范围，注意：左闭右闭，返回Series切片

a    1
b    2
c    3
dtype: int64

In [11]:
s.loc[['a','c']] # 列表，返回Series切片

a    1
c    3
dtype: int64

In [12]:
mask = [False, True, False] # mask，和iloc[]效果等同，返回Series切片
s.loc[mask] 

b    2
dtype: int64

### 1.1.3 .iloc[]，基于位置
无视索引，只按照位置定位。

In [13]:
s.iloc[1] # scalar, 返回一个值

2

In [14]:
s.iloc[0:2] # 范围，左闭右开，返回Series切片

a    1
b    2
dtype: int64

In [15]:
s.iloc[[0, 2]] #列表，返回Series切片

a    1
c    3
dtype: int64

In [16]:
mask = [False, True, False]  #mask，类似于列表，只是长度必须和Series相同，返回Series切片
s.iloc[mask]

b    2
dtype: int64

## 1.2 改

### 1.2.1 改值

##### 直接在1.2查的基础上赋值，就可以修改
##### 注意：如果要修改，使用.loc可以确保修改成功，其他方式可能会在临时创建的view上修改。

In [17]:
s1 = s.copy()  # 深copy，拷贝数据结构包含的所有信息
s1.loc['a'] = 10   #
s1

a    10
b     2
c     3
dtype: int64

In [18]:
s1.loc['a':'c'] = [10, 4, 5]
s1

a    10
b     4
c     5
dtype: int32

##### 函数修改：`Series.replace(to_replace=None, value=None, inplace=False)`
- to_replace：要修改的值，可以为列表；
- value：改为的值，可以为列表，与to_repalce要匹配；
- inplace：是否在原地修改；

In [19]:
s1.replace(to_replace=10, value=100, inplace=False)

a    100
b      4
c      5
dtype: int32

### 1.2.2 改索引

##### 直接在index上改，index类似于tuple，只能引用到别处，不能切片修改

In [20]:
s1 = s.copy()
s1.index = ['a','e','f']
s1

a    1
e    2
f    3
dtype: int64

##### 函数修改：`Series.rename(index=None, level=None, inplace=False)`
- index：list or dict，list类型时必须和已有索引长度相同，dict类型可以部分修改；
- level：多重索引时，可以指定修改哪一重，从0开始递增；
- inplace：是否原地修改。

In [21]:
s1.rename(index = {'e':'b'}, inplace = False)

a    1
b    2
f    3
dtype: int64

## 1.3 增

### 1.3.1 直接增一行

In [22]:
s1 = s.copy()
s1.loc['d'] = 4 
s1

a    1
b    2
c    3
d    4
dtype: int64

### 1.3.2 函数增多行
##### `Series.append(to_append, ignore_index=False, verify_integrity=False)`
- to_append: 另一个series或多个Series构成的列表；
- ignore_index：False-保留原有索引，True-清除所有索引，生成默认数值索引；
- verify_integrity：True的情况下，如果to_append索引与当前索引有重复，则报错。

In [23]:
s1 = pd.Series([22, 33], index=['a', 'g'])
s.append(s1, ignore_index=False)

a     1
b     2
c     3
a    22
g    33
dtype: int64

## 1.4 删

### 1.4.1 直接删一行

In [24]:
# 不建议使用
s1 = s.copy()
del s1['c']
s1

a    1
b    2
dtype: int64

### 1.4.2 函数删多行
##### `Series.drop(labels, level=None, inplace=False)`
- labels：索引，单索引或索引的列表；
- level：多重索引需要设置；
- inplace：是否本地修改。

In [25]:
s1 = s.copy()
s1.drop(['a','c'])

b    2
dtype: int64

# 2. DataFrame

In [26]:
data = [[1,2,3],
        [4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


## 2.1 查

### 2.1.1 []，快捷查看
**[]  属于快捷查看方式**，只包含下面四种，两种列操作、两种行操作。

In [27]:
df['A'] # 列操作，单列索引，返回Series

a    1
b    4
Name: A, dtype: int64

In [28]:
df[['A','C']] # 列操作，列索引列表，返回DataFrame

Unnamed: 0,A,C
a,1,3
b,4,6


In [29]:
# df[0]  # 报错，0不是列名

In [30]:
df[0:1]  # 行操作，位置范围，返回DataFrame

Unnamed: 0,A,B,C
a,1,2,3


In [31]:
# df[[0,1]] #报错，不能这样使用

In [32]:
mask = [False, True] 
df[mask] # 行操作，mask，必须和行长度一致，返回DataFrame

Unnamed: 0,A,B,C
b,4,5,6


### 2.1.2 .loc[]，基于索引
.loc[]在DataFrame中与[]不一致。
- DataFrame 有两维，每一维都和 Series 的 .loc[] 用法相同；
- Series有四种方式，所以DataFrame有**16种**方式;
- 可以缺省后面维度，默认补全为 ':' 。

**下面都以第一维度为例，第二维可以类比。**

In [33]:
df.loc['b','B'] # 返回单一值，因为两维都是单索引

5

In [34]:
df.loc['a':'b', 'B'] #返回Series，如果只有一维是单索引

a    2
b    5
Name: B, dtype: int64

In [35]:
df.loc[['a','b'], 'B'] #返回Series，如果只有一维是单索引

a    2
b    5
Name: B, dtype: int64

In [36]:
mask1 = [False, True, False] 
df.loc[mask1, 'B']

b    5
Name: B, dtype: int64

### 2.1.3 .iloc[]，基于位置
无视索引，只按照位置定位。
- DataFrame 有两维，每一维都和 Series 的 .iloc[]用法相同；
- Series有四种方式，所以DataFrame有**16**种方式；
- 可以缺省后面维度，默认补全为 ':' 。

**下面都以第一维度为例，第二维可以类比。**

In [37]:
df.iloc[1, 1] # 返回单一值，因为两维都是scalar

5

In [38]:
df.iloc[0:2, 0]  # 返回Series，如果只有一维是scalar

a    1
b    4
Name: A, dtype: int64

In [39]:
df.iloc[[0, 1], [0, 2]] # 返回DataFrame

Unnamed: 0,A,C
a,1,3
b,4,6


In [40]:
mask1 = [False, True, False]  # 返回DataFrame
mask2 =[True, False]
df.iloc[mask1, mask2]

Unnamed: 0,A
b,4


## 2.2 改

### 2.2.1 改值

**直接在2.1.2查的基础上赋值进行修改，.loc[]方法确保在原地修改。**

In [41]:
#修改单值
df1 = df.copy()
df1.loc['a','A'] = 10
df1

Unnamed: 0,A,B,C
a,10,2,3
b,4,5,6


In [42]:
#修改单列
df1.loc[:, 'A'] = [100, 200]  
df1

Unnamed: 0,A,B,C
a,100,2,3
b,200,5,6


In [43]:
#修改多列
df1.loc[:, ['A','B']] = [[1,2],[3,4]]  
df1

Unnamed: 0,A,B,C
a,1,2,3
b,3,4,6


In [44]:
#修改行，见下面的增减操作

##### 函数批量任意修改：`DataFrame.replace(to_replace=None, value=None, inplace=False)`
- to_replace：要修改的值，可以为列表;
- value：改为的值，可以为列表，与to_repalce要匹配；
- inplace：是否在原地修改；

In [45]:
df1.replace(to_replace=10, value=100, inplace=False)

Unnamed: 0,A,B,C
a,1,2,3
b,3,4,6


### 2.2.2 改索引

**直接在索引上改，索引类似于tuple，必须全改，不能切片修改。**

In [46]:
df1 = df.copy()
df1.index = ['e','f']
df1.columns = ['E','F','G']
df1

Unnamed: 0,E,F,G
e,1,2,3
f,4,5,6


##### 函数修改：`DataFrame.rename(index=None, column =None,  level=None, inplace=False)`
- index：list or dict，list类型时必须长度相同，dict类型时可以部分修改；
- columns：list or dict，list时必须长度相同，dict时可以部分修改；
- level：多重索引时，可以指定修改哪一重，目前还用不着；
- inplace：是否原地修改。

In [47]:
df1.rename( index={'e':'b'},columns={'E':'A'}, inplace=False)

Unnamed: 0,A,F,G
b,1,2,3
f,4,5,6


## 2.3 增

### 2.3.1 直接增一行

In [48]:
df1 = df.copy()
df1.loc['c'] = [7,8,9]
df1

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


### 2.3.2 函数增多行
##### `pd.concat(objs, axis=0)`
确保 **列索引** 相同，行增加。
（其实这个函数并不要求列索引相同，它可以选择出相同的列。而我写这个教程遵循了python的宣言—明确：做好一件事有一种最好的方法，精确控制每一步，可以少犯错。）
- objs: list of DataFrame；
- axis: 取0，行增加操作。

In [49]:
df1 = pd.DataFrame([[22,33,44],[55,66,77]], index=['c','d'], columns=['A','B','C'])
pd.concat([df,df1], axis = 0 )

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,22,33,44
d,55,66,77


### 2.3.3 直接增一列

In [50]:
df1 = df.copy()
df1['H'] = [7,8]
df1

Unnamed: 0,A,B,C,H
a,1,2,3,7
b,4,5,6,8


### 2.3.4 函数增多列
##### `pd.concat(objs, axis=1)`
确保**行索引**相同，列增加
- objs: list of DataFrame；
- axis: 取1，列增加操作。

In [51]:
df1 = pd.DataFrame([[22,33],[44,55]], index=['a','b'],columns=['D','E'])
pd.concat([df,df1], axis =1)

Unnamed: 0,A,B,C,D,E
a,1,2,3,22,33
b,4,5,6,44,55


## 2.4 删

### 2.4.1 函数删多行
##### `DataFrame.drop(labels, axis=0,  level=None, inplace=False)`
- labels：索引，单索引或索引的列表；
- axis：0，删行；
- level：多重索引需要指定；
- inplace：是否本地修改。

In [52]:
df1 = df.copy()
df1.drop(['a'],axis=0)

Unnamed: 0,A,B,C
b,4,5,6


### 2.4.2 直接删一列

In [53]:
# 不建议使用
df1 = df.copy()
del df1['A']
df1

Unnamed: 0,B,C
a,2,3
b,5,6


### 2.4.3 函数删多列
##### `DataFrame.drop(labels, axis=1,  level=None, inplace=False)`
- labels：索引，单索引或索引的列表；
- axis：1，删列；
- level：多重索引需要指定；
- inplace：是否本地修改。

In [54]:
df1 = df.copy()
df1.drop(['A','C'], axis=1)

Unnamed: 0,B
a,2
b,5
