# Series和DataFrame对象的查、改、增、删

In [2]:
import numpy as np
import pandas as pd

### 1 Series
#### 1.1 查

In [3]:
data = [1, 2, 3]
index = ["a", "b", "c"]
s = pd.Series(data=data, index=index)
s

a    1
b    2
c    3
dtype: int64

##### 1.1.1 快捷查看

In [4]:
s["a"]

1

In [5]:
s[1]  # 下标的方式

2

In [6]:
s[0: 2]    # 左闭右开，返回Series切片

a    1
b    2
dtype: int64

In [7]:
s[[0,2]]  # 列表，返回series切片

a    1
c    3
dtype: int64

In [8]:
mask = [False, True, False]  # mask, 类似于列表，只是长度必须和Series相同，返回Series 切片
s[mask]       # 即取出为Ture的行

b    2
dtype: int64

#### 1.1.2 基于索引 .loc[ ]
    .loc[]查询方式和[]完全一致。

In [9]:
s.loc['b']

2

In [10]:
s.loc['a': 'c']

a    1
b    2
c    3
dtype: int64

In [11]:
s.loc[['a','c']]

a    1
c    3
dtype: int64

In [17]:
mask = [False, True, False]     # mask 和iloc[]一样
s.loc[mask]

b    2
dtype: int64

#### 1.1.3 基于位置.iloc[ ]
    无视索引，只按照位置定位。即下标。

In [14]:
s.iloc[1]

2

In [15]:
s.iloc[0:2]

a    1
b    2
dtype: int64

In [16]:
s.iloc[[0,2]]

a    1
c    3
dtype: int64

## 1.2 改
    在1.1的基础上（查）赋值，就可以修改

In [18]:
s1 = s.copy()  # 深拷贝
print(s1)
s1['a'] = 10
s1

a    1
b    2
c    3
dtype: int64


a    10
b     2
c     3
dtype: int64

    通过函数修改：Series.replace(to_replace=None, value=None, inplace=False)
    - to_replace: 需要修改的值，可以为列表；
    - value: 改为的值，可以为列表，与to_replace要匹配；
    - inplace: 是否在原地修改；False 表示生成一个副本。

In [19]:
s1.replace(to_replace=2, value=99, inplace=False)

a    10
b    99
c     3
dtype: int64

#### 1.2.2 改索引
    直接在index上改，index类似于tuple, 只能引用到别处，不能切片修改。

In [20]:
s2 = s.copy()
s2.index = ['a', 'e', 'f']
s2

a    1
e    2
f    3
dtype: int64

    函数修改： Series.rename(index=None, level=None, inplace=False)
    - index: list or dict, list时必须和已有索引长度相同，dict可以部分修改；
    - level: 多重索引时，可以指定修改哪一重，从0开始递增；
    - inlplace: 是否原地修改。

In [21]:
s2.rename(index={'e': 'b'}, inplace=False)

a    1
b    2
f    3
dtype: int64

## 1.3 增
#### 1.3.1 直接增加一行

In [22]:
s1 = s.copy()
print(s1)
s1['d'] = 4
s1

a    1
b    2
c    3
dtype: int64


a    1
b    2
c    3
d    4
dtype: int64

#### 1.3.2 函数增多行
    Series.append(to_append, ignore_index=False, verify_integrity=False)
    - to_append: 另一个series或多个series构成的列表；
    - ignore_index: False-保留原有索引， True-清除所有索引，生成默认数值索引；
    - verify_integrity: True的情况下，如果to_append的索引与当前索引有重复，则报错。

In [25]:
s1 = pd.Series([22,33], index=['a', 'g'])
s.append(s1, ignore_index=False)

a     1
b     2
c     3
a    22
g    33
dtype: int64

## 1.4 删除
#### 1.4.1 直接删除一行

In [26]:
s1 = s.copy()
del s1['c']
s1

a    1
b    2
dtype: int64

#### 1.4.2 函数删除多行
    Series.drop(labels, level=None, inplace=False)
    - labels: 索引，单索引或索引的列表；
    - level: 多重索引需要设置；
    - inlpace: 是否本地修改, False生成副本。

In [29]:
s1 = s.copy()
s1.drop(['a', 'c'])     # 生成副本

b    2
dtype: int64

# 2 DataFrame

In [31]:
data = [[1, 2, 3],
        [4, 5, 6]]
index = ['a', 'b']
columns = ['A', 'B', 'C']
df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


## 2.1 查
#### 2.1.1 快捷查看[ ]
    []快捷查看方式，只包含下面四种，两种列操作，两种行操作。

In [32]:
df['A']     # 列操作，单列索引，返回Series

a    1
b    4
Name: A, dtype: int64

In [34]:
#df['a']    # 不支持先取行的操作
# df[0]     # 也不支持，都会报错

In [35]:
df[['A', 'C']]   # 列操作(花式操作)，列索引列表，返回DataFrame

Unnamed: 0,A,C
a,1,3
b,4,6


In [36]:
df[0:1]   # 支持切片，取行的范围，返回DataFrame,左闭右开
# df['a'：‘b’]

Unnamed: 0,A,B,C
a,1,2,3


In [37]:
mask = [False, True]
df[mask]           # 行操作，mask，必须和行长度一致，返回DataFrame

Unnamed: 0,A,B,C
b,4,5,6


#### 2.1.2 基于索引 .loc[ ]
    .loc[]在DataFrame中与[]不一致。
    - DataFrame 有两维，每一维都和series的.loc[]用法相同；
    - Series 有四种方式，所以DataFrame 有16种方式；
    - 可以省略后面维度，默认不全为':'。
    下面以第一维度为例，第二维度可以类比。

In [38]:
df

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [40]:
df.loc['b', 'B']     # 返回单一值，因为两维都是单索引 逗号前表示第一维，逗号后表示第二维

5

In [41]:
df.loc['a':'b', 'B']    # 返回DataFrame

a    2
b    5
Name: B, dtype: int64

In [42]:
df.loc[['a', 'b'], 'C']   # 返回DataFrame

a    3
b    6
Name: C, dtype: int64

In [43]:
mask = [False, True, False]    # 返回DataFrame
df.loc[mask, 'B']

b    5
Name: B, dtype: int64

#### 2.1.3 基于位置 .iloc[ ]
    无视索引，只按照位置定位。
    -DataFrame 有两维，同2.1.2

In [46]:
df.iloc[1, 2]    # 返回单一值，因为两维都是series， 也是先列后行

6