# Series查、改、增、 删
这一节主要介绍如何对Series和DataFrame对象进行查、改、增、删。

In [1]:
__auther__ = 'zhenhang.sun@gmail.com'

In [2]:
pwd

'D:\\github\\pandas-tutorial'

In [2]:
import numpy as np
import pandas as pd

# 1. Series

Series是pandas中暴露给我们使用的基本对象，它是由相同元素类型构成的一维数据结构，同时具有列表和字典的属性，字典的属性由索引赋予。

    Series：有序，有索引
    list：  有序，无索引
    dict：  无序，有索引

## 1.1. 预览

In [3]:
data = [1,2,3]
index = ['a','b','c']
s = pd.Series(data=data, index=index, name='sss')
s

a    1
b    2
c    3
Name: sss, dtype: int64

In [4]:
s.index  # 四个属性之一：索引

Index(['a', 'b', 'c'], dtype='object')

In [5]:
s.name  # 四个属性之二：名字，

'sss'

In [6]:
s.values  # 四个属性之三：值

array([1, 2, 3])

In [7]:
s.dtype # 四个属性之四：元素类型

dtype('int64')

## 1.2 创建

##### `pd.Series(data=None, index=None, name=None)`
- data：多种类型，见下面具体介绍；
- index：索引信息；
- name：对data的说明，用的不多，一般在和DataFrame、Index互相转换时才需要。

### 1.2.1 data无索引
- 如果 data 为 **ndarray(1D) 或 list(1D)**，那么其缺少 Series 需要的索引信息；
- 如果提供 index，则必须和data长度相同；
- 如果不提供 index，那么其将生成默认数值索引 range(0, data.shape[0])。

In [10]:
# data = [1,2,3]
data1 = np.array([1, 2, 3])
index1 = ['a', 'b', 'c']
s = pd.Series(data=data1, index=index1)
s

a    1
b    2
c    3
dtype: int64

### 1.2.2 data有索引
 - 如果 data 为 **Series 或 dict** ，那么其已经提供了 Series 需要的索引信息，所以 index 项是不需要提供的；
 - 如果额外提供了 index 项，那么其将对当前构建的Series进行 重索引（以当前index为准，如果旧索引没有，则值为nan）（等同于reindex操作）。

In [11]:
# data = pd.Series([a,b,c], index = ['a','b','c'] )
data2 = {'a': 1, 'b': 2, 'c': 3}
index2 = ['a', 'b', 'd']
s = pd.Series(data=data2, index=index2)
s  # 缺失项填充NaN（NaN：not a number为pandas缺失值标记）。

a    1.0
b    2.0
d    NaN
dtype: float64

## 1.3. 查

In [4]:
data = [1, 2, 3]
index = ['a', 'b', 'c']
s = pd.Series(data=data, index=index)
s

a    1
b    2
c    3
dtype: int64

### 1.1.1 []，快捷查看

In [5]:
s[1] # scalar, 返回一个值

2

In [6]:
s[0:2] # 范围，左闭右开，返回Series切片

a    1
b    2
dtype: int64

In [7]:
s[[0,2]] #列表，返回Series切片

a    1
c    3
dtype: int64

In [8]:
mask = [False, True, False]  #mask，类似于列表，只是长度必须和Series相同，返回Series切片
s[mask]

b    2
dtype: int64

### 1.1.2  .loc[]，基于索引
.loc[]查询方式和[]完全一致。

In [9]:
s.loc['b'] # 单索引，返回一个值

2

In [10]:
s.loc['a':'c'] # 范围，注意：左闭右闭，返回Series切片

a    1
b    2
c    3
dtype: int64

In [11]:
s.loc[['a','c']] # 列表，返回Series切片

a    1
c    3
dtype: int64

In [12]:
mask = [False, True, False] # mask，和iloc[]效果等同，返回Series切片
s.loc[mask] 

b    2
dtype: int64

### 1.1.3 .iloc[]，基于位置
无视索引，只按照位置定位。

In [13]:
s.iloc[1] # scalar, 返回一个值

2

In [14]:
s.iloc[0:2] # 范围，左闭右开，返回Series切片

a    1
b    2
dtype: int64

In [15]:
s.iloc[[0, 2]] #列表，返回Series切片

a    1
c    3
dtype: int64

In [16]:
mask = [False, True, False]  #mask，类似于列表，只是长度必须和Series相同，返回Series切片
s.iloc[mask]

b    2
dtype: int64

## 1.4. 改

### 1.2.1 改值

##### 直接在1.2查的基础上赋值，就可以修改
##### 注意：如果要修改，使用.loc可以确保修改成功，其他方式可能会在临时创建的view上修改。

In [17]:
s1 = s.copy()  # 深copy，拷贝数据结构包含的所有信息
s1.loc['a'] = 10   #
s1

a    10
b     2
c     3
dtype: int64

In [18]:
s1.loc['a':'c'] = [10, 4, 5]
s1

a    10
b     4
c     5
dtype: int32

##### 函数修改：`Series.replace(to_replace=None, value=None, inplace=False)`
- to_replace：要修改的值，可以为列表；
- value：改为的值，可以为列表，与to_repalce要匹配；
- inplace：是否在原地修改；

In [19]:
s1.replace(to_replace=10, value=100, inplace=False)

a    100
b      4
c      5
dtype: int32

### 1.2.2 改索引

##### 直接在index上改，index类似于tuple，只能引用到别处，不能切片修改

In [20]:
s1 = s.copy()
s1.index = ['a','e','f']
s1

a    1
e    2
f    3
dtype: int64

##### 函数修改：`Series.rename(index=None, level=None, inplace=False)`
- index：list or dict，list类型时必须和已有索引长度相同，dict类型可以部分修改；
- level：多重索引时，可以指定修改哪一重，从0开始递增；
- inplace：是否原地修改。

In [21]:
s1.rename(index = {'e':'b'}, inplace = False)

a    1
b    2
f    3
dtype: int64

## 1.5. 增

### 1.3.1 直接增一行

In [22]:
s1 = s.copy()
s1.loc['d'] = 4 
s1

a    1
b    2
c    3
d    4
dtype: int64

### 1.3.2 函数增多行
##### `Series.append(to_append, ignore_index=False, verify_integrity=False)`
- to_append: 另一个series或多个Series构成的列表；
- ignore_index：False-保留原有索引，True-清除所有索引，生成默认数值索引；
- verify_integrity：True的情况下，如果to_append索引与当前索引有重复，则报错。

In [23]:
s1 = pd.Series([22, 33], index=['a', 'g'])
s.append(s1, ignore_index=False)

a     1
b     2
c     3
a    22
g    33
dtype: int64

## 1.6. 删

### 1.4.1 直接删一行

In [24]:
# 不建议使用
s1 = s.copy()
del s1['c']
s1

a    1
b    2
dtype: int64

### 1.4.2 函数删多行
##### `Series.drop(labels, level=None, inplace=False)`
- labels：索引，单索引或索引的列表；
- level：多重索引需要设置；
- inplace：是否本地修改。

In [25]:
s1 = s.copy()
s1.drop(['a','c'])

b    2
dtype: int64