In [197]:
from pandas import DataFrame, Series
import pandas as pd
import numpy as np
from IPython.display import display

# 说明

关于pandas的笔记。 覆盖常用场景的经典实现方法，但是并不追求全面完整。

# Series

## 创建
### data和index
定义一个Series最基本的两个参数是data和index，分别提供数据和对应的标签。 

可以分别传入两个等长的数组类结构分别定义data和index，例如list, tuple, numpy.array, generator。

下面我们创建四个tuple，tuple中第一个成员之后用做index, 第二个成员用作data。 它们的类型分别是list, tuple, numpy.array, generator。 这种情况下data和index必须等长度。

In [198]:
inputs = [
    ([1,2], ['a','b']),
    ((1,2), ('a','b')),
    ((x for x in [1,2]), (x for x in ['a','b'])),
    (np.array([1,2]),np.array(['a','b']))    
]

遍历每一个tuple，创建Series。

In [199]:
for data, index in inputs:
    print('<<')    
    print('data的类型是',type(data), 'index的类型是',type(index))
    
    s = Series(data, index) #定义Series
    
    display(s)
    print('>>')

<<
data的类型是 <class 'list'> index的类型是 <class 'list'>


a    1
b    2
dtype: int64

>>
<<
data的类型是 <class 'tuple'> index的类型是 <class 'tuple'>


a    1
b    2
dtype: int64

>>
<<
data的类型是 <class 'generator'> index的类型是 <class 'generator'>


a    1
b    2
dtype: int64

>>
<<
data的类型是 <class 'numpy.ndarray'> index的类型是 <class 'numpy.ndarray'>


a    1
b    2
dtype: int64

>>


data传入单个数值,Series的长度会以传入的index为准，然后所有的数值都会以这个index为准。

In [200]:
s = Series(1,['a','b','c'])
display(s)

a    1
b    1
c    1
dtype: int64

如果data是dict或一个Series的话，dict的keys或Series的index就可以作为index使用。这种情况下，可以省略index参数。 例如。

In [201]:
d = {'a':1,'b':2}
s = Series(s) #传入dict
display(s)

a    1
b    1
c    1
dtype: int64

如果这时额外的指定index, 那么它的功能并不是定义index。而是作为一个匹配目标。 index中的数据会被舍弃，index中存在但是数据中找不到对应label数据会被用NaN填充。

In [202]:
d = {'a':1,'b':2}
s = Series(d,['a','c'])
display(s) # 'b'对应的数据被舍弃，'c'对应的数据用NaN填充

a    1.0
c    NaN
dtype: float64

总结:
    
依照传入data的类型， 传入的index会有不同的表现。

|data类型|index需要和data等长度|index用途|
|---|---|---|
|array like|是|定义|
|标量|否|定义|
|dict/Series|否|匹配|





### name

可以给Series传入一个name作为Series的名字。当Series组成DataFrame时,name会成为DataFrame的columns名称。(DataFrame后面会介绍)

In [203]:
d = {'a':1,'b':2}
s = Series(s,index = ['a','c'],name = 'a series')
display(s)
display(s.name)

a    1.0
c    NaN
Name: a series, dtype: float64

'a series'

### dtype

创建Series的时候可以传入多类型的数据,Series会尝试自动用一个适合所有成员的数据类型作为最终的数据类型。

例如下面的例子里,int类型和float类型放在一起时，所有的成员都被统一成了float。

In [204]:
s = Series([1,1.1])
display(s)

0    1.0
1    1.1
dtype: float64

下面的例子里，pandas则用了最万能的object类型作为Series的结构。这时每个成员保持了原有的数据类型。

In [205]:
s = Series([True,1,1.1,'1.23'])
display(s)

for x in s:
    print(x,type(x))

0    True
1       1
2     1.1
3    1.23
dtype: object

True <class 'bool'>
1 <class 'int'>
1.1 <class 'float'>
1.23 <class 'str'>


如果不满意pandas的自动处理策略，可以通过指定dtype的方式来指定最终的数据类型。

In [206]:
s = Series([True,1,1.1,'1.23'],dtype = float)
display(s)

for x in s:
    print(x,type(x))

0    1.00
1    1.00
2    1.10
3    1.23
dtype: float64

1.0 <class 'numpy.float64'>
1.0 <class 'numpy.float64'>
1.1 <class 'numpy.float64'>
1.23 <class 'numpy.float64'>


## 选择成员

### 基于label进行选择

#### 单个label

使用```at[label]```

In [207]:
s = Series([1,2,3,4],index = ['a','b','c','d'])

result = s.at['a']

result

1

#### 多个label
使用```loc[list of label]```

In [208]:
result = s.loc[['a','c']]

result

a    1
c    3
dtype: int64

如果传入了并不存在的label,会用NaN填充

In [209]:
result = s.loc[['a','c','f']]

result

a    1.0
c    3.0
f    NaN
dtype: float64

但是如果所有的label都不存在,会报错。

In [210]:
try:
    result = s.loc[['g','f']]
except Exception as e:
    print(type(e),e)

<class 'KeyError'> "None of [['g', 'f']] are in the [index]"


如果希望将不存在的label自动填充成NaN,更可靠的方法是用reindex方法。

In [211]:
result = s.reindex(['a','c','f'])

result

a    1.0
c    3.0
f    NaN
dtype: float64

In [212]:
result = s.reindex(['g','f'])

result

g   NaN
f   NaN
dtype: float64

### 基于位置索引选择

位置索引从0开始递增。第一个成员索引是0,第二个成员索引是1，以此类推。

位置索引可以是负数，倒数第一个成员的索引是-1,倒数第二个成员的索引是-2，以此类推。


#### 单个位置
使用```.iat[i]```。例如选择最后一个成员。

In [213]:
s.iat[-1]

4

#### 多个位置
使用```iloc[l]```的方式进行选择。```l```是位置索引组成的list。 例如选择第一个和最后一个成员。

In [214]:
s.iloc[[0,-1]]

a    1
d    4
dtype: int64

不像```loc```,```iloc```中传入的位置索引如果超出Series的范围，不会自动扩展，而是抛出异常。

In [215]:
try:
    s.iloc[9]
except Exception as e:
    print(type(e),e)

<class 'IndexError'> single positional indexer is out-of-bounds


```iloc[]```也支持传入slice。slice的语法是```m:n:s```。其中m是起始索引值（包含）, n是终止索引值（不包含）, s是不长(不填的话默认是1)。 例如，要选出位置索引是0,1,2的成员，可以用

In [216]:
s.iloc[0:3]

a    1
b    2
c    3
dtype: int64

选出索引是0,2成员，可以用

In [217]:
s.iloc[0:4:2]

a    1
c    3
dtype: int64

如果slice的索引越界，会自动忽略越界的部分。不会用NaN填充，也不会抛出异常。

In [218]:
s.iloc[0:100]

a    1
b    2
c    3
d    4
dtype: int64

slice也支持负数位置索引。 例如选出倒数第1个,倒数第3个...，可以用。

In [219]:
s.iloc[-1:-4:-2]

d    4
b    2
dtype: int64

总结:
    
```loc```,```iloc```,```reindex```对于越界的选择处理方式是不一样的。

|场景|行为|
|---|---|
|loc[label_list]|至少一个label存在，越界部分NaN填充;否则抛出异常|
|reindex(label_list)|越界部分NaN填充|
|iloc[int_list]|抛出异常|
|iloc[slice]|忽略越界部分|


### 基于bool list

可以传入由True,False构成的list（长度需要和Series相同）进行选择。返回True对应位置成员组成的Series。例如下面这种方法，可以选出位置索引是0,2,3的成员。

In [220]:
result = s.loc[[True,False,True,True]]

result

a    1
c    3
d    4
dtype: int64

bool list一般是判断算符通过计算生成的。

例如，要知道那些成员的数值大于1。

In [221]:
greater_then_one = (s>1)
greater_then_one

a    False
b     True
c     True
d     True
dtype: bool

判断哪些成员的index排在'c'前面，可以用

In [222]:
before_c = s.index<'c'
before_c

array([ True,  True, False, False], dtype=bool)

如果用```&```,```|```,```~```表示逻辑连词与，或，非。 从而将几个基本的条件组成成复杂的条件。 例如,选出成员数值>1且index没有排在'c'前面，可以用。

In [223]:
s.loc[greater_then_one&(~before_c)]

c    3
d    4
dtype: int64

#### 其它方法
Series提供了```[]```可以根据情况“智能的”进行成员选择。

In [224]:
s = Series([1,2,3,4],index = ['a','b','c','d'])

它可以像```loc[]```那样基于label进行选择。

In [225]:
s[['a','b','c','f']]

a    1.0
b    2.0
c    3.0
f    NaN
dtype: float64

如果index中找不到相应的label，而传入的是int_list,那么它会像```iloc[]```那样基于位置参数进行选择。

In [226]:
s[[0,1]]

a    1
b    2
dtype: int64

它支持slice

In [227]:
s[0:3]

a    1
b    2
c    3
dtype: int64

支持单个label

In [228]:
s['a']

1

其他用法不一一展示了。```[]```能够根据情况自动的决定选择行为在使用的时候会带来一些便利，但是代价是看到这段代码的时候需要花费额外的精力去判断```[]```到底做了什么。在我们的例子中，由于Series的内容是可见的；可是生产代码中，别人看到的只是代表Series的变量，这时要准确判断```[]```的行为就很困难。此外，pandas本身为了判断```[]```到底应该做什么，也需要花费额外的时间。

因此只推荐在数据探索阶段编写一些不会长期保存的代码时使用```[]```，不要在生产代码中使用。

同理，尽管```iloc[]```,```loc[]```也支持传入标量，起到和```iat[]```,```at```一样的功能。 但是建议```iloc[]```,```loc[]```只使用,传入标量时一律用```iat[]```和```at[]```，这样阅读代码时能立即明确意图。

## 修改

### 修改单个数值

用at或者iat选择单个成员并且用```=```赋值即可。

In [229]:
s = Series([1,2,3,4],index = list('abcd'))

s.at['c'] = 33

s.iat[0] = 11

display(s)

a    11
b     2
c    33
d     4
dtype: int64

### 修改多个成员

用loc或者iloc选择多个成员并且用```=```赋值即可。

In [230]:
s = Series([1,2,3,4],index = list('abcd'))

s.loc[['a','b']] = [11,22]

s.iloc[[2,3]] = [33,44]

display(s)

a    11
b    22
c    33
d    44
dtype: int64

用bool list传入loc也是可以的。

In [231]:
s = Series([1,2,3,4],index = list('abcd'))

s.loc[[True,False,True,False]] = [11,33]

display(s)

a    11
b     2
c    33
d     4
dtype: int64

```=```右侧除了可以是和选出的成员数量等长度的list，也可以是一个scalar，这样所有选中的成员都会被修改成同一个值。

In [232]:
s = Series([1,2,3,4],index = list('abcd'))

s.loc['a','b'] = 0

display(s)

a    0
b    0
c    3
d    4
dtype: int64

```=```右侧甚至可以是一个Series或者dict。这种情况下,选中的成员会匹配```=```右侧的Series，有右侧Series同样label的成员数值替换自己的数值；如果在右侧找不到相应的label,则用NaN填充。

In [233]:
s = Series([1,2,3,4],index = list('abcd'))

s2 = Series([10,20,30,40],index = list('acde'))

s.loc['a','b'] = s2

display(s)

a    10.0
b     NaN
c     3.0
d     4.0
dtype: float64

In [234]:
s = Series([1,2,3,4],index = list('abcd'))

s2 = {'a':10,'b':20,'c':30,'d':40}

s.loc['a','b'] = s2

display(s)

a    10
b    20
c     3
d     4
dtype: int64

### 新增多个成员

#### 增加单个成员

新增成员的语法和修改成员类似，但是只能使用loc。

In [235]:
s = Series([1,2,3,4],index = list('abcd'))

s.at['e'] = 5

display(s)

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [236]:
s = Series([1,2,3,4],index = list('abcd'))

try:
    s.iat[4] = 5
except Exception as e:
    print(type(e),e)

<class 'IndexError'> index 4 is out of bounds for axis 0 with size 4


#### 增加多个成员
不能用loc或者iloc

In [237]:
s = Series([1,2,3,4],index = list('abcd'))

try:
    s.loc[['e','f']] = [5,6]
except Exception as e:
    print(type(e),e)

<class 'KeyError'> "['e' 'f'] not in index"


In [238]:
s = Series([1,2,3,4],index = list('abcd'))

try:
    s.iloc[[4,5]] = [5,6]
except Exception as e:
    print(type(e),e)

<class 'IndexError'> positional indexers are out-of-bounds


不过可以借助```.append()```或者```pd.concat()```实现"伪修改"。

In [239]:
s_1 = Series([1,2,3,4],index = list('abcd'))
s_2 = Series([5,6],index = list('ef'))

s_1 = s.append(s_2)

display(s_1)

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [240]:
s_1 = Series([1,2,3,4],index = list('abcd'))
s_2 = Series([5,6],index = list('ef'))

s_1 = pd.concat([s1,s_2])

display(s_1)

0    1
1    2
e    5
f    6
dtype: int64

要注意append和concat等方法返回的Series并不是直接在原来的Series上做修改，而是返回一个新的Series。 只不过前面的例子里我们把返回的结果重新赋值给了```s_1```将```s_1```的指向变成了新的Series，所以起到了类似修改的效果。

在大部分情况下，这个差别并不会对我们的造成影响。但是如果代码的其它部分依然依赖```s_1```的数据的话，就要小心。

下面的例子中我们可以看到,```s_1```并没有发生改变。

In [241]:
s_1 = Series([1,2,3,4],index = list('abcd'))

s_2 = Series([5,6],index = list('ef'))

s_3 = s_1.append(s_2)

display(s_1)

a    1
b    2
c    3
d    4
dtype: int64

当然这个差别并不是Series特有的要注意的地方，在整个pandas的使用，甚至python编程的过程中，都应该关于一下object是被直接修改，还是返回了一个新的数据被改变过的object。

在pandas中，如果调用方法后返回了一个Series或者DataFrame， 大部分情况默认行为都是返回新的object。这点后面不在重复强调了。

## 删除
### 删除单个成员
#### del

可以用del预算符

In [242]:
s = Series([1,2,3,4],index = list('abcd'))

del s['a']

display(s)

b    2
c    3
d    4
dtype: int64

#### pop
pop删除某个元素并且返回被删除的元素。

In [243]:
s = Series([1,2,3,4],index = list('abcd'))

x = s.pop('a')

display(s)
display(x)

b    2
c    3
d    4
dtype: int64

1

#### drop
利用drop可以返回删除一个或者多个成员后的新Series。

In [244]:
s1 = Series([1,2,3,4],index = list('abcd'))

s2 = s1.drop(['a','b'])

display(s1 is s2)
display(s2)

False

c    3
d    4
dtype: int64

drop也可以用来删除单个成员。

In [245]:
s1 = Series([1,2,3,4],index = list('abcd'))

s2 = s1.drop('a')

display(s2)

b    2
c    3
d    4
dtype: int64

前面提到过很多pandas函数都是返回新的object。不过如果支持```inplace```参数的话(默认是False)，就可以直接修改原来的Series。 这时drop函数不在返回新的Series而是None。

pandas中很多函数都支持```inplace```参数，使用时可查阅相关的文档。

In [246]:
s1 = Series([1,2,3,4],index = list('abcd'))

display(s1.drop('a',inplace = True))

display(s1)

None

b    2
c    3
d    4
dtype: int64