In [1]:
from pandas import DataFrame, Series
import pandas as pd
import numpy as np
from IPython.display import display

# Series

## 创建
### data和index
定义一个Series最基本的两个参数是data和index，分别提供数据和对应的标签。 大部分能够提供一维列表的数据结构都是可以使用的，例如list, tuple, numpy.array, generator。

In [2]:
inputs = [
    ([1,2], ['a','b']),
    ((1,2), ('a','b')),
    ((x for x in [1,2]), (x for x in ['a','b'])),
    (np.array([1,2]),np.array(['a','b']))    
] # 四种不同数据类型，不过包含的数值是一样的

In [3]:
for data, index in inputs:
    print('<<')    
    print('Type of data is ',type(data), ' and type of index is ',type(index))
    
    s = Series(data, index) #定义Series
    
    display(s)
    print('>>')

<<
Type of data is  <class 'list'>  and type of index is  <class 'list'>


a    1
b    2
dtype: int64

>>
<<
Type of data is  <class 'tuple'>  and type of index is  <class 'tuple'>


a    1
b    2
dtype: int64

>>
<<
Type of data is  <class 'generator'>  and type of index is  <class 'generator'>


a    1
b    2
dtype: int64

>>
<<
Type of data is  <class 'numpy.ndarray'>  and type of index is  <class 'numpy.ndarray'>


a    1
b    2
dtype: int64

>>


data部分可以传入scalar数值

In [4]:
s = Series(1,['a','b','c'])
display(s)

a    1
b    1
c    1
dtype: int64

如果用dict或一个Series传入data的话，dict的keys或另一个Series的index就可以作为index使用。这种情况下，可以省略index参数。

In [5]:
d = {'a':1,'b':2}
s = Series(s) #传入dict
display(s)

a    1
b    1
c    1
dtype: int64

In [6]:
s1 = Series([1,2])
s = Series(s1) #传入Series
display(s)

0    1
1    2
dtype: int64

如果这时额外的指定index, 那么最终构造出的Series会以传入的index为准做匹配。 不在传入的inde中的数据会被舍弃，传入的index中存在但是数据中找不到的数据会被用NaN填充。

In [7]:
d = {'a':1,'b':2}
s = Series(d,['a','c'])
display(s) # 'b'对应的数据被舍弃，'c'对应的数据用NaN填充

a    1.0
c    NaN
dtype: float64

### name

可以给Series传入一个name作为Series的名字。当Series组成DataFrame时,name会成为DataFrame的columns名称。(DataFrame后面会介绍)

In [8]:
d = {'a':1,'b':2}
s = Series(s,index = ['a','c'],name = 'a series')
display(s)
display(s.name)

a    1.0
c    NaN
Name: a series, dtype: float64

'a series'

### dtype

创建Series的时候可以传入多类型的数据,Series会尝试自动用一个适合所有成员的数据类型作为最终的数据类型。

例如下面的例子里,int类型和float类型放在一起时，所有的成员都被统一成了float。

In [9]:
s = Series([1,1.1])
display(s)

0    1.0
1    1.1
dtype: float64

下面的例子里，pandas则用了最万能的object类型作为Series的结构。这时每个成员保持了原有的数据类型。

In [10]:
s = Series([True,1,1.1,'1.23'])
display(s)

for x in s:
    print(x,type(x))

0    True
1       1
2     1.1
3    1.23
dtype: object

True <class 'bool'>
1 <class 'int'>
1.1 <class 'float'>
1.23 <class 'str'>


如果不满意pandas的自动处理策略，可以通过指定dtype的方式来指定最终的数据类型。

In [11]:
s = Series([True,1,1.1,'1.23'],dtype = float)
display(s)

for x in s:
    print(x,type(x))

0    1.00
1    1.00
2    1.10
3    1.23
dtype: float64

1.0 <class 'numpy.float64'>
1.0 <class 'numpy.float64'>
1.1 <class 'numpy.float64'>
1.23 <class 'numpy.float64'>


## 选择

### 基于label进行选择

#### 单个label

In [85]:
result = s.at['a']

display(result)

1

#### 多个label

In [86]:
result = s.loc[['a','c']]

display(result)

a    1
c    3
dtype: int64

如果传入了并不存在的label,会用NaN填充

In [95]:
result = s.loc[['a','c','f']]

display(result)

a    1.0
c    3.0
f    NaN
dtype: float64

但是如果所有的label都不存在,会报错。

In [97]:
try:
    result = s.loc[['g','f']]
except Exception as e:
    print(type(e),e)

<class 'KeyError'> "None of [['g', 'f']] are in the [index]"


如果希望将不存在的label自动填充成NaN,更可靠的方法是用reindex方法。

In [101]:
result = s.reindex(['a','c','f'])

display(result)

a    1.0
c    3.0
f    NaN
dtype: float64

In [102]:
result = s.reindex(['g','f'])

display(result)

g   NaN
f   NaN
dtype: float64

### 基于bool list

可以传入由True,False构成的list（长度需要和Series相同）进行选择。返回True对应位置成员组成的Series。

In [94]:
result = s.loc[[True,False,True,True]]

display(result)

a    1
c    3
d    4
dtype: int64

#### 多个位置

In [103]:
s = Series([1,2,3,4],index = list('abcd'))

display(s)

a    1
b    2
c    3
d    4
dtype: int64

In [105]:
result = s.iloc[[0,2]]

display(result)

a    1
c    3
dtype: int64

注意，可以传入负数，-1表示倒数第一个成员，-2表示倒数第二个成员，以此类推。

In [108]:
result = s.iloc[[0,-1]]

display(result)

a    1
d    4
dtype: int64

如果传入的位置超出了原有Series的范围，会导致异常。

In [109]:
try:
    result = s.iloc[[0,2,6]]
except Exception as e:
    print(type(e),e)

<class 'IndexError'> positional indexers are out-of-bounds


使用Slice的时候,总是按照位置进行选择。

#### 其它方法的讨论
Series也可以通过```[]```进行选择。这是一个功能非常丰富的方法，综合了loc,iloc。

传入list的时候，它首选会尝试以label的方式去进行选择，找不到的label用NaN填充。除此之外，它也支持scalar和bool list。 

In [155]:
s = Series([1,2,3,4],index = ['a','b','c','d'])

display(s[['a','b','c','f']])

a    1.0
b    2.0
c    3.0
f    NaN
dtype: float64

如果找不到相应的label,而传入内容都是整数，则会尝试基于位置进行选择。

In [156]:
display(s[[1,2,3]])

b    2
c    3
d    4
dtype: int64

在探索性阶段的时候，这个功能会比较方便。但是如果用在生产代码中，会难以区分传入的究竟是label还是位置，不建议使用。

同理，尽管loc,iloc也能接受单个的scalar,有着和at,iat一样的表现

In [150]:
display(s.iloc[0])

1

但是如果使用了at,iat，别人再阅读代码的时候立即能知道传入和返回的结果应该是scalar，有更好的可读性。

因此生产代码中请根据需求选择最确切的方式进行选取操作。

## 修改

### 修改单个数值

用at或者iat选择单个成员并且用```=```赋值即可。

In [181]:
s = Series([1,2,3,4],index = list('abcd'))

s.at['c'] = 33

s.iat[0] = 11

display(s)

a    11
b     2
c    33
d     4
dtype: int64

### 修改多个成员

用loc或者iloc选择多个成员并且用```=```赋值即可。

In [182]:
s = Series([1,2,3,4],index = list('abcd'))

s.loc[['a','b']] = [11,22]

s.iloc[[2,3]] = [33,44]

display(s)

a    11
b    22
c    33
d    44
dtype: int64

用bool list传入loc也是可以的。

In [183]:
s = Series([1,2,3,4],index = list('abcd'))

s.loc[[True,False,True,False]] = [11,33]

display(s)

a    11
b     2
c    33
d     4
dtype: int64

```=```右侧除了可以是和选出的成员数量等长度的list，也可以是一个scalar，这样所有选中的成员都会被修改成同一个值。

In [184]:
s = Series([1,2,3,4],index = list('abcd'))

s.loc['a','b'] = 0

display(s)

a    0
b    0
c    3
d    4
dtype: int64

```=```右侧甚至可以是一个Series。这种情况下,选中的成员会匹配```=```右侧的Series，有右侧Series同样label的成员数值替换自己的数值；如果在右侧找不到相应的label,则用NaN填充。

In [186]:
s = Series([1,2,3,4],index = list('abcd'))

s2 = Series([10,20,30,40],index = list('acde'))

s.loc['a','b'] = s2

display(s)

a    10.0
b     NaN
c     3.0
d     4.0
dtype: float64

### 新增多个成员

#### 增加单个成员

新增成员的语法和修改成员类似，但是只能使用loc。

In [193]:
s = Series([1,2,3,4],index = list('abcd'))

s.at['e'] = 5

display(s)

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
不能用iat

In [195]:
s = Series([1,2,3,4],index = list('abcd'))

try:
    s.iat[4] = 5
except Exception as e:
    print(type(e),e)

<class 'IndexError'> index 4 is out of bounds for axis 0 with size 4


#### 增加多个成员
不能用loc或者iloc

In [198]:
s = Series([1,2,3,4],index = list('abcd'))

try:
    s.loc[['e','f']] = [5,6]
except Exception as e:
    print(type(e),e)

<class 'KeyError'> "['e' 'f'] not in index"


In [199]:
s = Series([1,2,3,4],index = list('abcd'))

try:
    s.iloc[[4,5]] = [5,6]
except Exception as e:
    print(type(e),e)

<class 'IndexError'> positional indexers are out-of-bounds


不过可以借助```.append()```或者```pd.concat()```实现

In [208]:
s_1 = Series([1,2,3,4],index = list('abcd'))
s_2 = Series([5,6],index = list('ef'))

s_1 = s.append(s_2)

display(s_1)

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [207]:
s_1 = Series([1,2,3,4],index = list('abcd'))
s_2 = Series([5,6],index = list('ef'))

s_1 = pd.concat([s1,s_2])

display(s_1)

d    1
c    2
b    3
a    4
e    5
f    6
dtype: int64

## 删除
### 删除单个成员
#### del

可以用del预算符

In [214]:
s = Series([1,2,3,4],index = list('abcd'))

del s['a']

display(s)

b    2
c    3
d    4
dtype: int64

#### pop
pop删除某个元素并且返回被删除的元素。

In [217]:
s = Series([1,2,3,4],index = list('abcd'))

x = s.pop('a')

display(s)
display(x)

b    2
c    3
d    4
dtype: int64

1

#### drop
利用drop可以返回删除一个或者多个成员后的Series，注意这个Series不是原先的Series。

In [226]:
s1 = Series([1,2,3,4],index = list('abcd'))

s2 = s1.drop(['a','b'])

display(s1 is s2)
display(s2)

False

c    3
d    4
dtype: int64

drop也可以用来删除单个成员。

In [227]:
s1 = Series([1,2,3,4],index = list('abcd'))

s2 = s1.drop('a')

display(s2)

b    2
c    3
d    4
dtype: int64

# DataFrame
## 创建
和Series一样,DataFrame也可以接收多种数据类型的数据。

### dict of dict/Series
这时DataFrame会用dict的keys作为DataFrame的columns,内层Series的index的并集(或者内层dict的keys的并集)作为DataFrame的index。 内层的Series和Dict长度可以不一样。

In [127]:
d = {
    'one' : Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two' : Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}

df = DataFrame(d)

display(df)

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [128]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

df = DataFrame(d)

display(df)

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


如果额外的传入index,columns参数。那么传入的数据中不在传入index,columns范围内的会被舍弃，传入index,columns中需要，但传入数据中找不到对应值的部分会被用NaN填充。

In [129]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

df = DataFrame(d,index = ['a','b','e'],columns = ['one','two','three'])

display(df)

Unnamed: 0,one,two,three
a,1.0,1.0,
b,2.0,2.0,
e,,,


如果希望把外层dict的keys作为index，内层Series的index并集(或者内层dict的keys的并集)作为columns的话，可以用DataFrame.from_dict实现。

In [130]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

DataFrame.from_dict(d,orient='index')

Unnamed: 0,c,b,a,d
one,3,2,1,
two,3,2,1,4.0


注意要把orient设置成'index'(默认是'columns'),否则就和```DataFrame(d)```的效果一样了。

In [131]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

DataFrame.from_dict(d)

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


### dict of list/ndarray

dict内层也可以是list或者ndarray。这时由于没有可利用的index对成员进行匹配，内层list或者ndarry的长度必须一致。

In [132]:
d = {
    'one' : [1., 2., 3., 4.],
    'two' : [4., 3., 2., 1.]
}

DataFrame.from_dict(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [133]:
d = {
    'one' : np.array([1., 2., 3., 4.]),
    'two' : np.array([4., 3., 2., 1.])
}

DataFrame.from_dict(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


也支持DataFrame.from_dict方法

In [134]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

DataFrame.from_dict(d,orient='index')

Unnamed: 0,c,b,a,d
one,3,2,1,
two,3,2,1,4.0


### list of dict

数据可以是list of dict。这时会将内层dict的keys作为组成DataFrame的columns。内侧dict的长度可以不一致。

In [135]:
d = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

DataFrame(d)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [136]:
d = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

DataFrame.from_dict(d)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


### list of tuple
这时会将list中的tuple作为每一个行的

In [137]:
d = [
    (1,2,),
    (3,4),
    (5,6),    
]

DataFrame(d)

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


也可以在内层的tuple中指定label并传入DataFrame.from_items。 相比于dict方式,这种方式可以确保生成的columns顺序是和list中出现的顺序一致的。

In [138]:
d = [
    ('A',(1,2)),
    ('B',(3,4)),
    ('C',(5,6)),
]

DataFrame.from_items(d)

Unnamed: 0,A,B,C
0,1,3,5
1,2,4,6


## 数据的选择

为了方面后面代码实验，先定义一个函数生成我们需要的测试DataFrame

In [139]:
def get_df():
    d = {
        'one' : Series([1., 2., 3.], index=['a', 'b', 'c']),
        'two' : Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
    }

    df = DataFrame(d)
    
    return df

df = get_df()

### 选择单列对应的Series
#### 根据label选择

传入代表列的label即可,得到的结果是一个Series。

In [94]:
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

#### 根据位置选择
如果要选择第n列，可以使用```iloc[:,n-1]```,例如我们要选择第二列的话。

In [95]:
df.iloc[:,1]

a    1.0
b    2.0
c    3.0
d    4.0
Name: two, dtype: float64

### 选择多列对应的DataFrame

#### 根据label进行选择

将所需的label组成list传入[]即可。

In [98]:
display(df[['one','two']])

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


注意即使list中只传入一个label，返回的结果依然是DataFrame。

In [99]:
display(df[['one']])

Unnamed: 0,one
a,1.0
b,2.0
c,3.0
d,


#### 根据位置进行选择
在iloc中选择

In [102]:
display(df.iloc[:,[0,1]])

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


## 修改列

## 新增列

In [105]:
df = get_df()

df['four'] = df['one']+df['two']

display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,6.0
d,,4.0,


In [106]:
df = get_df()

df['four'] = (df['one']+df['two']).to_frame()

display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,6.0
d,,4.0,


如果有inndex,可以行数不一致。

In [109]:
df = get_df()

df['four'] = (df['one']+df['two']).iloc[0:2]

display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,
d,,4.0,


如果没有index，则需要行数一致。

In [113]:
df = get_df()

df['four'] = [1,2,3,4]
display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,1
b,2.0,2.0,2
c,3.0,3.0,3
d,,4.0,4


增加多列

右侧的column不需要和左侧一致。

In [122]:
df = get_df()

df[['four','five']] = df[['one','two']]
display(df)

Unnamed: 0,one,two,four,five
a,1.0,1.0,1.0,1.0
b,2.0,2.0,2.0,2.0
c,3.0,3.0,3.0,3.0
d,,4.0,,4.0


右侧如果是ndarray,则不能用于创建新列。

In [124]:
df = get_df()

try:
    df[['four','five']] = df[['one','two']].values
except Exception as e:
    print(type(e),e)

<class 'KeyError'> "['four' 'five'] not in index"
