In [1]:
from pandas import DataFrame, Series
import pandas as pd
import numpy as np
from IPython.display import display

# Series

## 创建
### data和index
定义一个Series最基本的两个参数是data和index，分别提供数据和对应的标签。 大部分能够提供一维列表的数据结构都是可以使用的，例如list, tuple, numpy.array, generator。

In [2]:
inputs = [
    ([1,2], ['a','b']),
    ((1,2), ('a','b')),
    ((x for x in [1,2]), (x for x in ['a','b'])),
    (np.array([1,2]),np.array(['a','b']))    
] # 四种不同数据类型，不过包含的数值是一样的

In [3]:
for data, index in inputs:
    print('<<')    
    print('Type of data is ',type(data), ' and type of index is ',type(index))
    
    s = Series(data, index) #定义Series
    
    display(s)
    print('>>')

<<
Type of data is  <class 'list'>  and type of index is  <class 'list'>


a    1
b    2
dtype: int64

>>
<<
Type of data is  <class 'tuple'>  and type of index is  <class 'tuple'>


a    1
b    2
dtype: int64

>>
<<
Type of data is  <class 'generator'>  and type of index is  <class 'generator'>


a    1
b    2
dtype: int64

>>
<<
Type of data is  <class 'numpy.ndarray'>  and type of index is  <class 'numpy.ndarray'>


a    1
b    2
dtype: int64

>>


data部分可以传入scalar数值

In [4]:
s = Series(1,['a','b','c'])
display(s)

a    1
b    1
c    1
dtype: int64

如果用dict或一个Series传入data的话，dict的keys或另一个Series的index就可以作为index使用。这种情况下，可以省略index参数。

In [5]:
d = {'a':1,'b':2}
s = Series(s) #传入dict
display(s)

a    1
b    1
c    1
dtype: int64

In [6]:
s1 = Series([1,2])
s = Series(s1) #传入Series
display(s)

0    1
1    2
dtype: int64

如果这时额外的指定index, 那么最终构造出的Series会以传入的index为准做匹配。 不在传入的inde中的数据会被舍弃，传入的index中存在但是数据中找不到的数据会被用NaN填充。

In [7]:
d = {'a':1,'b':2}
s = Series(d,['a','c'])
display(s) # 'b'对应的数据被舍弃，'c'对应的数据用NaN填充

a    1.0
c    NaN
dtype: float64

### name

可以给Series传入一个name作为Series的名字。当Series组成DataFrame时,name会成为DataFrame的columns名称。(DataFrame后面会介绍)

In [8]:
d = {'a':1,'b':2}
s = Series(s,index = ['a','c'],name = 'a series')
display(s)
display(s.name)

a    1.0
c    NaN
Name: a series, dtype: float64

'a series'

### dtype

创建Series的时候可以传入多类型的数据,Series会尝试自动用一个适合所有成员的数据类型作为最终的数据类型。

例如下面的例子里,int类型和float类型放在一起时，所有的成员都被统一成了float。

In [129]:
s = Series([1,1.1])
display(s)

0    1.0
1    1.1
dtype: float64

下面的例子里，pandas则用了最万能的object类型作为Series的结构。这时每个成员保持了原有的数据类型。

In [130]:
s = Series([True,1,1.1,'1.23'])
display(s)

for x in s:
    print(x,type(x))

0    True
1       1
2     1.1
3    1.23
dtype: object

True <class 'bool'>
1 <class 'int'>
1.1 <class 'float'>
1.23 <class 'str'>


如果不满意pandas的自动处理策略，可以通过指定dtype的方式来指定最终的数据类型。

In [131]:
s = Series([True,1,1.1,'1.23'],dtype = float)
display(s)

for x in s:
    print(x,type(x))

0    1.00
1    1.00
2    1.10
3    1.23
dtype: float64

1.0 <class 'numpy.float64'>
1.0 <class 'numpy.float64'>
1.1 <class 'numpy.float64'>
1.23 <class 'numpy.float64'>


## 选择

In [133]:
s = Series([1,2,3,4],index = list('abcd'))
s

a    1
b    2
c    3
d    4
dtype: int64

### 根据label进行选择

#### 单个label

In [148]:
result = s.at['a']

display(result)

1

In [149]:
result = s['a']

display(result)

1

In [151]:
result = s.loc['a']

display(result)

1

#### 多个label

In [152]:
result = s[['a','c']]

display(result)

a    1
c    3
dtype: int64

In [154]:
result = s.loc[['a','c']]

display(result)

a    1
c    3
dtype: int64

### 基于位置

#### 单个位置

In [155]:
result = s.iloc[0]

display(result)

1

In [156]:
result = s[0]

display(result)

1

In [None]:
注意，如果index本身就是整数's[n]'返回的结果是基于label的选择。

In [157]:
s = Series([1,2,3,4],index = [4,3,2,1])

result = s[1]

display(result)

4

对于简单的字符串,可以使用slice方式进行选择。

In [173]:
result = s['a':'c']

display(result)

a    1
b    2
c    3
dtype: int64

#### 多个位置

In [190]:
s = Series([1,2,3,4],index = list('abcd'))

display(s)

a    1
b    2
c    3
d    4
dtype: int64

In [175]:
result = s.iloc[[0,2]]

display(result)

a    1
c    3
dtype: int64

In [176]:
result = s[[0,2]]

display(result)

a    1
c    3
dtype: int64

In [177]:
result = s[0:2]

display(result)

a    1
b    2
dtype: int64

使用Slice的时候,总是按照位置进行选择。

In [None]:
s.iat

In [178]:
s = Series([1,2,3,4],index = [4,3,2,1])

result = s[0:2]

display(result)

4    1
3    2
dtype: int64

In [183]:
s

4    1
3    2
2    3
1    4
dtype: int64

#### 总结

返回结果的判定比较简单。如果传入的参数是list,那么返回的结果是Series,即使只包含一个元素。如果传入的参数是scalar，那么返回的结果也是scalar。

至于各种选择方式接受不同类型的参数后的行为，有下受不同类型的参数后的行为，有下面几种

* label->loc  
  先尝试index中寻找传入参数对应的label;如果找不到,传入参数又是整数的话，则尝试选择传入参数对应的位置。  
* label  
  尝试index中寻找传入参数对应的label
* loc
  尝试选择传入参数对应的位置
* True Loc
  选择True对应的位置的成员
* / 
  不支持
* label(empty)
  尝试index中寻找传入参数对应的label,但是返回的结果是空的Seires，疑似bug?


各种选择方法接受不同的参数后的行为可以用下面这张表总结。



| 选择方式  | 接受scalar | 接受list   | 接受等长bool list | slice(int) | slice(other) |
|-----------|------------|------------|-------------------|------------|--------------|
| s[x]      | label->loc | label->loc | True Loc          | loc        | label        |
| s.at[x]   | label      | /          | /                 | /          | /            |
| s.iat[x]  | loc        | /          | /                 | /          | /            |
| s.loc[x]  | label      | label      | True Loc          | label(empty)      | label        |
| s.iloc[x] | loc        | loc        | /                 | loc        | /            |


如果超出

自动扩展

|选择方式|自动扩展|
|---|---|
|s[x]||
|s.at[x]||
|s.iat[x]||

In [259]:
s1 = Series([1,2,3,4],index = [4,3,2,1])

s2 = Series([1,2,3,4],index = ['a','b','c','d'])

In [260]:
s1.loc[1:3]

Series([], dtype: int64)

In [254]:
s1.loc[1:3]

Series([], dtype: int64)

In [238]:
s1.loc[1:5]

Series([], dtype: int64)

# DataFrame
## 创建
和Series一样,DataFrame也可以接收多种数据类型的数据。

### dict of dict/Series
这时DataFrame会用dict的keys作为DataFrame的columns,内层Series的index的并集(或者内层dict的keys的并集)作为DataFrame的index。 内层的Series和Dict长度可以不一样。

In [25]:
d = {
    'one' : Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two' : Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}

df = DataFrame(d)

display(df)

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [26]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

df = DataFrame(d)

display(df)

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


如果额外的传入index,columns参数。那么传入的数据中不在传入index,columns范围内的会被舍弃，传入index,columns中需要，但传入数据中找不到对应值的部分会被用NaN填充。

In [30]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

df = DataFrame(d,index = ['a','b','e'],columns = ['one','two','three'])

display(df)

Unnamed: 0,one,two,three
a,1.0,1.0,
b,2.0,2.0,
e,,,


如果希望把外层dict的keys作为index，内层Series的index并集(或者内层dict的keys的并集)作为columns的话，可以用DataFrame.from_dict实现。

In [27]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

DataFrame.from_dict(d,orient='index')

Unnamed: 0,b,c,a,d
one,2,3,1,
two,2,3,1,4.0


注意要把orient设置成'index'(默认是'columns'),否则就和```DataFrame(d)```的效果一样了。

In [28]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

DataFrame.from_dict(d)

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


### dict of list/ndarray

dict内层也可以是list或者ndarray。这时由于没有可利用的index对成员进行匹配，内层list或者ndarry的长度必须一致。

In [33]:
d = {
    'one' : [1., 2., 3., 4.],
    'two' : [4., 3., 2., 1.]
}

DataFrame.from_dict(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [34]:
d = {
    'one' : np.array([1., 2., 3., 4.]),
    'two' : np.array([4., 3., 2., 1.])
}

DataFrame.from_dict(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


也支持DataFrame.from_dict方法

In [35]:
d = {
    'one' : {'a':1,'b':2,'c':3},
    'two' : {'a':1,'b':2,'c':3,'d':4}
}

DataFrame.from_dict(d,orient='index')

Unnamed: 0,b,c,a,d
one,2,3,1,
two,2,3,1,4.0


### list of dict

数据可以是list of dict。这时会将内层dict的keys作为组成DataFrame的columns。内侧dict的长度可以不一致。

In [41]:
d = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

DataFrame(d)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [49]:
d = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

DataFrame.from_dict(d)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


### list of tuple
这时会将list中的tuple作为每一个行的

In [59]:
d = [
    (1,2,),
    (3,4),
    (5,6),    
]

DataFrame(d)

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


也可以在内层的tuple中指定label并传入DataFrame.from_items。 相比于dict方式,这种方式可以确保生成的columns顺序是和list中出现的顺序一致的。

In [66]:
d = [
    ('A',(1,2)),
    ('B',(3,4)),
    ('C',(5,6)),
]

DataFrame.from_items(d)

Unnamed: 0,A,B,C
0,1,3,5
1,2,4,6


## 数据的选择

为了方面后面代码实验，先定义一个函数生成我们需要的测试DataFrame

In [85]:
def get_df():
    d = {
        'one' : Series([1., 2., 3.], index=['a', 'b', 'c']),
        'two' : Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
    }

    df = DataFrame(d)
    
    return df

df = get_df()

### 选择单列对应的Series
#### 根据label选择

传入代表列的label即可,得到的结果是一个Series。

In [94]:
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

#### 根据位置选择
如果要选择第n列，可以使用```iloc[:,n-1]```,例如我们要选择第二列的话。

In [95]:
df.iloc[:,1]

a    1.0
b    2.0
c    3.0
d    4.0
Name: two, dtype: float64

### 选择多列对应的DataFrame

#### 根据label进行选择

将所需的label组成list传入[]即可。

In [98]:
display(df[['one','two']])

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


注意即使list中只传入一个label，返回的结果依然是DataFrame。

In [99]:
display(df[['one']])

Unnamed: 0,one
a,1.0
b,2.0
c,3.0
d,


#### 根据位置进行选择
在iloc中选择

In [102]:
display(df.iloc[:,[0,1]])

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


## 修改列

## 新增列

In [105]:
df = get_df()

df['four'] = df['one']+df['two']

display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,6.0
d,,4.0,


In [106]:
df = get_df()

df['four'] = (df['one']+df['two']).to_frame()

display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,6.0
d,,4.0,


如果有inndex,可以行数不一致。

In [109]:
df = get_df()

df['four'] = (df['one']+df['two']).iloc[0:2]

display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,
d,,4.0,


如果没有index，则需要行数一致。

In [113]:
df = get_df()

df['four'] = [1,2,3,4]
display(df)

Unnamed: 0,one,two,four
a,1.0,1.0,1
b,2.0,2.0,2
c,3.0,3.0,3
d,,4.0,4


增加多列

右侧的column不需要和左侧一致。

In [122]:
df = get_df()

df[['four','five']] = df[['one','two']]
display(df)

Unnamed: 0,one,two,four,five
a,1.0,1.0,1.0,1.0
b,2.0,2.0,2.0,2.0
c,3.0,3.0,3.0,3.0
d,,4.0,,4.0


右侧如果是ndarray,则不能用于创建新列。

In [124]:
df = get_df()

try:
    df[['four','five']] = df[['one','two']].values
except Exception as e:
    print(type(e),e)

<class 'KeyError'> "['four' 'five'] not in index"
