In [1]:
import numpy as np
import pandas as pd

# 中间类型

## 3.1 `.str`
- Series和Index对象才有
- lower() 
- upper() 
- len() 
- strip()
- replace()

In [36]:
s = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'])
s

0    a_b_c
1    c_d_e
2      NaN
3    f_g_h
dtype: object

In [37]:
s.str[0] # 可以直接通过位置索引

0      a
1      c
2    NaN
3      f
dtype: object

In [3]:
s.str.split('_')

0    [a, b, c]
1    [c, d, e]
2          NaN
3    [f, g, h]
dtype: object

In [4]:
s.str.split('_',expand=True) # 指定参数进行扩展

Unnamed: 0,0,1,2
0,a,b,c
1,c,d,e
2,,,
3,f,g,h


In [5]:
s.str.split('_',expand=True, n=1) # 限制扩展的数量

Unnamed: 0,0,1
0,a,b_c
1,c,d_e
2,,
3,f,g_h


In [6]:
s.str.split('_',expand=True).get(1)  # 等效于 s.str.split('_',expand = True)[1]

0      b
1      d
2    NaN
3      g
Name: 1, dtype: object

In [7]:
# rsplit和split方法类似，只是从反方向来访问
s.str.rsplit('_', expand=True, n=1)

Unnamed: 0,0,1
0,a_b,c
1,c_d,e
2,,
3,f_g,h


可以通过cat()方法将单个Series（Index）或者将Series（Index）和其他Series（Index）连接起来

In [12]:
s = pd.Series(['a', 'b', 'c', 'd', np.nan])

In [13]:
s.str.cat()

'abcd'

In [14]:
s.str.cat(sep=',')

'a,b,c,d'

In [15]:
# 默认情况下，缺失值是会被直接忽略的，可以通过 na_rep 指定一个值来代替缺失值
s.str.cat(sep=',', na_rep='-')

'a,b,c,d,-'

In [20]:
# 可以将 Series（或Index） 和其他与列表类似的对象连接起来，但是两者的长度要一致，否则会报错
s.str.cat(('A', 'B', 'C', 'D', 'E')) # na_rep 指定缺失值的替代值

0     aA
1     bB
2     cC
3     dD
4    NaN
dtype: object

In [28]:
# 也可以将 Series（或Index）与类似于数组的对象连接，但是Series（或Index）的长度必须和该数组的行数相同
df = pd.DataFrame([['1', '2', '3', '4', '5'],['1', '2', '3', '4', '5']])
df = df.T
df
s.str.cat(df, na_rep='-')

Unnamed: 0,0,1
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5


0    a11
1    b22
2    c33
3    d44
4    -55
dtype: object

In [31]:
# 按照索引对齐连接
s2 = pd.Series(['b', 'd', 'a', 'c' , 'e'], index=[1, 3, 0, 2, 4])
s
s2

0      a
1      b
2      c
3      d
4    NaN
dtype: object

1    b
3    d
0    a
2    c
4    e
dtype: object

In [34]:
# 默认情况
s.str.cat(s2)
# 对齐连接
s.str.cat(s2, join='left', na_rep='-') # 'left', 'outer', 'inner', 'right'

  


0     ab
1     bd
2     ca
3     dc
4    NaN
dtype: object

0    aa
1    bb
2    cc
3    dd
4    -e
dtype: object

In [45]:
# 通过正则来提取
s = pd.Series(['a1', 'b2', 'c3'])
s.str.extract(r'([ab])(\d)', expand=False) # 提取具有多个组的正则表达式将返回一个DataFrame，每个组一列

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,


In [46]:
# 可以在提取的时候指定列
s.str.extract(r'P<letter>([ab])(\d)', expand=False)

Unnamed: 0,0,1
0,,
1,,
2,,


## 3.2 `.cat`
这个中间类型专门处理类别类型，类别类型是机器学习中经常面对的一种特征属性，后面章节会讲到。

In [33]:
s = pd.Series( [1,2,3], dtype = 'category')
s

0    1
1    2
2    3
dtype: category
Categories (3, int64): [1, 2, 3]

In [35]:
s.cat.categories

Int64Index([1, 2, 3], dtype='int64')

## 3.3 `.dt`
这个中间类型专门处理时间格式的Series，在时间序列分析中会用到。

In [47]:
s = pd.Series(['2017-08-01','2017-08-03','2017-08-03'], dtype = 'datetime64[ns]')
s

0   2017-08-01
1   2017-08-03
2   2017-08-03
dtype: datetime64[ns]

In [48]:
s.dt.year

0    2017
1    2017
2    2017
dtype: int64