# pandas字符串处理

前面我们已经使用了字符串的处理函数：  
df.loc[:, 'bWendu'] = df['bWendu'].str.replace('℃', '').astype('int32')

1. 使用方法，先获取Series的str属性，然后在属性上调用函数；
2. 只能在字符串列上使用，不能在数字列上使用
3. dataframe上没有str属性和处理方法
4. Series.str并不是Python原生字符串，而是自己的一套方法，不过大部分和原生字符串str很相似

Serie.str字符串方法列表参考文档：  
https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling

本节演示内容：
1. 获取Series的str属性，然后使用各种字符串处理函数
2. 使用str的startswith、contains等bool类Series可做条件查询
3. 需要多次str处理的链式操作
4. 使用正则表达式的处理

In [28]:
import pandas as pd

file_path = './data/beijing_tianqi/beijing_tianqi_2018.csv'

df = pd.read_csv(file_path)
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


In [29]:
# df.loc[:, 'bWendu'] = df['bWendu'].str.replace("℃", '').astype('int32')
# df.loc[:, 'yWendu'] = df['yWendu'].str.replace("℃", '').astype('int32')

In [56]:
df.dtypes

ymd          object
bWendu       object
yWendu       object
tianqi       object
fengxiang    object
fengli       object
aqi           int64
aqiInfo      object
aqiLevel      int64
日期           object
dtype: object

## 获取Series的str属性，使用各种字符串处理函数

In [57]:
df['bWendu'].str

<pandas.core.strings.accessor.StringMethods at 0x1bb557d41d0>

In [58]:
# 字符串替换函数
df['bWendu'].str.replace('℃', '')

0       3
1       2
2       2
3       0
4       3
       ..
360    -5
361    -3
362    -3
363    -2
364    -2
Name: bWendu, Length: 365, dtype: object

In [59]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,日期
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2,2018年01月01日
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1,2018年01月02日
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1,2018年01月03日
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1,2018年01月04日
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1,2018年01月05日


In [60]:
# 判断是不是一个数字
df['bWendu'].str.isnumeric()

0      False
1      False
2      False
3      False
4      False
       ...  
360    False
361    False
362    False
363    False
364    False
Name: bWendu, Length: 365, dtype: bool

In [61]:
# df.loc[:, 'bWendu'] = df['bWendu'].str.replace("℃", '')
# df['bWendu'].str.isnumeric()

In [62]:
# 不能在数字列上使用
# df['aqi'].str.len()

## 使用str的startswith、contains等得到bool的Series可以做条件查询

In [63]:
condition = df['ymd'].str.startswith('2018-03')

In [64]:
condition

0      False
1      False
2      False
3      False
4      False
       ...  
360    False
361    False
362    False
363    False
364    False
Name: ymd, Length: 365, dtype: bool

In [65]:
df[condition].head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,日期
59,2018-03-01,8℃,-3℃,多云,西南风,1-2级,46,优,1,2018年03月01日
60,2018-03-02,9℃,-1℃,晴~多云,北风,1-2级,95,良,2,2018年03月02日
61,2018-03-03,13℃,3℃,多云~阴,北风,1-2级,214,重度污染,5,2018年03月03日
62,2018-03-04,7℃,-2℃,阴~多云,东南风,1-2级,144,轻度污染,3,2018年03月04日
63,2018-03-05,8℃,-3℃,晴,南风,1-2级,94,良,2,2018年03月05日


## 需要多次str处理的链式操作

怎样提取类似于201803这样的数字月份？
1. 先将日期2018-03-13替换成20180313
2. 提取额鱼粉字符串201803

In [66]:
df['ymd'].str.replace('-', '')

0      20180101
1      20180102
2      20180103
3      20180104
4      20180105
         ...   
360    20181227
361    20181228
362    20181229
363    20181230
364    20181231
Name: ymd, Length: 365, dtype: object

In [67]:
# 每次调用函数都返回一个新的series
# df['ymd'].str.replace('-', '').slice(0, 6)  # 会报错
# 这样写：
df['ymd'].str.replace('-', '').str.slice(0, 6)

0      201801
1      201801
2      201801
3      201801
4      201801
        ...  
360    201812
361    201812
362    201812
363    201812
364    201812
Name: ymd, Length: 365, dtype: object

In [68]:
# slice就是切片语法 也可以直接写
df['ymd'].str.replace('-', '').str[0:6]

0      201801
1      201801
2      201801
3      201801
4      201801
        ...  
360    201812
361    201812
362    201812
363    201812
364    201812
Name: ymd, Length: 365, dtype: object

## 使用正则表达式的处理

In [69]:
# 添加新列

def get_ymd(x):
    year, month, day = x['ymd'].split('-')
    return f'{year}年{month}月{day}日'

df['日期'] = df.apply(get_ymd, axis=1)

In [70]:
df['日期'].head()

0    2018年01月01日
1    2018年01月02日
2    2018年01月03日
3    2018年01月04日
4    2018年01月05日
Name: 日期, dtype: object

In [71]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,日期
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2,2018年01月01日
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1,2018年01月02日
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1,2018年01月03日
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1,2018年01月04日
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1,2018年01月05日


问题：将2018年01月01日中的年 月 日去掉

In [72]:
# 方法1：链式replace
df['日期'].str.replace('年', '').str.replace('月', '').str.replace('日', '')

0      20180101
1      20180102
2      20180103
3      20180104
4      20180105
         ...   
360    20181227
361    20181228
362    20181229
363    20181230
364    20181231
Name: 日期, Length: 365, dtype: object

In [78]:
# 方法2：Series.str默认开启了正则
df['日期'].str.replace(r'[年月日]', '', regex=True)

0      20180101
1      20180102
2      20180103
3      20180104
4      20180105
         ...   
360    20181227
361    20181228
362    20181229
363    20181230
364    20181231
Name: 日期, Length: 365, dtype: object

In [74]:
df

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,日期
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2,2018年01月01日
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1,2018年01月02日
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1,2018年01月03日
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1,2018年01月04日
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1,2018年01月05日
...,...,...,...,...,...,...,...,...,...,...
360,2018-12-27,-5℃,-12℃,多云~晴,西北风,3级,48,优,1,2018年12月27日
361,2018-12-28,-3℃,-11℃,晴,西北风,3级,40,优,1,2018年12月28日
362,2018-12-29,-3℃,-12℃,晴,西北风,2级,29,优,1,2018年12月29日
363,2018-12-30,-2℃,-11℃,晴~多云,东北风,1级,31,优,1,2018年12月30日
