## Pandas字符串处理

前面我们已经使用了字符串的处理函数：  
df["bWendu"].str.replace("℃", "").astype('int32')

***Pandas的字符串处理：***  
1. 使用方法：先获取Series的str属性，然后在属性上调用函数；
2. 只能在字符串列上使用，不能数字列上使用；
3. Dataframe上没有str属性和处理方法
4. Series.str并不是Python原生字符串，而是自己的一套方法，不过大部分和原生str很相似；

***Series.str字符串方法列表参考文档:***  
https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling
  
  
***本节演示内容：***  
1. 获取Series的str属性，然后使用各种字符串处理函数
2. 使用str的startswith、contains等bool类Series可以做条件查询
3. 需要多次str处理的链式操作
4. 使用正则表达式的处理

### 0、读取北京2018年天气数据

In [1]:
import pandas as pd

In [2]:
fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df = pd.read_csv(fpath)

In [3]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


In [4]:
df.dtypes

ymd          object
bWendu       object
yWendu       object
tianqi       object
fengxiang    object
fengli       object
aqi           int64
aqiInfo      object
aqiLevel      int64
dtype: object

### 1、获取Series的str属性，使用各种字符串处理函数

In [5]:
df["bWendu"].str

<pandas.core.strings.StringMethods at 0x1bc3faf35c0>

In [6]:
# 字符串替换函数
df["bWendu"].str.replace("℃", "")

0       3
1       2
2       2
3       0
4       3
5       2
6       2
7       2
8       1
9      -2
10     -1
11      2
12      3
13      6
14      2
15      4
16      6
17      5
18      7
19      3
20      0
21     -3
22     -4
23     -4
24     -3
25     -3
26     -1
27     -1
28      1
29      4
       ..
335     9
336     8
337     4
338     1
339    -2
340    -4
341    -2
342    -1
343     1
344    -1
345     1
346     3
347     4
348     2
349     7
350     7
351     9
352     9
353     6
354    10
355     8
356     1
357     2
358     2
359    -2
360    -5
361    -3
362    -3
363    -2
364    -2
Name: bWendu, Length: 365, dtype: object

In [7]:
# 判断是不是数字
df["bWendu"].str.isnumeric()

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
335    False
336    False
337    False
338    False
339    False
340    False
341    False
342    False
343    False
344    False
345    False
346    False
347    False
348    False
349    False
350    False
351    False
352    False
353    False
354    False
355    False
356    False
357    False
358    False
359    False
360    False
361    False
362    False
363    False
364    False
Name: bWendu, Length: 365, dtype: bool

In [9]:
df["aqi"].str.len()

AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas

### 2、使用str的startswith、contains等得到bool的Series可以做条件查询

In [10]:
condition = df["ymd"].str.startswith("2018-03")

In [11]:
condition

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
335    False
336    False
337    False
338    False
339    False
340    False
341    False
342    False
343    False
344    False
345    False
346    False
347    False
348    False
349    False
350    False
351    False
352    False
353    False
354    False
355    False
356    False
357    False
358    False
359    False
360    False
361    False
362    False
363    False
364    False
Name: ymd, Length: 365, dtype: bool

In [12]:
df[condition].head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
59,2018-03-01,8℃,-3℃,多云,西南风,1-2级,46,优,1
60,2018-03-02,9℃,-1℃,晴~多云,北风,1-2级,95,良,2
61,2018-03-03,13℃,3℃,多云~阴,北风,1-2级,214,重度污染,5
62,2018-03-04,7℃,-2℃,阴~多云,东南风,1-2级,144,轻度污染,3
63,2018-03-05,8℃,-3℃,晴,南风,1-2级,94,良,2


### 3、需要多次str处理的链式操作

怎样提取201803这样的数字月份？  
1、先将日期2018-03-31替换成20180331的形式  
2、提取月份字符串201803  

In [13]:
df["ymd"].str.replace("-", "")

0      20180101
1      20180102
2      20180103
3      20180104
4      20180105
5      20180106
6      20180107
7      20180108
8      20180109
9      20180110
10     20180111
11     20180112
12     20180113
13     20180114
14     20180115
15     20180116
16     20180117
17     20180118
18     20180119
19     20180120
20     20180121
21     20180122
22     20180123
23     20180124
24     20180125
25     20180126
26     20180127
27     20180128
28     20180129
29     20180130
         ...   
335    20181202
336    20181203
337    20181204
338    20181205
339    20181206
340    20181207
341    20181208
342    20181209
343    20181210
344    20181211
345    20181212
346    20181213
347    20181214
348    20181215
349    20181216
350    20181217
351    20181218
352    20181219
353    20181220
354    20181221
355    20181222
356    20181223
357    20181224
358    20181225
359    20181226
360    20181227
361    20181228
362    20181229
363    20181230
364    20181231
Name: ymd, Length: 365, 

In [14]:
# 每次调用函数，都返回一个新Series
df["ymd"].str.replace("-", "").slice(0, 6)

AttributeError: 'Series' object has no attribute 'slice'

In [15]:
df["ymd"].str.replace("-", "").str.slice(0, 6)

0      201801
1      201801
2      201801
3      201801
4      201801
5      201801
6      201801
7      201801
8      201801
9      201801
10     201801
11     201801
12     201801
13     201801
14     201801
15     201801
16     201801
17     201801
18     201801
19     201801
20     201801
21     201801
22     201801
23     201801
24     201801
25     201801
26     201801
27     201801
28     201801
29     201801
        ...  
335    201812
336    201812
337    201812
338    201812
339    201812
340    201812
341    201812
342    201812
343    201812
344    201812
345    201812
346    201812
347    201812
348    201812
349    201812
350    201812
351    201812
352    201812
353    201812
354    201812
355    201812
356    201812
357    201812
358    201812
359    201812
360    201812
361    201812
362    201812
363    201812
364    201812
Name: ymd, Length: 365, dtype: object

In [16]:
# slice就是切片语法，可以直接用
df["ymd"].str.replace("-", "").str[0:6]

0      201801
1      201801
2      201801
3      201801
4      201801
5      201801
6      201801
7      201801
8      201801
9      201801
10     201801
11     201801
12     201801
13     201801
14     201801
15     201801
16     201801
17     201801
18     201801
19     201801
20     201801
21     201801
22     201801
23     201801
24     201801
25     201801
26     201801
27     201801
28     201801
29     201801
        ...  
335    201812
336    201812
337    201812
338    201812
339    201812
340    201812
341    201812
342    201812
343    201812
344    201812
345    201812
346    201812
347    201812
348    201812
349    201812
350    201812
351    201812
352    201812
353    201812
354    201812
355    201812
356    201812
357    201812
358    201812
359    201812
360    201812
361    201812
362    201812
363    201812
364    201812
Name: ymd, Length: 365, dtype: object

### 4. 使用正则表达式的处理




In [None]:
# 添加新列
def get_nianyueri(x):
    year,month,day = x["ymd"].split("-")
    return f"{year}年{month}月{day}日"
df["中文日期"] = df.apply(get_nianyueri, axis=1)

In [None]:
df["中文日期"]

问题：怎样将“2018年12月31日”中的年、月、日三个中文字符去除？

In [None]:
# 方法1：链式replace
df["中文日期"].str.replace("年", "").str.replace("月","").str.replace("日", "")

***Series.str默认就开启了正则表达式模式***

In [None]:
# 方法2：正则表达式替换
df["中文日期"].str.replace("[年月日]", "")