# **Pandas字符串处理**
#### 前面我们已经使用了字符串的处理函数：
#### df["bWendu"].str.replace("℃","").astype('int32')
#####
#### **Pandas的字符串处理：**
####  1.使用方法：先获取Series的str属性，然后在属性上调用函数；
####  2.只能在字符串列上使用，不能数字列上使用；
####  3.DataFrame上没有str属性和处理方法；
####  4.Series.str并不是Python原生字符串，而是自己的一套方法，不过大部分和原生str很相似。
#####
#### **Series.str字符串方法列表参考文档：**
#### https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling
#####
#### **本章演示内容：**
####  1.获取Series的str属性，然后使用各种字符串处理函数
####  2.使用str的startswith、contains等bool类Series可以做条件查询
####  3.需要多次str处理的链式操作
####  4.使用正则表达式的处理

## 0、读取北京2018年天气预报

In [1]:
import pandas as pd

In [2]:
fpath="./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df=pd.read_csv(fpath,encoding='gbk')

In [3]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


In [4]:
df.dtypes

ymd          object
bWendu       object
yWendu       object
tianqi       object
fengxiang    object
fengli       object
aqi           int64
aqiInfo      object
aqiLevel      int64
dtype: object

## 1、获取Series的str属性，使用各种字符串处理函数

In [5]:
df["bWendu"].str

<pandas.core.strings.accessor.StringMethods at 0x2011f3d7b60>

In [6]:
# 字符串替换函数
df["bWendu"].str.replace("℃","")

0      3
1      2
2      2
3      0
4      3
5      2
6      2
7      2
8      1
9     -2
10    -4
11    -4
12    -3
13    -2
14    -5
15    30
16    27
17     8
18     9
19    13
20     7
21     8
Name: bWendu, dtype: object

In [7]:
# 判断是不是数字
df["bWendu"].str.isnumeric()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
Name: bWendu, dtype: bool

In [8]:
# str只能在string类型的数据上使用，在数字类型的数据上会报错，如下：
df["aqi"].str.len()

AttributeError: Can only use .str accessor with string values!

## 2、使用str的startswith、contains等得到bool的Series可以做条件查询

In [9]:
condition = df["ymd"].str.startswith("2018-03")

In [11]:
condition # 结果condition是bool类型

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17     True
18     True
19     True
20     True
21     True
Name: ymd, dtype: bool

In [12]:
df[condition].head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
17,2018-03-01,8℃,-3℃,多云,西南风,1-2级,46,优,1
18,2018-03-02,9℃,-1℃,晴~多云,北风,1-2级,95,良,2
19,2018-03-03,13℃,3℃,多云~阴,北风,1-2级,214,重度污染,5
20,2018-03-04,7℃,-2℃,阴~多云,东南风,1-2级,144,轻度污染,3
21,2018-03-05,8℃,-3℃,晴,南风,1-2级,94,良,2


## 3、需要多次str处理的链式操作
#### 如：怎样提取201803这样的数字月份？
#### 1、先将日期2018-03-01替换成20180301的形式
#### 2、提取月份字符串201803

In [13]:
df["ymd"].str.replace("-","")

0     20180101
1     20180102
2     20180103
3     20180104
4     20180105
5     20180106
6     20180107
7     20180108
8     20180109
9     20180110
10    20180123
11    20180124
12    20180125
13    20181226
14    20181227
15    20180824
16    20180907
17    20180301
18    20180302
19    20180303
20    20180304
21    20180305
Name: ymd, dtype: object

In [14]:
# 每次调用函数，都返回一个新Series
df["ymd"].str.replace("-","").slice(0,6)
# 这个会报错，因为slice()是属于str的语法，而不属于Series对象上，
# 所以，直接在Series上调用slice()方法是不可以的

AttributeError: 'Series' object has no attribute 'slice'

In [15]:
# 正确写法：
df["ymd"].str.replace("-","").str.slice(0,6)

0     201801
1     201801
2     201801
3     201801
4     201801
5     201801
6     201801
7     201801
8     201801
9     201801
10    201801
11    201801
12    201801
13    201812
14    201812
15    201808
16    201809
17    201803
18    201803
19    201803
20    201803
21    201803
Name: ymd, dtype: object

In [16]:
# slice就是切片语法，也可以直接使用，如下：
df["ymd"].str.replace("-","").str[0:6]

0     201801
1     201801
2     201801
3     201801
4     201801
5     201801
6     201801
7     201801
8     201801
9     201801
10    201801
11    201801
12    201801
13    201812
14    201812
15    201808
16    201809
17    201803
18    201803
19    201803
20    201803
21    201803
Name: ymd, dtype: object

## 4、使用正则表达式的处理

In [17]:
# 添加新列
def get_nianyueri(x):
    year,month,day=x["ymd"].split("-")
    return f"{year}年{month}月{day}日"

df["中文日期"] = df.apply(get_nianyueri,axis=1)

In [18]:
df["中文日期"]

0     2018年01月01日
1     2018年01月02日
2     2018年01月03日
3     2018年01月04日
4     2018年01月05日
5     2018年01月06日
6     2018年01月07日
7     2018年01月08日
8     2018年01月09日
9     2018年01月10日
10    2018年01月23日
11    2018年01月24日
12    2018年01月25日
13    2018年12月26日
14    2018年12月27日
15    2018年08月24日
16    2018年09月07日
17    2018年03月01日
18    2018年03月02日
19    2018年03月03日
20    2018年03月04日
21    2018年03月05日
Name: 中文日期, dtype: object

#### 问题：怎样将“2018年12月26日”中的年、月、日三个中文字符去除？

In [19]:
# 方法1：链式replace
df["中文日期"].str.replace("年","").str.replace("月","").str.replace("日","")

0     20180101
1     20180102
2     20180103
3     20180104
4     20180105
5     20180106
6     20180107
7     20180108
8     20180109
9     20180110
10    20180123
11    20180124
12    20180125
13    20181226
14    20181227
15    20180824
16    20180907
17    20180301
18    20180302
19    20180303
20    20180304
21    20180305
Name: 中文日期, dtype: object

#### **Series.str默认就开启了正则表达式模式**

In [20]:
# 方法2：正则表达式替换
df["中文日期"].str.replace("[年月日]","")

0     2018年01月01日
1     2018年01月02日
2     2018年01月03日
3     2018年01月04日
4     2018年01月05日
5     2018年01月06日
6     2018年01月07日
7     2018年01月08日
8     2018年01月09日
9     2018年01月10日
10    2018年01月23日
11    2018年01月24日
12    2018年01月25日
13    2018年12月26日
14    2018年12月27日
15    2018年08月24日
16    2018年09月07日
17    2018年03月01日
18    2018年03月02日
19    2018年03月03日
20    2018年03月04日
21    2018年03月05日
Name: 中文日期, dtype: object