## Pandas字符串处理

前面我们已经使用了字符串的处理函数：  
df["bWendu"].str.replace("℃", "").astype('int32')

***Pandas的字符串处理：***  
1. 使用方法：先获取Series的str属性，然后在属性上调用函数；
2. Dataframe上没有str属性和处理方法
3. Series.str并不是Python原生字符串，而是自己的一套方法，不过大部分和原生str很相似；

***Series.str字符串方法列表参考文档:***  
https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling
  
  
***本节演示内容：***  
1. 获取Series的str属性，然后使用各种字符串处理函数
2. 使用str的startswith、contains等bool类Series可以做条件查询
3. 需要多次str处理的链式操作
4. 使用正则表达式的处理

### 0、读取北京2018年天气数据

In [1]:
import pandas as pd

In [2]:
fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df = pd.read_csv(fpath)

In [3]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


### 1、获取Series的str属性，使用各种字符串处理函数

In [4]:
df["bWendu"].str

<pandas.core.strings.StringMethods at 0x1b8da302848>

In [5]:
# 字符串替换函数
df["bWendu"].str.replace("℃", "")

0       3
1       2
2       2
3       0
4       3
       ..
360    -5
361    -3
362    -3
363    -2
364    -2
Name: bWendu, Length: 365, dtype: object

In [6]:
# 判断是不是数字
df["bWendu"].str.isnumeric()

0      False
1      False
2      False
3      False
4      False
       ...  
360    False
361    False
362    False
363    False
364    False
Name: bWendu, Length: 365, dtype: bool

### 2、使用str的startswith、contains等得到bool的Series可以做条件查询

In [7]:
condition = df["ymd"].str.startswith("2018-03")

In [8]:
condition

0      False
1      False
2      False
3      False
4      False
       ...  
360    False
361    False
362    False
363    False
364    False
Name: ymd, Length: 365, dtype: bool

In [9]:
df[condition]

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
59,2018-03-01,8℃,-3℃,多云,西南风,1-2级,46,优,1
60,2018-03-02,9℃,-1℃,晴~多云,北风,1-2级,95,良,2
61,2018-03-03,13℃,3℃,多云~阴,北风,1-2级,214,重度污染,5
62,2018-03-04,7℃,-2℃,阴~多云,东南风,1-2级,144,轻度污染,3
63,2018-03-05,8℃,-3℃,晴,南风,1-2级,94,良,2
64,2018-03-06,6℃,-3℃,多云~阴,东南风,3-4级,67,良,2
65,2018-03-07,6℃,-2℃,阴~多云,北风,1-2级,65,良,2
66,2018-03-08,8℃,-4℃,晴,东北风,1-2级,62,良,2
67,2018-03-09,10℃,-2℃,多云,西南风,1-2级,132,轻度污染,3
68,2018-03-10,14℃,-2℃,晴,东南风,1-2级,171,中度污染,4


### 3、需要多次str处理的链式操作

怎样提取201803这样的数字月份？  
1、先将日期2018-03-31替换成20180331的形式  
2、提取月份字符串201803  

In [10]:
df["ymd"].str.replace("-", "")

0      20180101
1      20180102
2      20180103
3      20180104
4      20180105
         ...   
360    20181227
361    20181228
362    20181229
363    20181230
364    20181231
Name: ymd, Length: 365, dtype: object

In [12]:
# 每次调用函数，都返回一个新Series
df["ymd"].str.replace("-", "").slice(0, 6)

AttributeError: 'Series' object has no attribute 'slice'

In [13]:
df["ymd"].str.replace("-", "").str.slice(0, 6)

0      201801
1      201801
2      201801
3      201801
4      201801
        ...  
360    201812
361    201812
362    201812
363    201812
364    201812
Name: ymd, Length: 365, dtype: object

In [14]:
# slice就是切片语法，可以直接用
df["ymd"].str.replace("-", "").str[0:6]

0      201801
1      201801
2      201801
3      201801
4      201801
        ...  
360    201812
361    201812
362    201812
363    201812
364    201812
Name: ymd, Length: 365, dtype: object

### 4. 使用正则表达式的处理




In [15]:
# 添加新列
def get_nianyueri(x):
    year,month,day = x["ymd"].split("-")
    return f"{year}年{month}月{day}日"
df["中文日期"] = df.apply(get_nianyueri, axis=1)

In [16]:
df["中文日期"]

0      2018年01月01日
1      2018年01月02日
2      2018年01月03日
3      2018年01月04日
4      2018年01月05日
          ...     
360    2018年12月27日
361    2018年12月28日
362    2018年12月29日
363    2018年12月30日
364    2018年12月31日
Name: 中文日期, Length: 365, dtype: object

问题：怎样将“2018年12月31日”中的年、月、日三个中文字符去除？

In [17]:
# 方法1：链式replace
df["中文日期"].str.replace("年", "").str.replace("月","").str.replace("日", "")

0      20180101
1      20180102
2      20180103
3      20180104
4      20180105
         ...   
360    20181227
361    20181228
362    20181229
363    20181230
364    20181231
Name: 中文日期, Length: 365, dtype: object

***Series.str默认就开启了正则表达式模式***

In [18]:
# 方法2：正则表达式替换
df["中文日期"].str.replace("[年月日]", "")

0      20180101
1      20180102
2      20180103
3      20180104
4      20180105
         ...   
360    20181227
361    20181228
362    20181229
363    20181230
364    20181231
Name: 中文日期, Length: 365, dtype: object