## Pandas字符串处理

前面我们已经使用了字符串的处理函数：  

***Pandas的字符串处理：***  
1. 使用方法：先获取Series的str属性，然后在属性上调用函数；
2. 只能在字符串列上使用，不能数字列上使用；
3. Dataframe上没有str属性和处理方法
4. Series.str并不是Python原生字符串，而是自己的一套方法，不过大部分和原生str很相似；

***Series.str字符串方法列表参考文档:***  
https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling
  
  
***本节演示内容：***  
1. 获取Series的str属性，然后使用各种字符串处理函数
2. 使用str的startswith、contains等bool类Series可以做条件查询
3. 需要多次str处理的链式操作
4. 使用正则表达式的处理

### 0、读取北京2018年天气数据

In [1]:
import pandas as pd
import numpy as np

In [2]:
fpath = "./result.xlsx"
df = pd.read_excel(fpath)

In [3]:
df.head()

Unnamed: 0,date,week,max_temperature,min_temperature,day_status,wind,aqi,aqi_status
0,2017-01-01,周日,-,-,多云,无持续风向微风,372,严重
1,2017-01-02,周一,-,-,霾,无持续风向微风,361,严重
2,2017-01-03,周二,-,-,霾~雾,无持续风向微风,280,重度
3,2017-01-04,周三,9°,2°,小雨,无持续风向微风,193,中度
4,2017-01-05,周四,5°,1°,小雨,无持续风向微风,216,重度


In [4]:
df.dtypes

date               object
week               object
max_temperature    object
min_temperature    object
day_status         object
wind               object
aqi                 int64
aqi_status         object
dtype: object

### 1、获取Series的str属性，使用各种字符串处理函数

In [5]:
df["max_temperature"].str

<pandas.core.strings.StringMethods at 0x15878539128>

In [6]:
# 字符串替换函数
df["max_temperature"].str.replace("°", "")

0        -
1        -
2        -
3        9
4        5
        ..
1090    14
1091     -
1092     -
1093     5
1094     1
Name: max_temperature, Length: 1095, dtype: object

In [7]:
# 判断是不是数字
df["max_temperature"].str.isnumeric()

0       False
1       False
2       False
3       False
4       False
        ...  
1090    False
1091    False
1092    False
1093    False
1094    False
Name: max_temperature, Length: 1095, dtype: bool

### 2、使用str的startswith、contains等得到bool的Series可以做条件查询

In [8]:
condition = df["date"].str.startswith("2018-03")

In [9]:
condition

0       False
1       False
2       False
3       False
4       False
        ...  
1090    False
1091    False
1092    False
1093    False
1094    False
Name: date, Length: 1095, dtype: bool

In [10]:
df[condition].head()

Unnamed: 0,date,week,max_temperature,min_temperature,day_status,wind,aqi,aqi_status
424,2018-03-01,周四,11°,2°,阴~多云,东北风3-4级,146,轻度
425,2018-03-02,周五,15°,3°,多云,南风1-2级,102,轻度
426,2018-03-03,周六,20°,10°,阴~小雨,南风1-2级,128,轻度
427,2018-03-04,周日,10°,1°,小雨,东北风4-5级,131,轻度
428,2018-03-05,周一,11°,1°,多云,东北风1-2级,72,良


### 3、需要多次str处理的链式操作

怎样提取201803这样的数字月份？  
1、先将日期2018-03-31替换成20180331的形式  
2、提取月份字符串201803  

In [11]:
df["date"].str.replace("-", "")

0       20170101
1       20170102
2       20170103
3       20170104
4       20170105
          ...   
1090    20191227
1091    20191228
1092    20191229
1093    20191230
1094    20191231
Name: date, Length: 1095, dtype: object

In [12]:
# 每次调用函数，都返回一个新Series
df["date"].str.replace("-", "").str.slice(0, 6)

0       201701
1       201701
2       201701
3       201701
4       201701
         ...  
1090    201912
1091    201912
1092    201912
1093    201912
1094    201912
Name: date, Length: 1095, dtype: object

In [13]:
df["date"].str.replace("-", "").str.slice(0, 6)

0       201701
1       201701
2       201701
3       201701
4       201701
         ...  
1090    201912
1091    201912
1092    201912
1093    201912
1094    201912
Name: date, Length: 1095, dtype: object

In [14]:
# slice就是切片语法，可以直接用
df["date"].str.replace("-", "").str[0:6]

0       201701
1       201701
2       201701
3       201701
4       201701
         ...  
1090    201912
1091    201912
1092    201912
1093    201912
1094    201912
Name: date, Length: 1095, dtype: object

### 4. 使用正则表达式的处理




In [15]:
# 添加新列
def get_nianyueri(x):
    year, month, day = x["date"].split("-")
    return f"{year}年{month}月{day}日"


df["中文日期"] = df.apply(get_nianyueri, axis=1)

In [16]:
df["中文日期"]

0       2017年01月01日
1       2017年01月02日
2       2017年01月03日
3       2017年01月04日
4       2017年01月05日
           ...     
1090    2019年12月27日
1091    2019年12月28日
1092    2019年12月29日
1093    2019年12月30日
1094    2019年12月31日
Name: 中文日期, Length: 1095, dtype: object

问题：怎样将“2018年12月31日”中的年、月、日三个中文字符去除？

In [17]:
# 方法1：链式replace
df["中文日期"].str.replace("年", "").str.replace("月", "").str.replace("日", "")

0       20170101
1       20170102
2       20170103
3       20170104
4       20170105
          ...   
1090    20191227
1091    20191228
1092    20191229
1093    20191230
1094    20191231
Name: 中文日期, Length: 1095, dtype: object

***Series.str默认就开启了正则表达式模式***

In [18]:
# 方法2：正则表达式替换
df["中文日期"].str.replace("[年月日]", "")

0       20170101
1       20170102
2       20170103
3       20170104
4       20170105
          ...   
1090    20191227
1091    20191228
1092    20191229
1093    20191230
1094    20191231
Name: 中文日期, Length: 1095, dtype: object