pandas字符串处理
前面我们一ing使用了字符串的处理函数：
df['最高温'].str.replace('°','').astype('int32')

pandas的字符串处理：
1. 使用方法：先获取series的str属性，然后在属性上调用函数
2. 只能在字符串列上使用，不能在数字列上使用
3. df上没有str属性的处理方法
4. series.str并不是python原生字符串，而是自己的一套方法，不过大部分和原生str相似

本节演示内容：
1. 获取series的str属性，然后使用各种字符串处理函数
2. 使用str的startswith、contains等bool类series可以做条件查询
3. 需要多次str处理的链式操作
4. 使用正则表达式的处理

In [1]:
import pandas as pd
df=pd.read_excel('./weater_beijing.xlsx')

In [2]:
df.dtypes

日期        object
最高温       object
最低温       object
天气        object
风力风向      object
空气质量指数    object
dtype: object

In [3]:
df.head()

Unnamed: 0,日期,最高温,最低温,天气,风力风向,空气质量指数
0,2011-01-01 周六,-2°,-7°,多云~阴,无持续风向微风,
1,2011-01-02 周日,-2°,-7°,多云,无持续风向微风,
2,2011-01-03 周一,-2°,-6°,多云~阴,西北风~北风3-4级~4-5级,
3,2011-01-04 周二,-2°,-9°,晴,北风5-6级,
4,2011-01-05 周三,-2°,-10°,晴,北风~无持续风向3-4级~微风,


1. 获取series的str属性，使用各种字符串处理函数

In [4]:
df['日期'].str

<pandas.core.strings.accessor.StringMethods at 0x26ce52506d0>

In [6]:
# 字符串替代函数
df['最低温'].str.replace('°','')

0        -7
1        -7
2        -6
3        -9
4       -10
       ... 
4001     -8
4002     -5
4003     -5
4004     -7
4005     -7
Name: 最低温, Length: 4006, dtype: object

In [7]:
# 判断是不是数字
df['最高温'].str.isnumeric()

0       False
1       False
2       False
3       False
4       False
        ...  
4001    False
4002    False
4003    False
4004    False
4005    False
Name: 最高温, Length: 4006, dtype: bool

2. 使用str的startswith、contains等得到bool的series可以做条件查询

In [8]:
condition=df['日期'].str.startswith('2018-01')

In [9]:
condition

0       False
1       False
2       False
3       False
4       False
        ...  
4001    False
4002    False
4003    False
4004    False
4005    False
Name: 日期, Length: 4006, dtype: bool

In [10]:
df[condition].head()

Unnamed: 0,日期,最高温,最低温,天气,风力风向,空气质量指数
2545,2018-01-01 周一,3°,-6°,晴~多云,东北风1-2级,59 良
2546,2018-01-02 周二,2°,-5°,阴~多云,东北风1-2级,49 优
2547,2018-01-03 周三,2°,-5°,多云,北风1-2级,28 优
2548,2018-01-04 周四,0°,-8°,阴,东北风1-2级,28 优
2549,2018-01-05 周五,3°,-6°,多云~晴,西北风1-2级,50 优


3. 需要多次str处理的链式操作
怎么提取201803这样的数字月份
    1. 先将日期2018-03-31替换成20180331的形式
    2. 提取月份字符串201803

In [11]:
df['日期'].str.replace('-','').str[:6]
# df['日期'].str.replace('-','').str.slice(0,6) series.replace后得到的仍然是一个series，需要再调用str才能使用str方法

0       201101
1       201101
2       201101
3       201101
4       201101
         ...  
4001    202112
4002    202112
4003    202112
4004    202112
4005    202112
Name: 日期, Length: 4006, dtype: object

4. 使用正则表达式的处理

In [13]:
# 添加新列
def get_nianyueri(x):
    date=x['日期'].split(' ')[0]
    year,month,day=date.split('-')
    return f'{year}年{month}月{day}日'

df['中文日期']=df.apply(get_nianyueri,axis=1)

In [14]:
df['中文日期']

0       2011年01月01日
1       2011年01月02日
2       2011年01月03日
3       2011年01月04日
4       2011年01月05日
           ...     
4001    2021年12月27日
4002    2021年12月28日
4003    2021年12月29日
4004    2021年12月30日
4005    2021年12月31日
Name: 中文日期, Length: 4006, dtype: object

问题：怎么样将2018年12月31日中的 年月日三个中文字去掉

In [None]:
# 方法1：链式replace
df['中文日期'].str.replace("年",'').str.replace('月','').str.replace('日','')

series.str默认开启了正则表达式模块

In [15]:
# 方法2：正则表达式替换
df['中文日期'].str.replace('[年月日]','')

  df['中文日期'].str.replace('[年月日]','')


0       20110101
1       20110102
2       20110103
3       20110104
4       20110105
          ...   
4001    20211227
4002    20211228
4003    20211229
4004    20211230
4005    20211231
Name: 中文日期, Length: 4006, dtype: object