# Pandas字符串处理
 
  前面我们已经使用了字符串的处理函数:
  
  df["bWendu"].str.replace("℃", "").astype('int32')
### Pandas的字符串处理:
  - 1.使用方法:先获取Series的str属性，然后在属性上调用函数;
  - 2.只能在字符串列上使用，不能数字列上使用;
  - 3.Dataframe上没有str属性和处理方法
  - 4.Series.str并不是Python原生字符串，而是自己的一套方法，不过大部分和原生str很相似;
### Series.str字符串方法列表参考文献

https://pandas.pydata.org/pandas-docs/stable/reference/series.html#tstring-handling
### 本节演示内容
  - 1.获取Series的str属性，然后使用各种字符串处理函数
  - 2.使用str的startswith、contains等bool类Series可以做条件查询
  - 3.需要多次str处理的链式操作
  - 4.使用正则表达式的处理

## 0.读取数据

In [2]:
import pandas as pd

In [7]:
fpath = 'beijing_last_12_weather.csv'
df = pd.read_csv(fpath)

In [9]:
df.head()

Unnamed: 0,日期,最高温,最低温,天气,风力风向
0,2024-12-01 星期日,15℃,-1℃,多云,西北风 2级
1,2024-12-02 星期一,4℃,-4℃,晴,西北风 3级
2,2024-12-03 星期二,9℃,-3℃,晴~多云,西北风 2级
3,2024-12-04 星期三,8℃,-2℃,晴,西北风 2级
4,2024-12-05 星期四,9℃,-2℃,晴~阴,西北风 3级


In [11]:
df.dtypes

日期      object
最高温     object
最低温     object
天气      object
风力风向    object
dtype: object

## 1.获取Series的str属性,使用各种字符串处理函数

In [12]:
df['最高温'].str

<pandas.core.strings.accessor.StringMethods at 0x16ad0313cb0>

In [25]:
# 字符串替换函数
df['最高温'] = df['最高温'].str.replace("℃","")

In [14]:
# 判读是不是数字
df['最高温'].str.isnumeric()

0      False
1      False
2      False
3      False
4      False
       ...  
107    False
108    False
109    False
110    False
111    False
Name: 最高温, Length: 112, dtype: bool

In [24]:
df.head()

Unnamed: 0,日期,最高温,最低温,天气,风力风向
0,2024-12-01 星期日,15℃,-1℃,多云,西北风 2级
1,2024-12-02 星期一,4℃,-4℃,晴,西北风 3级
2,2024-12-03 星期二,9℃,-3℃,晴~多云,西北风 2级
3,2024-12-04 星期三,8℃,-2℃,晴,西北风 2级
4,2024-12-05 星期四,9℃,-2℃,晴~阴,西北风 3级


In [26]:
df['最高温'] = df['最高温'].astype('int32')

In [27]:
df.dtypes

日期      object
最高温      int32
最低温     object
天气      object
风力风向    object
dtype: object

In [28]:
df['最高温'].str.len()

AttributeError: Can only use .str accessor with string values!

## 2.使用str的startswith,contains等得到bool的Series可以做条件查询

In [29]:
condition = df['日期'].str.startswith("2024-12")

In [30]:
condition

0       True
1       True
2       True
3       True
4       True
       ...  
107    False
108    False
109    False
110    False
111    False
Name: 日期, Length: 112, dtype: bool

In [31]:
df[condition].head()

Unnamed: 0,日期,最高温,最低温,天气,风力风向
0,2024-12-01 星期日,15,-1℃,多云,西北风 2级
1,2024-12-02 星期一,4,-4℃,晴,西北风 3级
2,2024-12-03 星期二,9,-3℃,晴~多云,西北风 2级
3,2024-12-04 星期三,8,-2℃,晴,西北风 2级
4,2024-12-05 星期四,9,-2℃,晴~阴,西北风 3级


## 3、需要多次str处理的链式操作

怎样提取201803这样的数字月份?

1、先将日期2018-03-31替换成20180331的形式

2、提取月份字符串201803

In [32]:
df['日期'].str.replace("-","")

0      20241201 星期日
1      20241202 星期一
2      20241203 星期二
3      20241204 星期三
4      20241205 星期四
           ...     
107    20251008 星期三
108    20251009 星期四
109    20251010 星期五
110    20251101 星期六
111    20251102 星期日
Name: 日期, Length: 112, dtype: object

In [33]:
df['日期'].str.replace("-","").slice(0,6)

AttributeError: 'Series' object has no attribute 'slice'

In [34]:
df['日期'].str.replace("-","").str.slice(0,6)

0      202412
1      202412
2      202412
3      202412
4      202412
        ...  
107    202510
108    202510
109    202510
110    202511
111    202511
Name: 日期, Length: 112, dtype: object

In [36]:
df['日期'].str.replace("-","").str[0:6]

0      202412
1      202412
2      202412
3      202412
4      202412
        ...  
107    202510
108    202510
109    202510
110    202511
111    202511
Name: 日期, Length: 112, dtype: object

## 4.正确使用正则表达式的处理

In [37]:
# 添加新列
def get_nianyueri(x):
    year,month,day = x['日期'].split('-')
    return f'{year}年{month}月{day}日'
df['中文日期'] = df.apply(get_nianyueri,axis = 1)

In [38]:
df['中文日期']

0      2024年12月01 星期日日
1      2024年12月02 星期一日
2      2024年12月03 星期二日
3      2024年12月04 星期三日
4      2024年12月05 星期四日
            ...       
107    2025年10月08 星期三日
108    2025年10月09 星期四日
109    2025年10月10 星期五日
110    2025年11月01 星期六日
111    2025年11月02 星期日日
Name: 中文日期, Length: 112, dtype: object

 -问题:怎样将其中的年月日除去

In [39]:
# 方法一:链式replace
df['中文日期'].str.replace("年","").str.replace("月","").str.replace("日","")

0       20241201 星期
1      20241202 星期一
2      20241203 星期二
3      20241204 星期三
4      20241205 星期四
           ...     
107    20251008 星期三
108    20251009 星期四
109    20251010 星期五
110    20251101 星期六
111     20251102 星期
Name: 中文日期, Length: 112, dtype: object

In [42]:
# 方法二:正则表达替换
# 注意，这里新版的pandas的replace("[年月日]","",regex=True)，要手动开启正则
df['中文日期'].str.replace('[年月日]','',regex=True)

0       20241201 星期
1      20241202 星期一
2      20241203 星期二
3      20241204 星期三
4      20241205 星期四
           ...     
107    20251008 星期三
108    20251009 星期四
109    20251010 星期五
110    20251101 星期六
111     20251102 星期
Name: 中文日期, Length: 112, dtype: object