# pandas中的文本处理

Pandas 是一个强大的 Python 数据分析工具，它不仅在数据处理方面表现卓越，还提供了丰富的文本操作工具。本章将重点介绍 Pandas 中的文本操作，帮助你更好地处理字符串类型的数据。



In [9]:
import numpy as np
import pandas as pd

## str对象

### str对象的设计意图

Pandas 的 `str` 对象是定义在 `Index` 或 `Series` 上的属性，专门用于处理每个元素的文本内容。它内部定义了大量的方法，使得对序列的文本处理变得简单便捷。例如，将字母转换为大写：

In [10]:
var = 'abcd'
print(str.upper(var))  # Python内置str模块

ABCD


在 Pandas 中，同样的功能可以这样实现：

In [11]:
s = pd.Series(['abcd', 'efg', 'hi'])
print(s.str.upper())

0    ABCD
1     EFG
2      HI
dtype: object


### 索引器

`str` 对象允许你像操作普通字符串一样操作 Pandas 序列中的字符串。例如，获取字符串的某个字符：

In [12]:
print(var[1])  # 获取第二个字符

b


同样的操作在 Pandas 中如下：

In [13]:
print(s.str[1])  # 获取每个字符串的第二个字符

0    b
1    f
2    i
dtype: object


### string类型

Pandas 1.0.0 版本引入了 `string` 类型，这是一种专门用于存储字符串的数据类型。它的引入是为了区分字符串和混合类型（例如同时存储浮点、字符串、字典等）的 `object` 类型。一个重要的区别是，`string` 类型支持缺失值表示。

例如，当你有一个包含不同类型元素的序列时，`str` 对象的表现可能会有所不同：

In [14]:
s = pd.Series(['a', np.nan, 'c'])
s

0      a
1    NaN
2      c
dtype: object

In [15]:
print(s.str.len())  # 使用 object 类型
print(s.astype('string').str.len())  # 使用 string 类型

0    1.0
1    NaN
2    1.0
dtype: float64
0       1
1    <NA>
2       1
dtype: Int64


需要注意的是，对于全数字的序列，即使其类型为 `object`，也不能直接使用 `str` 属性。但可以用 `astype` 转换为 `string` 类型：

In [16]:
s = pd.Series([123, 233, 311])
print(s.astype('string').str[0])

0    1
1    2
2    3
dtype: string


## 文本处理的五类操作

文本处理通常包括拆分、合并、匹配、替换和提取五类操作。由于我们需要去除正则表达式相关内容，所以这里只介绍非正则表达式的操作。

### 拆分

`str.split` 方法可以将字符串拆分为多个部分：

In [17]:
s = pd.Series(['a-b-c', 'd-e-f'])
print(s.str.split('-'))

0    [a, b, c]
1    [d, e, f]
dtype: object


### 合并

`str.join` 方法可以合并字符串列表：

In [9]:
s = pd.Series([['a', 'b', 'c'], ['d', 'e', 'f']])
print(s.str.join('-'))

0    a-b-c
1    d-e-f
dtype: object


### 匹配

`str.contains` 方法可以检查字符串是否包含某个子串：

In [10]:
s = pd.Series(['my cat', 'he is fat', 'railway station'])
print(s.str.contains('cat'))

0     True
1    False
2    False
dtype: bool


### 替换

`str.replace` 方法用于替换字符串中的某些部分：

In [18]:
s = pd.Series(['a_1_b', 'c_?'])
print(s.str.replace('_', '-'))

0    a-1-b
1      c-?
dtype: object


### 提取

`str.extract` 方法用于提取符合特定模式的字符串,这里支持使用正则表达式来对提取,如果对正则表达式不熟悉,可以看这个[教程](https://www.runoob.com/python/python-reg-expressions.html)

In [12]:
s = pd.Series(['100-200', '300-400'])
print(s.str.extract('(\d+)'))

     0
0  100
1  300
