# Pandas处理文本数据

Pandas中的文本数据对象是指包含字符串数据的`Series`或`DataFrame`中的列。可以通过指定`dtype="string"`来创建文本数据对象，或者通过从现有的列或数据源进行转换来创建。文本数据对象具有特殊的方法和属性，可用于在文本数据上执行字符串处理操作。

## 一、字符串处理函数

### 1. 字符串拆分和连接

Pandas可以通过如下函数处理字符串的拆分与连接：

* `.split()`: 将字符串拆分为多个子字符串，并返回一个包含拆分结果的列表。

* `.join()`: 将字符串列表或Series中的多个字符串连接成一个字符串。

* `.str.split()`: 在Series或`DataFrame`的字符串列上进行拆分操作，并返回一个包含拆分结果的`Series`或`DataFrame`。

In [6]:
import pandas as pd

# 创建一个示例字符串列
names = pd.Series(['John Smith', 'Jane Doe', 'Mike Johnson'])

# 将字符串拆分为姓和名两列
split_names = names.str.split(' ')
print(split_names)


0      [John, Smith]
1        [Jane, Doe]
2    [Mike, Johnson]
dtype: object


In [7]:
# 将拆分后的姓和名连接为一个字符串
joined_names = split_names.str.join('-')
print(joined_names)

0      John-Smith
1        Jane-Doe
2    Mike-Johnson
dtype: object


### 2. 字符串匹配和查找

Pandas可以通过如下函数处理字符串的匹配和查找：

- `.contains()`: 检查字符串是否包含指定的子字符串，并返回布尔值。
- `.match()`: 使用正则表达式对字符串进行匹配，返回匹配的结果。
- `.find()`: 查找字符串中第一个匹配子字符串的起始位置，并返回索引。
- `.findall()`: 查找字符串中所有匹配的子字符串，并返回一个列表。

In [8]:
import pandas as pd

# 创建一个示例字符串列
sentences = pd.Series(['Hello, world!', 'How are you?', 'Python is great'])

# 检查字符串中是否包含指定子字符串
contains_world = sentences.str.contains('world')
print(contains_world)


0     True
1    False
2    False
dtype: bool


In [9]:
# 使用正则表达式匹配字符串
matches = sentences.str.match(r'[A-Z][a-z]+')
print(matches)


0    True
1    True
2    True
dtype: bool


In [10]:
# 查找字符串中第一个匹配子字符串的起始位置
first_index = sentences.str.find('great')
print(first_index)


0    -1
1    -1
2    10
dtype: int64


In [11]:
# 查找字符串中所有匹配的子字符串
all_matches = sentences.str.findall(r'\b\w+\b')
print(all_matches)

0         [Hello, world]
1        [How, are, you]
2    [Python, is, great]
dtype: object


### 3. 字符串替换和删除

Pandas可以通过如下函数处理字符串的替换和删除：

- `.replace()`: 替换字符串中的指定子字符串为新的子字符串。
- `.str.replace()`: 在Series或DataFrame的字符串列上进行替换操作。
- `.strip()`: 去除字符串两端的空格或指定的字符。
- `.str.strip()`: 在Series或DataFrame的字符串列上进行去除操作。
- `.str.replace()`: 删除字符串中的指定子字符串。
- `.str.strip()`: 在Series或DataFrame的字符串列上进行删除操作。

In [12]:
import pandas as pd

# 创建一个示例字符串列
text = pd.Series(['  Hello,  ', '  How are you?  ', '  Python is great  '])

# 去除字符串两端的空格
trimmed_text = text.str.strip()
print(trimmed_text)



0             Hello,
1       How are you?
2    Python is great
dtype: object


In [13]:
# 替换字符串中的指定子字符串
replaced_text = text.str.replace('great', 'awesome')
print(replaced_text)


0                 Hello,  
1           How are you?  
2      Python is awesome  
dtype: object


In [14]:
# 删除字符串中的指定子字符串
removed_text = text.str.replace(' ', '')
print(removed_text)

0           Hello,
1       Howareyou?
2    Pythonisgreat
dtype: object


## 二、正则表达式操作

### 1. 正则表达式基础知识

在Pandas中，正则表达式（Regular Expression）是一种强大的工具，用于处理和操作文本数据。Pandas提供了多个函数和方法，可以使用正则表达式对文本数据进行匹配、查找、替换等操作。

正则表达式（Regular Expression）是一种用于描述字符模式的表达式。它是一种强大的工具，用于在文本中搜索、匹配和处理特定模式的字符串。正则表达式由一个或多个字符和特殊符号组成，它们形成了一种规则，用于描述所需的字符串模式。

正则表达式的工作原理是通过与输入字符串逐字符匹配，尝试找到与模式匹配的字符串。它使用不同的元字符（Metacharacters）和字符类（Character classes）来表示不同的模式。以下是一些常用的元字符和字符类：

#### (1) 元字符：

- `.`：匹配任意单个字符，除了换行符。
- `*`：匹配前面的字符零次或多次。
- `+`：匹配前面的字符一次或多次。
- `?`：匹配前面的字符零次或一次。
- `|`：用于分隔多个模式，表示或的关系。
- `()`：用于分组和捕获匹配的子字符串。

#### (2) 字符类：

- `[abc]`：匹配字符a、b或c中的任意一个。
- `[a-z]`：匹配任意小写字母。
- `[0-9]`：匹配任意数字字符。
- `[^abc]`：匹配除了字符a、b和c之外的任意字符。

正则表达式的匹配过程是从左到右逐字符进行的。它尝试在目标字符串中找到与模式完全匹配的子字符串。如果找到匹配，就可以执行相应的操作，如提取、替换、删除等。正则表达式还支持更复杂的模式匹配，如重复次数、边界限定、转义字符等。

在Python中，正则表达式的使用通常使用`re`模块。该模块提供了许多函数和方法，用于对字符串进行正则表达式的匹配和处理。

总而言之，正则表达式是一种强大的字符串匹配和处理工具，它通过使用特定的符号和语法规则，描述所需的字符串模式，并可以在文本中进行搜索、匹配和处理。

### 2. Pandas中的正则表达式操作

#### (1) `.str.match()` 方法： 

`.str.match()` 方法用于对字符串列应用正则表达式进行匹配操作，返回匹配结果。只返回第一个匹配项。

In [15]:
import pandas as pd

# 创建一个示例字符串列
names = pd.Series(['John', 'Jane', 'Mike'])

# 使用正则表达式匹配以J开头的名字
matches = names.str.match(r'J\w+')
print(matches)


0     True
1     True
2    False
dtype: bool


#### (2) `.str.contains()` 方法： 

`.str.contains()` 方法用于检查字符串列中是否包含匹配正则表达式的子字符串，并返回布尔值。

In [16]:
import pandas as pd

# 创建一个示例字符串列
sentences = pd.Series(['Hello, world!', 'How are you?', 'Python is great'])

# 检查字符串列是否包含以w结尾的单词
contains_w = sentences.str.contains(r'\b\w+w\b')
print(contains_w)


0    False
1     True
2    False
dtype: bool


#### (3)`.str.extract()` 方法： 

`.str.extract()` 方法用于从字符串列中提取满足指定正则表达式模式的子字符串，并返回一个新的列或`DataFrame`。

In [17]:
import pandas as pd

# 创建一个示例字符串列
sentences = pd.Series(['John is 25 years old', 'Jane is 30 years old'])

# 提取字符串中的年龄
ages = sentences.str.extract(r'(\d+) years')
print(ages)


    0
0  25
1  30


#### (4)`.str.replace()` 方法：

`.str.replace()` 方法用于替换字符串列中匹配正则表达式的子字符串为指定的字符串。 

In [18]:
import pandas as pd

# 创建一个示例字符串列
sentences = pd.Series(['Hello, world!', 'How are you?', 'Python is great'])

# 将字符串中的逗号替换为空格
replaced = sentences.str.replace(',', ' ')
print(replaced)


0      Hello  world!
1       How are you?
2    Python is great
dtype: object


## 三、文本数据的分组和聚合

### 1. 分组操作概述

在Pandas中，分组（Grouping）是一种常用的数据操作，用于将数据根据某个标准分成多个组，并在每个组上进行进一步的操作。分组操作可以应用于各种数据类型，包括文本数据。

首先，让我们概述一下分组操作的基本流程：

- 分组依据：选择一个或多个列作为分组依据。这些列的值将用于对数据进行分组。
- 分组创建：根据分组依据，将数据分成多个组。每个组由具有相同值的分组依据列形成。
- 分组操作：对每个组进行操作，如聚合、计算统计量、过滤数据等。
- 结果合并：将每个组的结果合并为一个新的数据结构，通常是一个新的`DataFrame`。

### 2. 文本数据的分组和聚合操作

在文本数据中，分组和聚合操作可以用于计算字符串的长度、计数特定单词的出现次数、找到具有最长或最短字符串的组等。下面介绍一些常见的文本数据的分组和聚合操作：

#### (1)`.groupby()` 方法： 

`.groupby()` 方法用于按照指定的列或多个列对数据进行分组。它返回一个`GroupBy`对象，表示按照指定列进行分组后的数据。

In [19]:
import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'Name': ['John', 'Jane', 'Mike', 'Emily', 'John'],
    'City': ['New York', 'Paris', 'London', 'Paris', 'London'],
    'Age': [30, 25, 40, 35, 28]
})

# 按照City列进行分组
grouped = df.groupby('City')
print(grouped)


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D3F4659310>


#### (2) 分组聚合操作

通过GroupBy对象，可以应用各种聚合函数来对每个组的数据进行汇总。一些常用的聚合函数包括：

- `.count()`：计算每个组中的元素个数。
- `.sum()`：计算每个组中数值列的总和。
- `.mean()`：计算每个组中数值列的平均值。
- `.max()`、`.min()`：计算每个组中数值列的最大值和最小值。
- `.size()`：计算每个组中的元素数量

In [20]:
import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'Name': ['John', 'Jane', 'Mike', 'Emily', 'John'],
    'City': ['New York', 'Paris', 'London', 'Paris', 'London'],
    'Age': [30, 25, 40, 35, 28]
})

# 按照City列进行分组，并计算每个城市的平均年龄和人数
grouped = df.groupby('City')
average_age = grouped['Age'].mean()
count = grouped['Age'].count()

print(f"平均年龄：")
print(average_age)



平均年龄：
City
London      34.0
New York    30.0
Paris       30.0
Name: Age, dtype: float64


In [21]:
print(f"平均人数：")
print(count)

平均人数：
City
London      2
New York    1
Paris       2
Name: Age, dtype: int64


#### (3)其他分组操作：

- `.apply()`：在每个组上应用自定义函数。
- `.filter()`：根据自定义条件过滤组。
- `.transform()`：对每个组应用函数，并将结果返回到原始数据的相应位置。