In [1]:
import numpy as np
import pandas as pd


## 目录

**一、str对象**

* 1.1、str对象的设计意图
* 1.2. []索引器
* 1.3. string类型


**二、正则表达式基础**

* 2.1. 一般字符的匹配
* 2.2. 元字符基础
* 2.3. 简写字符集


**三、文本处理的五大操作**

* 3.1. 拆分
* 3.2. 合并
* 3.3. 匹配
* 3.4. 替换
* 3.5. 提取


**四、常用字符串函数**

* 4.1. 字母型函数
* 4.2. 数值型函数
* 4.3. 统计型函数
* 4.4. 格式型函数


**EX.练习**

## 正式学习内容

### 一、str对象

#### 1.1、str对象的设计意图

str 对象是定义在 Index 或 Series 上的属性，专门用于逐元素处理文本内容。

str包含许多处理的函数，大部分可以直接用于pandas中的数据处理。



#### 1.2. string类型

从 pandas 的 1.0.0 版本开始，引入了 string 类型，其引入的动机在于：原来所有的字符串类型都会以 object 类型的 Series 进行存储，但 object 类型只应当存储混合类型，例如同时存储浮点、字符串、字典、列表、自定义类型等，

因此字符串有必要同数值型或 category 一样，具有自己的数据存放类型，从而引入了 string 类型。

* **string类型和object类型的区别**

> * **object类型**是一种pandas中特殊的数据类型，序列中可以包含**字典，列表以及字符串**；而**string类型**表示序列中所有的元素都是**字符串类型**的。 object类型和object类型都可以使用str对象包含的一些函数，但是返回的结果可能是不同的【例1】

> * string类型是**Nullable类型**的，是允许空值的，而**object类型是不允许空值的**。如果调用的 str 方法返回值为整数 Series 和布尔 Series 时，其分别对应的 dtype 是 Int 和 boolean 的 Nullable 类型，而 object 类型则会分别返回 int(无空值)/float（有空值） 和 bool（无空值）/object（有空值） 【例2】



In [7]:
# 例1

s = pd.Series([{1:'temp1',2:'temp2'},['a','b'],[1,2],'yucici',123,np.nan])
s

0    {1: 'temp1', 2: 'temp2'}
1                      [a, b]
2                      [1, 2]
3                      yucici
4                         123
5                         NaN
dtype: object

In [8]:
# 例1
# object类型的 str函数
s.str[1] # str的索引只要满足迭代器就可以

0    temp1
1        b
2        2
3        u
4      NaN
5      NaN
dtype: object

In [12]:
# 例1
# string类型的 str函数

s.astype('string').str[1]

0       1
1       '
2       1
3       u
4       2
5    <NA>
dtype: string

In [17]:
# 例2

s = pd.Series(['a'])
s

0    a
dtype: object

In [19]:
# object 
s.str.len()

0    1
dtype: int64

In [18]:
# object

s =='a'

0    True
dtype: bool

In [16]:
# string
s.astype('string').str.len()

0    1
dtype: Int64

In [20]:
# string
s.astype('string')=='a'

0    True
dtype: boolean

In [21]:
# object
s = pd.Series(['a',np.nan])
s.str.len()

0    1.0
1    NaN
dtype: float64

In [22]:
# string 允许空值
s = pd.Series(['a',np.nan])
s.astype('string').str.len()

0       1
1    <NA>
dtype: Int64

#### 1.3. []索引器

索引器的概念其实就是将字符串当作序列，索引方式其实是和列表索引是一致的。

str使用[]索引也是完全一样的概念。

In [23]:
ss = "abcd"
ss

'abcd'

In [30]:
s = pd.Series(["strstrstr",['a','b'],{1:"temp1",2:"temp2"}])
s

0                   strstrstr
1                      [a, b]
2    {1: 'temp1', 2: 'temp2'}
dtype: object

In [31]:
s.str[0]

0       s
1       a
2    None
dtype: object

In [33]:
s.str[0:5:2]

0    srt
1    [a]
2    NaN
dtype: object

### 二、正则表达式基础

参考资料：[ learn-regex-zh](https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch8.html) 和 [ 正则表达式必知必会 ](https://book.douban.com/subject/26285406/)

#### 2.1. 一般字符的匹配


* **正则表达式的概念**  
      
    正则表达式是一种 按照某种正则规则 从左到右匹配字符串中内容的工具。  
    通过python中re模块的findall函数来举例【例1】

In [35]:
# 例1
import re

re.findall("a","a! it is a a")

['a', 'a', 'a']

#### 2.2. 元字符基础

元字符基础，一些简单的正则规则如下：


| 元字符 |描述 |
|--|--|
|.|匹配换行符以外的任意字符|
|[]|匹配中括号中的任意字符|
|[^]|匹配中括号中不包含的任意字符|
|* | 匹配前面的子表达式零次或多次|
|+ | 匹配前面的子表达式1次或多次|
|？ | 匹配前面的子表达式零次或1次|
|{n，m} | 匹配前面字符至少n次，不超过m次|
|（xyz） | 按照确切的顺序匹配字符串xyz|
| **\|** | or，匹配”\|“前面的字符串 或者“\|”后面的字符串|
| **\** | 转义符，还原字符含义|
| ^ | 匹配行的开始|
| $ | 匹配行的结束|



具体的使用参照下述例子：

In [36]:
#  . 

re.findall(".","abc")

['a', 'b', 'c']

In [38]:
# []  匹配中括号中的任意字符

re.findall('[da]',"abcd")

['a', 'd']

In [39]:
# [^ ]  匹配中括号中的任意字符

re.findall('[^da]',"abcd")

['b', 'c']

In [40]:
# * 

re.findall('a*',"aabaaabaaaawwa")

['aa', '', 'aaa', '', 'aaaa', '', '', 'a', '']

In [41]:
# +

re.findall('a+',"aabaaabaaaawwa")

['aa', 'aaa', 'aaaa', 'a']

In [42]:
# ?

re.findall('a?',"aabaaabaaaawwa")

['a', 'a', '', 'a', 'a', 'a', '', 'a', 'a', 'a', 'a', '', '', 'a', '']

In [43]:
# {n,m}

re.findall('a{1,2}',"ann aann aaann aaaann aaaa")

['a', 'aa', 'aa', 'a', 'aa', 'aa', 'aa', 'aa']

In [44]:
# (xyz)

re.findall('(abc)','abc cba ccc aaa bac')

['abc']

In [45]:
##    |

re.findall('aa|bb','aabb bbaa abab')

['aa', 'bb', 'bb', 'aa']

In [48]:
# ^

print(re.findall('^a','baa'))
print(re.findall('^a','abaa'))

[]
['a']


In [49]:
##  \

re.findall('a\?','a?')

['a?']

#### 2.3. 简写字符集

正则表达式中还有一类简写字符集，等价于一组字符的集合

| 简写字符集 |描述 |
|--|--|
|\w|匹配所有字母、数字、下划线[a-zA-Z0-9]|
|\W|匹配非字母和数字的字符[^\w]|
|\d|匹配数字[0-9]|
|\D| 匹配非数字[^\d]|
|\s| 匹配空字符|
|\S| 匹配非空字符|
|\B| 匹配一组非空字符开头或结尾的位置，不代表具体字符|


In [50]:
# \w
re.findall('\w{2}','12 ab 1b 2_ 9@ ++')

['12', 'ab', '1b', '2_']

In [51]:
# \W
re.findall('\W{2}','12 ab 1b 2_ 9@ ++')

['@ ', '++']

In [52]:
# \s

re.findall('.\s.','aa bb cc dd')

['a b', 'b c', 'c d']

### 三、文本处理的五大操作

#### 3.1. 拆分 str.split

  

 * s.**str.split** (pat=None, n=-1, expand=False) 对字符串进行拆分 

    参数说明 
 >* pat=None,指定拆分的 正则表达式 or 字符串，没有定义以空格拆分
 >* n=-1，最大分割后得到的字符串的数目
 >* expand=False，是否将分割后的字符单独成列，默认False
 

In [57]:
s = pd.Series(['上海市 黄浦区 方浜中路249号',
         '上海市 宝山区 密山路5号'])
s


0    上海市 黄浦区 方浜中路249号
1       上海市 宝山区 密山路5号
dtype: object

In [58]:
# 
s.str.split()

0    [上海市, 黄浦区, 方浜中路249号]
1       [上海市, 宝山区, 密山路5号]
dtype: object

In [64]:
# 
s.str.split('[市区路]')

0    [上海,  黄浦,  方浜中, 249号]
1       [上海,  宝山,  密山, 5号]
dtype: object

In [67]:
# 
s.str.split('[市区路]',n=2,expand=True)

Unnamed: 0,0,1,2
0,上海,黄浦,方浜中路249号
1,上海,宝山,密山路5号


#### 3.2. 合并 str.join /str.cat

* **str.join**   
    表示用某个连接符把series中的字符串列表连接起来，如果出现非字符串元素则返回空值

* **str.cat**(others=None, sep=None, na_rep=None, join='left')  
    合并两个序列，  
    参数说明
> * others,连接的序列
> * sep， 连接符
> * na_rep， 缺失值的替代符号
> * join，连接方式，默认left join
  

In [68]:
# str.join

s = pd.Series([['a','b'],['c','d']])
s

0    [a, b]
1    [c, d]
dtype: object

In [69]:
s.str.join('+')

0    a+b
1    c+d
dtype: object

In [74]:
# str.cat


s1 = pd.Series(['cat','dog'])
s1

0    cat
1    dog
dtype: object

In [75]:
s2 = pd.Series(['a','b'])
s2

0    a
1    b
dtype: object

In [76]:
s1.str.cat(s2,sep='-')

0    cat-a
1    dog-b
dtype: object

#### 3.3. 匹配 str.contains
#### 3.4. 替换 str.replace
#### 3.5. 提取 str.extract/extracall/findall