# 文本数据

In [1]:
import numpy as np
import pandas as pd

## str对象

### str对象的设计意图
    【str 对象是定义在 Index 或 Series 上的属性】，专门用于处理每个元素的文本内容，其内部定义了大量方法，因此对一个序列进行文本处理，首先需要获取其 str 对象。

In [8]:
var = 'abcd'
s = pd.Series(['abcd', 'efg', 'hi'])
s.str

<pandas.core.strings.accessor.StringMethods at 0x1a486866c40>

### []索引器
    对于 str 对象而言，可理解为其对字符串进行了序列化的操作，例如在一般的字符串中，通过 [] 可以取出某个位置的元素
    通过对 str 对象使用 [] 索引器，可以完成完全一致的功能，并且如果超出范围则返回缺失值

In [10]:
s.str[1]

0    b
1    f
2    i
dtype: object

### string类型
    原来所有的字符串类型都会以 object 类型的 Series 进行存储，但 object 类型只应当存储混合类型，例如同时存储浮点、字符串、字典、列表、自定义类型等，因此字符串有必要同数值型或 category 一样，具有自己的数据存储类型，从而引入了 string 类型
    
    首先，应当尽量保证每一个序列中的值都是字符串的情况下才使用 str 属性，但这并不是必须的，其必要条件是序列中至少有一个可迭代（Iterable）对象，包括但不限于字符串、字典、列表。对于一个可迭代对象， string 类型的 str 对象和 object 类型的 str 对象返回结果可能是不同的。

In [11]:
s = pd.Series([{1: 'temp_1', 2: 'temp_2'}, ['a', 'b'], 0.5, 'my_string'])

s.str[1]

0    temp_1
1         b
2       NaN
3         y
dtype: object

In [12]:
s.astype('string').str[1]

0    1
1    '
2    .
3    y
dtype: string

## 正则表达式基础

### 一般字符的匹配
    正则表达式是一种按照某种正则模式，从左到右匹配字符串中内容的一种工具

### 元字符基础
![image.png](attachment:image.png)

### 简写字符集
![image.png](attachment:image.png)

## 文本处理的五类操作

### 拆分
    str.split能够把字符串的列进行拆分，具有3个参数：
    正则表达式：其中第一个参数为正则表达式，
    最大拆分次数n：可选参数包括从左到右的最大拆分次数n，
    expand：是否展开为多个列 expand

In [13]:
s = pd.Series(['上海市黄浦区方浜中路249号',
            '上海市宝山区密山路5号'])
s.str.split('[市区路]')

0    [上海, 黄浦, 方浜中, 249号]
1       [上海, 宝山, 密山, 5号]
dtype: object

In [14]:
s.str.split('[市区路]', n=2, expand=True)

Unnamed: 0,0,1,2
0,上海,黄浦,方浜中路249号
1,上海,宝山,密山路5号


### 合并
    关于合并一共有两个函数，分别是 str.join 和 str.cat 。 
    str.join 表示用某个连接符把 Series 中的字符串列表连接起来，如果列表中出现了非字符串元素则返回缺失值

In [15]:
s = pd.Series([['a','b'], [1, 'a'], [['a', 'b'], 'c']])

s.str.join('-')

0    a-b
1    NaN
2    NaN
dtype: object

    str.cat 用于合并两个序列，主要参数为连接符 sep 、连接形式 join 以及缺失值替代符号 na_rep ，其中连接形式默认为以索引为键的左连接

In [16]:
s1 = pd.Series(['a','b'])
s2 = pd.Series(['cat','dog'])
s1.str.cat(s2,sep='-')

0    a-cat
1    b-dog
dtype: object

### 匹配
    str.contains 返回了每个字符串是否包含正则模式的布尔序列

In [17]:
s = pd.Series(['my cat', 'he is fat', 'railway station'])
s.str.contains('\s\wat')

0     True
1     True
2    False
dtype: bool

    str.startswith 和 str.endswith 返回了每个字符串以给定模式为开始和结束的布尔序列，它们都不支持正则表达式

In [18]:
s.str.startswith('my')

0     True
1    False
2    False
dtype: bool

In [19]:
s.str.endswith('t')

0     True
1     True
2    False
dtype: bool

    返回索引的匹配函数，即 str.find 与 str.rfind，其分别返回从左到右和从右到左第一次匹配的位置的索引，未找到则返回-1

### 替换
    str.replace 和 replace 并不是一个函数，在使用字符串替换时应当使用前者
    
    当需要对不同部分进行有差别的替换时，可以利用 子组 的方法，并且此时可以通过传入自定义的替换函数来分别进行处理，注意 group(k) 代表匹配到的第 k 个子组（圆括号之间的内容）

In [20]:
s = pd.Series(['上海市黄浦区方浜中路249号',
               '上海市宝山区密山路5号',
               '北京市昌平区北农路2号'])

city = {'上海市': 'Shanghai', '北京市': 'Beijing'}

district = {'昌平区': 'CP District',
            '黄浦区': 'HP District',
            '宝山区': 'BS District'}

road = {'方浜中路': 'Mid Fangbin Road',
        '密山路': 'Mishan Road',
        '北农路': 'Beinong Road'}

# 对子组的命名
pat = '(?P<市名>\w+市)(?P<区名>\w+区)(?P<路名>\w+路)(?P<编号>\d+号)'

def my_func(m):
    str_city = city[m.group('市名')]
    str_district = district[m.group('区名')]
    str_road = road[m.group('路名')]
    str_no = 'No. ' + m.group('编号')[:-1]
    return ' '.join([str_city,
                    str_district,
                    str_road,
                    str_no])

s.str.replace(pat, my_func, regex=True)

0    Shanghai HP District Mid Fangbin Road No. 249
1           Shanghai BS District Mishan Road No. 5
2           Beijing CP District Beinong Road No. 2
dtype: object

### 提取
    提取既可以认为是一种返回具体元素（而不是布尔值或元素对应的索引位置）的匹配操作，也可以认为是一种特殊的拆分操作。

In [22]:
# 通过子组的命名，可以直接对新生成 DataFrame 的列命名
pat = '(?P<市名>\w+市)(?P<区名>\w+区)(?P<路名>\w+路)(?P<编号>\d+号)'

s.str.extract(pat)

Unnamed: 0,市名,区名,路名,编号
0,上海市,黄浦区,方浜中路,249号
1,上海市,宝山区,密山路,5号
2,北京市,昌平区,北农路,2号


    str.extractall 不同于 str.extract 只匹配一次，它会把所有符合条件的模式全部匹配出来，如果存在多个结果，则以多级索引的方式存储

In [23]:
s = pd.Series(['A135T15,A26S5','B674S2,B25T6'], index = ['my_A','my_B'])

pat_with_name = '[A|B](?P<name1>\d+)[T|S](?P<name2>\d+)'

s.str.extractall(pat_with_name)

Unnamed: 0_level_0,Unnamed: 1_level_0,name1,name2
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
my_A,0,135,15
my_A,1,26,5
my_B,0,674,2
my_B,1,25,6


    str.findall 的功能类似于 str.extractall ，区别在于前者把结果存入列表中，而后者处理为多级索引，每个行只对应一组匹配，而不是把所有匹配组合构成列表。

In [24]:
s.str.findall(pat)

my_A    []
my_B    []
dtype: object

## 常用字符串函数

### 字母型函数
    upper, lower, title, capitalize, swapcase 这五个函数主要用于字母的大小写转化

### 数值型函数
    pd.to_numeric 方法，它虽然不是 str 对象上的方法，但是能够对字符格式的数值进行快速转换和筛选。其主要参数包括
    errors：raise, coerce, ignore 分别表示直接报错、设为缺失以及保持原来的字符串

### 统计型函数
    count 和 len 的作用分别是返回出现正则模式的次数和字符串的长度

### 格式型函数
    格式型函数主要分为两类，第一种是除空型，第二种是填充型。其中，第一类函数一共有三种，它们分别是 strip, rstrip, lstrip ，分别代表去除两侧空格、右侧空格和左侧空格。

In [25]:
my_index = pd.Index([' col1', 'col2 ', ' col3 '])
my_index.str.strip().str.len()

Int64Index([4, 4, 4], dtype='int64')

In [26]:
my_index.str.rstrip().str.len()

Int64Index([5, 4, 5], dtype='int64')

In [27]:
my_index.str.lstrip().str.len()

Int64Index([4, 5, 5], dtype='int64')

    对于填充型函数而言， pad 是最灵活的，它可以选定字符串长度、填充的方向和填充内容

In [28]:
s = pd.Series(['a','b','c'])
s.str.pad(5,'left','*')

0    ****a
1    ****b
2    ****c
dtype: object

In [29]:
s.str.pad(5,'right','*')

0    a****
1    b****
2    c****
dtype: object

In [30]:
s.str.pad(5,'both','*')

0    **a**
1    **b**
2    **c**
dtype: object

    在读取 excel 文件时，经常会出现数字前补0的需求，例如证券代码读入的时候会把”000007”作为数值7来处理， pandas 中除了可以使用上面的左侧填充函数进行操作之外，还可用 zfill 来实现。

In [31]:
s = pd.Series([7, 155, 303000]).astype('string')

s.str.pad(6,'left','0')

0    000007
1    000155
2    303000
dtype: string

## 练习

### 房屋信息数据集

In [61]:
df = pd.read_excel('data/house_info.xls', usecols=['floor','year','area','price'])
df.head(3)

Unnamed: 0,floor,year,area,price
0,高层（共6层）,1986年建,58.23㎡,155万
1,中层（共20层）,2020年建,88㎡,155万
2,低层（共28层）,2010年建,89.33㎡,365万


In [62]:
# 将 year 列改为整数年份存储
df.year = pd.to_numeric(df.year.str[:-2]).astype('Int64')
df.head(3)

Unnamed: 0,floor,year,area,price
0,高层（共6层）,1986,58.23㎡,155万
1,中层（共20层）,2020,88㎡,155万
2,低层（共28层）,2010,89.33㎡,365万


In [63]:
# 将 floor 列替换为 Level, Highest 两列，其中的元素分别为 string 类型的层类别（高层、中层、低层）与整数类型的最高层数。
pat = '(?P<Level>\w层)（共(?P<Highest>\d+)层'
df = pd.concat([df.drop(columns=['floor']), df['floor'].str.extract(pat)], axis=1)
df.head()

Unnamed: 0,year,area,price,Level,Highest
0,1986,58.23㎡,155万,高层,6
1,2020,88㎡,155万,中层,20
2,2010,89.33㎡,365万,低层,28
3,2014,82㎡,308万,低层,20
4,2015,98㎡,117万,高层,1


In [81]:
# 计算房屋每平米的均价 avg_price ，以 ***元/平米 的格式存储到表中，其中 *** 为整数
df['avg_price'] = (df['price'].str[:-1].astype('float') * 10000 / df['area'].str[:-1].astype('float')).astype('int').astype('string') + '元/平米'
df.head()

Unnamed: 0,year,area,price,Level,Highest,avg_price
0,1986,58.23㎡,155万,高层,6,26618元/平米
1,2020,88㎡,155万,中层,20,17613元/平米
2,2010,89.33㎡,365万,低层,28,40859元/平米
3,2014,82㎡,308万,低层,20,37560元/平米
4,2015,98㎡,117万,高层,1,11938元/平米


### 《权力的游戏》剧本数据集

In [82]:
df = pd.read_csv('data/script.csv')
df.head(3)

Unnamed: 0,Release Date,Season,Episode,Episode Title,Name,Sentence
0,2011-04-17,Season 1,Episode 1,Winter is Coming,waymar royce,What do you expect? They're savages. One lot s...
1,2011-04-17,Season 1,Episode 1,Winter is Coming,will,I've never seen wildlings do a thing like this...
2,2011-04-17,Season 1,Episode 1,Winter is Coming,waymar royce,How close did you get?


In [84]:
df.columns = df.columns.str.strip()

In [85]:
# 计算每一个 Episode 的台词条数
df.groupby(['Season', 'Episode'])['Sentence'].count().head()

Season    Episode   
Season 1  Episode 1     327
          Episode 10    266
          Episode 2     283
          Episode 3     353
          Episode 4     404
Name: Sentence, dtype: int64

In [97]:
# 以空格为单词的分割符号，请求出单句台词平均单词量最多的前五个人
pd.concat([df.Name,df.Sentence.str.split().str.len()],axis=1).groupby('Name').mean().sort_values(by= 'Sentence',ascending=False).head()

Unnamed: 0_level_0,Sentence
Name,Unnamed: 1_level_1
male singer,109.0
slave owner,77.0
manderly,62.0
lollys stokeworth,62.0
dothraki matron,56.666667


In [98]:
# 若某人的台词中含有问号，那么下一个说台词的人即为回答者。若上一人台词中含有  个问号，则认为回答者回答了  个问题，请求出回答最多问题的前五个人。
s = pd.Series(df.Sentence.values, index=df.Name.shift(-1))
s.str.count('\?').groupby('Name').sum().sort_values(ascending=False).head()

Name
tyrion lannister    527
jon snow            374
jaime lannister     283
arya stark          265
cersei lannister    246
dtype: int64