# 字符串基本知识与操作

这里将介绍日常工作中最常用的基本知识和操作，关键是要了解字符串的抽象模型，这样即使换了一个编程语言，你也能很快上手。

【熟悉业务场景，是程序员能快速上手一门新语言的关键原因】

## 子串的概念

“我们都有光明的未来”，这样一条句子就是一个字符串，其中的一个**连续子集**就是一个子串。

这些都算是子串:
* “我”
* “我们”
* “光明的未来”

这样不算是原文的子串：”我都有“ （非连续子集）


## 获取子串

取子串是最常用的字符串操作之一，目的在于获取指定的部分文本。




在Python中，可以直接对字符串进行切片操作，按下标直接切出子串，这是最简单的子串获取方式，在固定长度和格式的文本中很适合使用。但缺点也很明显，需要数下标，无法应用于不固定长度和格式的原文。如果原文不固定长度和格式，需要通过后面介绍的正则表达式匹配的方式来。

但通过下标切片取子串仍然是基础且重要的方法，其他的方式也需要先搜索出子串的下标然后再切片取子串。

In [32]:
s = "我们都有光明的未来"


# 数着字数，下标从0开始，“光”字在第五个，下标是4, [4:]表示从下标为4的位置，取完后面所有的字符
sub_str = s[4:]
print(sub_str)

# 还可以用index方法获取到子串的首字下标
print(s.index("光明"))

光明的未来
4


In [29]:
# 还可以只取一个字，这也是子串
s[0]

4

## 匹配子串

判断某个词、短语是否能匹配到原文

原句：科沃斯扫地机器人

判断这段字符串是否包含某个品牌的信息





In [49]:
s = "科沃斯扫地机器人"

# 这段字符串不包含品牌名“小米”
"小米" in s

False

## 替换子串

将字符串中的某个词换成另一个

原句：科沃斯扫地机器人

把“科沃斯”换成“小米”

In [11]:
s = "科沃斯扫地机器人"

s1 = s.replace("科沃斯","小米")
s1

'小米扫地机器人'

## 拼接 & 变量替换

将多段字符串串联在一起

将下面三条语句串联起来：

* 智能投影仪已经可以取代电视显示屏了
* 可以语音输入
* 老人小孩都能轻松使用


In [12]:
s1 = "智能投影仪已经可以取代电视显示屏了"
s2 = "可以语音输入"
s3 = "老人小孩都能轻松使用"


In [13]:
# 通过+进行拼接
s = s1 + "," + s2 + "," + s3
print(s)

智能投影仪已经可以取代电视显示屏了,可以语音输入,老人小孩都能轻松使用


In [14]:
# 通过变量替换进行拼接，在字符串前端加个f，即可在字符串中使用Python变量进行替换，用{}框起来表示为变量

s = f"{s1},{s2},{s3}"
s

'智能投影仪已经可以取代电视显示屏了,可以语音输入,老人小孩都能轻松使用'

## 联结与分割

联结（Join）：将若干字符串通过指定的符号串联起来

分割：联结的逆操作，将一段字符串按指定符号进行切割

In [17]:
# 仍以上面拼接中的三个字符串为例子，换用空格进行联结
join_str = " ".join([s1,s2,s3])
print(join_str)

智能投影仪已经可以取代电视显示屏了 可以语音输入 老人小孩都能轻松使用


In [19]:
# 将联结完的字符串再分割，返回一个list
join_str.split(" ")

['智能投影仪已经可以取代电视显示屏了', '可以语音输入', '老人小孩都能轻松使用']

## 端点处理

去掉字符串两端的指定字符，常用于去处首尾的多余空白字符（空格、换行符等）


In [20]:
# strip会去掉首尾两端的空白字符
s1 = "   左边有空格，右边也有空格    "
s1.strip()

'左边有空格，右边也有空格'

In [22]:
s1 = "aaaabc左边a，右边baccbbbb"
# 可以指定要去除的端点字符
s1.strip('a')

'bc左边a，右边baccbbbb'

In [26]:
s1 = "aaaabc左边a，右边aaccaaaa"
# 还可以用lstrip,rstrip针对性地只处理一边
ls1 = s1.lstrip('a')
rs1 = s1.rstrip('a')
print(f"原字符串：{s1}")
print(f"左处理后：{ls1}")
print(f"右处理后：{rs1}")


原字符串：aaaabc左边a，右边aaccaaaa
左处理后：bc左边a，右边aaccaaaa
右处理后：aaaabc左边a，右边aacc


# 正则表达式

在字符串的基本操作中有这么几项：获取子串、匹配子串、替换子串，这些操作无一例外都需要对子串进行查找。切片操作需要知道子串的首字下标，匹配子串需要查找原文中是否有这个子串，替换子串则是先找到原文中的对应子串，才能进行替换。但这种查找方式的泛用性不佳，无法处理查找一类特定格式的字符串，举例说明，形如yyyy-mm-dd的日期，形如xxxx@gmail.com的邮箱地址，或者以http开头的网页链接。

正则表达式正是为此而生的，通过编写合适的pattern，我们将能匹配上面所列举的日期、邮箱地址和网页链接，甚至更复杂的内容。



## re模块（正则匹配处理文字）

Python内建的re模块提供了用正则表达式进行文字处理的能力


In [34]:
import re

### 匹配与获取子串

如何判断一个字符串中是否包含符合特定模式的内容，并进一步提取出来？

可以使用search函数


In [87]:
# 搜索字符串中是否存在形如yyyy-MM-dd

# 这个pattern会匹配所有形如 xxxx-xx-xx的字符串，其中x为0-9之一
pattern = "\d{4}-\d{2}-\d{2}"

s_list = [
    "今天的日期是2020-08-15",
    "今天的日期5是20200815"
]

for s in s_list:
    m = re.search(pattern,s)
    
    # 如果能匹配到pattern，返回一个Match对象，否则返回None
    if m:
        # group()可以返回匹配的子串，span()返回子串所在的位置（首、尾字的下标）
        match_str = m.group()
        span = m.span()
        print(f"字符串 \"{s}\" 匹配到了子串{match_str},位置{span}")
        print(f"通过span取得子串：{s[span[0]:span[1]]}")
    else:
        print(f"字符串 \"{s}\" 不匹配pettern，结果：{m}")


字符串 "今天的日期是2020-08-15" 匹配到了子串2020-08-15,位置(6, 16)
通过span取得子串：2020-08-15
字符串 "今天的日期5是20200815" 不匹配pettern，结果：None


### 获取分组子串
可以在pattern中对一部分内容用()框起来，进行分组，从而单独提取这一部分

比如对于pattern (\d{4})-(\d{2})-(\d{2})，可以分别提取年、月、日



In [89]:
p = "(\d{4})-(\d{2})-(\d{2})"

s = "今天的日期是2020-08-15"

m = re.search(p,s)
if m:
    # 使用group函数来获取，0为全文，1,2,3分别对应从左到右每个()框起来的部分
    substr = m.group(0)
    year = m.group(1)
    month = m.group(2)
    day = m.group(3)
    print(f"全子串：{substr}，年:{year}，月：{month}，日：{day}")

全子串：2020-08-15，年:2020，月：08，日：15


### 获取多个匹配子串

当一个字符串里有多个子串匹配到pattern是，可以将他们全部取出来。
如果用search方法，则只会匹配到第一个子串。这里可以使用findall方法，也可以用finditer，两者的差别是，前者返回一个list,元素是匹配的完整子串，后者返回一个迭代器，元素是Match对象，当预计会匹配到的子串数量较多时，如果需要使用Match对象进行深度处理时，更适合使用finditer

In [102]:
s = "2018-02-16是春节,2019-02-05是春节,2020-01-25是春节"
pattern = "\d{4}-\d{2}-\d{2}是春节"

# 返回的是匹配出的子串列表
substr_list = re.findall(pattern,s)
print(substr_list)

substr_iter = re.finditer(pattern,s)
for m in substr_iter:
    print(m)

['2018-02-16是春节', '2019-02-05是春节', '2020-01-25是春节']
<re.Match object; span=(0, 13), match='2018-02-16是春节'>
<re.Match object; span=(14, 27), match='2019-02-05是春节'>
<re.Match object; span=(28, 41), match='2020-01-25是春节'>


### 替换子串

将匹配到pattern的子串替换成自己指定的内容


In [99]:
s = s_list[0]
print(f"原文：\"{s}\"")


replace_substr = "替换内容"
replaced_str = re.sub(pattern,replace_substr,s)
print(f"替换后的文本（by固定内容）：\"{replaced_str}\"")

# 如果希望在子串上做修改，也就是让被替换的内容保留原子串的一些信息，可以使用函数代替固定的替换内容
# 函数的传入参数为Match对象
# 下面的方法展示了如何去掉原文日期里的横线
def replace_f(match_object):
    match_str = match_object.group(0)
    return match_str.replace("-","")
replaced_str2 = re.sub(pattern,replace_f,s)
print(f"替换后的文本（by函数）：\"{replaced_str2}\"")



原文："今天的日期是2020-08-15"
替换后的文本（by固定内容）："今天的日期是2020-08-15"
替换后的文本（by函数）："今天的日期是2020-08-15"


### 起始位置匹配

前面提到的方法，是从整个文本中搜索匹配的子串的，也就是说匹配到的子串，它的首字下标可以不是0。

但如果你希望从第一个字开始匹配，甚至要求整个文本符合你要求的模式，就需要用另外的方法。

比如仍然使用pattern \d{4}-\d{2}-\d{2}

* 文本1: 今天的日期是2020-08-15
* 文本2: 2020-08-15

在做子串匹配的时候，1、2都可以匹配上。但做起始位置匹配的时候，只有2才能匹配上，也就是要求符合pattern的子串的首字下标为0


In [83]:
pattern = "\d{4}-\d{2}-\d{2}"

# pattern2，在末尾加了个$,这是要求匹配到的子串必须是一行的结束（后面没有内容或者只有一个换行符\n）
# 加上match本身要求从起始位置匹配，就实现了对全文的pattern匹配
pattern2 = "\d{4}-\d{2}-\d{2}$"
s_list = [
    "今天的日期是2020-08-15",
    "2020-08-15 是今天的日期",
    "2020-08-15\n\n",
    "2020-08-15\n",
    "2020-08-15"
]

i = 0
for s in s_list:
    i = i+1
    m1 = re.match(pattern,s)
    m2 = re.match(pattern2,s)
    # 如果能匹配到pattern，返回一个Match对象，否则返回None
    print("===================================")
    print(f"文本{i}: \"{s}\"")
    if m1:
        # group()可以返回匹配的子串，span()返回子串所在的位置（首、尾字的下标）
        match_str = m1.group()
        span = m1.span()
        print(f"匹配pattern1:{match_str},位置{span}")
    else:
        print(f"不匹配pattern1")
    if m2:
        # group()可以返回匹配的子串，span()返回子串所在的位置（首、尾字的下标）
        match_str = m2.group()
        span = m2.span()
        print(f"匹配pattern2:{match_str},位置{span}")
    else:
        print(f"不匹配pattern2")
    

文本1: "今天的日期是2020-08-15"
不匹配pattern1
不匹配pattern2
文本2: "2020-08-15 是今天的日期"
匹配pattern1:2020-08-15,位置(0, 10)
不匹配pattern2
文本3: "2020-08-15

"
匹配pattern1:2020-08-15,位置(0, 10)
不匹配pattern2
文本4: "2020-08-15
"
匹配pattern1:2020-08-15,位置(0, 10)
匹配pattern2:2020-08-15,位置(0, 10)
文本5: "2020-08-15"
匹配pattern1:2020-08-15,位置(0, 10)
匹配pattern2:2020-08-15,位置(0, 10)


## 怎么写pattern


There is [a popular quote by Jamie Zawinski](http://regex.info/blog/2006-09-15/247):

>Some people, when confronted with a problem, think "I know, I'll use regular expressions." Now they have two problems.

当你要用正则来解决一个问题的时候，你就有了两个问题（第二个问题是正则怎么写）

正则有着非常强的表达力和自由度，但也带来问题，就是你写出来的pattern可能不仅仅能匹配到你需要的子串，也可能匹配到你不需要的。要编写一个恰到好处的正则，非常需要时间和经验的积累，还需要根据实际的业务状况进行调整（比如邮箱后缀发生改变）。某些业务的中的正则表达式，甚至可能是多个程序员历经数十年沉淀下来的，堪称是“祖传的正则表达式”

本次课程限于时间原因，仅仅是讲一个入门，让大家在学习之后能够写出一些常用的正则，满足简单的工作需求。

当你不确定自己的pattern能否顺利匹配时，可以看看这个网站 https://regex101.com/ ，能够有效地帮助调试


想要完整地学习正则表达式，解决复杂的需求，还请购买下面这本书进行学习
![正则表达式必知必会](https://img3.doubanio.com/view/subject/s/public/s27967650.jpg)




下面就让我们循序渐进来学习如何pattern

### 定长匹配


指的是pattern表示的字符长度和子串的长度相同，只要子串每一个位置上的字符能和pattern的字符匹配，这个子串就和pattern匹配了。

我们将通过这种方式来学习pattern中对应单字符的表达式




#### 固定字符

让我们从最简单的情况开始：固定字符，这和 xx in xxxx 是一样的


In [133]:
s = "Hello, my name is Ben. Please visit my website at http://www.forta.com/."

# pattern是Ben
p = "Ben"

re.search(p,s)

<re.Match object; span=(18, 21), match='Ben'>

#### 通配符
更进一步，我们可以把中间的e换成通配符，也就是可以匹配任意字符的符号，通配符在正则表达式中用`.`来表示

In [110]:
s_list = [
    "Hello, my name is Ban.",
    "Hello, my name is Bbn.",
    "Hello, my name is Ben.",
    "Hello, my name is Aen."

]

p = "B.n"

for s in s_list:
    m = re.search(p,s)
    if m:
        print(f"文本 {s} 匹配，子串为{m.group(0)}")
    else:
        print(f"文本 {s} 不匹配")


文本 Hello, my name is Ban. 匹配，子串为Ban
文本 Hello, my name is Bbn. 匹配，子串为Bbn
文本 Hello, my name is Ben. 匹配，子串为Ben
文本 Hello, my name is Aen. 不匹配


#### 转义字符
那么，我们要匹配`.`时该怎么办？这就需要用到转义字符`\`，用`\.`就可以在正则表达式中指代`.`

In [132]:
s_list = [
    "Hello, my name is Ban.",
    "Hello, my name is Bbn.",
    "Hello, my name is Ben.",
    "Hello, my name is Aen."

]

p1 = "B.n\."

for s in s_list:
    m1 = re.search(p1,s)
    print(f"====== 文本 {s} ======")
    if m1:
        print(f"匹配pattern1，子串为{m1.group(0)}")
    else:
        print(f"不匹配patter1")


匹配pattern1，子串为Ban.
匹配pattern1，子串为Bbn.
匹配pattern1，子串为Ben.
不匹配patter1


#### 集合
前面提到了通配符，但通配符的适用面太广了，我们只想匹配某个集合里面的字符,就可以用`[ ]`框起来


In [134]:
s_list = [
    "Hello, my name is Ban.",
    "Hello, my name is Bbn.",
    "Hello, my name is Ben.",
    "Hello, my name is Aen."

]

# 只匹配Ban和Bbn
p = "B[ab]n"

for s in s_list:
    m = re.search(p,s)
    if m:
        print(f"文本 {s} 匹配，子串为{m.group(0)}")
    else:
        print(f"文本 {s} 不匹配")


文本 Hello, my name is Ban. 匹配，子串为Ban
文本 Hello, my name is Bbn. 匹配，子串为Bbn
文本 Hello, my name is Ben. 不匹配
文本 Hello, my name is Aen. 不匹配


[]的内容里可以简写成一个字符区间

* [0-9] 等同于[0123456789]
* [a-f] 等同于[abcdef]
* [a-z] 等同于全部小写字母
* [A-Z] 等同于全部大写字母

还可以取多个区间，比如[0-9a-f]，表示取[0-9]和[a-f]的并集


In [154]:
s_list = [
    "Hello, my name is Bbn3.",
    "Hello, my name is Abn5.",
    "Hello, my name is Bfnf.",
    "Hello, my name is Agne.",
    "Hello, my name is A9n6."

]

p = "[AB][0-9a-f]n[0-9]"

for s in s_list:
    m = re.search(p,s)
    if m:
        print(f"文本 {s} 匹配，子串为{m.group(0)}")
    else:
        print(f"文本 {s} 不匹配")


文本 Hello, my name is Bbn3. 匹配，子串为Bbn3
文本 Hello, my name is Abn5. 匹配，子串为Abn5
文本 Hello, my name is Bfnf. 不匹配
文本 Hello, my name is Agne. 不匹配
文本 Hello, my name is A9n6. 匹配，子串为A9n6


在[]的前面添加一个^，则是取这个集合的补集


In [141]:
s_list = [
    "Hello, my name is Bbn3.",
    "Hello, my name is Abn5.",
    "Hello, my name is Bfnf.",
    "Hello, my name is Agne.",
    "Hello, my name is A9n6."

]

p = "[AB][^a-f-0-9]n[^0-9]"

for s in s_list:
    m = re.search(p,s)
    if m:
        print(f"文本 {s} 匹配，子串为{m.group(0)}")
    else:
        print(f"文本 {s} 不匹配")


文本 Hello, my name is Bbn3. 不匹配
文本 Hello, my name is Abn5. 不匹配
文本 Hello, my name is Bfnf. 不匹配
文本 Hello, my name is Agne. 匹配，子串为Agne
文本 Hello, my name is A9n6. 不匹配


#### 元字符

元字符就是在正则表达式中有着特殊含义的字符，比如`.` 以及`[`等等。
这里主要谈谈能在正则表达式中用于字符匹配的元字符，以下都是常用的元字符

* `\s`表示全部空白字符，等同于[\f\n\r\t\v]
* `\d`表示全部数字（0-9）等同于[0-9]，`\D`表示非数字，等同于[^0-9]
* `\w`表示全部字母+数字+下划线（0-9）等同[a-zA-Z0-9_]，`\W`表示取其补集，等同于[^a-zA-Z0-9_]



In [157]:
re.search("\d\d-\d","2020-04-01")

<re.Match object; span=(2, 6), match='20-0'>

### 不定长匹配

正则表达式可以指定每个字符的匹配次数，这就变成了不定长匹配

#### 匹配至少0次、至少1次或至多1次

In [161]:
# 匹配至少0次

s_list = [
    "aaaca",
    "aaabca",
    "aaabbca"
]
p = "ab*c"
for s in s_list:
    print(re.search(p,s))



<re.Match object; span=(2, 4), match='ac'>
<re.Match object; span=(2, 5), match='abc'>
<re.Match object; span=(2, 6), match='abbc'>


In [162]:
# 匹配至少1次

p = "ab+c"
for s in s_list:
    print(re.search(p,s))


None
<re.Match object; span=(2, 5), match='abc'>
<re.Match object; span=(2, 6), match='abbc'>


In [164]:
# 匹配至多1次
p = "ab?c"
for s in s_list:
    print(re.search(p,s))


<re.Match object; span=(2, 4), match='ac'>
<re.Match object; span=(2, 5), match='abc'>
None


#### 指定最少，最多匹配几次

使用{n,m}来代替*,+,?，其中n是最小匹配次数，m是最大匹配次数，m也可以不写，就是不限最大次数

In [166]:
s_list = [
    "aaaca",
    "aaabca",
    "aaabbca",
    "aaabbbca",
    "aaabbbbca",
    "aaabbbbbca"
]

p1 = "ab{1,2}c"
p2 = "ab{3,}c"

for s in s_list:
    print(f"======= 文本：{s} =======")
    print(re.search(p1,s))
    print(re.search(p2,s))


None
None
<re.Match object; span=(2, 5), match='abc'>
None
<re.Match object; span=(2, 6), match='abbc'>
None
None
<re.Match object; span=(2, 7), match='abbbc'>
None
<re.Match object; span=(2, 8), match='abbbbc'>
None
<re.Match object; span=(2, 9), match='abbbbbc'>


### 子表达式

在表达式中用`()`框起来的就是子表达式。它提供了更多组的匹配子串。相当于从匹配的子串里再取一个子串。
前面提到如何提取日期中的年、月、日，就是一个典型的例子


In [168]:
s_list = [
    "aaaca",
    "aaabca",
    "aaabbca",
    "aaabbbca",
    "aaabbbbca",
    "aaabbbbbca"
]

# 把匹配到b的部分抽取出来
p = "a(b*)c"

for s in s_list:
    print(f"======= 文本：{s} =======")
    m = re.search(p,s)
    if m:
        print(m.group(1))
    else:
        print(None)



b
bb
bbb
bbbb
bbbbb


# NLP入门

NLP就是自然语言处理（Natural Language Processing）的简称，主要研究怎么从文本中挖掘有用的信息，这里为大家讲解一些最为简单的NLP分析方法。让大家能从文本中挖掘信息。

本次课程时间有限，不会讲算法的原理，主要是展示这些方法在实际商业分析中的应用




### 切词

切词是许多NLP方法的基础前置步骤，其本身也能提供一定的分析内容。
在实际的商业分析中，常常会将切词结果展开然后依词进行聚合，找出那些出现次数最多的词，常用于制作词云。

In [172]:
import jieba

s = "元芳你怎么看"

words = jieba.lcut(s)
print(words)

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/cq/9vrwjs_5107bb96_52km_7ch0000gn/T/jieba.cache
Loading model cost 1.011 seconds.
Prefix dict has been built successfully.


['元芳', '你', '怎么', '看']


### 词性标注

**词性标注和下面的命名实体识别都是需要模型文件，请从[官方的云盘](http://ltp.ai/download.html)上下载，选择和你安装的ltp版本相同的 ，然后将模型文件导入本文件目录下的ltp_model**

在切词的基础上更进一步，识别词性，将词进行分类，比如分为形容词，动词等，便于进行更有效的分析。
常见于分析电商评论，单独取出形容词的部分，可以更有效地分析消费者对商品的描述

In [None]:
import os
LTP_DATA_DIR = 'ltp_model'  # ltp模型目录的路径
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 词性标注模型路径，模型名称为`pos.model`

from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']  # 分词结果
postags = postagger.postag(words)  # 词性标注

print('\t'.join(postags))
postagger.release()  # 释放模型


### 命名实体识别

从文本中找出人名、地名等信息，方便进行后续分析


In [None]:
import os
LTP_DATA_DIR = 'ltp_model'  # ltp模型目录的路径
ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 命名实体识别模型路径，模型名称为`pos.model`

from pyltp import NamedEntityRecognizer
recognizer = NamedEntityRecognizer() # 初始化实例
recognizer.load(ner_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
netags = recognizer.recognize(words, postags)  # 命名实体识别

print('\t'.join(netags))
recognizer.release()  # 释放模型


# 分析实战 - 电商平台商品标题信息提取
以上都是基础知识，下面我们来讲解如何在实际的数据分析中进行文字处理并进行分析

我们将要取一些电商平台商品标题来进行分析，通过正则提取重量，切词分析热点词等等

In [198]:
import pandas
df = pd.read_csv("input/product_title.csv")


## 提取重量，数量（正则）

* 含有g等重量单位，提取重量
* 含有袋等数量单位，提取数量

In [200]:
# 在写正则之前，先看一下数据的情况，确定大致的pattern
for t in df.head(20)['title'].tolist():
    print(t)


有身份的羊内蒙古羊肉锡盟羊肉新鲜烧烤冷冻生羊肉块火锅速食250g
新鲜内蒙糕羊肉卷500g羊肉片内蒙羔羊肉涮羊肉火锅重庆火锅食材
淘乡甜呼伦贝尔手切羊肉片400g*2袋内蒙羊肉卷火锅食材羔羊卷新鲜
金木兰内蒙羊肉新鲜冷冻羊杂碎羊肚羊肠羊下水下货一套5斤羊杂汤
额尔敦 羊小腿4斤内蒙古生羊肉新鲜烧烤食材烤羊腿生鲜羊腿羊腱子
阿牧特冷鲜羊排整扇3斤 内蒙古新鲜带骨羊排烧烤食材生羊排骨羊肉
羊羯子3斤宁夏清真滩羊肉新鲜羊排脊骨羊腿生新鲜火锅非内蒙甘肃
【专区199-100】大希地新鲜羊肉卷火锅食材羊肉片冷冻肥羊卷200g
牧源祥内蒙古法式羊排500g 原味七骨羊扒 烧烤 满128顺丰包邮
全直鲜 蒙羊羊排块400g
首粮羊肉礼盒4种生鲜羊肉2000g礼盒装羊蝎子礼品团购顺丰配送
宁夏肉新鲜羊肉串500*3袋 清真半成品烧烤食材烤串包邮
羊肉羊腿净肉1000g羊肉新鲜现杀新鲜羊肉羊腿新鲜内蒙羊肉
游牧御品内蒙古羊蝎子新鲜冷冻羊脊骨火锅 含火锅料包原味800g
贝尔西旗 内蒙古呼伦贝尔羔羊高钙肉片 200g*3盒 生鲜火锅食材
【唐人基】羊肉卷200g*4盒 新鲜羊肉片 火锅食材 涮羔羊肉小肥羊
小尾羊 内蒙全羊整只20斤生羊肉新鲜烤全羊白条羊排羊腿年货礼盒
【伊顺祥】法式羊腱子500g 羊后腿 小腿生羊腿肉生羊肉羊腱子
农家散养正宗黑山羊肉新鲜带皮生羊前腿带排羊后腿羊排5斤包邮
新西兰羔羊排600g羔羊肉生鲜羊肋排小排烧烤炖肉食材批发


In [201]:
# 提取数量
def parse_num(title):
    pat_num = "(\d+)[袋套盒包]"
    m = re.search(pat_num,title) 
    num = 1
    if m:
        num = int(m.group(1))
    return num

# 提取重量
def parse_weight(title):
    pat_num = "((\d+\.)?(\d+))(g|kg|斤|公斤)"
    m = re.search(pat_num,title) 
    weight = None
    if m:
        weight = float(m.group(1))
        unit = m.group(4)
        if unit in ('kg','公斤'):
            weight = weight*1000
        elif unit == '斤':
            weight = weight*500
    return weight

# 重量单位统一为克
df['per_weight'] = df['title'].apply(parse_weight)
df['num'] = df['title'].apply(parse_num)
df['total_weight'] = df['per_weight'] * df['num']
df

Unnamed: 0,title,per_weight,num,total_weight
0,有身份的羊内蒙古羊肉锡盟羊肉新鲜烧烤冷冻生羊肉块火锅速食250g,250.0,1,250.0
1,新鲜内蒙糕羊肉卷500g羊肉片内蒙羔羊肉涮羊肉火锅重庆火锅食材,500.0,1,500.0
2,淘乡甜呼伦贝尔手切羊肉片400g*2袋内蒙羊肉卷火锅食材羔羊卷新鲜,400.0,2,800.0
3,金木兰内蒙羊肉新鲜冷冻羊杂碎羊肚羊肠羊下水下货一套5斤羊杂汤,2500.0,1,2500.0
4,额尔敦 羊小腿4斤内蒙古生羊肉新鲜烧烤食材烤羊腿生鲜羊腿羊腱子,2000.0,1,2000.0
...,...,...,...,...
995,福羊天赐_羔羊前腿10斤内蒙古锡林郭勒散养羊肉新鲜烧烤生羊肉,5000.0,1,5000.0
996,亿家合澳洲进口羔羊排骨羊小肋排10斤烧烤羊排羊肉新鲜包邮5000g,5000.0,1,5000.0
997,清真回族食品现宰现卖新鲜羊蹄肉多筋多生鲜蹄肉羊脚羊角3斤包邮,1500.0,1,1500.0
998,内蒙古羊肉卷涮羊肉片内羊肉卷盒装羊肉卷成型袋新鲜冷冻火锅食材,,1,


## 热词分析（NLP）



In [204]:
# 需要对标题进行清洗后再切词，否则大量无用词占据核心分析内容
df['word'] = df['title'].apply(lambda t:jieba.lcut(t))
df.explode("word").groupby("word").count()

Unnamed: 0_level_0,title,per_weight,num,total_weight
word,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,1068,1020,1068,1020
(,4,4,4,4
),4,4,4,4
*,58,56,58,56
+,2,2,2,2
...,...,...,...,...
（,14,14,14,14
）,15,15,15,15
＊,1,1,1,1
，,4,2,4,2


In [213]:
def __clean_text(text, remove_emoji=False):
    '''
        清洗文本内容
    '''
    # 替换变异空格
    
    text = re.sub(r"\s", "", text)
    text = text.replace('\n', '')
    text = text.replace('\\n', '')
    # 去除标点符号
    text = re.sub(r"[\s+\.\!\/_,$%^*)(+\"\'=+、><——！，\-´\[\]“”()『』；;〔〕——〈〉【】╮╯▽╰╭★→「」《》。？?>、~～：:@#￥%……&*（）]+", "", text)
    text = re.sub(r"\\", "", text)
    text = re.sub(r"\[", "", text)
    text = re.sub(r"\]", "", text)
    text = re.sub(r"\.*", "", text)
    # 去除\u200b
    text = re.sub(u"\u200b", "", text)
    return text

df['clean_title'] = df['title'].apply(__clean_text)
df['clean_word'] = df['clean_title'].apply(lambda t:jieba.lcut(t))
df

Unnamed: 0,title,per_weight,num,total_weight,word,clean_title,clean_word
0,有身份的羊内蒙古羊肉锡盟羊肉新鲜烧烤冷冻生羊肉块火锅速食250g,250.0,1,250.0,"[有, 身份, 的, 羊, 内蒙古, 羊肉, 锡盟, 羊肉, 新鲜, 烧烤, 冷冻, 生, ...",有身份的羊内蒙古羊肉锡盟羊肉新鲜烧烤冷冻生羊肉块火锅速食250g,"[有, 身份, 的, 羊, 内蒙古, 羊肉, 锡盟, 羊肉, 新鲜, 烧烤, 冷冻, 生, ..."
1,新鲜内蒙糕羊肉卷500g羊肉片内蒙羔羊肉涮羊肉火锅重庆火锅食材,500.0,1,500.0,"[新鲜, 内蒙, 糕, 羊肉, 卷, 500g, 羊肉片, 内蒙, 羔羊, 肉, 涮羊肉, ...",新鲜内蒙糕羊肉卷500g羊肉片内蒙羔羊肉涮羊肉火锅重庆火锅食材,"[新鲜, 内蒙, 糕, 羊肉, 卷, 500g, 羊肉片, 内蒙, 羔羊, 肉, 涮羊肉, ..."
2,淘乡甜呼伦贝尔手切羊肉片400g*2袋内蒙羊肉卷火锅食材羔羊卷新鲜,400.0,2,800.0,"[淘乡, 甜, 呼伦贝尔, 手切, 羊肉片, 400g2, 袋, 内蒙, 羊肉, 卷, 火锅...",淘乡甜呼伦贝尔手切羊肉片400g2袋内蒙羊肉卷火锅食材羔羊卷新鲜,"[淘乡, 甜, 呼伦贝尔, 手切, 羊肉片, 400g2, 袋, 内蒙, 羊肉, 卷, 火锅..."
3,金木兰内蒙羊肉新鲜冷冻羊杂碎羊肚羊肠羊下水下货一套5斤羊杂汤,2500.0,1,2500.0,"[金, 木兰, 内蒙, 羊肉, 新鲜, 冷冻, 羊杂碎, 羊肚, 羊肠, 羊下, 水下, 货...",金木兰内蒙羊肉新鲜冷冻羊杂碎羊肚羊肠羊下水下货一套5斤羊杂汤,"[金, 木兰, 内蒙, 羊肉, 新鲜, 冷冻, 羊杂碎, 羊肚, 羊肠, 羊下, 水下, 货..."
4,额尔敦 羊小腿4斤内蒙古生羊肉新鲜烧烤食材烤羊腿生鲜羊腿羊腱子,2000.0,1,2000.0,"[额尔敦, 羊, 小腿, 4, 斤, 内蒙古, 生, 羊肉, 新鲜, 烧烤, 食材, 烤羊,...",额尔敦羊小腿4斤内蒙古生羊肉新鲜烧烤食材烤羊腿生鲜羊腿羊腱子,"[额尔敦, 羊, 小腿, 4, 斤, 内蒙古, 生, 羊肉, 新鲜, 烧烤, 食材, 烤羊,..."
...,...,...,...,...,...,...,...
995,福羊天赐_羔羊前腿10斤内蒙古锡林郭勒散养羊肉新鲜烧烤生羊肉,5000.0,1,5000.0,"[福羊, 天赐, 羔羊, 前腿, 10, 斤, 内蒙古, 锡林郭勒, 散养, 羊肉, 新鲜,...",福羊天赐羔羊前腿10斤内蒙古锡林郭勒散养羊肉新鲜烧烤生羊肉,"[福羊, 天赐, 羔羊, 前腿, 10, 斤, 内蒙古, 锡林郭勒, 散养, 羊肉, 新鲜,..."
996,亿家合澳洲进口羔羊排骨羊小肋排10斤烧烤羊排羊肉新鲜包邮5000g,5000.0,1,5000.0,"[亿家合, 澳洲, 进口, 羔羊, 排骨, 羊小, 肋排, 10, 斤, 烧烤, 羊排, 羊...",亿家合澳洲进口羔羊排骨羊小肋排10斤烧烤羊排羊肉新鲜包邮5000g,"[亿家合, 澳洲, 进口, 羔羊, 排骨, 羊小, 肋排, 10, 斤, 烧烤, 羊排, 羊..."
997,清真回族食品现宰现卖新鲜羊蹄肉多筋多生鲜蹄肉羊脚羊角3斤包邮,1500.0,1,1500.0,"[清真, 回族, 食品, 现宰, 现卖, 新鲜, 羊蹄, 肉多筋, 多, 生鲜, 蹄, 肉羊...",清真回族食品现宰现卖新鲜羊蹄肉多筋多生鲜蹄肉羊脚羊角3斤包邮,"[清真, 回族, 食品, 现宰, 现卖, 新鲜, 羊蹄, 肉多筋, 多, 生鲜, 蹄, 肉羊..."
998,内蒙古羊肉卷涮羊肉片内羊肉卷盒装羊肉卷成型袋新鲜冷冻火锅食材,,1,,"[内蒙古, 羊肉, 卷, 涮羊肉, 片内, 羊肉, 卷, 盒装, 羊肉, 卷, 成型, 袋,...",内蒙古羊肉卷涮羊肉片内羊肉卷盒装羊肉卷成型袋新鲜冷冻火锅食材,"[内蒙古, 羊肉, 卷, 涮羊肉, 片内, 羊肉, 卷, 盒装, 羊肉, 卷, 成型, 袋,..."


In [216]:
hot_words = df.explode("clean_word").groupby("clean_word")['title'].count().sort_values(ascending=False).reset_index()
hot_words


Unnamed: 0,clean_word,title
0,羊肉,813
1,新鲜,727
2,羔羊,430
3,羊,388
4,斤,376
...,...,...
1787,极板,1
1788,果,1
1789,根原切,1
1790,桃李,1
