### 一、NLP的基本流程
NLP可以使用传统的机器学习方法来处理，也可以使用深度学习的方法来处理，过程类似。    
- 方式1：传统机器学习的NLP流程    
语料获取--》1.语料预处理--》分词、去停用词--》特征工程--》机器学习建模

- 方式2：深度学习的NLP流程    
语料获取--》1.语料预处理--》分词、去停用词--》3.文本向量化--》深度学习建模


### 二、语料字符处理
#### 1、字符串处理
字符串是Python中最常用的数据类型，可以使用引号来创建字符串。    
- 常见的字符串处理函数如下（chars表示字符串）：
    - len(chars):                       计算字符串的长度
    - str[start:end:step]:              字符串截取
    - str.split(sep,maxsplit):          字符串分割
    - str.find(chars):                  查找字符串位置
    - str.count(chars):                 字符串数量位置
    - str.strip(chars):                 删除字符串前后的特殊字符或空格
    - str.replace(chars|chars2|...,rep):把字符串chars|chars2..替换成rep


In [None]:
import re
import pandas as pd
import numpy as np

data=pd.read_excel('.\data\news.xls')
# ----------字符串函数处理----------
x=data['title'][0]
len(x) # 长度
x[3:10:2] # 字符串截取
x.split('，') # 字符串分割
x.count('●') # 字符串计数
x.find('司机') # 查找字符串的位置
x.strip() # 去掉字符串前后的特殊字符，空格、换行制表符等等
x.replace('●','') # 字符串替换
x.replace('●|★|→', '') # 多个字符无法同时处理，有局限性

#### 2.正则表达式函数
正则表达式是一种可以用于模式匹配的替换工具 ，能方便的检查一个字符串是否与某种模式匹配。    
通过正则表达式可以对指定的文本实现匹配测试、内容查找、内容替换、字符串分割等功能。    
- re模块支持正则表达式，正则表达式常用函数如下：
    - re.match(pattern,strinig)：检测字符串开头位置是否匹配模式pattern.
    - re.search(pattern,strinig)：在整个字符串内查找并返回第一个成功的匹配模式- pattern
    - re.findall(pattern,strinig)：返回字符串中所有匹配模式pattern的结果列表
    - re.sub(pattern,strinig)：把所有匹配模式pattern的字符串用指定的字符串repl替换
    - re.split(pattern,strinig)：根据正则表达式分割字符串，将分割后的所有字符串放在一个表中返回。


- 正则表达式的元字符    
元字符由特殊符号组成，元字符的应用是正则表达式强大的原因，元字符定义了字符集合、子组匹配、模式重复次数。     
- 元字符使得正则表达式不仅可以匹配一个字符串，还可以匹配字符串集合。
    - 1.字符匹配
        - 英文句号”.“：匹配任意一个字符，表示匹配除去换行符”\n“之外的任意一个字符。
        - 中括号”[]“：匹配多个字符，表示包含在中括号内部的字符都会被匹配。
        - 管道符”|“：用于两个正则表达式进行或操作
        - 乘方符号”^“：匹配字符串起始位置的内容。
        - 货币符号“$”：匹配字符串的结束位置的内容。
        - 量化符号"?" "*" "+" "{n}" "{n,}" "{m,n}"：匹配需要的字符数。
    - 量化符号解释说明：
        - ?：前面的元素是可选的，并且最多匹配1次
        - *：前面的元素会被匹配0次或多次
        - +：前面的元素会被匹配1次或多次
        - {n}：前面的元素会正好匹配n次
        - {n,}：前面的元素至少会被匹配次
        - {m,n}：前面的元素至少匹配n次，至多匹配m次
    
    - 2.转义字符
        - \w：字、字母、数字
        - \W：与\w相反，非字、数字和字母
        - \s：空白字符
        - \S：非空白字符
        - \d：数字
        - \D：非数字
        - \b：单词边界
        - \B：非单词的边界



In [None]:
# ----------正则表达式----------
re.match(' ',string=x).span() # 返回以patten开头的匹配结果
re.search('今天',x).span()    # 返回匹配patten的位置
re.findall('[0-9]+',string=x) # 返回所有满足patten的结果列表
re.sub(pattern='[0-9]+',repl='A',string=x)
re.split(pattern='[0-9]+',string=x)

In [None]:
# （1）通过re.sub()将“title”列的特殊符号●、★、→、空格、换行符（\n）、制表符（\t）删除。
re.sub('[●★→\s\n\t]',repl='',string=x)
re.sub('●|★|→|\s|\n|\t',repl='',string=x)
data['title'].apply(lambda x:re.sub('●|★|→|\s|\n|\t',repl='',string=x))

# （2）通过re.findall()将“title”列中存在的所有电话号码（如：0755-89899）提取出来。
data['title'].apply(lambda x:re.findall('电话.*：(\d+-?\d+)',x))

# （3）通过re.findall()将“title”列中存在的所有电台频道（如：FM970）提取出来。
data['title'].apply(lambda x:re.findall('FM\d+',x))

# （4）通过re.findall()将“title”列中存在的所有网址（如：http://www.582.com）提取出来。
data['title'].apply(lambda x:re.findall('http:.*com',x))
data['title'].apply(lambda x:re.findall('http:.+com',x))
data['title'].apply(lambda x:re.findall('http:.{1,20}com',x))

# （5）通过re.sub()将“title”列中的数字、字母删除。
data['title'].apply(lambda x:re.sub('[\da-zA-Z]|<.*>|\n','',x))
data['title'].apply(lambda x:re.sub('[0-9a-zA-Z]|<.*>|\n','',x))

