# 文本分析（或者NLP）最为常见的任务：

- 识别不同的用户/客户群（如预测客户流失量、生命周期价值、产品偏好）

- 准确地检测和提取不同类别的反馈信息（如正面和负面的评论/意见、衣服尺寸等特定属性的提及频率）

- 根据用户的意图对文本信息进行分类（如请求基本帮助、紧急问题）


# 本章要讲的内容涉及的package包括：
- pdfminer: 读取pdf文件中的数据
- docx： 读取docx文件中的数据
- jieba:中文分词库
- pyecharts:可视化库
- pandas: 数据分析必备库

常见的文本数据存储在excel、csv、json、txt、word、pdf中，那么做文本分析的第一步是先读取出这些数据

## 读取csv、excel、json等文件

一般英文数据的csv文件读取没什问题。
- pd.read_csv(filepath_or_buffer, index_col=None, nrows=None,usecols=None,encoding=None, header='infer', names=None)  读取csv文件
- pd.read_excel(filepath_or_buffer, index_col=None, nrows=None,usecols=None,encoding=None, header='infer', names=None) 读取xls、xlsx文件
- pd.read_json(path_or_buf, encoding=None, lines=False) 读取json文件

**参数解读**
- **filepath_or_buffer、path_or_buf**  待读取文件路径
- **encoding**   文件编码方式主要是utf-8、gbk
- index_col  选取csv、excel中的列名作为行索引
- nrows      只读取csv、excel中的nrows行数据
- usecols   只读取csv、excel中的某些列（名）数据
- header   传入 None不使用原始文件中的字段名；一般与names结合使用
- names   header为None时，传入的names作为df的列索引（名）；一般与header结合使用
- lines   从文件中读到的每一行数据都作为json对象

**常用的参数有**
- 第一个表示路径的参数
- encoding

这里提一句，这三个函数得到的对象是pd.DataFrame类型对象。后面我们会学pandas的这一类型的相关知识

In [4]:
import pandas as pd

#读取police.csv文件
csv_df = pd.read_csv('data/police.csv')
csv_df.head()

Unnamed: 0,stop_date,stop_time,county_name,driver_gender,driver_age_raw,driver_age,driver_race,violation_raw,violation,search_conducted,search_type,stop_outcome,is_arrested,stop_duration,drugs_related_stop
0,2005-01-02,01:55,,M,1985.0,20.0,White,Speeding,Speeding,False,,Citation,False,0-15 Min,False
1,2005-01-18,08:15,,M,1965.0,40.0,White,Speeding,Speeding,False,,Citation,False,0-15 Min,False
2,2005-01-23,23:15,,M,1972.0,33.0,White,Speeding,Speeding,False,,Citation,False,0-15 Min,False
3,2005-02-20,17:15,,M,1986.0,19.0,White,Call for Service,Other,False,,Arrest Driver,True,16-30 Min,False
4,2005-03-14,10:00,,F,1984.0,21.0,White,Speeding,Speeding,False,,Citation,False,0-15 Min,False


In [7]:
!pip3 install xlrd

Collecting xlrd
[?25l  Downloading https://files.pythonhosted.org/packages/b0/16/63576a1a001752e34bf8ea62e367997530dc553b689356b9879339cf45a4/xlrd-1.2.0-py2.py3-none-any.whl (103kB)
[K     |████████████████████████████████| 112kB 78kB/s eta 0:00:01
[?25hInstalling collected packages: xlrd
Successfully installed xlrd-1.2.0


In [2]:
import pandas as pd

#读取zhihu_question.xlsx文件
excel_df = pd.read_excel('data/sample-salesv3.xlsx')
excel_df.head()

Unnamed: 0,account number,name,sku,quantity,unit price,ext price,date
0,740150,Barton LLC,B1-20000,39,86.69,3380.91,2014-01-01 07:21:51
1,714466,Trantow-Barrows,S2-77896,-1,63.16,-63.16,2014-01-01 10:00:47
2,218895,Kulas Inc,B1-69924,23,90.7,2086.1,2014-01-01 13:24:58
3,307599,"Kassulke, Ondricka and Metz",S1-65481,41,21.05,863.05,2014-01-01 15:05:22
4,412290,Jerde-Hilpert,S2-34077,6,83.21,499.26,2014-01-01 23:26:55


In [3]:
import pandas as pd

#读取34011097.json文件
json_df = pd.read_json('data/34011097.json')
json_df.head()  

#遇到问题百度 “ValueError: Trailing data json  python”，找到解决办法

ValueError: Trailing data

## 读取txt文件
读取txt文件使用open函数

**open(file, mode='r', encoding=None, errors=None)**

**参数解读**
- file  待读取文件路径
- mode  mode为r时表示读取模式，a+和w表示写入模式
- encoding 编码方式，常见的有utf-8、gbk
- errors  错误方式，如果遇到问题解决不了，不妨尝试使用'ignore'忽略错误

open函数在读取文件时，最常用的只有file，其次是encoding。

In [1]:
#不同系统之间可能有编码问题，需要encoding参数
#open('data/财经.txt', encoding='utf-8').read()

### 读取word文件
需要用到docx库，安装方法

```bash
pip install python-docx
```

In [2]:
!pip3 install python-docx

[33mYou are using pip version 18.1, however version 19.1.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [3]:
from io import StringIO
import re
import docx
    
def read_from_docx(file_path):
    """
    读取docx文件，并返回其中的文本内容
    :param file_path: docx文件路径
    :return: docx中的文本内容
    """
    texts = ''
    doc = docx.Document(file_path)
    for para in doc.paragraphs:
        texts += para.text    
    return texts

In [2]:
#测试
read_from_docx('data/word.docx')

In [3]:
read_from_docx('data/word2.docx')

### 读取pdf数据的代码
需要安装pdfminer库，安装方法

```bash
pip install pdfminer3k
```

In [1]:
!pip3 install pdfminer3k

Collecting pdfminer3k
[?25l  Downloading https://files.pythonhosted.org/packages/8c/87/cee0aa24f95c287020df7e3936cb51d32b34b05b430759bac15f89ea5ac2/pdfminer3k-1.3.1.tar.gz (4.1MB)
[K     |████████████████████████████████| 4.1MB 45kB/s eta 0:00:01
[?25hCollecting pytest>=2.0 (from pdfminer3k)
[?25l  Downloading https://files.pythonhosted.org/packages/ca/e1/2f229554e5c273962fae8b286395d5bbcc7bef276d2b40e1bad954993db2/pytest-5.1.3-py3-none-any.whl (224kB)
[K     |████████████████████████████████| 225kB 61kB/s eta 0:00:01
[?25hCollecting ply>=3.4 (from pdfminer3k)
[?25l  Downloading https://files.pythonhosted.org/packages/a3/58/35da89ee790598a0700ea49b2a66594140f44dec458c07e8e3d4979137fc/ply-3.11-py2.py3-none-any.whl (49kB)
[K     |████████████████████████████████| 51kB 59kB/s eta 0:00:01
[?25hCollecting pluggy<1.0,>=0.12 (from pytest>=2.0->pdfminer3k)
  Downloading https://files.pythonhosted.org/packages/92/c7/48439f7d5fd6bddb4c04b850bb862b42e3e2b98570040dfaf68aedd8114b/pluggy-0.

In [2]:
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import re

def read_from_pdf(file_path):
    """
    读取pdf文件，并返回pdf中的文本内容。
    :param file_path:  pdf文件路径
    :return: 字符串
    """
    with open(file_path, 'rb') as file:
        resource_manager = PDFResourceManager()
        return_str = StringIO()
        lap_params = LAParams()
        device = TextConverter(resource_manager, return_str, laparams=lap_params)
        process_pdf(resource_manager, device, file)
        device.close()
        content = return_str.getvalue()
        return_str.close()
        return re.sub('\s+', ' ', content)
    
    

In [4]:
read_from_pdf('data/pdf.pdf')