In [42]:
import os
import re
import json
import nltk
from nltk.tokenize import word_tokenize
import jieba.posseg as pseg
from collections import Counter
import numpy as np

def ReadContent(fname):
    """
    读取文件内容，返回文件内容
    """
    with open(fname, 'r', encoding = 'utf-8')as file_object:
        content = file_object.read()
    return content

def WriteContent(file_name, content):
    '''
    将内容content写入名为file_name的文件
    '''
    with open(file_name, "w",encoding='utf-8') as f:
        json.dump(content, f,ensure_ascii=False,indent = 4)
    return ''

def DESWC_en(content):
    """
    计算英文文章单词数目
    """
    token = word_tokenize(content)
    length = len(token)
    return token,length

def DESWC_zh(content):
    """
    计算中文文章单词数目
    """
    content = pseg.cut(content)
    realtext = []
    for k,v in content:
        realtext.append(k)
#     print(realtext)
    words_length = len(realtext)
    return realtext,words_length

def DESWLlt_en(content):
    """
    计算英文单词的平均长度
    """
    text = DESWC_en(content)[0]
    words_length = DESWC_en(content)[1]
    my_len = 0
    for i in text:
        my_len += len(i)
    average_len = my_len/words_length
    return average_len

def DESWLlt_zh(content):
    """
    计算中文单词的平均长度
    """
    text = DESWC_zh(content)[0]
    words_length = DESWC_zh(content)[1]
    my_len = 0
    for i in text:
        my_len += len(i)
    average_len = my_len/words_length
    return average_len

def DESWLltd_zh(content):
    """
    计算中文单词数标准差
    """
    text = DESWC_zh(content)[0]
    count_len = []
    for i in text:
        count_len.append(len(i))
    my_num = np.std(count_len, ddof = 1)    # 需要得到样本标准差
    return my_num

def DESWLltd_en(content):
    """
    计算英文单词数标准差
    """
    text = DESWC_en(content)[0]
    count_len = []
    for i in text:
        count_len.append(len(i))
    my_num = np.std(count_len, ddof = 1)    # 需要得到样本标准差
    return my_num

def descraption_word_en(fname):
    """
    上述信息进行整合并输出
    """
    text_en = ReadContent(fname)
    my_len = DESWC_en(text_en)[1]
    words_en_num = DESWLlt_en(text_en)
    words_str = DESWLltd_en(text_en)
    print('该英文文本的单词数为：', my_len)
    print('该英文文本单词中的平均字母数为：', words_en_num)
    print('该英文文本单词中的平均字母数的标准偏差为：', words_str)
    

def descraption_word_zh(fname):
    """
    上述信息进行整合并输出
    """
    text_zh = ReadContent(fname)
    my_len = DESWC_zh(text_zh)[1]
    words_zh_num = DESWLlt_zh(text_zh)
    words_str = DESWLltd_zh(text_zh)
    print('该中文文本的单词数为：', my_len)
    print('该中文文本单词中的平均字数为：', words_zh_num)
    print('该中文文本单词中的平均字数的标准偏差为：', words_str)

# 修改文本名称即可
descraption_word_en('yangruixia.txt')
descraption_word_zh('中文测试.txt')

该英文文本的单词数为： 6
该英文文本单词中的平均字母数为： 2.6666666666666665
该英文文本单词中的平均字母数的标准偏差为： 1.505545305418162
该中文文本的单词数为： 6
该中文文本单词中的平均字数为： 1.5
该中文文本单词中的平均字数的标准偏差为： 0.5477225575051661
