- 使用手册请参考:Python自用工具包PyTls手册
- 各自的测试用例参考:demos
- 更新方式:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade PyTls
目录:
- init.py
- dictt.py
- get_map_value() 字典迭代取值
- update_map_value()
- sort_map_key()
- sort_map_value() 字典排序
- get_tree() 树结构
- swap() kv交换
- merge() 合并两个dict
- func_dict() 对func生成一个字典,比如func:2n,ret = func_dict(func),ret[2]会生成2*2,且ret存储一个2:4的键对
- WordCount() 字典树,快速查询和高效存储,支持string和list/tuple;支持计数、查找、位置校验三个核心功能
- json_loads() 安全加载json,解决json里面的"和'混用的问题
- StrBuffer.py 参考java中的StringButter
- strt.py
- str_reverse()
- str_repeat()
- str_splits() 字符串批切割
- judge_anagrams() 判断目标文本中是否有近似的待查找文本
- typet.py
- loaddatat.py
- randomt.py
- Chinese2num.py 数字相关,提取数字更加强大的功能建议参考YMMNlpUtils
- matht.py
- entropy()
- condition_entropy() 条件熵,求和 H(X|Y)= Σ p(Y=yi)*H(X|Y=yi)
- MI() 来自于条件概率计算法:H(x)-H(x/y)
- NMI()
来自于公式计算:2
*
∑pxylog(pxy/(px*
py))/(H(x)+H(y)) - ln()
- word_edit_distince() 比较两个字符串的文本编辑距离
- BM25() BM25算法,计算相似度匹配
- relative_entropy()
相对熵,也叫KL散度,H(p||q) = ∑pxl
*
og(px/py),如果px与py分布一致,则return 0,差异越大return的值越大;H(p||q) = H(p,q) - H(p) - cross_entropy() 交叉熵,H(p,q) = -∑pi*log(qi) , H(p||q) = H(p,q) - H(p)
- JSD() 衡量两个多项分布的距离,衡量两个多项分布的相似度
- Hellinger_Distince() 海林格距离,用来衡量概率分布之间的相似性
- isOdds()
- listt.py
- index_hash_map()
list元素出现位置,等同于numpy array中的
np.where
- Pi()
- single_one() 从list找出非两两成对的单样本
- subset() 子集
- permute() 全排列
- flatten() 高维列表展开
- duplicates() 原序去重
- topn() 高频统计
- getindex() 返回list中最大/最小元素的位置
- split() list按照指定个数切分,比如split([1,2,3,4],3)-->[(1,2,3)]
- unzip() 把zip后的数据还原
- ContactList() 通过类继承的形式完善list类,提供search方法
- index_hash_map()
list元素出现位置,等同于numpy array中的
- trickt.py
- choose_method() 条件选择函数,根据参数不同逻辑不同,进行不同函数运算
- Timer() 计时器
- textt.py
- is_chinese() 判断一个unicode是否是汉字
- is_chinese_string() 判断是否全为汉字
- is_number() 判断一个unicode是否是数字
- is_alphabet() 判断一个unicode是否是英文字母
- is_alphabet_string() 判断是否全为字母
- stringB2Q() 半角转全角
- stringQ2B() 把字符串全角转半角
- remove_punctuation() 去除标点符号
- uniform() 格式化字符串,完成全角转半角,大写转小写的工作
- get_homophones_by_char() 根据汉字取同音字
- get_homophones_by_pinyin() 根据拼音取同音字
- LocationTire() 地址相似度检索
- wrappert.py
- timespend() 函数耗时装饰器