Skip to content

jumormt/CounterfietAppClassify

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

40 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CounterfietAppClassify

软件安全大作业-识别仿冒app

检测原理

基于短文本相似度、字符串间编辑距离以及特征向量间的余弦相似度进行综合研判。

短文本相似度

选取metadata中的description_html字段,求相似度。

文本预处理

  1. 去掉所有带符号的词,如邮箱后缀、hyphen连词、缩写等;
  2. 去掉非英文的词汇;
  3. 小写化;
  4. 去长度小于3的单词,去掉数字和包含符号的单词;
  5. 去除'the'、'about'等停用词(停用词示例);
  6. 进行词性标注,标记每个词的词性;
  7. 进行词形还原,去掉单词的词缀,提取单词的主干部分;
  8. 计算各个token的TFIDF值,即"词频-逆文本频率"。

训练模型

  1. 基于预处理的文本,建立词向量,采用Skip-Gram训练神经网络,优化收敛词向量;
  2. 将训练好的模型和文本序列化至本地。

比较相似度

比较每两个文件对应向量的相似度。

字符串相似度

选取metadata中的title、package_name、developer_email等字段,比较相似度。

采用字符串的编辑距离度量相似度。

特征向量相似度

选取metadata中的app_category、app_type、permission等字段,建立词汇表和特征向量,比较相似度。

  1. 建立词汇表,取词汇表下标并进行归一化,将最后所得数值作为特征向量;
  2. 计算特征向量间的余弦相似度。

About

软件安全大作业-识别仿冒app

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages