Add text similarity task for Taskflow #1345

linjieccc · 2021-11-22T08:25:52Z

PR types

New features

PR changes

APIs

Description

1.Add text similarity task for Taskflow

ZeyuChen · 2021-11-22T12:34:57Z

docs/model_zoo/taskflow.md

@@ -174,6 +176,20 @@ senta("作为老的四星酒店，房间依然很整洁，相当不错。机场
 >>> [{'text': '作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。', 'label': 'positive', 'score': 0.984320878982544}]
 ```

+### 文本匹配


文本相似度计算更为直观

ZeyuChen · 2021-11-22T12:35:16Z

docs/model_zoo/taskflow.md

@@ -11,6 +11,7 @@
    - [文本纠错](#文本纠错)
    - [句法分析](#句法分析)
    - [情感分析](#情感分析)
+    - [文本匹配](#文本匹配)


文本相似度

ZeyuChen · 2021-11-22T12:35:56Z

paddlenlp/taskflow/text_matching.py

+
+usage = r"""
+         from paddlenlp import Taskflow
+


taskname改为text similarity会不会更为表意？

ZeyuChen · 2021-11-22T21:03:30Z

docs/model_zoo/taskflow.md

+
+similarity = Taskflow("text_similarity")
+similarity([["世界上什么东西最小", "世界上什么东西最小？"]])
+>>> [{'query': '世界上什么东西最小', 'title': '世界上什么东西最小？', 'similarity': 0.992725}]


输入的key可能采用text1，text2 更加准确。如果用query和title会被倾向于认为是短文本与长文本匹配

ZeyuChen · 2021-11-23T10:09:54Z

paddlenlp/taskflow/text_similarity.py

+         [{'text1': '世界上什么东西最小', 'text2': '世界上什么东西最小？', 'similarity': 0.992725}]
+         '''
+
+         similarity = Taskflow("text_similarity", batch_size=2)


batch_size这地方需要手动配置吗？是否可以根据输入的size自动获得呢？

是说batch_size=1的话，不能同时输入两条？还是说这个batch size是作为predictor的关键参数

batch_size目前是手动配置的，默认值是1，考虑是让用户结合机器本身情况配置

batch_size是predictor的关键参数

ZeyuChen

建议整体内部代码都体现为text1和text2，不要外头是text1内部是query

ZeyuChen · 2021-11-24T14:37:10Z

paddlenlp/taskflow/text_similarity.py

+                self.input_handles[1].copy_from_cpu(t_segment_ids)
+                self.predictor.run()
+                vecs_title = self.output_handle[1].copy_to_cpu()
+


建议整体内部代码都体现为text1和text2。

ZeyuChen · 2021-11-26T08:21:13Z

docs/model_zoo/taskflow.md

+similarity([["世界上什么东西最小", "世界上什么东西最小？"]])
+>>> [{'text1': '世界上什么东西最小', 'text2': '世界上什么东西最小？', 'similarity': 0.992725}]
+
+similarity = Taskflow("text_similarity", batch_size=2)


还是得告诉开发者，为什么这个batch_size=2有什么用。

其他examples都得同步增强下这里的API参数描述。不然这里会误解，必须要设置batch size=2，才能传入两条样本

已修改，这里修改了代码示例，新增可配置参数说明

ZeyuChen

LGTM

linjieccc added 3 commits November 22, 2021 08:24

Add text matching task for Taskflow

478cf12

Update README.md

15d90bf

Update input check

78a9649

linjieccc marked this pull request as ready for review November 22, 2021 11:50

Update README.md

0924f23

ZeyuChen reviewed Nov 22, 2021

View reviewed changes

Update taskname

abbc852

linjieccc changed the title ~~Add text matching task for Taskflow~~ Add text similarity task for Taskflow Nov 22, 2021

ZeyuChen reviewed Nov 22, 2021

View reviewed changes

Update usage

6643178

ZeyuChen reviewed Nov 23, 2021

View reviewed changes

ZeyuChen reviewed Nov 24, 2021

View reviewed changes

linjieccc added 2 commits November 25, 2021 03:37

Optimize var name

b5efa9d

Update simbert

3eea9bd

ZeyuChen reviewed Nov 26, 2021

View reviewed changes

linjieccc added 2 commits November 27, 2021 09:39

Update README.md

e34d519

Update README.md

8a0ace8

ZeyuChen approved these changes Nov 29, 2021

View reviewed changes

Merge branch 'develop' into add_simbert

35069d6

ZeyuChen merged commit eec798a into PaddlePaddle:develop Nov 29, 2021

linjieccc deleted the add_simbert branch November 29, 2021 03:40

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add text similarity task for Taskflow #1345

Add text similarity task for Taskflow #1345

linjieccc commented Nov 22, 2021 •

edited

Loading

ZeyuChen Nov 22, 2021

linjieccc Nov 22, 2021

ZeyuChen Nov 22, 2021

linjieccc Nov 22, 2021

ZeyuChen Nov 22, 2021

linjieccc Nov 22, 2021

ZeyuChen Nov 22, 2021

linjieccc Nov 23, 2021

ZeyuChen Nov 23, 2021

ZeyuChen Nov 23, 2021

linjieccc Nov 23, 2021

ZeyuChen left a comment

ZeyuChen Nov 24, 2021

linjieccc Nov 25, 2021

ZeyuChen Nov 26, 2021

ZeyuChen Nov 26, 2021

linjieccc Nov 27, 2021

ZeyuChen left a comment

Add text similarity task for Taskflow #1345

Add text similarity task for Taskflow #1345

Conversation

linjieccc commented Nov 22, 2021 • edited Loading

PR types

PR changes

Description

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ZeyuChen left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ZeyuChen left a comment

Choose a reason for hiding this comment

linjieccc commented Nov 22, 2021 •

edited

Loading