-
Notifications
You must be signed in to change notification settings - Fork 1
Description
Trends in Natural Language Processing: ACL 2019 In Review
https://www.mihaileric.com/posts/nlp-trends-acl-2019/
Amazon AlexaのMihail Eric氏 のACL 2019参加📑.
https://twitter.com/mihail_eric
なお,本issueは翻訳記事ではなく、記事に書かれていることをざっとまとめているに過ぎませんので、詳細については本記事を参考してください.
Reducing Bias in NLP
最初のMing Zhougのopening talk.今年は過去最大でsubmissionが2906 (去年は1544).しかしこの盛り上がりは、USと中国によって引き起こされており、南米,アフリカ,ヨーロッパなどとは差が開いた.そのため地域的なバイアスがあるため,多様な意見が彫られているかは疑問が残り,将来に不安が残る.1つの解としては,マイナーエリアでもっとカンファレンスを開くことかもしれない.すでにDeep Learning Indaba (ケニア)のようなカンファレンスもある.
また現在のNLPにはgender biasのようなものも残念ながら含まれている.そこで下記のような研究がある.
-
Evaluating Gender Bias in Machine Translation
Gabriel Stanovsky, Noah A. Smith, Luke Zettlemoyer
Accepted to ACL 2019
https://arxiv.org/abs/1906.00591
2つのアカデミアのSOTA翻訳モデルを含む4つのモデルで、gender-biasに起因する翻訳エラーを発見 -
Gender-preserving Debiasing for Pre-trained Word Embeddings
Masahiro Kaneko, Danushka Bollegala
Accepted as a long paper to the 57th Annual Conference of the Association for Computational Linguistics (ACL-2019)
https://arxiv.org/abs/1906.00742
そのような問題の中,genderに関連しない情報は残しつつ、gender-biasを取り除く研究をした.また,Gender Bias in NLP WorkshopやWidening NLP Workshopというワークショップも今回開催されており、解決に向けた努力がなされている.
NLP Applications Galore
現在のNLPモデルは実用的な問題に対して取り組まれており、ACLは様々なNLPアプリケーションのショーケースとなっていた.
-
Detecting Concealed Information in Text and Speech
Shengli Hu
https://www.aclweb.org/anthology/P19-1039
例えばfake newsの領域では,テキストと音声からそれぞれ音響,言語特徴量を利用し,人を15%上回る形でfake news検知を実現した. -
Neural Text Simplification of Clinical Letters with a Domain Specific
Phrase Table
Matthew Shardlow, Raheel Nawaz
https://www.aclweb.org/anthology/P19-1037
ヘルスのドメインでは、医者によって書かれた医療文書を患者にもわかりやすい文書へとドメイン固有のフレーズテーブルを用いて変換した. -
Extracting Symptoms and their Status from Clinical Conversations
Nan Du, Kai Chen, Anjuli Kannan, Linh Tran, Yuhui Chen, Izhak Shafran
https://arxiv.org/abs/1906.02239
医療対話から病気の兆候を抽出し,医者を手助けするようなタスクを提案した.
またbiologyに関するワークショップも開催された.
-
Constructing large scale biomedical knowledge bases from scratch with rapid annotation of interpretable patterns
Julien Fauqueur, Ashok Thillaisundaram, Theodosia Togia
BioNLP 2019: 18th ACL Workshop on Biomedical Natural Language Processing, fixed author's name typo
https://arxiv.org/abs/1907.01417
学習データや手作りルールなしに,生物医療文書から,新しい事実を抽出する手法を提案. -
Domain Adaptation of SRL Systems for Biological Processes
Dheeraj Rajagopal, Nidhi Vyas, Aditya Siddhant, Anirudha Rayasam, Niket Tandon, Eduard Hovy
https://www.aclweb.org/anthology/W19-5009
生物学におけるsemantic role labellingシステムにおいて,事前学習型のLSTM-CRFモデルを利用し,少量コーパスでfine-tuningできることを示した. -
This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation
Rui Zhang, Joel Tetreault
ACL 2019, long paper
https://arxiv.org/abs/1906.03497
メールの件名生成を行い,自動と人評価で優れた結果を出した.
Pretrain then Finetune: A New Paradigm for NLP
2011年,Vision領域でImageNetが登場し,急速に領域が発展したように,NLPでも急速な発展が起きている.2015-2017は,NLPの多くのタスクは,テキストを何らかの形でベクトルエンコードをして表現を獲得し,それにアテンションし,タスクに関して予測するというモデルであった(この時代のまとめは,https://explosion.ai/blog/deep-learning-formula-nlp が参考になる)
しかし現在では,ELMO, OpenAI GPT, BERTのような学習ずみの言語モデルが非常にパワフルでデファクトになりつつある.これらのモデルを使い少量データでSOTAが獲得できるようになっている.ACLにおいてもいくつかの研究によってこの傾向は顕著であった
-
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
ACL 2019 long paper. Code and pretrained models are available at this https URL
https://arxiv.org/abs/1901.02860
transformer-baseの言語モデルを用いて,スピード(何の?)をかなり改善し,SOTAのperplexityを獲得 -
Multi-Task Deep Neural Networks for Natural Language Understanding
Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao
10 pages, 2 figures and 5 tables; Accepted by ACL 2019
https://arxiv.org/abs/1901.11504
BERT-baseのアーキテクチャーによってGLUEのベンチマークでトップに出した(投稿時)
これらに加え,カンファレンスでは多くのBERTのようなモデルによって数%の改善が行われたということだった.そこで質問は,これらの新しいパラダイムは、NLPにおけるモデルの革新を単純化したか?ということです.私はこれに対してはNo.いまだに多くの研究の探索は不十分であり、次世代のNLPの発展にはとても重要.いくつかアウトラインを以下の章で述べよう.
Infusing Knowledge into NLP Architectures
事前学習型モデルは強いが,大量のテキストを様々なコンテキストにおいてみているだけでおり,知識活用を明にできないかという話がある.
-
ERNIE: Enhanced Language Representation with Informative Entities
Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu
Accepted by ACL 2019
https://arxiv.org/abs/1905.07129
BERT表現に対して知識グラフを活用する形で,型付エンティティ埋め込みやアラインメントを使うことで、entity typingやentity relationの分類でBERTより優れた結果を出した -
Enhancing Pre-Trained Language Representations with Rich Knowledge for Machine Reading Comprehension
An Yang, Quan Wang, Jing Liu, Kai Liu, Yajuan Lyu, Hua Wu, Qiaoqiao She, Sujian Li
https://www.aclweb.org/anthology/papers/P/P19/P19-1226/
先ほどと同じタスクに対して,WordNetやNELLといった知識べーすからアテンション機構で情報を抽出するKTーNETを提案し,Squad 1.1でSOTAを獲得 -
Barack's Wife Hillary: Using Knowledge-Graphs for Fact-Aware Language Modeling
Robert L. Logan IV, Nelson F. Liu, Matthew E. Peters, Matt Gardner, Sameer Singh
https://arxiv.org/abs/1906.07241
与えたコンテキストに対して関連するfactを知識グラフから選択的にコピーする知識グラフ言語モデルを提案した
知識活用は非常に難しいが,このように面白い研究がどんどん出てきている
Interpretability of Models
ニューラルネットはブラックボックスで解釈が難しい.ACLではその問題に対してもいくつか素晴らしい研究が報告されていた.
-
Is Attention Interpretable?
Sofia Serrano, Noah A. Smith
To appear at ACL 2019
https://arxiv.org/abs/1906.03731
アテンションがモデルが重要性を示している,ということに関して調査.これは時には真だが,時には代替となるランキングメトリクスの方が効率的かもしれないと示した. -
What does BERT learn about the structure of language?
Ganesh Jawahar, Benoît Sagot, Djamé Seddah
https://hal.inria.fr/hal-02131630/document
BERTによって言語構造が学習されていることを示した(ボトムレイヤーはsurface, 中間レイヤはsyntactic, トップレイヤはsemantic).また彼らは長距離依存情報を得るためにより深いレイヤが必要と言っている -
GLTR: Statistical Detection and Visualization of Generated Text
Sebastian Gehrmann, Hendrik Strobelt, Alexander M. Rush
ACL 2019 Demo Track
https://arxiv.org/abs/1906.04043
予測した単語トークンのモデルdensityを可視化することで,fake textを発見するツールを開発した(人がこれを行うが20%改善). -
Interpretable Question Answering on Knowledge Bases and Text
Alona Sydorova, Nina Poerner, Benjamin Roth
https://arxiv.org/abs/1906.10924
QAにおいて事後説明できる手法に関して調査.人が優れたQAモデルを選択するのに役立つ技術もデモされていた
Rethinking Evaluation and Assumptions of Natural Language Generation
対話システムにおける応答生成において,評価は依然としてある課題であり,いくつかの研究ではそれに関して発表.
-
Studying Summarization Evaluation Metrics in the Appropriate Scoring Range
Maxime Peyrard
https://www.aclweb.org/anthology/P19-1502
要約における特定の自動評価手法において,あるスコアレンジにおいて評価パフォーマンスが一貫していないことを示した. -
Sentence Mover’s Similarity: Automatic Evaluation for Multi-Sentence Texts
Elizabeth Clark, Asli Celikyilmaz, Noah A. Smith
https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf
生成したテキストに対して,文のmover's similarityというメトリクスを提案し,標準的に使われているROUGEよりも人評価に相関していることを示した. -
Ranking Generated Summaries by Correctness: An Interesting but Challenging Application for Natural Language Inference
Tobias Falke, Leonardo F. R. Ribeiro, Prasetya Ajie Utama, Ido Dagan and Iryna Gurevych
https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf
モデルによって生成されたテキストはfactual errosや偽のステートメントに弱い.そこで彼らはこの問題に対処するために、NLIシステムが出力のリランキングに使えないか試した.現在の優れたNLIシステムはダウンストリームのタスクへの適応にはまだ十分でなく,必要なパフォーマンスを出せるようなツールを提供した. -
A Simple Theoretical Model of Importance for Summarization
Maxime Peyrard
https://www.aclweb.org/anthology/P19-1101
冗長性,関連性,情報含有性などの要約のコンセプトに対して、理論的に厳密な定義を行った -
Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study
Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio
To appear at ACL 2019(oral; nominated for best paper)
https://arxiv.org/abs/1906.01603
伝統的なRNNやtransformer-basedのseq2seqの対話システムが,対話履歴を正しく使っているか評価.実際に履歴改変に対してあまりセンシティブでないことを発見した
Going Beyond the Pretrain-Finetune Paradigm
多くのSOTAを提案するモデルがNLPコミュニティにも起きているが,今この現状は良いのだろうか?
-
HellaSwag: Can a Machine Really Finish Your Sentence?
Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi
ACL 2019. Project page at this https URL
https://arxiv.org/abs/1905.07830
BERTがNLIにおいて人に近いパフォーマンスを出したが,彼らは,adversarial filteringと呼ばれるBERTや他のモデルが解くのが難しいデータを集めて,より複雑で難しいベンチマークを提案した -
Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark
Nikita Nangia, Samuel R. Bowman
https://arxiv.org/abs/1905.10425
BERTは完璧ではないことは明らかで,低リソースにおける文分類に弱いことが知られている.そこで SuperGLUEと呼ばれるフォローアップのデータセットを公開 -
Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
R. Thomas McCoy, Ellie Pavlick, Tal Linzen
Camera-ready for ACL 2019
https://arxiv.org/abs/1902.01007
BERTがシンプルなsyntactic heuristicsを学習しているだけであり,他のentailment例には一般化できていないことを示した.そこでこのような問題が起きているかを評価できるようなデータもリリースした -
Compositional Questions Do Not Necessitate Multi-hop Reasoning
Sewon Min, Eric Wallace, Sameer Singh, Matt Gardner, Hannaneh Hajishirzi, Luke Zettlemoyer
Published as a conference paper at ACL 2019 (short). Code available at this https URL
https://arxiv.org/abs/1906.02900
マルチホップのQAベンチマークであるHotpotQAを解いているモデルの多くが,良いパフォーマンスを出すためにマルチホップの推論を解く必要がないことを示した.
ここまでの話で、私の考えを述べさせておくと、現在の多くのモデルが,タスクを解いているというよりは,データセットを解いている,ということである.データセット固有のバイアスを効率的に解いているにすぎない.このプロセスでは評価メトリクスは大きく道を逸れていく.どうしていくべきか?
このようにモデルの開発が早い中では、データセットも固定であるべきではなく,より難しいベンチマークを多く開発していき,機械のNLPのレベルを人レベルまで上げていく必要があると考える
Final Thoughts
多くの研究が素晴らしい業績を挙げる一方で、依然として多くのチャレンジが残っており、解決していくべきである.