Skip to content

2019/8/9: Trends in Natural Language Processing: ACL 2019 In Review #2

@jojonki

Description

@jojonki

Trends in Natural Language Processing: ACL 2019 In Review
https://www.mihaileric.com/posts/nlp-trends-acl-2019/

Amazon AlexaのMihail Eric氏 のACL 2019参加📑.
https://twitter.com/mihail_eric

なお,本issueは翻訳記事ではなく、記事に書かれていることをざっとまとめているに過ぎませんので、詳細については本記事を参考してください.

Reducing Bias in NLP

最初のMing Zhougのopening talk.今年は過去最大でsubmissionが2906 (去年は1544).しかしこの盛り上がりは、USと中国によって引き起こされており、南米,アフリカ,ヨーロッパなどとは差が開いた.そのため地域的なバイアスがあるため,多様な意見が彫られているかは疑問が残り,将来に不安が残る.1つの解としては,マイナーエリアでもっとカンファレンスを開くことかもしれない.すでにDeep Learning Indaba (ケニア)のようなカンファレンスもある.

また現在のNLPにはgender biasのようなものも残念ながら含まれている.そこで下記のような研究がある.

  • Evaluating Gender Bias in Machine Translation
    Gabriel Stanovsky, Noah A. Smith, Luke Zettlemoyer
    Accepted to ACL 2019
    https://arxiv.org/abs/1906.00591
    2つのアカデミアのSOTA翻訳モデルを含む4つのモデルで、gender-biasに起因する翻訳エラーを発見

  • Gender-preserving Debiasing for Pre-trained Word Embeddings
    Masahiro Kaneko, Danushka Bollegala
    Accepted as a long paper to the 57th Annual Conference of the Association for Computational Linguistics (ACL-2019)
    https://arxiv.org/abs/1906.00742
    そのような問題の中,genderに関連しない情報は残しつつ、gender-biasを取り除く研究をした.また,Gender Bias in NLP WorkshopやWidening NLP Workshopというワークショップも今回開催されており、解決に向けた努力がなされている.

NLP Applications Galore

現在のNLPモデルは実用的な問題に対して取り組まれており、ACLは様々なNLPアプリケーションのショーケースとなっていた.

  • Detecting Concealed Information in Text and Speech
    Shengli Hu
    https://www.aclweb.org/anthology/P19-1039
    例えばfake newsの領域では,テキストと音声からそれぞれ音響,言語特徴量を利用し,人を15%上回る形でfake news検知を実現した.

  • Neural Text Simplification of Clinical Letters with a Domain Specific
    Phrase Table
    Matthew Shardlow, Raheel Nawaz
    https://www.aclweb.org/anthology/P19-1037
    ヘルスのドメインでは、医者によって書かれた医療文書を患者にもわかりやすい文書へとドメイン固有のフレーズテーブルを用いて変換した.

  • Extracting Symptoms and their Status from Clinical Conversations
    Nan Du, Kai Chen, Anjuli Kannan, Linh Tran, Yuhui Chen, Izhak Shafran
    https://arxiv.org/abs/1906.02239
    医療対話から病気の兆候を抽出し,医者を手助けするようなタスクを提案した.

またbiologyに関するワークショップも開催された.

  • Constructing large scale biomedical knowledge bases from scratch with rapid annotation of interpretable patterns
    Julien Fauqueur, Ashok Thillaisundaram, Theodosia Togia
    BioNLP 2019: 18th ACL Workshop on Biomedical Natural Language Processing, fixed author's name typo
    https://arxiv.org/abs/1907.01417
    学習データや手作りルールなしに,生物医療文書から,新しい事実を抽出する手法を提案.

  • Domain Adaptation of SRL Systems for Biological Processes
    Dheeraj Rajagopal, Nidhi Vyas, Aditya Siddhant, Anirudha Rayasam, Niket Tandon, Eduard Hovy
    https://www.aclweb.org/anthology/W19-5009
    生物学におけるsemantic role labellingシステムにおいて,事前学習型のLSTM-CRFモデルを利用し,少量コーパスでfine-tuningできることを示した.

  • This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation
    Rui Zhang, Joel Tetreault
    ACL 2019, long paper
    https://arxiv.org/abs/1906.03497
    メールの件名生成を行い,自動と人評価で優れた結果を出した.

Pretrain then Finetune: A New Paradigm for NLP

2011年,Vision領域でImageNetが登場し,急速に領域が発展したように,NLPでも急速な発展が起きている.2015-2017は,NLPの多くのタスクは,テキストを何らかの形でベクトルエンコードをして表現を獲得し,それにアテンションし,タスクに関して予測するというモデルであった(この時代のまとめは,https://explosion.ai/blog/deep-learning-formula-nlp が参考になる)

しかし現在では,ELMO, OpenAI GPT, BERTのような学習ずみの言語モデルが非常にパワフルでデファクトになりつつある.これらのモデルを使い少量データでSOTAが獲得できるようになっている.ACLにおいてもいくつかの研究によってこの傾向は顕著であった

  • Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
    Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
    ACL 2019 long paper. Code and pretrained models are available at this https URL
    https://arxiv.org/abs/1901.02860
    transformer-baseの言語モデルを用いて,スピード(何の?)をかなり改善し,SOTAのperplexityを獲得

  • Multi-Task Deep Neural Networks for Natural Language Understanding
    Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao
    10 pages, 2 figures and 5 tables; Accepted by ACL 2019
    https://arxiv.org/abs/1901.11504
    BERT-baseのアーキテクチャーによってGLUEのベンチマークでトップに出した(投稿時)

これらに加え,カンファレンスでは多くのBERTのようなモデルによって数%の改善が行われたということだった.そこで質問は,これらの新しいパラダイムは、NLPにおけるモデルの革新を単純化したか?ということです.私はこれに対してはNo.いまだに多くの研究の探索は不十分であり、次世代のNLPの発展にはとても重要.いくつかアウトラインを以下の章で述べよう.

Infusing Knowledge into NLP Architectures

事前学習型モデルは強いが,大量のテキストを様々なコンテキストにおいてみているだけでおり,知識活用を明にできないかという話がある.

  • ERNIE: Enhanced Language Representation with Informative Entities
    Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu
    Accepted by ACL 2019
    https://arxiv.org/abs/1905.07129
    BERT表現に対して知識グラフを活用する形で,型付エンティティ埋め込みやアラインメントを使うことで、entity typingやentity relationの分類でBERTより優れた結果を出した

  • Enhancing Pre-Trained Language Representations with Rich Knowledge for Machine Reading Comprehension
    An Yang, Quan Wang, Jing Liu, Kai Liu, Yajuan Lyu, Hua Wu, Qiaoqiao She, Sujian Li
    https://www.aclweb.org/anthology/papers/P/P19/P19-1226/
    先ほどと同じタスクに対して,WordNetやNELLといった知識べーすからアテンション機構で情報を抽出するKTーNETを提案し,Squad 1.1でSOTAを獲得

  • Barack's Wife Hillary: Using Knowledge-Graphs for Fact-Aware Language Modeling
    Robert L. Logan IV, Nelson F. Liu, Matthew E. Peters, Matt Gardner, Sameer Singh
    https://arxiv.org/abs/1906.07241
    与えたコンテキストに対して関連するfactを知識グラフから選択的にコピーする知識グラフ言語モデルを提案した

知識活用は非常に難しいが,このように面白い研究がどんどん出てきている

Interpretability of Models

ニューラルネットはブラックボックスで解釈が難しい.ACLではその問題に対してもいくつか素晴らしい研究が報告されていた.

  • Is Attention Interpretable?
    Sofia Serrano, Noah A. Smith
    To appear at ACL 2019
    https://arxiv.org/abs/1906.03731
    アテンションがモデルが重要性を示している,ということに関して調査.これは時には真だが,時には代替となるランキングメトリクスの方が効率的かもしれないと示した.

  • What does BERT learn about the structure of language?
    Ganesh Jawahar, Benoît Sagot, Djamé Seddah
    https://hal.inria.fr/hal-02131630/document
    BERTによって言語構造が学習されていることを示した(ボトムレイヤーはsurface, 中間レイヤはsyntactic, トップレイヤはsemantic).また彼らは長距離依存情報を得るためにより深いレイヤが必要と言っている

  • GLTR: Statistical Detection and Visualization of Generated Text
    Sebastian Gehrmann, Hendrik Strobelt, Alexander M. Rush
    ACL 2019 Demo Track
    https://arxiv.org/abs/1906.04043
    予測した単語トークンのモデルdensityを可視化することで,fake textを発見するツールを開発した(人がこれを行うが20%改善).

  • Interpretable Question Answering on Knowledge Bases and Text
    Alona Sydorova, Nina Poerner, Benjamin Roth
    https://arxiv.org/abs/1906.10924
    QAにおいて事後説明できる手法に関して調査.人が優れたQAモデルを選択するのに役立つ技術もデモされていた

Rethinking Evaluation and Assumptions of Natural Language Generation

対話システムにおける応答生成において,評価は依然としてある課題であり,いくつかの研究ではそれに関して発表.

  • Studying Summarization Evaluation Metrics in the Appropriate Scoring Range
    Maxime Peyrard
    https://www.aclweb.org/anthology/P19-1502
    要約における特定の自動評価手法において,あるスコアレンジにおいて評価パフォーマンスが一貫していないことを示した.

  • Sentence Mover’s Similarity: Automatic Evaluation for Multi-Sentence Texts
    Elizabeth Clark, Asli Celikyilmaz, Noah A. Smith
    https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf
    生成したテキストに対して,文のmover's similarityというメトリクスを提案し,標準的に使われているROUGEよりも人評価に相関していることを示した.

  • Ranking Generated Summaries by Correctness: An Interesting but Challenging Application for Natural Language Inference
    Tobias Falke, Leonardo F. R. Ribeiro, Prasetya Ajie Utama, Ido Dagan and Iryna Gurevych
    https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf
    モデルによって生成されたテキストはfactual errosや偽のステートメントに弱い.そこで彼らはこの問題に対処するために、NLIシステムが出力のリランキングに使えないか試した.現在の優れたNLIシステムはダウンストリームのタスクへの適応にはまだ十分でなく,必要なパフォーマンスを出せるようなツールを提供した.

  • A Simple Theoretical Model of Importance for Summarization
    Maxime Peyrard
    https://www.aclweb.org/anthology/P19-1101
    冗長性,関連性,情報含有性などの要約のコンセプトに対して、理論的に厳密な定義を行った

  • Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study
    Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio
    To appear at ACL 2019(oral; nominated for best paper)
    https://arxiv.org/abs/1906.01603
    伝統的なRNNやtransformer-basedのseq2seqの対話システムが,対話履歴を正しく使っているか評価.実際に履歴改変に対してあまりセンシティブでないことを発見した

Going Beyond the Pretrain-Finetune Paradigm

多くのSOTAを提案するモデルがNLPコミュニティにも起きているが,今この現状は良いのだろうか?

  • HellaSwag: Can a Machine Really Finish Your Sentence?
    Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi
    ACL 2019. Project page at this https URL
    https://arxiv.org/abs/1905.07830
    BERTがNLIにおいて人に近いパフォーマンスを出したが,彼らは,adversarial filteringと呼ばれるBERTや他のモデルが解くのが難しいデータを集めて,より複雑で難しいベンチマークを提案した

  • Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark
    Nikita Nangia, Samuel R. Bowman
    https://arxiv.org/abs/1905.10425
    BERTは完璧ではないことは明らかで,低リソースにおける文分類に弱いことが知られている.そこで SuperGLUEと呼ばれるフォローアップのデータセットを公開

  • Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
    R. Thomas McCoy, Ellie Pavlick, Tal Linzen
    Camera-ready for ACL 2019
    https://arxiv.org/abs/1902.01007
    BERTがシンプルなsyntactic heuristicsを学習しているだけであり,他のentailment例には一般化できていないことを示した.そこでこのような問題が起きているかを評価できるようなデータもリリースした

  • Compositional Questions Do Not Necessitate Multi-hop Reasoning
    Sewon Min, Eric Wallace, Sameer Singh, Matt Gardner, Hannaneh Hajishirzi, Luke Zettlemoyer
    Published as a conference paper at ACL 2019 (short). Code available at this https URL
    https://arxiv.org/abs/1906.02900
    マルチホップのQAベンチマークであるHotpotQAを解いているモデルの多くが,良いパフォーマンスを出すためにマルチホップの推論を解く必要がないことを示した.

ここまでの話で、私の考えを述べさせておくと、現在の多くのモデルが,タスクを解いているというよりは,データセットを解いている,ということである.データセット固有のバイアスを効率的に解いているにすぎない.このプロセスでは評価メトリクスは大きく道を逸れていく.どうしていくべきか?

このようにモデルの開発が早い中では、データセットも固定であるべきではなく,より難しいベンチマークを多く開発していき,機械のNLPのレベルを人レベルまで上げていく必要があると考える

Final Thoughts

多くの研究が素晴らしい業績を挙げる一方で、依然として多くのチャレンジが残っており、解決していくべきである.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions