KK's Paperlist

A list of papers for machine learning, deep learning, reinforcement learning, NLP and something interesting.
Recommendations or contributions are all welcome!

Table of Contents

Benchmark or Datasets

CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog

DREAM: A Challenge Dataset and Models for Dialogue-Based Reading Comprehension

DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

A dataset for resolving referring expressions in spoken dialogue via contextual query rewrites (CQR)

SocialIQA: Commonsense Reasoning about Social Interactions

HEAD-QA: A Healthcare Dataset for Complex Reasoning

TweetQA: Question Answering in Social Media

Introducing long-form question answering

Multi-class Hierarchical Question Classification for Multiple Choice Science Exams

XCMRC: Evaluating Cross-lingual Machine Reading Comprehension

Coached Conversational Preference Elicitation

TABFACT: A LARGE-SCALE DATASET FOR TABLEBASED FACT VERIFICATION

A Repository of Conversational Datasets

MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims

A Survey of Available Corpora for Building Data-Driven Dialogue Systems

The JDDC Corpus: A Large-Scale Multi-Turn Chinese Dialogue Dataset forE-commerce Customer Service

JEC-QA: A Legal-Domain Question Answering Dataset

SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization

Break It Down: A Question Understanding Benchmark

SciREX: A Challenge Dataset for Document-Level Information Extraction

Toolkit

FALCON 2.0: An Entity and Relation Linking Tool over Wikidata

Language Models

REALM: Retrieval-Augmented Language Model Pre-Training

Encoder-Agnostic Adaptation for Conditional Language Generation

Conditional BERT Contextual Augmentation

Distilling Task-Specific Knowledge from BERT into Simple Neural Networks

Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding

ERNIE: Enhanced Language Representation with Informative Entities

Pre-Training with Whole Word Masking for Chinese BERT

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Linguistic Knowledge and Transferability of Contextual Representations

Can Unconditional Language Models Recover Arbitrary Sentences?

TO TUNE OR NOT TO TUNE? HOW ABOUT THE BEST OF BOTH WORLDS?

Tree Transformer: Integrating Tree Structures into Self-Attention

Visual Question Answering

CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog

Visual Dialog

Late Fusion
Hierarchical Recurrent Encoder
Memory Network
Github is here.

Learning to Reason: End-to-End Module Networks for Visual Question Answering

Visual Coreference Resolution in Visual Dialog using Neural Module Networks

MUREL: Multimodal Relational Reasoning for Visual Question Answering

Representation Learning

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue Representation Learning

Natural Language Inference

DRr-Net: Dynamic Re-read Network for Sentence Semantic Matching

Neural Natural Language Inference Models Enhanced with External Knowledge

Knowledge Base Relation Detection via Multi-View Matching

Machine Reading Comprehension

Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension

Retrospective Reader for Machine Reading Comprehension

Unsupervised Domain Adaptation on Reading Comprehension

DREAM: A Challenge Dataset and Models for Dialogue-Based Reading Comprehension

Review Conversational Reading Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

Using RNN to grasp historical information in conversational question answering.

SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering

Generate bert embedding for reading comprehensing and question answering.

FusionNet: Fusing via Fully-Aware Attention with Application to Machine Comprehension

Extend existing attention approaches from three perspectives.

Densely Connected Attention Propagation for Reading Comprehension

Propose DECAPROP (Densely Connected Attention Propagation), a novel architecture for reading comprehension.

S-Net: From Answer Extraction to Answer Generation for Machine Reading Comprehension

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

U-Net: Machine Reading Comprehension with Unanswerable Questions

Reinforced Mnemonic Reader for Machine Reading Comprehension

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Multihop Attention Networks for Question Answer Matching

DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

Multi-Matching Network for Multiple Choice Reading Comprehension

Option Comparison Network for Multiple-choice Reading Comprehension

Dual Co-Matching Network for Multi-choice Reading Comprehension

Hierarchical Attention Flow for Multiple-Choice Reading Comprehension

Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases

SQuAD-MARS

Coarse-to-Fine Question Answering for Long Documents

Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions

A Simple but Effective Method to Incorporate Multi-turn Context with BERT for Conversational Machine Comprehension

Cognitive Graph for Multi-Hop Reading Comprehension at Scale

GRAPHFLOW: Exploiting Conversation Flow with Graph Neural Networks for Conversational Machine Comprehension

Neural Machine Reading Comprehension: Methods and Trends

A Multi-Type Multi-Span Network for Reading Comprehension that Requires Discrete Reasoning

Unsupervised Question Answering by Cloze Translation

Open Domain Question Answering(Information Retrieval)

Latent Retrieval for Weakly Supervised Open Domain Question Answering

Claim Verification

Sentence-Level Evidence Embedding for Claim Verification with Hierarchical Attention Networks

Document Summarization

Cooperative Generator-Discriminator Networks for Abstractive Summarization with Narrative Flow

Hierarchical Transformers for Multi-Document Summarization

Self-Supervised Learning for Contextualized Extractive Summarization

Fine-tune BERT for Extractive Summarization

Commonsense Reasoning

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Attention Is (not) All You Need for Commonsense Reasoning

Dialog System

Multimodal Dialog System: Generating Responses via Adaptive Decoders

A Contextual Hierarchical Attention Network with Adaptive Objective for Dialogue State Tracking

TripPy: A Triple Copy Strategy for Value Independent Neural Dialog State Tracking

Schema-Guided Multi-Domain Dialogue State Tracking with Graph Attention Neural Networks

Zero-Shot Transfer Learning with Synthesized Data for Multi-Domain Dialogue State Tracking

SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model

Variational Hierarchical Dialog Autoencoder for Dialogue State Tracking Data Augmentation

An Efficient Approach to Encoding Context for Spoken Language Understanding

The Second Conversational Intelligence Challenge (ConvAI2)

A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues

Memory-augmented Dialogue Management for Task-oriented Dialogue Systems

Interconnected Question Generation with Coreference Alignment and Conversation Flow Modeling

Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems

Dialog State Tracking: A Neural Reading Comprehension Approach

SUMBT: Slot-Utterance Matching for Universal and Scalable Belief Tracking

Dialog State Tracking: A Neural Reading Comprehension Approach

HyST: A Hybrid Approach for Flexible and Accurate Dialogue State Tracking

Data-Efficient Goal-Oriented Conversation with Dialogue Knowledge Transfer Networks

Neural Assistant: Joint Action Prediction, Response Generation, and Latent Knowledge Reasoning

Conversation Generation with Concept Flow

Robust Zero-Shot Cross-Domain Slot Filling with Example Values

Attention Mechanism

An Empirical Study of Spatial Attention Mechanisms in Deep Networks

An Introductory Survey on Attention Mechanisms in NLP Problems

Modeling Localness for Self-Attention Networks

Dynamically Context-Sensitive Time-Decay Attention for Dialogue Modeling

How Time Matters: Learning Time-Decay Attention for Contextual Spoken Language Understanding in Dialogues

Context-Aware Self-Attention Networks

Use summarized vectors of context or hidden states of context to add extra contextual information into the process of calculating the similarity of between each word in KEY and VALUE.

Document Modeling with External Attention for Sentence Extraction

Convolutional Self-Attention Networks

Are Sixteen Heads Really Better than One?

Compressive Transformers for Long-Range Sequence Modelling

Machine Translation

DTMT: A Novel Deep Transition Architecture for Neural Machine Translation

Tap the potential strength of deep transition between consecutive hidden states and propose a novel deep transition RNN-based architecture for NMT
Propose a simple yet more effective linear transformation enhanced GRU for our deep transition RNMT, which provides a linear transformation path for deep transition of consecutive hidden states.