Lightning-Universe · SeanNaren · May 16, 2022 · May 15, 2022 · May 15, 2022 · May 15, 2022
@@ -13,13 +13,9 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        os: [ubuntu-20.04, macOS-10.15, windows-2019]
-        python-version: [3.6, 3.8]
+        os: [ubuntu-20.04, macOS-10.15]
+        python-version: [3.8]
         requires: ['minimal', 'latest']
-        exclude:
-          # excludes windows minimal test as HF hanging
-          - os: windows-2019
-            requires: 'minimal'
 
     # Timeout: https://stackoverflow.com/a/59076067/4521646
     timeout-minutes: 35

@@ -56,7 +56,7 @@ repos:
         require_serial: false
 
   - repo: https://github.com/psf/black
-    rev: 21.12b0
+    rev: 22.3.0
     hooks:
       - id: black
         name: Format code

@@ -0,0 +1,23 @@
+import pytorch_lightning as pl
+from transformers import AutoTokenizer
+
+from lightning_transformers.task.nlp.language_modeling import (
+    LanguageModelingDataConfig,
+    LanguageModelingDataModule,
+    LanguageModelingTransformer,
+)
+
+if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="gpt2")
+    model = LanguageModelingTransformer(pretrained_model_name_or_path="gpt2")
+    dm = LanguageModelingDataModule(
+        cfg=LanguageModelingDataConfig(
+            batch_size=1,
+            dataset_name="wikitext",
+            dataset_config_name="wikitext-2-raw-v1",
+        ),
+        tokenizer=tokenizer,
+    )
+    trainer = pl.Trainer(accelerator="auto", devices="auto", max_epochs=1)
+
+    trainer.fit(model, dm)
@@ -0,0 +1,24 @@
+import pytorch_lightning as pl
+from transformers import AutoTokenizer
+
+from lightning_transformers.task.nlp.masked_language_modeling import (
+    MaskedLanguageModelingDataConfig,
+    MaskedLanguageModelingDataModule,
+    MaskedLanguageModelingTransformer,
+)
+
+if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="bert-base-uncased")
+    model = MaskedLanguageModelingTransformer(pretrained_model_name_or_path="bert-base-uncased")
+    dm = MaskedLanguageModelingDataModule(
+        cfg=MaskedLanguageModelingDataConfig(
+            batch_size=1,
+            dataset_name="wikitext",
+            dataset_config_name="wikitext-2-raw-v1",
+            max_length=512,
+        ),
+        tokenizer=tokenizer,
+    )
+    trainer = pl.Trainer(accelerator="auto", devices="auto", max_epochs=1)
+
+    trainer.fit(model, dm)
@@ -0,0 +1,24 @@
+import pytorch_lightning as pl
+from transformers import AutoTokenizer
+
+from lightning_transformers.task.nlp.multiple_choice import (
+    MultipleChoiceDataConfig,
+    MultipleChoiceTransformer,
+    SwagMultipleChoiceDataModule,
+)
+
+if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="bert-base-uncased")
+    model = MultipleChoiceTransformer(pretrained_model_name_or_path="bert-base-uncased")
+    dm = SwagMultipleChoiceDataModule(
+        cfg=MultipleChoiceDataConfig(
+            batch_size=1,
+            dataset_name="swag",
+            dataset_config_name="regular",
+            padding=False,
+        ),
+        tokenizer=tokenizer,
+    )
+    trainer = pl.Trainer(accelerator="auto", devices="auto", max_epochs=1)
+
+    trainer.fit(model, dm)
@@ -0,0 +1,29 @@
+import pytorch_lightning as pl
+from transformers import AutoTokenizer
+
+from lightning_transformers.task.nlp.question_answering import (
+    QuestionAnsweringDataConfig,
+    QuestionAnsweringTransformer,
+    SquadDataModule,
+)
+
+if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="bert-base-uncased")
+    model = QuestionAnsweringTransformer(pretrained_model_name_or_path="bert-base-uncased")
+    dm = SquadDataModule(
+        cfg=QuestionAnsweringDataConfig(
+            batch_size=1,
+            dataset_name="squad",
+            dataset_config_name="plain_text",
+            max_length=384,
+            version_2_with_negative=False,
+            null_score_diff_threshold=0.0,
+            doc_stride=128,
+            n_best_size=20,
+            max_answer_length=30,
+        ),
+        tokenizer=tokenizer,
+    )
+    trainer = pl.Trainer(accelerator="auto", devices="auto", max_epochs=1)
+
+    trainer.fit(model, dm)
@@ -0,0 +1,33 @@
+import pytorch_lightning as pl
+from transformers import AutoTokenizer
+
+from lightning_transformers.task.nlp.summarization import (
+    SummarizationConfig,
+    SummarizationDataConfig,
+    SummarizationTransformer,
+    XsumSummarizationDataModule,
+)
+
+if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="t5-base")
+    model = SummarizationTransformer(
+        pretrained_model_name_or_path="t5-base",
+        cfg=SummarizationConfig(
+            use_stemmer=True,
+            val_target_max_length=142,
+            num_beams=None,
+            compute_generate_metrics=True,
+        ),
+    )
+    dm = XsumSummarizationDataModule(
+        cfg=SummarizationDataConfig(
+            batch_size=1,
+            dataset_name="xsum",
+            max_source_length=128,
+            max_target_length=128,
+        ),
+        tokenizer=tokenizer,
+    )
+    trainer = pl.Trainer(accelerator="auto", devices=1, max_epochs=1)
+
+    trainer.fit(model, dm)
@@ -0,0 +1,25 @@
+import pytorch_lightning as pl
+from transformers import AutoTokenizer
+
+from lightning_transformers.task.nlp.text_classification import (
+    TextClassificationDataConfig,
+    TextClassificationDataModule,
+    TextClassificationTransformer,
+)
+
+if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="bert-base-uncased")
+    dm = TextClassificationDataModule(
+        cfg=TextClassificationDataConfig(
+            batch_size=1,
+            dataset_name="glue",
+            dataset_config_name="sst2",
+            max_length=512,
+        ),
+        tokenizer=tokenizer,
+    )
+    dm.setup("fit")
+    model = TextClassificationTransformer(pretrained_model_name_or_path="bert-base-uncased", num_labels=dm.num_classes)
+    trainer = pl.Trainer(accelerator="auto", devices="auto", max_epochs=1)
+
+    trainer.fit(model, dm)
@@ -0,0 +1,26 @@
+import pytorch_lightning as pl
+from transformers import AutoTokenizer
+
+from lightning_transformers.task.nlp.token_classification import (
+    TokenClassificationDataConfig,
+    TokenClassificationDataModule,
+    TokenClassificationTransformer,
+)
+
+if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="bert-base-uncased")
+    dm = TokenClassificationDataModule(
+        cfg=TokenClassificationDataConfig(
+            batch_size=1,
+            task_name="ner",
+            dataset_name="conll2003",
+            preprocessing_num_workers=1,
+            label_all_tokens=False,
+            revision="master",
+        ),
+        tokenizer=tokenizer,
+    )
+    model = TokenClassificationTransformer(pretrained_model_name_or_path="bert-base-uncased", labels=dm.labels)
+    trainer = pl.Trainer(accelerator="auto", devices="auto", max_epochs=1)
+
+    trainer.fit(model, dm)