Add skeletal tlp and tlpp for Italian

AngledLuffa · AngledLuffa · commit 4d0305fbc4d0 · 2021-09-30T12:22:01.000-07:00
diff --git a/scripts/nndep/Makefile b/scripts/nndep/Makefile
@@ -66,9 +66,8 @@ UD_FRENCH:
 	java edu.stanford.nlp.parser.nndep.DependencyParser -testFile $(UD_FRENCH_DEV) -language French -model $@.txt.gz -outFile $@.out.dev >> $@.log 2>&1
 	java edu.stanford.nlp.parser.nndep.DependencyParser -testFile $(UD_FRENCH_TEST) -language French -model $@.txt.gz -outFile $@.out.test >> $@.log 2>&1
 
-# the ONE THING the language setting gets used for is punctuation, so...
 UD_ITALIAN:
-	java edu.stanford.nlp.parser.nndep.DependencyParser -props nndep.properties -trainFile $(UD_ITALIAN_TRAIN) -language French -devFile $(UD_ITALIAN_DEV) -embedFile $(ITALIAN_EMBEDDINGS) -embeddingSize 100  -model $@.txt.gz >> $@.log 2>&1
-	java edu.stanford.nlp.parser.nndep.DependencyParser -testFile $(UD_ITALIAN_DEV) -language French -model $@.txt.gz -outFile $@.out.dev >> $@.log 2>&1
-	java edu.stanford.nlp.parser.nndep.DependencyParser -testFile $(UD_ITALIAN_TEST) -language French -model $@.txt.gz -outFile $@.out.test >> $@.log 2>&1
+	java edu.stanford.nlp.parser.nndep.DependencyParser -props nndep.properties -trainFile $(UD_ITALIAN_TRAIN) -language Italian -devFile $(UD_ITALIAN_DEV) -embedFile $(ITALIAN_EMBEDDINGS) -embeddingSize 100  -model $@.txt.gz >> $@.log 2>&1
+	java edu.stanford.nlp.parser.nndep.DependencyParser -testFile $(UD_ITALIAN_DEV) -language Italian -model $@.txt.gz -outFile $@.out.dev >> $@.log 2>&1
+	java edu.stanford.nlp.parser.nndep.DependencyParser -testFile $(UD_ITALIAN_TEST) -language Italian -model $@.txt.gz -outFile $@.out.test >> $@.log 2>&1
 
diff --git a/src/edu/stanford/nlp/international/Language.java b/src/edu/stanford/nlp/international/Language.java
@@ -42,7 +42,7 @@ public enum Language {
   Hindi(            treebankForLanguage("Hindi")),
   Hungarian(        new HungarianTreebankParserParams()),
   Indonesian(       treebankForLanguage("Indonesian")),
-  Italian(          treebankForLanguage("Italian")),
+  Italian(          new ItalianTreebankParserParams()),
   Irish(            treebankForLanguage("Irish")),
   Kazakh(           treebankForLanguage("Kazakh")),
   Korean(           treebankForLanguage("Korean")),
diff --git a/src/edu/stanford/nlp/parser/lexparser/ItalianTreebankParserParams.java b/src/edu/stanford/nlp/parser/lexparser/ItalianTreebankParserParams.java
@@ -0,0 +1,120 @@
+package edu.stanford.nlp.parser.lexparser;
+
+import java.io.Serializable;
+import java.util.ArrayList;
+import java.util.List;
+
+
+import edu.stanford.nlp.ling.HasWord;
+import edu.stanford.nlp.ling.Word;
+import edu.stanford.nlp.trees.DiskTreebank;
+import edu.stanford.nlp.trees.HeadFinder;
+import edu.stanford.nlp.trees.LeftHeadFinder;
+import edu.stanford.nlp.trees.MemoryTreebank;
+import edu.stanford.nlp.trees.PennTreeReaderFactory;
+import edu.stanford.nlp.trees.Tree;
+import edu.stanford.nlp.trees.TreeNormalizer;
+import edu.stanford.nlp.trees.TreeReaderFactory;
+import edu.stanford.nlp.trees.TreeTransformer;
+import edu.stanford.nlp.trees.international.italian.ItalianTreebankLanguagePack;
+import edu.stanford.nlp.util.StringUtils;
+import edu.stanford.nlp.util.logging.Redwood;
+
+/**
+ * Bare-bones implementation of a ParserParams for the Italian Turin treebank.
+ * <br>
+ * Suitable for use in the SR Parser.  Will need additional work to function in the PCFG.
+ * Also, would likely function better with a new headfinder.
+ */
+public class ItalianTreebankParserParams extends AbstractTreebankParserParams  {
+  /** A logger for this class */
+  private static final Redwood.RedwoodChannels log = Redwood.channels(ItalianTreebankParserParams.class);
+
+  public ItalianTreebankParserParams() {
+    super(new ItalianTreebankLanguagePack());
+    // TODO: make a Italian specific HeadFinder or build one that can be learned
+    headFinder = new LeftHeadFinder();
+  }
+
+  private HeadFinder headFinder;
+
+  private TreeNormalizer normalizer = null;
+
+  static final String[] EMPTY_SISTERS = new String[0];
+
+  @Override
+  public HeadFinder headFinder() {
+    return headFinder;
+  }
+
+  @Override
+  public HeadFinder typedDependencyHeadFinder() {
+    return headFinder;
+  }
+
+  @Override
+  public TreeTransformer collinizer() {
+    return new TreeCollinizer(tlp, true, false, 0);
+  }
+
+  @Override
+  public TreeTransformer collinizerEvalb() {
+    return collinizer();
+  }
+
+  @Override
+  public String[] sisterSplitters() {
+    // TODO: the SR Parser does not use this code path, so it is not implemented
+    return EMPTY_SISTERS;
+  }
+
+  @Override
+  public Tree transformTree(Tree t, Tree root) {
+    // TODO: the SR Parser does not use this code path, so it is not implemented
+    return t;
+  }
+
+  public static class ItalianSubcategoryStripper extends TreeNormalizer {
+    @Override
+    public String normalizeNonterminal(String category) {
+      // The stanza script leaves the fancy endings on the tags
+      // but simplifies the constiituency tags
+      List<String> pieces = StringUtils.split(category, "~");
+
+      return pieces.get(0);
+    }
+  }
+
+  TreeNormalizer buildNormalizer() {
+    return new ItalianSubcategoryStripper();
+  }
+
+  /** {@inheritDoc} */
+  @Override
+  public TreeReaderFactory treeReaderFactory() {
+    if (normalizer == null) {
+      normalizer = buildNormalizer();
+    }
+    return new PennTreeReaderFactory(normalizer);
+  }
+
+
+  @Override
+  public void display() {
+    String params = "Using ItalianTreebankParserParams";
+    log.info(params);
+  }
+
+  /** {@inheritDoc} */
+  @Override
+  public List<? extends HasWord> defaultTestSentence() {
+    List<Word> ret = new ArrayList<>();
+    String[] sent = {"Questo", "è", "un", "test", "."};
+    for (String str : sent) {
+      ret.add(new Word(str));
+    }
+    return ret;
+  }
+
+  private static final long serialVersionUID = 9824524678L;
+}
diff --git a/src/edu/stanford/nlp/trees/international/italian/ItalianTreebankLanguagePack.java b/src/edu/stanford/nlp/trees/international/italian/ItalianTreebankLanguagePack.java
@@ -0,0 +1,75 @@
+package edu.stanford.nlp.trees.international.italian;
+
+import edu.stanford.nlp.trees.AbstractTreebankLanguagePack;
+import edu.stanford.nlp.trees.HeadFinder;
+import edu.stanford.nlp.trees.LeftHeadFinder;
+
+/**
+ * Treebank language pack suitable for the Italian Turin treebank.
+ *<br>
+ * Note that the original Turin dataset had quite a few oddities which
+ * made it unsuitable for directly using it.  Stanza has a treebank
+ * prep script which greatly simplifies it, though
+ */
+public class ItalianTreebankLanguagePack extends AbstractTreebankLanguagePack {
+
+  private static final long serialVersionUID = -235378253615245L;
+
+  // original treebank has PUNCT for some things, like -, but in general
+  // the tags are ,.:
+  // the UD tagger will redo the tags to be PUNCT
+  private static final String[] punctTags = { "-LRB-", "-RRB-", ",", ".", ":", "\"", "PUNCT" };
+
+  private static final String[] SFPunctTags = { ".", ":", "PUNCT" };
+
+  private static final String[] punctWords = { "!", "\"", "&", "'", "§", "(", ")", "[", "]", "+", ",", "-", ".", "...", "/", "—", ":", ";", "==", "?" };
+  
+  private static final String[] startSymbols = { "ROOT" };
+
+  // weirdly ... doesn't end sentences
+  private static final String[] SFPunctWords = {":", ".", "!", "?", ";" };
+
+  @Override
+  public String[] punctuationTags() {
+    return punctTags;
+  }
+
+  @Override
+  public String[] punctuationWords() {
+    return punctWords;
+  }
+
+  @Override
+  public String[] sentenceFinalPunctuationTags() {
+    return SFPunctTags;
+  }
+
+  @Override
+  public String[] sentenceFinalPunctuationWords() {
+    return SFPunctWords;
+  }
+
+  @Override
+  public String[] startSymbols() {
+    return startSymbols;
+  }
+  
+  /** {@inheritDoc} */
+  @Override
+  public String treebankFileExtension() {
+    return "mrg";
+  }
+
+  /** {@inheritDoc} */
+  @Override
+  public HeadFinder headFinder() {
+    return new LeftHeadFinder();
+  }
+
+  /** {@inheritDoc} */
+  @Override
+  public HeadFinder typedDependencyHeadFinder() {
+    return new LeftHeadFinder();
+  }
+
+}