Merge branch 'master' of jamie.stanford.edu:/u/nlp/git/javanlp

manning · Stanford NLP · commit a3f9d7faa5e1 · 2018-01-02T23:53:35.000-08:00
diff --git a/itest/src/edu/stanford/nlp/ie/crf/ThreadedCRFClassifierITest.java b/itest/src/edu/stanford/nlp/ie/crf/ThreadedCRFClassifierITest.java
@@ -15,12 +15,12 @@ public class ThreadedCRFClassifierITest extends TestCase {
   Properties props;
 
   private static final String german1 =
-    "edu/stanford/nlp/models/ner/german.conll.hgc_175m_600.crf.ser.gz";
+    "edu/stanford/nlp/models/ner/german.conll.germeval2014.hgc_175m_600.crf.ser.gz";
   /** -- We're no longer supporting this one
   private String german2 =
     "/u/nlp/data/ner/goodClassifiers/german.dewac_175m_600.crf.ser.gz";
   */
-  private static final String germanTestFile = "/u/nlp/data/german/ner/2016/deu.utf8.testa";
+  private static final String germanTestFile = "/u/nlp/data/german/ner/2016/deu.io.f15.utf8.testa";
 
   private static final String english1 =
     "/u/nlp/data/ner/goodClassifiers/english.all.3class.nodistsim.crf.ser.gz";
@@ -59,4 +59,3 @@ public void testTwoEnglishCRFs() {
   }
 
 }
-
diff --git a/scripts/ner/Makefile b/scripts/ner/Makefile
@@ -14,13 +14,32 @@ genia: genia-nlpba-2004.crf.gz
 genia-nlpba-2004.crf.gz:
 	java -mx10g edu.stanford.nlp.ie.crf.CRFClassifier -prop genia-nlpba-2004.prop > genia-nlpba-2004.out 2>&1
 
-german: german.hgc_175m_600.crf.ser.gz german.dewac_175m_600.crf.ser.gz
-
-german.hgc_175m_600.crf.ser.gz: 
-	java -mx10g edu.stanford.nlp.ie.crf.CRFClassifier -prop german.hgc_175m_600.prop > german.hgc_175m_600.out 2>&1
-
-german.dewac_175m_600.crf.ser.gz: 
-	java -mx10g edu.stanford.nlp.ie.crf.CRFClassifier -prop german.dewac_175m_600.prop > german.dewac_175m_600.out 2>&1
+# We are No longer building/distributing deWAC model. The data for distributional similarity classes wasn't clean and can't be recovered.
+german: german.conll.crf.ser.gz german.hgc_175m_600.crf.ser.gz german.conll.germeval2014.hgc_175m_600.crf.ser.gz german.conll.germeval2014.europeana.hgc_175m_600.crf.ser.gz
+
+german.conll.crf.ser.gz:
+	java -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -prop german-2018.hgc_175m_600.prop -useDistSim false -serializeTo $@ \
+		> $(addsuffix .out, $(basename $(basename $(basename $@)))) 2>&1
+
+german.conll.hgc_175m_600.crf.ser.gz:
+	java -mx10g edu.stanford.nlp.ie.crf.CRFClassifier -prop german-2018.hgc_175m_600.prop -serializeTo $@ \
+		> $(addsuffix .out, $(basename $(basename $(basename $@)))) 2>&1
+
+german.conll.germeval2014.hgc_175m_600.crf.ser.gz:
+	java -mx15g edu.stanford.nlp.ie.crf.CRFClassifier -prop german-2018.hgc_175m_600.prop -serializeTo $@ \
+		-trainFileList /u/nlp/data/german/ner/2016/deu.io.f15.utf8.train,/u/nlp/data/german/ner/2016/GermEval2014_complete_data/NER-de-train-io.tsv \
+		> $(addsuffix .out, $(basename $(basename $(basename $@)))) 2>&1
+
+# currently we exclude enp_DE.sbb.io, as the data has too many issues, but we could work to include it....
+# ,/u/nlp/data/german/ner/2016/Europeana-Newspapers-data/ner-corpora/enp_DE.sbb.bio/enp_DE.sbb.io
+german.conll.germeval2014.europeana.hgc_175m_600.crf.ser.gz:
+	java -mx20g edu.stanford.nlp.ie.crf.CRFClassifier -prop german-2018.hgc_175m_600.prop -serializeTo $@ \
+		-trainFileList /u/nlp/data/german/ner/2016/deu.io.f15.utf8.train,/u/nlp/data/german/ner/2016/GermEval2014_complete_data/NER-de-train-io.tsv,/u/nlp/data/german/ner/2016/Europeana-Newspapers-data/ner-corpora/enp_DE.lft.bio/enp_DE.lft.io,/u/nlp/data/german/ner/2016/Europeana-Newspapers-data/ner-corpora/enp_DE.onb.bio/enp_DE.onb.io \
+		> $(addsuffix .out, $(basename $(basename $(basename $@)))) 2>&1
+
+# We are No longer building/distributing deWAC model. The data for distributional similarity classes wasn't clean and can't be recovered.
+# german.dewac_175m_600.crf.ser.gz:
+#	java -mx10g edu.stanford.nlp.ie.crf.CRFClassifier -prop german.dewac_175m_600.prop > german.dewac_175m_600.out 2>&1
 
 
 all.3class:  english.all.3class.nodistsim.crf.ser.gz  english.all.3class.caseless.distsim.crf.ser.gz  english.all.3class.distsim.crf.ser.gz
diff --git a/scripts/ner/german-2018.hgc_175m_600.prop b/scripts/ner/german-2018.hgc_175m_600.prop
@@ -0,0 +1,65 @@
+trainFile = /u/nlp/data/german/ner/2016/deu.io.f15.utf8.train
+testFile = /u/nlp/data/german/ner/2016/deu.io.f15.utf8.testa
+serializeTo = german.hgc_175m_600.crf.ser.gz
+
+type=crf
+
+# distSimLexicon = /u/nlp/data/german/ner/hgc_175m_600
+distSimLexicon = /u/nlp/data/german/ner/2016/hgc-175M-600
+# right options for new hgc_175m_600
+distSimFileFormat = alexClark
+unknownWordDistSimClass = 599
+useDistSim = true
+numberEquivalenceDistSim = false
+casedDistSim = true
+
+# Now using stripped 2 column files so can add extra datasets!
+map = word=0,answer=1
+
+encoding = utf-8
+# saveFeatureIndexToDisk = true # now buggy but unnecessary
+mergeTags = false
+useTitle = false
+
+useClassFeature=true
+useWord=true
+useNGrams=true
+noMidNGrams=true
+# Having no maxNGramLeng seemed to work marginally better, but omitted for efficiency
+maxNGramLeng=6
+usePrev=true
+useNext=true
+useLongSequences=true
+useSequences=true
+usePrevSequences=true
+useTypeSeqs=true
+useTypeSeqs2=true
+useTypeySequences=true
+# Including useOccurrencePatterns increased scores really marginally (could even disappear now we have weaker regularization)
+useOccurrencePatterns=true
+useLastRealWord=true
+useNextRealWord=true
+normalize=true
+# using chris4 instead hurts in most recent experiment. Earlier, an experiment had seemed to show the opposite.
+wordShape=chris2useLC
+useDisjunctive=true
+# Width 5 works a little better than 4
+disjunctionWidth=5
+
+maxLeft=1
+readerAndWriter=edu.stanford.nlp.sequences.ColumnDocumentReaderAndWriter
+useObservedSequencesOnly=true
+useQN = true
+QNsize = 15
+# sigma 20 works better than sigma 5, which is MUCH better than sigma 1; that was the limit of hyperparameter optimization
+# On the basic CoNLL dataset (no distsim, no extra data), sigma=50 is a bit better still (by 0.13 F1)
+sigma = 20
+
+# For making faster (less features); changing this to 0.025 doesn't improve performance
+featureDiffThresh=0.05
+
+# evaluateIOB=true
+
+# other notes
+# even though useTaggySequences will use distsim rather than POS sequences, turning it on didn't help
+# adding useWordPairs doesn't seem to help. (Getting them anyway in an edge feature.)
diff --git a/src/edu/stanford/nlp/pipeline/StanfordCoreNLP-german.properties b/src/edu/stanford/nlp/pipeline/StanfordCoreNLP-german.properties
@@ -4,7 +4,7 @@ tokenize.language = de
 
 pos.model = edu/stanford/nlp/models/pos-tagger/german/german-hgc.tagger
 
-ner.model = edu/stanford/nlp/models/ner/german.conll.hgc_175m_600.crf.ser.gz
+ner.model = edu/stanford/nlp/models/ner/german.conll.germeval2014.hgc_175m_600.crf.ser.gz
 ner.applyNumericClassifiers = false
 ner.useSUTime = false