AbstractFillerWordsRule: fixed single/double paragraph mark problem

languagetool-org · Sep 11, 2018 · 20a9daf · 20a9daf
1 parent 47176b0
commit 20a9daf
Show file tree

Hide file tree

Showing 6 changed files with 43 additions and 36 deletions.
diff --git a/languagetool-core/src/main/java/org/languagetool/rules/AbstractFillerWordsRule.java b/languagetool-core/src/main/java/org/languagetool/rules/AbstractFillerWordsRule.java
@@ -26,6 +26,7 @@
 
 import org.languagetool.AnalyzedSentence;
 import org.languagetool.AnalyzedTokenReadings;
+import org.languagetool.Language;
 import org.languagetool.UserConfig;
 import org.languagetool.rules.Category.Location;
 
@@ -48,16 +49,18 @@ public abstract class AbstractFillerWordsRule extends TextLevelRule {
   private static final boolean DEFAULT_ACTIVATION = false;
 
   private int minPercent = DEFAULT_MIN_PERCENT;
+  private final Language lang;
 
   /*
    * Override this to detect filler words in the specified language
    */
   protected abstract boolean isFillerWord(String token);
 
-  public AbstractFillerWordsRule(ResourceBundle messages, UserConfig userConfig, boolean defaultActive) {
+  public AbstractFillerWordsRule(ResourceBundle messages, Language lang, UserConfig userConfig, boolean defaultActive) {
     super(messages);
     super.setCategory(new Category(new CategoryId("CREATIVE_WRITING"), 
         messages.getString("category_creative_writing"), Location.INTERNAL, false));
+    this.lang = lang;
     if (!defaultActive) {
       setDefaultOff();
     }
@@ -70,8 +73,8 @@ public AbstractFillerWordsRule(ResourceBundle messages, UserConfig userConfig, b
     setLocQualityIssueType(ITSIssueType.Style);
   }
 
-  public AbstractFillerWordsRule(ResourceBundle messages, UserConfig userConfig) {
+  public AbstractFillerWordsRule(ResourceBundle messages, Language lang, UserConfig userConfig) {
-    this(messages, userConfig, DEFAULT_ACTIVATION);
+    this(messages, lang, userConfig, DEFAULT_ACTIVATION);
   }
 
   @Override
@@ -115,7 +118,7 @@ public String getMessage() {
   protected boolean isException(AnalyzedTokenReadings[] tokens, int num) {
     return false;
   }
-  
+
   @Override
   public RuleMatch[] match(List<AnalyzedSentence> sentences) throws IOException {
     List<RuleMatch> ruleMatches = new ArrayList<>();
@@ -128,42 +131,41 @@ public RuleMatch[] match(List<AnalyzedSentence> sentences) throws IOException {
     int wordCount = 0;
     boolean isDirectSpeech = false;
     for (AnalyzedSentence sentence : sentences) {
-      AnalyzedTokenReadings[] tokens = sentence.getTokens();
+      AnalyzedTokenReadings[] tokens = sentence.getTokensWithoutWhitespace();
-      for (int n = 0; n < tokens.length; n++) {
+      for (int n = 1; n < tokens.length; n++) {
         AnalyzedTokenReadings token = tokens[n];
         String sToken = token.getToken();
-        if (OPENING_QUOTES.matcher(sToken).matches() && n < tokens.length -1 && !tokens[n + 1].isWhitespace()) {
+        if (OPENING_QUOTES.matcher(sToken).matches() && n < tokens.length -1 && !tokens[n + 1].isWhitespaceBefore()) {
           isDirectSpeech = true;
         }
-        else if (ENDING_QUOTES.matcher(sToken).matches() 
+        else if (ENDING_QUOTES.matcher(sToken).matches() && n > 1 && !tokens[n].isWhitespaceBefore()) {
-            && !tokens[n - 1].isWhitespace() && !tokens[n - 1].isSentenceStart()) {
           isDirectSpeech = false;
         }
-        else if ((!isDirectSpeech || minPercent == 0) && !token.isWhitespace() && !token.isSentenceStart() 
+        else if ((!isDirectSpeech || minPercent == 0) && !token.isWhitespace() && !NON_WORD_REGEX.matcher(sToken).matches()) {
-            && !token.isSentenceEnd() && !NON_WORD_REGEX.matcher(sToken).matches()) {
           wordCount++;
           if (isFillerWord(sToken) && !isException(tokens, n)) {
             startPos.add(token.getStartPos() + pos);
             endPos.add(token.getEndPos() + pos);
             relevantSentences.add(sentence);
           }
-        } else if ("\n".equals(sToken) || "\r\n".equals(sToken) || "\n\r".equals(sToken)) {
+        }
-          if(wordCount > 0) {
+      }
-            percent = startPos.size() * 100.0 / wordCount;
+      if (sentence.hasParagraphEndMark(lang)) {
-          } else {
+        if(wordCount > 0) {
-            percent = 0;
+          percent = startPos.size() * 100.0 / wordCount;
-          }
+        } else {
-          if (percent > minPercent) {
+          percent = 0;
-            for (int i = 0; i < startPos.size(); i++) {
+        }
-              RuleMatch ruleMatch = new RuleMatch(this, sentence, startPos.get(i), endPos.get(i), msg);
+        if (percent > minPercent) {
-              ruleMatches.add(ruleMatch);
+          for (int i = 0; i < startPos.size(); i++) {
-            }
+            RuleMatch ruleMatch = new RuleMatch(this, relevantSentences.get(i), startPos.get(i), endPos.get(i), msg);
+            ruleMatches.add(ruleMatch);
           }
-          wordCount = 0;
-          startPos = new ArrayList<>();
-          endPos = new ArrayList<>();
-          relevantSentences = new ArrayList<>();
         }
+        wordCount = 0;
+        startPos = new ArrayList<>();
+        endPos = new ArrayList<>();
+        relevantSentences = new ArrayList<>();
       }
       pos += sentence.getText().length();
     }

diff --git a/languagetool-language-modules/de/src/main/java/org/languagetool/language/German.java b/languagetool-language-modules/de/src/main/java/org/languagetool/language/German.java
@@ -192,7 +192,7 @@ public List<Rule> getRelevantRules(ResourceBundle messages, UserConfig userConfi
             new CompoundCoherencyRule(messages),
             new LongSentenceRule(messages, userConfig),
             new LongParagraphRule(messages, this, userConfig),
-            new GermanFillerWordsRule(messages, userConfig),
+            new GermanFillerWordsRule(messages, this, userConfig),
             new GermanParagraphRepeatBeginningRule(messages, this),
             new PunctuationMarkAtParagraphEnd(messages, this),
             new DuUpperLowerCaseRule(messages),

diff --git a/...ol-language-modules/de/src/main/java/org/languagetool/rules/de/GermanFillerWordsRule.java b/...ol-language-modules/de/src/main/java/org/languagetool/rules/de/GermanFillerWordsRule.java
@@ -26,6 +26,7 @@
 import javax.swing.JOptionPane;
 
 import org.languagetool.AnalyzedTokenReadings;
+import org.languagetool.Language;
 import org.languagetool.UserConfig;
 import org.languagetool.rules.AbstractFillerWordsRule;
 
@@ -59,8 +60,8 @@ public class GermanFillerWordsRule extends AbstractFillerWordsRule {
       "womöglich","ziemlich","zudem","zugegeben","zumeist","zusehends","zuweilen","zweifellos","zweifelsfrei","zweifelsohne"
   ));
 
-  public GermanFillerWordsRule(ResourceBundle messages, UserConfig userConfig) {
+  public GermanFillerWordsRule(ResourceBundle messages, Language lang, UserConfig userConfig) {
-    super(messages, userConfig);
+    super(messages, lang, userConfig);
   }
 
   @Override
@@ -75,7 +76,7 @@ protected boolean isFillerWord(String token) {
 
   @Override
   public boolean isException(AnalyzedTokenReadings[] tokens, int num) {
-    if ("aber".equals(tokens[num].getToken()) && num >= 2 && ",".equals(tokens[num - 2].getToken())) {
+    if ("aber".equals(tokens[num].getToken()) && num >= 1 && ",".equals(tokens[num - 1].getToken())) {
       return true;
     }
     return false;

diff --git a/...anguage-modules/de/src/test/java/org/languagetool/rules/de/GermanFillerWordsRuleTest.java b/...anguage-modules/de/src/test/java/org/languagetool/rules/de/GermanFillerWordsRuleTest.java
@@ -20,6 +20,7 @@
 
 import org.junit.Test;
 import org.languagetool.JLanguageTool;
+import org.languagetool.Language;
 import org.languagetool.TestTools;
 import org.languagetool.UserConfig;
 import org.languagetool.language.German;
@@ -35,10 +36,12 @@
  * @author Fred Kruse
  */
 public class GermanFillerWordsRuleTest {
+
+  private final Language lang = new German();
 
   @Test
   public void testRule() throws IOException {
-    JLanguageTool lt = new JLanguageTool(new German());
+    JLanguageTool lt = new JLanguageTool(lang);
     setUpRule(lt, null);
 
     //  more than 8% filler words (default)
@@ -63,7 +66,7 @@ private void setUpRule(JLanguageTool lt, UserConfig userConfig) {
       lt.disableRule(rule.getId());
     }
     GermanFillerWordsRule rule = 
-        new GermanFillerWordsRule(TestTools.getMessages(new German().getShortCode()), userConfig);
+        new GermanFillerWordsRule(TestTools.getMessages(lang.getShortCode()), lang, userConfig);
     lt.addRule(rule);
     lt.enableRule(rule.getId());
   }

diff --git a/languagetool-language-modules/pt/src/main/java/org/languagetool/language/Portuguese.java b/languagetool-language-modules/pt/src/main/java/org/languagetool/language/Portuguese.java
@@ -161,7 +161,7 @@ public List<Rule> getRelevantRules(ResourceBundle messages, UserConfig userConfi
             new PortugueseReplaceRule(messages),
             new PortugueseBarbarismsRule(messages),
             new PortugueseClicheRule(messages),
-            new PortugueseFillerWordsRule(messages, userConfig),
+            new PortugueseFillerWordsRule(messages, this, userConfig),
             new PortugueseRedundancyRule(messages),
             new PortugueseWordinessRule(messages),
             new PortugueseWeaselWordsRule(messages),

diff --git a/...anguage-modules/pt/src/main/java/org/languagetool/rules/pt/PortugueseFillerWordsRule.java b/...anguage-modules/pt/src/main/java/org/languagetool/rules/pt/PortugueseFillerWordsRule.java
@@ -24,6 +24,7 @@
 import java.util.Set;
 
 import org.languagetool.AnalyzedTokenReadings;
+import org.languagetool.Language;
 import org.languagetool.UserConfig;
 import org.languagetool.rules.AbstractFillerWordsRule;
 
@@ -59,8 +60,8 @@ public class PortugueseFillerWordsRule extends AbstractFillerWordsRule {
       "toda", "todas", "todo", "todos", "tudo", "ultrajante", "velho", "verdade", "vez", "vezes", "volta"
   ));
 
-  public PortugueseFillerWordsRule(ResourceBundle messages, UserConfig userConfig) {
+  public PortugueseFillerWordsRule(ResourceBundle messages, Language lang, UserConfig userConfig) {
-    super(messages, userConfig);
+    super(messages, lang, userConfig);
   }
 
   @Override
@@ -75,7 +76,7 @@ protected boolean isFillerWord(String token) {
 
   @Override
   public boolean isException(AnalyzedTokenReadings[] tokens, int num) {
-    if ("mas".equals(tokens[num].getToken()) && num >= 2 && ",".equals(tokens[num - 2].getToken())) {
+    if ("mas".equals(tokens[num].getToken()) && num >= 1 && ",".equals(tokens[num - 1].getToken())) {
       return true;
     }
     return false;