explodinggradients · jjmachan · Jul 31, 2024 · Jul 14, 2024 · Jul 14, 2024 · Jul 14, 2024
diff --git a/src/experimental/ragas_experimental/testset/extractors/regex_based.py b/src/experimental/ragas_experimental/testset/extractors/regex_based.py
@@ -30,19 +30,16 @@ def extract_text(self, text):
         )
         result = defaultdict(list)
         for m in matches:
-            m = {k: v for k, v in m.groupdict().items() if v is not None}
-            for key in m:
-                result[key].append(m[key])
-
+            m_dict = {k: v for k, v in m.groupdict().items() if v is not None}
+            for key, value in m_dict.items():
+                result[key].append(value)
         return result
 
     def extract(self, node: t.Union[Node, LCDocument]) -> t.Any:
         return super().extract(node)
 
     def merge_extractors(self, *extractors) -> t.List[Extractor]:
-        if isinstance(
-            self, RulebasedExtractor
-        ):  # Check if called by an initiated class
+        if isinstance(self, RulebasedExtractor):
             extractors = (self,) + extractors
 
         assert all(
@@ -69,13 +66,28 @@ def merge_extractors(self, *extractors) -> t.List[Extractor]:
                     added_indices.append(extractors.index(ext))
 
         extractors_to_return = []
-        for extractors in final_extractors:
+        for group_index, extractors in enumerate(final_extractors):
             if len(extractors) > 1:
-                pattern = "|".join([extractor.pattern for extractor in extractors])
-                updated_regex = Regex(name="merged_extractor", pattern=pattern)
+                # Process each pattern individually
+                processed_patterns = []
+                for extractor in extractors:
+                    pattern = extractor.pattern
+                    # Extract flags from the beginning of the pattern
+                    flags = ""
+                    if pattern.startswith("(?"):
+                        flag_end = pattern.index(")")
+                        flags = pattern[2:flag_end]
+                        pattern = pattern[flag_end + 1:]
+                    # Wrap the pattern in a non-capturing group with flags
+                    processed_patterns.append(f"(?{flags}:{pattern})")
+
+                # Join all processed patterns
+                merged_pattern = "|".join(processed_patterns)
+
+                updated_regex = Regex(name="merged_extractor", pattern=merged_pattern)
             else:
-                pattern = extractors[0].pattern
                 updated_regex = extractors[0].regex
+
             extractors_to_return.append(
                 RulebasedExtractor(
                     attribute=extractors[0].attribute,
@@ -85,10 +97,9 @@ def merge_extractors(self, *extractors) -> t.List[Extractor]:
             )
         return extractors_to_return
 
-
 links_extractor_pattern = r"(?i)\b(?:https?://|www\.)\S+\b"
 emails_extractor_pattern = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"
-markdown_headings = r"^(#{1,6})\s+(.*)"
+markdown_headings_pattern = r"^(#{1,6})\s+(.*)"
 
 email_extractor = RulebasedExtractor(
     regex=Regex(name="email", pattern=emails_extractor_pattern)
@@ -97,5 +108,6 @@ def merge_extractors(self, *extractors) -> t.List[Extractor]:
     regex=Regex(name="link", pattern=links_extractor_pattern)
 )
 markdown_headings = RulebasedExtractor(
-    regex=Regex(name="markdown_headings", pattern=markdown_headings), is_multiline=True
+    regex=Regex(name="markdown_headings", pattern=markdown_headings_pattern),
+    is_multiline=True
 )