Merge 5cae317 into c9ad329

qiime2 · Aug 6, 2019 · ffa9685 · ffa9685
2 parents c9ad329 + 5cae317
commit ffa9685
Show file tree

Hide file tree

Showing 11 changed files with 80 additions and 45 deletions.
diff --git a/q2_types/feature_data/_format.py b/q2_types/feature_data/_format.py
@@ -54,9 +54,6 @@ def sniff(self):
                 elif line.lstrip(' ') == '\n':
                     # Blank line
                     continue
-                elif line.startswith('#'):
-                    # Comment line
-                    continue
                 else:
                     cells = line.split('\t')
                     if len(cells) < 2:
@@ -113,9 +110,6 @@ def sniff(self):
                 elif line.lstrip(' ') == '\n':
                     # Blank line
                     continue
-                elif line.startswith('#'):
-                    # Comment line
-                    continue
 
                 cells = line.rstrip('\n').split('\t')
                 if header is None:

diff --git a/q2_types/feature_data/_transformer.py b/q2_types/feature_data/_transformer.py
@@ -47,7 +47,7 @@ def _taxonomy_formats_to_dataframe(filepath, has_header=None):
     """
     # Using `dtype=object` and `set_index()` to avoid type casting/inference of
     # any columns or the index.
-    df = pd.read_csv(filepath, sep='\t', comment='#', skip_blank_lines=True,
+    df = pd.read_csv(filepath, sep='\t', skip_blank_lines=True,
                      header=None, dtype=object)
 
     if len(df.columns) < 2:
@@ -168,6 +168,7 @@ def _6(ff: TaxonomyFormat) -> pd.Series:
 @plugin.register_transformer
 def _28(ff: TaxonomyFormat) -> qiime2.Metadata:
     df = _taxonomy_formats_to_dataframe(str(ff), has_header=None)
+    df['Taxon'] = df['Taxon'].str.strip()
     return qiime2.Metadata(df)
 
 
@@ -191,6 +192,7 @@ def _23(ff: TSVTaxonomyFormat) -> pd.Series:
 @plugin.register_transformer
 def _29(ff: TSVTaxonomyFormat) -> qiime2.Metadata:
     df = _taxonomy_formats_to_dataframe(str(ff), has_header=True)
+    df['Taxon'] = df['Taxon'].str.strip()
     return qiime2.Metadata(df)
 
 

diff --git a/q2_types/feature_data/tests/data/taxonomy/blanks b/q2_types/feature_data/tests/data/taxonomy/blanks
@@ -0,0 +1,17 @@
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
diff --git a/q2_types/feature_data/tests/data/taxonomy/blanks-and-comments b/q2_types/feature_data/tests/data/taxonomy/blanks-and-comments
diff --git a/q2_types/feature_data/tests/data/taxonomy/header-only.tsv b/q2_types/feature_data/tests/data/taxonomy/header-only.tsv
@@ -1,7 +1 @@
-# This file
-
-# only has a
-# header!
-
-
 Feature ID	Taxon
diff --git a/q2_types/feature_data/tests/data/taxonomy/leading_space_taxon.tsv b/q2_types/feature_data/tests/data/taxonomy/leading_space_taxon.tsv
@@ -0,0 +1,2 @@
+Feature ID	Taxon	Confidence
+seq1	 k__Foo; p__Bar	-1.0
diff --git a/q2_types/feature_data/tests/data/taxonomy/start_end_space_taxon.tsv b/q2_types/feature_data/tests/data/taxonomy/start_end_space_taxon.tsv
@@ -0,0 +1,2 @@
+Feature ID	Taxon	Confidence
+seq1	k__Foo; p__Bar 	-1.0
diff --git a/q2_types/feature_data/tests/data/taxonomy/trailing_space_taxon.tsv b/q2_types/feature_data/tests/data/taxonomy/trailing_space_taxon.tsv
@@ -0,0 +1,2 @@
+Feature ID	Taxon	Confidence
+seq1	 k__Foo; p__Bar 	-1.0
diff --git a/q2_types/feature_data/tests/data/taxonomy/valid-but-messy.tsv b/q2_types/feature_data/tests/data/taxonomy/valid-but-messy.tsv
@@ -1,11 +1,11 @@
 
 
-# There's some important whitespace in this file for testing, take care not to
-# remove :)
 
-# hello
 
-# world #
+
+
+
+
 
 
 
@@ -15,20 +15,20 @@
 
 
 
-# comment
+
 
 Feature ID	Taxon	Extra Column
 
-# hello, peanut
-#
 
-#  
+
+
+
 
 
 SEQUENCE1	k__Bar; p__Baz	foo
 
-# GWAR
+
 seq2	some; taxonomy; for; ya	bar baz
 
 
-# FOOTER
+
diff --git a/q2_types/feature_data/tests/test_format.py b/q2_types/feature_data/tests/test_format.py
@@ -37,7 +37,7 @@ def test_taxonomy_format_validate_positive(self):
             format.validate()
 
     def test_taxonomy_format_validate_negative(self):
-        filenames = ['empty', 'blanks-and-comments', '1-column.tsv']
+        filenames = ['empty', 'blanks', '1-column.tsv']
         filepaths = [self.get_data_path(os.path.join('taxonomy', filename))
                      for filename in filenames]
 
@@ -78,7 +78,7 @@ def test_headerless_tsv_taxonomy_format_validate_positive(self):
             format.validate()
 
     def test_headerless_tsv_taxonomy_format_validate_negative(self):
-        filenames = ['empty', 'blanks-and-comments', '1-column.tsv']
+        filenames = ['empty', 'blanks', '1-column.tsv']
         filepaths = [self.get_data_path(os.path.join('taxonomy', filename))
                      for filename in filenames]
 
@@ -113,7 +113,7 @@ def test_tsv_taxonomy_format_validate_positive(self):
             format.validate()
 
     def test_tsv_taxonomy_format_validate_negative(self):
-        filenames = ['empty', 'blanks-and-comments', '1-column.tsv',
+        filenames = ['empty', 'blanks', '1-column.tsv',
                      'headerless.tsv', 'header-only.tsv', 'jagged.tsv']
         filepaths = [self.get_data_path(os.path.join('taxonomy', filename))
                      for filename in filenames]

diff --git a/q2_types/feature_data/tests/test_transformer.py b/q2_types/feature_data/tests/test_transformer.py
@@ -264,6 +264,45 @@ def test_tsv_taxonomy_format_to_metadata(self):
 
         self.assertEqual(exp, obs)
 
+    def test_tsv_taxonomy_to_metadata_trailing_whitespace_taxon(self):
+        _, obs = self.transform_format(TSVTaxonomyFormat, qiime2.Metadata,
+                                       os.path.join(
+                                           'taxonomy',
+                                           'trailing_space_taxon.tsv'))
+
+        index = pd.Index(['seq1'], name='Feature ID', dtype=object)
+        exp_df = pd.DataFrame([['k__Foo; p__Bar', '-1.0']], index=index,
+                              columns=['Taxon', 'Confidence'], dtype=object)
+        exp = qiime2.Metadata(exp_df)
+
+        self.assertEqual(exp, obs)
+
+    def test_tsv_taxonomy_to_metadata_leading_whitespace_taxon(self):
+        _, obs = self.transform_format(TSVTaxonomyFormat, qiime2.Metadata,
+                                       os.path.join(
+                                           'taxonomy',
+                                           'leading_space_taxon.tsv'))
+
+        index = pd.Index(['seq1'], name='Feature ID', dtype=object)
+        exp_df = pd.DataFrame([['k__Foo; p__Bar', '-1.0']], index=index,
+                              columns=['Taxon', 'Confidence'], dtype=object)
+        exp = qiime2.Metadata(exp_df)
+
+        self.assertEqual(exp, obs)
+
+    def test_tsv_taxonomy_to_metadata_trailing_leading_whitespace_taxon(self):
+        _, obs = self.transform_format(TSVTaxonomyFormat, qiime2.Metadata,
+                                       os.path.join(
+                                           'taxonomy',
+                                           'start_end_space_taxon.tsv'))
+
+        index = pd.Index(['seq1'], name='Feature ID', dtype=object)
+        exp_df = pd.DataFrame([['k__Foo; p__Bar', '-1.0']], index=index,
+                              columns=['Taxon', 'Confidence'], dtype=object)
+        exp = qiime2.Metadata(exp_df)
+
+        self.assertEqual(exp, obs)
+
 
 # In-depth testing of the `_taxonomy_formats_to_dataframe` helper function,
 # which does the heavy lifting for the transformers.
@@ -275,11 +314,11 @@ def test_one_column(self):
             _taxonomy_formats_to_dataframe(
                 self.get_data_path(os.path.join('taxonomy', '1-column.tsv')))
 
-    def test_blanks_and_comments(self):
+    def test_blanks(self):
         with self.assertRaises(pandas.io.common.EmptyDataError):
             _taxonomy_formats_to_dataframe(
                 self.get_data_path(os.path.join('taxonomy',
-                                                'blanks-and-comments')))
+                                                'blanks')))
 
     def test_empty(self):
         with self.assertRaises(pandas.io.common.EmptyDataError):