Update scraper.py

moj-analytical-services · Aug 7, 2020 · ccfdae2 · ccfdae2
1 parent 0ce3057
commit ccfdae2
Showing 1 changed file with 3 additions and 3 deletions.
diff --git a/pdf2embeddings/scraper.py b/pdf2embeddings/scraper.py
@@ -52,9 +52,9 @@ def _text_to_series_of_pages(self, pdf_name: str) -> Tuple[pd.Series, int]:
         """
         assert pdf_name.endswith('.pdf'), 'Input file is not in .pdf format. The file cannot be processed.'
         document_series = pd.Series()
-        if self.from_s3_bucket:
-            pdf = open(os.path.join(self.pdf_folder, pdf_name), 'rb')
         if not self.from_s3_bucket:
+            pdf = open(os.path.join(self.pdf_folder, pdf_name), 'rb')
+        if self.from_s3_bucket:
             pdf = s3fs.S3FileSystem().open(os.path.join(self.pdf_folder, pdf_name), 'rb')
         pdf_reader = slate3k.PDF(pdf)
         num_pages = len(pdf_reader)
@@ -110,4 +110,4 @@ def document_corpus_to_pandas_df(self) -> pd.DataFrame:
             if isinstance(series, pd.Series):
                 series.rename(file.replace('.pdf', ''), inplace=True)
                 df = pd.concat([df, series], axis=1)
-        return df
+        return df