modin-project · YarShev · Jan 23, 2024 · Jan 22, 2024
@@ -686,6 +686,14 @@ def build_query_compiler(cls, dataset, columns, index_columns, **kwargs):
             row_lengths = [part.length() for part in remote_parts.T[0]]
         else:
             row_lengths = None
+
+        if (
+            dataset.pandas_metadata
+            and "column_indexes" in dataset.pandas_metadata
+            and dataset.pandas_metadata["column_indexes"][0]["numpy_type"] == "int64"
+        ):
+            columns = pandas.Index(columns).astype("int64").to_list()
+
         frame = cls.frame_cls(
             remote_parts,
             index,

@@ -2034,6 +2034,17 @@ def test_read_parquet_5767(self, tmp_path, engine):
         # both Modin and pandas read column "b" as a category
         df_equals(test_df, read_df.astype("int64"))
 
+    def test_read_parquet_6855(self, tmp_path, engine):
+        if engine == "fastparquet":
+            pytest.skip("integer columns aren't supported")
+        test_df = pandas.DataFrame(np.random.rand(10**2, 10))
+        path = tmp_path / "data"
+        path.mkdir()
+        file_name = "issue6855.parquet"
+        test_df.to_parquet(path / file_name, engine=engine)
+        read_df = pd.read_parquet(path / file_name, engine=engine)
+        df_equals(test_df, read_df)
+
     def test_read_parquet_s3_with_column_partitioning(
         self, s3_resource, engine, s3_storage_options
     ):