### Check the original dataframe and datatype

In [7]:
import polars as pl

df = pl.read_parquet(r"/home/terry-liu/桌面/tcga_cancer/final_data.parquet")
print(df.head())

shape: (5, 10_760)
┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐
│ 70c1d5c6- ┆ 8043614c- ┆ 126e4c65- ┆ 8faa741c- ┆ … ┆ 9a569eaa- ┆ bdb3ba48- ┆ 0934e9a4- ┆ __index_ │
│ fb89-4b92 ┆ ce6a-42e2 ┆ dd29-4040 ┆ 2bd9-4114 ┆   ┆ 3147-493e ┆ 401d-4b25 ┆ f103-43e5 ┆ level_0_ │
│ -abc3-c04 ┆ -b974-955 ┆ -a256-8d5 ┆ -adc6-65c ┆   ┆ -9fe4-134 ┆ -a15d-9a1 ┆ -9998-49a ┆ _        │
│ 402…      ┆ 987…      ┆ f2f…      ┆ 8b0…      ┆   ┆ e5a…      ┆ 558…      ┆ 8a0…      ┆ ---      │
│ ---       ┆ ---       ┆ ---       ┆ ---       ┆   ┆ ---       ┆ ---       ┆ ---       ┆ str      │
│ f64       ┆ f64       ┆ f64       ┆ f64       ┆   ┆ f64       ┆ f64       ┆ f64       ┆          │
╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡
│ null      ┆ null      ┆ null      ┆ null      ┆ … ┆ null      ┆ null      ┆ null      ┆ ENSG0000 │
│           ┆           ┆           ┆           ┆   ┆           ┆       

### Let's see the original memory usage in GB if we don't assign the datatype.

In [8]:
byte = df.head().estimated_size()
print(f"{round(byte * 10 ** (-6), 2)} MB memory per 5 rows.")
print(f"{round(byte * 10 ** (-9) * (60000 / 5), 2)} GB memory for the entire dataframe.")

0.44 MB memory per 5 rows.
5.29 GB memory for the entire dataframe.


### Change all f64 to f32 using "with_columns"

In [9]:
df_f32 = df.with_columns([
    pl.col(name).cast(pl.Float32) if df.schema[name] == pl.Float64 else pl.col(name)
    for name in df.columns
])
print(df_f32.head())

shape: (5, 10_760)
┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐
│ 70c1d5c6- ┆ 8043614c- ┆ 126e4c65- ┆ 8faa741c- ┆ … ┆ 9a569eaa- ┆ bdb3ba48- ┆ 0934e9a4- ┆ __index_ │
│ fb89-4b92 ┆ ce6a-42e2 ┆ dd29-4040 ┆ 2bd9-4114 ┆   ┆ 3147-493e ┆ 401d-4b25 ┆ f103-43e5 ┆ level_0_ │
│ -abc3-c04 ┆ -b974-955 ┆ -a256-8d5 ┆ -adc6-65c ┆   ┆ -9fe4-134 ┆ -a15d-9a1 ┆ -9998-49a ┆ _        │
│ 402…      ┆ 987…      ┆ f2f…      ┆ 8b0…      ┆   ┆ e5a…      ┆ 558…      ┆ 8a0…      ┆ ---      │
│ ---       ┆ ---       ┆ ---       ┆ ---       ┆   ┆ ---       ┆ ---       ┆ ---       ┆ str      │
│ f32       ┆ f32       ┆ f32       ┆ f32       ┆   ┆ f32       ┆ f32       ┆ f32       ┆          │
╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡
│ null      ┆ null      ┆ null      ┆ null      ┆ … ┆ null      ┆ null      ┆ null      ┆ ENSG0000 │
│           ┆           ┆           ┆           ┆   ┆           ┆       

### After the changes, the memory usage will significantly drop.

In [11]:
byte_new = df_f32.head().estimated_size()
print(f"{round(byte_new * 10 ** (-6), 2)} MB memory per 5 rows.")
print(f"{round(byte_new * 10 ** (-9) * (60000 / 5), 2)} GB memory for the entire dataframe.")

0.23 MB memory per 5 rows.
2.71 GB memory for the entire dataframe.
