In [1]:
import pathlib

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
import tqdm
from scipy.stats import levene

# import anova and tukeyhsd
from statsmodels.formula.api import ols
from statsmodels.stats.multicomp import pairwise_tukeyhsd

In [2]:
def anova_function(features_df: pd.DataFrame, Metdata_column: str) -> pd.DataFrame:
    """
    This function will take in a dataframe and a metadata column and return the results of an anova and tukeyhsd test for each feature.


    Parameters
    ----------
    features_df : pd.DataFrame
        The dataframe containing the features with only one metadata column
    Metdata_column : str
        The name of the metadata column to be used for the anova test

    Returns
    -------
    pd.DataFrame
        A dataframe containing the results of the anova and tukeyhsd test for each feature
    """

    # anova and tukeyhsd for each feature
    # create a pandas data frame to store the results
    anova_results = pd.DataFrame()

    # loop through each feature
    for feature in tqdm.tqdm(features_df.columns[:-1]):
        # create a model
        model = ols(f"{feature} ~ C({Metdata_column})", data=features_df).fit()
        # create an anova table
        anova_table = sm.stats.anova_lm(model, typ=2)
        # create a tukeyhsd table
        tukeyhsd = pairwise_tukeyhsd(features_df[feature], features_df[Metdata_column])
        # get the f-statistic based p-value
        anova_p_value = anova_table["PR(>F)"][0]
        tmp = pd.DataFrame(
            tukeyhsd._results_table.data, columns=tukeyhsd._results_table.data[0]
        ).drop(0)
        tmp.reset_index(inplace=True, drop=True)
        # drop the first row
        tmp["feature"] = feature
        tmp["anova_p_value"] = anova_p_value
        tmp = pd.DataFrame(tmp)

        anova_results = pd.concat([anova_results, tmp], axis=0).reset_index(drop=True)
    return anova_results

In [3]:
file_path = pathlib.Path("../../data/5.converted_data/mean_aggregated_data.parquet")
df = pd.read_parquet(file_path)
df.head()

Unnamed: 0,Metadata_genotype,Metadata_replicate,AreaShape_Area,AreaShape_CentralMoment_0_0,AreaShape_CentralMoment_0_1,AreaShape_CentralMoment_0_2,AreaShape_CentralMoment_0_3,AreaShape_CentralMoment_1_0,AreaShape_CentralMoment_1_1,AreaShape_CentralMoment_1_2,...,Texture_SumEntropy_OP_3_02_256,Texture_SumEntropy_OP_3_03_256,Texture_SumVariance_OP_3_00_256,Texture_SumVariance_OP_3_01_256,Texture_SumVariance_OP_3_02_256,Texture_SumVariance_OP_3_03_256,Texture_Variance_OP_3_00_256,Texture_Variance_OP_3_01_256,Texture_Variance_OP_3_02_256,Texture_Variance_OP_3_03_256
0,high,1,0.596483,0.596483,0.270876,-0.049237,0.390868,2.100915,-0.463937,-0.042982,...,-0.104105,-0.119036,-0.545856,-0.525027,-0.543305,-0.544589,-0.557563,-0.562101,-0.558976,-0.560872
1,high,10,1.238954,1.238954,0.659813,1.722364,-0.874297,0.179195,-1.64476,0.82527,...,0.646977,0.635356,0.630682,0.642091,0.593754,0.635274,0.557863,0.548473,0.560985,0.547769
2,high,11,2.131207,2.131207,0.630866,1.426469,0.291591,1.801207,-0.270662,-0.164307,...,0.686771,0.67823,0.552382,0.570823,0.526266,0.548475,0.498825,0.486269,0.500083,0.490213
3,high,12,1.201238,1.201238,0.024943,1.279119,-0.464086,-1.652853,-0.982309,0.10768,...,0.309505,0.308933,-0.054779,-0.059876,-0.0984,-0.06793,-0.103782,-0.109367,-0.101086,-0.106772
4,high,13,1.194888,1.194888,-0.554368,-0.034466,0.050882,-1.34498,-0.483673,-0.794434,...,0.056706,0.047741,-0.325171,-0.295674,-0.321039,-0.322436,-0.348409,-0.356255,-0.350286,-0.352168


In [4]:
# split the features and the metadata
metadata = df.columns.str.contains("Metadata")
# filter the metadata
metadata_df = df.loc[:, metadata]
# filter the features
features_df = df.loc[:, ~metadata]

## Anova for genotype only

In [5]:
anova_input_df = features_df.copy()
anova_input_df["Metadata_genotype"] = metadata_df["Metadata_genotype"]
anova_output_df = anova_function(anova_input_df, "Metadata_genotype")
print(anova_output_df.shape)
anova_output_df.head()

  0%|                                                                                                                                                                                                                                             | 0/244 [00:00<?, ?it/s]

  0%|▉                                                                                                                                                                                                                                    | 1/244 [00:00<00:30,  7.94it/s]

  1%|█▉                                                                                                                                                                                                                                   | 2/244 [00:00<00:29,  8.09it/s]

  1%|██▊                                                                                                                                                                                                                                  | 3/244 [00:00<00:29,  8.29it/s]

  2%|███▊                                                                                                                                                                                                                                 | 4/244 [00:00<00:29,  8.26it/s]

  2%|████▋                                                                                                                                                                                                                                | 5/244 [00:00<00:28,  8.32it/s]

  2%|█████▋                                                                                                                                                                                                                               | 6/244 [00:00<00:27,  8.51it/s]

  3%|██████▌                                                                                                                                                                                                                              | 7/244 [00:00<00:28,  8.39it/s]

  3%|███████▌                                                                                                                                                                                                                             | 8/244 [00:00<00:28,  8.41it/s]

  4%|████████▍                                                                                                                                                                                                                            | 9/244 [00:01<00:28,  8.36it/s]

  4%|█████████▎                                                                                                                                                                                                                          | 10/244 [00:01<00:28,  8.32it/s]

  5%|██████████▎                                                                                                                                                                                                                         | 11/244 [00:01<00:27,  8.35it/s]

  5%|███████████▏                                                                                                                                                                                                                        | 12/244 [00:01<00:28,  8.26it/s]

  5%|████████████▏                                                                                                                                                                                                                       | 13/244 [00:01<00:28,  8.21it/s]

  6%|█████████████                                                                                                                                                                                                                       | 14/244 [00:01<00:27,  8.22it/s]

  6%|██████████████                                                                                                                                                                                                                      | 15/244 [00:01<00:27,  8.18it/s]

  7%|██████████████▉                                                                                                                                                                                                                     | 16/244 [00:01<00:28,  8.13it/s]

  7%|███████████████▉                                                                                                                                                                                                                    | 17/244 [00:02<00:28,  8.06it/s]

  7%|████████████████▊                                                                                                                                                                                                                   | 18/244 [00:02<00:28,  8.00it/s]

  8%|█████████████████▊                                                                                                                                                                                                                  | 19/244 [00:02<00:28,  7.98it/s]

  8%|██████████████████▋                                                                                                                                                                                                                 | 20/244 [00:02<00:28,  7.98it/s]

  9%|███████████████████▌                                                                                                                                                                                                                | 21/244 [00:02<00:27,  8.05it/s]

  9%|████████████████████▌                                                                                                                                                                                                               | 22/244 [00:02<00:27,  8.10it/s]

  9%|█████████████████████▍                                                                                                                                                                                                              | 23/244 [00:02<00:27,  8.17it/s]

 10%|██████████████████████▍                                                                                                                                                                                                             | 24/244 [00:02<00:26,  8.28it/s]

 10%|███████████████████████▎                                                                                                                                                                                                            | 25/244 [00:03<00:26,  8.27it/s]

 11%|████████████████████████▎                                                                                                                                                                                                           | 26/244 [00:03<00:26,  8.32it/s]

 11%|█████████████████████████▏                                                                                                                                                                                                          | 27/244 [00:03<00:26,  8.34it/s]

 11%|██████████████████████████▏                                                                                                                                                                                                         | 28/244 [00:03<00:25,  8.38it/s]

 12%|███████████████████████████                                                                                                                                                                                                         | 29/244 [00:03<00:25,  8.34it/s]

 12%|████████████████████████████                                                                                                                                                                                                        | 30/244 [00:03<00:25,  8.29it/s]

 13%|████████████████████████████▉                                                                                                                                                                                                       | 31/244 [00:03<00:25,  8.29it/s]

 13%|█████████████████████████████▉                                                                                                                                                                                                      | 32/244 [00:03<00:25,  8.21it/s]

 14%|██████████████████████████████▊                                                                                                                                                                                                     | 33/244 [00:04<00:25,  8.20it/s]

 14%|███████████████████████████████▊                                                                                                                                                                                                    | 34/244 [00:04<00:25,  8.23it/s]

 14%|████████████████████████████████▋                                                                                                                                                                                                   | 35/244 [00:04<00:25,  8.29it/s]

 15%|█████████████████████████████████▋                                                                                                                                                                                                  | 36/244 [00:04<00:25,  8.29it/s]

 15%|██████████████████████████████████▌                                                                                                                                                                                                 | 37/244 [00:04<00:24,  8.28it/s]

 16%|███████████████████████████████████▌                                                                                                                                                                                                | 38/244 [00:04<00:24,  8.27it/s]

 16%|████████████████████████████████████▍                                                                                                                                                                                               | 39/244 [00:04<00:24,  8.25it/s]

 16%|█████████████████████████████████████▍                                                                                                                                                                                              | 40/244 [00:04<00:24,  8.26it/s]

 17%|██████████████████████████████████████▎                                                                                                                                                                                             | 41/244 [00:04<00:24,  8.26it/s]

 17%|███████████████████████████████████████▏                                                                                                                                                                                            | 42/244 [00:05<00:24,  8.27it/s]

 18%|████████████████████████████████████████▏                                                                                                                                                                                           | 43/244 [00:05<00:24,  8.30it/s]

 18%|█████████████████████████████████████████                                                                                                                                                                                           | 44/244 [00:05<00:24,  8.28it/s]

 18%|██████████████████████████████████████████                                                                                                                                                                                          | 45/244 [00:05<00:24,  8.27it/s]

 19%|██████████████████████████████████████████▉                                                                                                                                                                                         | 46/244 [00:05<00:23,  8.26it/s]

 19%|███████████████████████████████████████████▉                                                                                                                                                                                        | 47/244 [00:05<00:23,  8.39it/s]

 20%|████████████████████████████████████████████▊                                                                                                                                                                                       | 48/244 [00:05<00:23,  8.38it/s]

 20%|█████████████████████████████████████████████▊                                                                                                                                                                                      | 49/244 [00:05<00:23,  8.37it/s]

 20%|██████████████████████████████████████████████▋                                                                                                                                                                                     | 50/244 [00:06<00:23,  8.42it/s]

 21%|███████████████████████████████████████████████▋                                                                                                                                                                                    | 51/244 [00:06<00:23,  8.39it/s]

 21%|████████████████████████████████████████████████▌                                                                                                                                                                                   | 52/244 [00:06<00:22,  8.38it/s]

 22%|█████████████████████████████████████████████████▌                                                                                                                                                                                  | 53/244 [00:06<00:22,  8.36it/s]

 22%|██████████████████████████████████████████████████▍                                                                                                                                                                                 | 54/244 [00:06<00:22,  8.38it/s]

 23%|███████████████████████████████████████████████████▍                                                                                                                                                                                | 55/244 [00:06<00:22,  8.36it/s]

 23%|████████████████████████████████████████████████████▎                                                                                                                                                                               | 56/244 [00:06<00:22,  8.43it/s]

 23%|█████████████████████████████████████████████████████▎                                                                                                                                                                              | 57/244 [00:06<00:22,  8.41it/s]

 24%|██████████████████████████████████████████████████████▏                                                                                                                                                                             | 58/244 [00:07<00:22,  8.40it/s]

 24%|███████████████████████████████████████████████████████▏                                                                                                                                                                            | 59/244 [00:07<00:22,  8.38it/s]

 25%|████████████████████████████████████████████████████████                                                                                                                                                                            | 60/244 [00:07<00:22,  8.33it/s]

 25%|█████████████████████████████████████████████████████████                                                                                                                                                                           | 61/244 [00:07<00:22,  8.30it/s]

 25%|█████████████████████████████████████████████████████████▉                                                                                                                                                                          | 62/244 [00:07<00:21,  8.29it/s]

 26%|██████████████████████████████████████████████████████████▊                                                                                                                                                                         | 63/244 [00:07<00:21,  8.25it/s]

 26%|███████████████████████████████████████████████████████████▊                                                                                                                                                                        | 64/244 [00:07<00:21,  8.23it/s]

 27%|████████████████████████████████████████████████████████████▋                                                                                                                                                                       | 65/244 [00:07<00:21,  8.23it/s]

 27%|█████████████████████████████████████████████████████████████▋                                                                                                                                                                      | 66/244 [00:07<00:21,  8.24it/s]

 27%|██████████████████████████████████████████████████████████████▌                                                                                                                                                                     | 67/244 [00:08<00:21,  8.25it/s]

 28%|███████████████████████████████████████████████████████████████▌                                                                                                                                                                    | 68/244 [00:08<00:21,  8.22it/s]

 28%|████████████████████████████████████████████████████████████████▍                                                                                                                                                                   | 69/244 [00:08<00:21,  8.13it/s]

 29%|█████████████████████████████████████████████████████████████████▍                                                                                                                                                                  | 70/244 [00:08<00:21,  8.05it/s]

 29%|██████████████████████████████████████████████████████████████████▎                                                                                                                                                                 | 71/244 [00:08<00:21,  8.02it/s]

 30%|███████████████████████████████████████████████████████████████████▎                                                                                                                                                                | 72/244 [00:08<00:21,  8.10it/s]

 30%|████████████████████████████████████████████████████████████████████▏                                                                                                                                                               | 73/244 [00:08<00:20,  8.20it/s]

 30%|█████████████████████████████████████████████████████████████████████▏                                                                                                                                                              | 74/244 [00:08<00:20,  8.21it/s]

 31%|██████████████████████████████████████████████████████████████████████                                                                                                                                                              | 75/244 [00:09<00:20,  8.22it/s]

 31%|███████████████████████████████████████████████████████████████████████                                                                                                                                                             | 76/244 [00:09<00:20,  8.24it/s]

 32%|███████████████████████████████████████████████████████████████████████▉                                                                                                                                                            | 77/244 [00:09<00:20,  8.26it/s]

 32%|████████████████████████████████████████████████████████████████████████▉                                                                                                                                                           | 78/244 [00:09<00:20,  8.20it/s]

 32%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                                                          | 79/244 [00:09<00:20,  8.16it/s]

 33%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                                                         | 80/244 [00:09<00:20,  8.11it/s]

 33%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                                                        | 81/244 [00:09<00:20,  8.11it/s]

 34%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                       | 82/244 [00:09<00:20,  8.01it/s]

 34%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                      | 83/244 [00:10<00:19,  8.08it/s]

 34%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                     | 84/244 [00:10<00:19,  8.05it/s]

 35%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                                                    | 85/244 [00:10<00:19,  7.99it/s]

 35%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                   | 86/244 [00:10<00:19,  8.02it/s]

 36%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                  | 87/244 [00:10<00:19,  8.02it/s]

 36%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                 | 88/244 [00:10<00:19,  8.03it/s]

 36%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                | 89/244 [00:10<00:19,  8.04it/s]

 37%|████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                | 90/244 [00:10<00:19,  8.05it/s]

 37%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                                                               | 91/244 [00:11<00:19,  7.99it/s]

 38%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                              | 92/244 [00:11<00:19,  7.98it/s]

 38%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                             | 93/244 [00:11<00:19,  7.94it/s]

 39%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                            | 94/244 [00:11<00:18,  7.91it/s]

 39%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                           | 95/244 [00:11<00:18,  7.97it/s]

 39%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                          | 96/244 [00:11<00:18,  8.00it/s]

 40%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                         | 97/244 [00:11<00:18,  8.07it/s]

 40%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                        | 98/244 [00:11<00:18,  8.10it/s]

 41%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                       | 99/244 [00:12<00:18,  8.04it/s]

 41%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                      | 100/244 [00:12<00:17,  8.00it/s]

 41%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                     | 101/244 [00:12<00:17,  7.96it/s]

 42%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                    | 102/244 [00:12<00:17,  7.97it/s]

 42%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                   | 103/244 [00:12<00:17,  7.99it/s]

 43%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                  | 104/244 [00:12<00:17,  8.05it/s]

 43%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                 | 105/244 [00:12<00:17,  8.04it/s]

 43%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                | 106/244 [00:12<00:17,  8.08it/s]

 44%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                               | 107/244 [00:13<00:17,  8.04it/s]

 44%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                              | 108/244 [00:13<00:17,  7.99it/s]

 45%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                             | 109/244 [00:13<00:16,  7.97it/s]

 45%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                            | 110/244 [00:13<00:16,  8.03it/s]

 45%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                           | 111/244 [00:13<00:16,  8.06it/s]

 46%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                          | 112/244 [00:13<00:16,  8.05it/s]

 46%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 113/244 [00:13<00:16,  8.00it/s]

 47%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                         | 114/244 [00:13<00:16,  7.96it/s]

 47%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 115/244 [00:14<00:16,  7.77it/s]

 48%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 116/244 [00:14<00:16,  7.81it/s]

 48%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 117/244 [00:14<00:16,  7.90it/s]

 48%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 118/244 [00:14<00:15,  7.93it/s]

 49%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 119/244 [00:14<00:15,  7.93it/s]

 49%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 120/244 [00:14<00:15,  7.93it/s]

 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 121/244 [00:14<00:15,  7.98it/s]

 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 122/244 [00:14<00:15,  7.97it/s]

 50%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 123/244 [00:15<00:15,  8.00it/s]

 51%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 124/244 [00:15<00:15,  7.99it/s]

 51%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 125/244 [00:15<00:14,  7.95it/s]

 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 126/244 [00:15<00:14,  7.96it/s]

 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 127/244 [00:15<00:14,  7.94it/s]

 52%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 128/244 [00:15<00:14,  7.96it/s]

 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 129/244 [00:15<00:14,  7.99it/s]

 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 130/244 [00:15<00:14,  8.03it/s]

 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 131/244 [00:16<00:13,  8.07it/s]

 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 132/244 [00:16<00:13,  8.16it/s]

 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 133/244 [00:16<00:13,  8.12it/s]

 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 134/244 [00:16<00:13,  8.04it/s]

 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 135/244 [00:16<00:14,  7.76it/s]

 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 136/244 [00:16<00:13,  7.84it/s]

 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 137/244 [00:16<00:13,  7.86it/s]

 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 138/244 [00:16<00:13,  7.93it/s]

 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                 | 139/244 [00:17<00:13,  7.99it/s]

 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 140/244 [00:17<00:12,  8.06it/s]

 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 141/244 [00:17<00:12,  8.01it/s]

 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 142/244 [00:17<00:12,  7.95it/s]

 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 143/244 [00:17<00:12,  7.92it/s]

 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 144/244 [00:17<00:12,  7.92it/s]

 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 145/244 [00:17<00:12,  7.98it/s]

 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 146/244 [00:17<00:12,  7.92it/s]

 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 147/244 [00:18<00:12,  7.95it/s]

 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 148/244 [00:18<00:12,  7.93it/s]

 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 149/244 [00:18<00:11,  7.93it/s]

 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 150/244 [00:18<00:11,  7.99it/s]

 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 151/244 [00:18<00:11,  7.96it/s]

 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 152/244 [00:18<00:11,  7.97it/s]

 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 153/244 [00:18<00:11,  7.96it/s]

 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 154/244 [00:18<00:11,  7.98it/s]

 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 155/244 [00:19<00:11,  7.95it/s]

 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 156/244 [00:19<00:11,  7.99it/s]

 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 157/244 [00:19<00:10,  7.96it/s]

 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 158/244 [00:19<00:10,  7.98it/s]

 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 159/244 [00:19<00:10,  7.97it/s]

 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 160/244 [00:19<00:10,  7.96it/s]

 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 161/244 [00:19<00:10,  7.95it/s]

 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 162/244 [00:19<00:10,  7.93it/s]

 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 163/244 [00:20<00:10,  7.94it/s]

 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 164/244 [00:20<00:10,  7.87it/s]

 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 165/244 [00:20<00:10,  7.85it/s]

 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 166/244 [00:20<00:09,  7.86it/s]

 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 167/244 [00:20<00:09,  7.85it/s]

 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 168/244 [00:20<00:09,  7.98it/s]

 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 169/244 [00:20<00:09,  8.09it/s]

 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 170/244 [00:20<00:09,  8.13it/s]

 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 171/244 [00:21<00:08,  8.23it/s]

 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 172/244 [00:21<00:08,  8.21it/s]

 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 173/244 [00:21<00:08,  8.17it/s]

 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 174/244 [00:21<00:08,  8.21it/s]

 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 175/244 [00:21<00:08,  8.15it/s]

 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 176/244 [00:21<00:08,  8.25it/s]

 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 177/244 [00:21<00:08,  8.30it/s]

 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 178/244 [00:21<00:07,  8.30it/s]

 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 179/244 [00:22<00:07,  8.35it/s]

 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 180/244 [00:22<00:07,  8.42it/s]

 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 181/244 [00:22<00:07,  8.47it/s]

 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 182/244 [00:22<00:07,  8.37it/s]

 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 183/244 [00:22<00:07,  8.28it/s]

 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 184/244 [00:22<00:07,  8.28it/s]

 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 185/244 [00:22<00:07,  8.23it/s]

 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 186/244 [00:22<00:07,  8.13it/s]

 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 187/244 [00:23<00:06,  8.23it/s]

 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 188/244 [00:23<00:06,  8.28it/s]

 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 189/244 [00:23<00:06,  8.20it/s]

 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 190/244 [00:23<00:06,  8.12it/s]

 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 191/244 [00:23<00:06,  8.05it/s]

 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 192/244 [00:23<00:06,  8.11it/s]

 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 193/244 [00:23<00:06,  8.05it/s]

 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 194/244 [00:23<00:06,  8.02it/s]

 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 195/244 [00:24<00:06,  7.99it/s]

 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 196/244 [00:24<00:06,  7.96it/s]

 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 197/244 [00:24<00:05,  8.01it/s]

 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 198/244 [00:24<00:05,  8.05it/s]

 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 199/244 [00:24<00:05,  8.06it/s]

 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 200/244 [00:24<00:05,  8.10it/s]

 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 201/244 [00:24<00:05,  8.05it/s]

 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 202/244 [00:24<00:05,  8.03it/s]

 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 203/244 [00:25<00:05,  8.00it/s]

 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 204/244 [00:25<00:05,  7.97it/s]

 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 205/244 [00:25<00:04,  7.98it/s]

 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 206/244 [00:25<00:04,  7.96it/s]

 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 207/244 [00:25<00:04,  7.97it/s]

 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 208/244 [00:25<00:04,  7.95it/s]

 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 209/244 [00:25<00:04,  7.97it/s]

 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 210/244 [00:25<00:04,  7.95it/s]

 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 211/244 [00:26<00:04,  7.95it/s]

 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 212/244 [00:26<00:04,  7.95it/s]

 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 213/244 [00:26<00:03,  7.95it/s]

 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 214/244 [00:26<00:03,  7.98it/s]

 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 215/244 [00:26<00:03,  7.97it/s]

 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 216/244 [00:26<00:03,  7.98it/s]

 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 217/244 [00:26<00:03,  8.05it/s]

 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 218/244 [00:26<00:03,  8.08it/s]

 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 219/244 [00:27<00:03,  8.08it/s]

 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 220/244 [00:27<00:02,  8.12it/s]

 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 221/244 [00:27<00:02,  8.10it/s]

 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 222/244 [00:27<00:02,  8.05it/s]

 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 223/244 [00:27<00:02,  8.03it/s]

 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 224/244 [00:27<00:02,  8.04it/s]

 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 225/244 [00:27<00:02,  8.09it/s]

 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 226/244 [00:27<00:02,  8.08it/s]

 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 227/244 [00:28<00:02,  8.09it/s]

 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 228/244 [00:28<00:01,  8.11it/s]

 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 229/244 [00:28<00:01,  8.02it/s]

 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 230/244 [00:28<00:01,  7.94it/s]

 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 231/244 [00:28<00:01,  7.89it/s]

 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 232/244 [00:28<00:01,  7.83it/s]

 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 233/244 [00:28<00:01,  7.89it/s]

 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 234/244 [00:28<00:01,  7.93it/s]

 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 235/244 [00:29<00:01,  7.93it/s]

 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 236/244 [00:29<00:01,  7.96it/s]

 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 237/244 [00:29<00:00,  7.97it/s]

 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 238/244 [00:29<00:00,  7.99it/s]

 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 239/244 [00:29<00:00,  7.95it/s]

 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 240/244 [00:29<00:00,  7.92it/s]

 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 241/244 [00:29<00:00,  7.89it/s]

 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 242/244 [00:29<00:00,  7.88it/s]

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 243/244 [00:30<00:00,  7.88it/s]

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 244/244 [00:30<00:00,  7.83it/s]

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 244/244 [00:30<00:00,  8.09it/s]

(732, 9)





Unnamed: 0,group1,group2,meandiff,p-adj,lower,upper,reject,feature,anova_p_value
0,high,unsel,-1.4484,0.0,-1.9694,-0.9273,True,AreaShape_Area,3.79426e-11
1,high,wt,-2.0158,0.0,-2.5369,-1.4948,True,AreaShape_Area,3.79426e-11
2,unsel,wt,-0.5674,0.0302,-1.0885,-0.0464,True,AreaShape_Area,3.79426e-11
3,high,unsel,-1.4484,0.0,-1.9694,-0.9273,True,AreaShape_CentralMoment_0_0,3.79426e-11
4,high,wt,-2.0158,0.0,-2.5369,-1.4948,True,AreaShape_CentralMoment_0_0,3.79426e-11


In [6]:
# save the results
output_file = pathlib.Path(
    "../../data/6.analysis_results/mean_aggregated_anova_results.parquet"
)
output_file.parent.mkdir(exist_ok=True, parents=True)
anova_output_df.to_parquet(output_file)

## Levene's test for homogeneity of variance

In [7]:
# split the df into three genotypes
high_df = df[df["Metadata_genotype"] == "high"]
unsel_df = df[df["Metadata_genotype"] == "unsel"]
wt_df = df[df["Metadata_genotype"] == "wt"]
levene_test_results = {"feature": [], "levene_statistic": [], "levene_p_value": []}
for feature in tqdm.tqdm(features_df.columns):
    # calculate the levene test for each feature
    levene_results = levene(wt_df[feature], unsel_df[feature], high_df[feature])
    levene_test_results["feature"].append(feature)
    levene_test_results["levene_statistic"].append(levene_results.statistic)
    levene_test_results["levene_p_value"].append(levene_results.pvalue)

levene_test_results_df = pd.DataFrame(levene_test_results)
levene_test_results_df

  0%|                                                                             | 0/244 [00:00<?, ?it/s]

100%|█████████████████████████████████████████████████████████████████| 244/244 [00:00<00:00, 4107.43it/s]




Unnamed: 0,feature,levene_statistic,levene_p_value
0,AreaShape_Area,2.370155,0.106798
1,AreaShape_CentralMoment_0_0,2.370155,0.106798
2,AreaShape_CentralMoment_0_1,2.489193,0.096071
3,AreaShape_CentralMoment_0_2,2.858310,0.069441
4,AreaShape_CentralMoment_0_3,0.938341,0.399931
...,...,...,...
239,Texture_SumVariance_OP_3_03_256,6.397836,0.003954
240,Texture_Variance_OP_3_00_256,6.746330,0.003047
241,Texture_Variance_OP_3_01_256,7.062972,0.002411
242,Texture_Variance_OP_3_02_256,6.696927,0.003161


## Calculate the levenes test statistic for the equality of variances

In [8]:
# split the df into three genotypes
high_df = df[df["Metadata_genotype"] == "high"]
unsel_df = df[df["Metadata_genotype"] == "unsel"]
wt_df = df[df["Metadata_genotype"] == "wt"]
group_dict = {
    "high_vs_unsel": [high_df, unsel_df],
    "high_vs_wt": [high_df, wt_df],
    "unsel_vs_wt": [wt_df, unsel_df],
    "all": [high_df, unsel_df, wt_df],
}


levene_test_results = {
    "feature": [],
    "levene_statistic": [],
    "levene_p_value": [],
    "group": [],
}
for group in tqdm.tqdm(group_dict.keys()):
    for feature in features_df.columns:
        # calculate the levene test for each feature
        if not group == "all":
            levene_results = levene(
                group_dict[group][0][feature], group_dict[group][1][feature]
            )
            levene_test_results["feature"].append(feature)
            levene_test_results["levene_statistic"].append(levene_results.statistic)
            levene_test_results["levene_p_value"].append(levene_results.pvalue)
            levene_test_results["group"].append(group)
        else:
            levene_results = levene(
                group_dict[group][0][feature],
                group_dict[group][1][feature],
                group_dict[group][2][feature],
            )
            levene_test_results["feature"].append(feature)
            levene_test_results["levene_statistic"].append(levene_results.statistic)
            levene_test_results["levene_p_value"].append(levene_results.pvalue)
            levene_test_results["group"].append(group)

levene_test_results_df = pd.DataFrame(levene_test_results)

# sort the levene test results levene_test_results_df
# change the levene p-value to a float
levene_test_results_df["levene_p_value"] = levene_test_results_df[
    "levene_p_value"
].astype(float)
levene_test_results_df = levene_test_results_df.sort_values(
    "levene_p_value", ascending=False
)
levene_test_results_df

  0%|                                                                               | 0/4 [00:00<?, ?it/s]

  W = numer / denom


 75%|█████████████████████████████████████████████████████▎                 | 3/4 [00:00<00:00, 22.79it/s]

100%|███████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 22.25it/s]




Unnamed: 0,feature,levene_statistic,levene_p_value,group
128,RadialDistribution_MeanFrac_OP_3of4,0.000006,9.981062e-01,high_vs_unsel
909,RadialDistribution_ZernikePhase_OP_6_6,0.001928,9.980735e-01,all
0,AreaShape_Area,0.000050,9.944103e-01,high_vs_unsel
1,AreaShape_CentralMoment_0_0,0.000050,9.944103e-01,high_vs_unsel
56,AreaShape_SpatialMoment_0_0,0.000050,9.944103e-01,high_vs_unsel
...,...,...,...,...
168,RadialDistribution_ZernikePhase_OP_4_0,65.524194,1.417644e-08,high_vs_unsel
656,RadialDistribution_ZernikePhase_OP_4_0,65.524194,1.417644e-08,unsel_vs_wt
268,AreaShape_HuMoment_4,75.236081,3.756747e-09,high_vs_wt
900,RadialDistribution_ZernikePhase_OP_4_0,65.524194,3.385289e-13,all


In [9]:
# save the levene test results
# out dir
out_dir = pathlib.Path("../../data/6.analysis_results/")
# create the dir if it does not exist
out_dir.mkdir(parents=True, exist_ok=True)
levene_test_results_path = pathlib.Path(
    out_dir / "mean_aggregated_levene_test_results.csv"
)
levene_test_results_df.to_csv(levene_test_results_path)

### Calculate the levene test statistic for the aggregated data across feature types and genotypes

In [10]:
data_path = pathlib.Path(
    "../../data/5.converted_data/mean_aggregated_data.parquet"
).resolve(strict=True)
# Read the data
data = pd.read_parquet(data_path)

# Drop all metadata except for the genotype data
features_df = data.drop(columns=data.filter(like="Metadata").columns)
features_df["Metadata_genotype"] = data["Metadata_genotype"]


# turn the features into a long format
features_long_df = features_df.melt(
    id_vars="Metadata_genotype", var_name="feature", value_name="value"
)
features_long_df.head()
# Separate the feature into different parts
features_long_df[
    ["feature_group", "measurement", "bone", "parameter1", "parameter2", "parameter3"]
] = features_long_df["feature"].str.split("_", expand=True)

# Replace the Metadata_genotype with the actual genotype name
features_long_df["Metadata_genotype"] = features_long_df["Metadata_genotype"].replace(
    {"high": "High-Severity", "unsel": "Mid-Severity", "wt": "Wild Type"}
)
features_long_df.head()

Unnamed: 0,Metadata_genotype,feature,value,feature_group,measurement,bone,parameter1,parameter2,parameter3
0,High-Severity,AreaShape_Area,0.596483,AreaShape,Area,,,,
1,High-Severity,AreaShape_Area,1.238954,AreaShape,Area,,,,
2,High-Severity,AreaShape_Area,2.131207,AreaShape,Area,,,,
3,High-Severity,AreaShape_Area,1.201238,AreaShape,Area,,,,
4,High-Severity,AreaShape_Area,1.194888,AreaShape,Area,,,,


In [11]:
# break each genotype and featuretype into a separate dataframe
high_df = features_long_df[features_long_df["Metadata_genotype"] == "High-Severity"]
unsel_df = features_long_df[features_long_df["Metadata_genotype"] == "Mid-Severity"]
wt_df = features_long_df[features_long_df["Metadata_genotype"] == "Wild Type"]

# each feature group
high_df_AreaShape = high_df[high_df["feature_group"] == "AreaShape"]
high_df_Intensity = high_df[high_df["feature_group"] == "Intensity"]
high_df_Neighbors = high_df[high_df["feature_group"] == "Neighbors"]
high_df_radial = high_df[high_df["feature_group"] == "RadialDistribution"]
high_df_Granularity = high_df[high_df["feature_group"] == "Granularity"]

unsel_df_AreaShape = unsel_df[unsel_df["feature_group"] == "AreaShape"]
unsel_df_Intensity = unsel_df[unsel_df["feature_group"] == "Intensity"]
unsel_df_Neighbors = unsel_df[unsel_df["feature_group"] == "Neighbors"]
unsel_df_radial = unsel_df[unsel_df["feature_group"] == "RadialDistribution"]
unsel_df_Granularity = unsel_df[unsel_df["feature_group"] == "Granularity"]

wt_df_AreaShape = wt_df[wt_df["feature_group"] == "AreaShape"]
wt_df_Intensity = wt_df[wt_df["feature_group"] == "Intensity"]
wt_df_Neighbors = wt_df[wt_df["feature_group"] == "Neighbors"]
wt_df_radial = wt_df[wt_df["feature_group"] == "RadialDistribution"]
wt_df_Granularity = wt_df[wt_df["feature_group"] == "Granularity"]

# levene test for each feature group
levene_test_results = {
    "feature_group": [],
    "levene_statistic": [],
    "levene_p_value": [],
    "group": [],
}

group_dict = {
    "AreaShape": {
        "high_area_v_unsel_area": [high_df_AreaShape, unsel_df_AreaShape],
        "high_area_v_wt_area": [high_df_AreaShape, wt_df_AreaShape],
        "unsel_area_v_wt_area": [wt_df_AreaShape, unsel_df_AreaShape],
    },
    "Intensity": {
        "high_intensity_v_unsel_intensity": [high_df_Intensity, unsel_df_Intensity],
        "high_intensity_v_wt_intensity": [high_df_Intensity, wt_df_Intensity],
        "unsel_intensity_v_wt_intensity": [wt_df_Intensity, unsel_df_Intensity],
    },
    "Neighbors": {
        "high_neighbors_v_unsel_neighbors": [high_df_Neighbors, unsel_df_Neighbors],
        "high_neighbors_v_wt_neighbors": [high_df_Neighbors, wt_df_Neighbors],
        "unsel_neighbors_v_wt_neighbors": [wt_df_Neighbors, unsel_df_Neighbors],
    },
    "RadialDistribution": {
        "high_radial_v_unsel_radial": [high_df_radial, unsel_df_radial],
        "high_radial_v_wt_radial": [high_df_radial, wt_df_radial],
        "unsel_radial_v_wt_radial": [wt_df_radial, unsel_df_radial],
    },
    "Granularity": {
        "high_granularity_v_unsel_granularity": [
            high_df_Granularity,
            unsel_df_Granularity,
        ],
        "high_granularity_v_wt_granularity": [high_df_Granularity, wt_df_Granularity],
        "unsel_granularity_v_wt_granularity": [wt_df_Granularity, unsel_df_Granularity],
    },
}

for feature_group in tqdm.tqdm(group_dict.keys()):
    for group in group_dict[feature_group].keys():
        if not group == "all":
            levene_results = levene(
                group_dict[feature_group][group][0]["value"],
                group_dict[feature_group][group][1]["value"],
            )
            # calculate the variance for each feature group

            levene_test_results["feature_group"].append(feature_group)
            levene_test_results["levene_statistic"].append(levene_results.statistic)
            levene_test_results["levene_p_value"].append(levene_results.pvalue)
            levene_test_results["group"].append(group)
        else:
            pass

levene_test_results_df = pd.DataFrame(levene_test_results)
levene_test_results_df.head()

  0%|                                                                               | 0/5 [00:00<?, ?it/s]

100%|█████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1549.89it/s]




Unnamed: 0,feature_group,levene_statistic,levene_p_value,group
0,AreaShape,188.439067,1.593028e-41,high_area_v_unsel_area
1,AreaShape,558.839674,1.330891e-112,high_area_v_wt_area
2,AreaShape,42.952365,6.676022e-11,unsel_area_v_wt_area
3,Intensity,37.096223,2.551443e-09,high_intensity_v_unsel_intensity
4,Intensity,0.816115,0.3668389,high_intensity_v_wt_intensity


In [12]:
# save the levene test results
# out dir
out_dir = pathlib.Path("../../data/6.analysis_results/")
# create the dir if it does not exist
out_dir.mkdir(parents=True, exist_ok=True)
levene_test_results_path = pathlib.Path(
    out_dir / "mean_aggregated_levene_test_results_feature_types.csv"
)
levene_test_results_df.to_csv(levene_test_results_path, index=False)

In [13]:
# Drop all metadata except for the genotype data
features_df = data.drop(columns=data.filter(like="Metadata").columns)
features_df["Metadata_genotype"] = data["Metadata_genotype"]

# turn the features into a long format
features_long_df = features_df.melt(
    id_vars="Metadata_genotype", var_name="feature", value_name="value"
)
features_long_df

Unnamed: 0,Metadata_genotype,feature,value
0,high,AreaShape_Area,0.596483
1,high,AreaShape_Area,1.238954
2,high,AreaShape_Area,2.131207
3,high,AreaShape_Area,1.201238
4,high,AreaShape_Area,1.194888
...,...,...,...
10243,wt,Texture_Variance_OP_3_03_256,1.324503
10244,wt,Texture_Variance_OP_3_03_256,1.062536
10245,wt,Texture_Variance_OP_3_03_256,1.247334
10246,wt,Texture_Variance_OP_3_03_256,1.590171


In [14]:
# get the variance for each feature group
var_df = features_long_df.groupby(["Metadata_genotype", "feature"]).var().reset_index()
var_df.head()
# change the value column name to variance
var_df.rename(columns={"value": "variance"}, inplace=True)

In [15]:
var_df[
    ["feature_group", "measurement", "bone", "parameter1", "parameter2", "parameter3"]
] = var_df["feature"].str.split("_", expand=True)

# Replace the Metadata_genotype with the actual genotype name
var_df["Metadata_genotype"] = var_df["Metadata_genotype"].replace(
    {"high": "High-Severity", "unsel": "Mid-Severity", "wt": "Wild Type"}
)
var_df
var_df = var_df.drop(
    columns=["feature", "measurement", "bone", "parameter1", "parameter2", "parameter3"]
)
var_df
# save the variance results
var_path = pathlib.Path(out_dir / "mean_aggregated_variance_results_feature_types.csv")
var_df.to_csv(var_path, index=False)

In [16]:
# get the mean and stdev for each feature group's variance
var_df = (
    var_df.groupby(["Metadata_genotype", "feature_group"])
    .agg(["mean", "std", "max", "min", "count"])
    .reset_index()
)
# ungroup the columns
var_df.columns = ["_".join(col).strip() for col in var_df.columns.values]
# rename the Metadata_genotype_ column and the feature_group_ column
var_df.rename(
    columns={
        "Metadata_genotype_": "Metadata_genotype",
        "feature_group_": "feature_group",
    },
    inplace=True,
)
var_df

Unnamed: 0,Metadata_genotype,feature_group,variance_mean,variance_std,variance_max,variance_min,variance_count
0,High-Severity,AreaShape,0.424204,0.35067,2.057226,2e-06,98
1,High-Severity,Granularity,0.118054,0.137097,0.384985,0.010917,6
2,High-Severity,Intensity,0.330695,0.192987,0.832953,0.04904,15
3,High-Severity,Neighbors,0.477229,0.183397,0.66707,0.301038,3
4,High-Severity,RadialDistribution,0.381793,0.258899,1.301865,0.0,70
5,High-Severity,Texture,0.198174,0.127244,0.425544,0.014608,52
6,Mid-Severity,AreaShape,0.538798,0.535868,3.162029,0.073452,98
7,Mid-Severity,Granularity,0.184305,0.124284,0.419402,0.095894,6
8,Mid-Severity,Intensity,0.266804,0.258139,1.057746,0.055703,15
9,Mid-Severity,Neighbors,0.526392,0.250131,0.815115,0.37535,3


In [17]:
# save the variance results
var_path = pathlib.Path(
    out_dir / "mean_aggregated_variance_results_feature_types_stats.csv"
)
var_df.to_csv(var_path, index=False)