In [None]:
import random
import warnings
from copy import deepcopy
from functools import partial
from typing import Dict, List

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import pytorch_lightning as pl
import seaborn as sns
import torch
import torch.nn as nn
from scipy import stats
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder
from src.dataset_handler.classic_dataset import ClassicDataset
from src.models.lightning_wrapper import LightningWrapper
from src.models.multi_linear_layers import MultiLinearLayers
from torch.utils.data import DataLoader, random_split
from torchmetrics.classification import BinaryAccuracy

warnings.simplefilter("ignore")

In [None]:
# checkpoints = 'lightning_logs/version_23/checkpoints/epoch=49-step=5200.ckpt' # Keep it None if you want to train the model
checkpoints = None

df = pd.read_csv('../data/heart.csv')
df.sample(10)

Transformer :
- Age : Standardiser entre 0 et 1
- Sex : en binaire -> Homme = 0, Femme = 1
- ChestPainType : en variable catégorique
- RestingBP : Standardiser entre 0 et 1
- Cholesterol : Standardiser entre 0 et 1
- FastingBS : Ne rien faire (booléen)
- RestingECG : en variable catégorique
- MaxHR : Standardiser entre 0 et 1
- ExerciseAngina : en binaire -> N = 0, Y = 1
- Oldpeak : Standardiser entre 0 et 1
- ST_Slope : en variable catégorique
- HeartDisease : Ne rien faire (booléen)

In [None]:
def binarize_sex(sex: str) -> int:
    if sex.lower() == 'f':
        return 1
    else:
        return 0

def binarize_exercise_angina(exercise_angina: str) -> int:
    if exercise_angina.lower() == 'y':
        return 1
    else:
        return 0

In [None]:
transformers = {
    'Age': MinMaxScaler(),
    'RestingBP': MinMaxScaler(),
    'Cholesterol': MinMaxScaler(),
    'MaxHR': MinMaxScaler(),
    'Oldpeak': MinMaxScaler(),
    'ChestPainType': OneHotEncoder(),
    'RestingECG': OneHotEncoder(),
    'ST_Slope': OneHotEncoder(),
    'Sex': binarize_sex,
    'ExerciseAngina': binarize_exercise_angina
}

single_values_columns = []
multiple_values_columns = []
for column_name, preprocessor in transformers.items():
    if isinstance(preprocessor, MinMaxScaler):
        df[column_name] = preprocessor.fit_transform(df[column_name].to_numpy().reshape(-1, 1))
        single_values_columns.append(column_name)
    elif isinstance(preprocessor, OneHotEncoder):
        df[column_name] = preprocessor.fit_transform(df[column_name].to_numpy().reshape(-1, 1)).toarray().tolist()
        multiple_values_columns.append(column_name)
    else:
        df[column_name] = df[column_name].apply(lambda val: preprocessor(val))
        single_values_columns.append(column_name)

In [None]:
labels = df['HeartDisease'].to_numpy()

inputs_rows = []
columns_order = []
for _, row in df.drop(columns='HeartDisease').iterrows():
    arr_row = [row[coln] for coln in single_values_columns]
    [arr_row.extend(row[coln]) for coln in multiple_values_columns]

    columns_order = single_values_columns + multiple_values_columns

    inputs_rows.append(arr_row)

labels = torch.tensor(labels, dtype=torch.float32).reshape(-1, 1)
inputs = torch.tensor(inputs_rows)

In [None]:
dataset = ClassicDataset(inputs, labels)

total_size = len(dataset)
train_ratio = 0.9
train_size = int(train_ratio * total_size)
test_size = total_size - train_size

train_set, test_set = random_split(dataset, [train_size, test_size])

train_loader = DataLoader(train_set, batch_size=8, shuffle=True, num_workers=8)
test_loader = DataLoader(test_set, batch_size=8, shuffle=False)

In [None]:
network = MultiLinearLayers(inputs.shape[1], 1)
loss_function = nn.BCEWithLogitsLoss()

model = LightningWrapper(network, loss_function, metrics={'accuracy': BinaryAccuracy().to('cuda')})

if checkpoints is None:
    trainer = pl.Trainer(accelerator='gpu', max_epochs=10)

    trainer.fit(model, train_loader)
else:
    model.load_from_checkpoint(checkpoint_path=checkpoints, checkpoint_callback=False)

Bel entrainement maintenant, essayons de comprendre les distributions des neurones de chacune des couches, afin de savoir si c'est uniformément distribués où chaque neurone présente sa spécificité.

Récupérons le test set pour pouvoir commencer à travailler dessus. Un modèle simple + un cas binaire pour généraliser ensuite.

In [None]:
submodel = deepcopy(model.wrapped_model)

# Autant tout faire passer d'un coup
X_test = []
y_test = []
for x, y in test_set:
    X_test.append(x.unsqueeze(0))
    y_test.append(y)

X_test = torch.cat(X_test)
y_test = torch.cat(y_test)

# On peut chercher les logits du modèle
outputs = submodel(X_test)

BinaryAccuracy()(outputs, y_test.unsqueeze(1))

Super, maintenant entammons une analyse poussée de nos couches en sorties.

In [None]:
out_neurons_collector = {}
def forward_hook(module: nn.Module, inputs: torch.Tensor, outputs: torch.Tensor, name: str, out_neurons_collector: Dict[str, List[torch.Tensor]]) -> None:
    if name in out_neurons_collector.keys():
        out_neurons_collector[name].append(outputs.detach().cpu())
    else:
        out_neurons_collector[name] = [outputs.detach().cpu()]

hooks = []
for name, module in submodel.named_modules():
    if name != '':
        hooks.append(module.register_forward_hook(partial(forward_hook, name=name, out_neurons_collector=out_neurons_collector)))

outputs = submodel(X_test)

for h in hooks:
    h.remove()

for layer_name, neurons in out_neurons_collector.items():
    out_neurons_collector[layer_name] = deepcopy(torch.cat(out_neurons_collector[layer_name]))

In [None]:
out_neurons_collector['linear2'].mean(dim=0), out_neurons_collector['linear2'].std(dim=0)

Avons nous à faire à des distributions normales ? Un test statistique pourra nous le dire !

In [None]:
normal_samples = {}
shapiro_pvalues = {}

for layer_name, layer_tensor in out_neurons_collector.items():
    normal_samples[layer_name] = []
    shapiro_pvalues[layer_name] = []

    for i in range(layer_tensor.shape[1]):
        samples = layer_tensor[:, i]
        shapiro_test = stats.shapiro(samples)

        normal_samples[layer_name].append(True if shapiro_test.pvalue > 0.05 else False)
        shapiro_pvalues[layer_name].append(shapiro_test.pvalue)

    normal_samples[layer_name] = torch.BoolTensor(normal_samples[layer_name])
    shapiro_pvalues[layer_name] = torch.Tensor(shapiro_pvalues[layer_name])

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))

sorted_indices = shapiro_pvalues['linear1'].sort()[1][:10]
df_distplot = pd.DataFrame()
for c, ind in enumerate(sorted_indices):
    sns.distplot(out_neurons_collector['linear1'][:, ind.item()], ax=ax)

plt.show()

Souvent bimodal, c'est intéressant !

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))

sorted_indices = shapiro_pvalues['linear1'].sort(descending=True)[1][:10]
df_distplot = pd.DataFrame()
for c, ind in enumerate(sorted_indices):
    sns.distplot(out_neurons_collector['linear1'][:, ind.item()], ax=ax, label=ind)

plt.legend()
plt.show()

Ont-ils simplement un effet régularisateur ?

Dans deux cas, où se situent les valeurs pour la classe 0 et la classe 1 ?

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))

sorted_indices = shapiro_pvalues['linear1'].sort()[1][:10]
df_distplot = pd.DataFrame()
for c, ind in enumerate(sorted_indices):
    sns.distplot(out_neurons_collector['linear1'][:, ind.item()], ax=ax, label=ind)

plt.legend()
plt.show()

In [None]:
sorted_indices = shapiro_pvalues['linear1'].sort()[1][:10]

df_linear_1_unnormal = pd.DataFrame(data=out_neurons_collector['linear1'][:, sorted_indices])
df_linear_1_unnormal['label'] = y_test

sns.displot(data=df_linear_1_unnormal.melt(id_vars=['label']), x='value', hue='label', col='variable', col_wrap=3, alpha=0.5, kde=True);

In [None]:
sorted_indices = shapiro_pvalues['linear1'].sort(descending=True)[1][:10]

df_linear_1_normal = pd.DataFrame(data=out_neurons_collector['linear1'][:, sorted_indices])
df_linear_1_normal['label'] = y_test

sns.displot(data=df_linear_1_normal.melt(id_vars=['label']), x='value', hue='label', col='variable', col_wrap=3, alpha=0.5, kde=True);

Admettons que nous avons des neurones que l'on considère comme dissociatifs, pouvons nous aisément repérer les poids ou l'ensemble des poids qui vont maintenir ou créer une dissociation par la suite ? \
Si les poids n'accentuent, ne conservent ou ne créent pas de dissociation alors ça va être difficile de repérer les neurones importants. \
Une de mes hypothèses est que les neurones dont les distributions sont confondues ne sont présents qu'à des fins de régulation et ne peuvent être considérés comme importants car non dissociés.

La question que nous pouvons nous poser maintenant est : quels sont les neurones qui présentent la plus grosse dissociation ? Que ce soit fortement positif ou négatif. Si présence de ReLU alors la négation est considérée comme nul et alors le signal qui est émit ne vient que d'une classe en soi.

Dans la méthode, nous ne pouvons négliger le théorème central limite, bien que nous ayons l'équivalent de 2 variables aléatoires par neurone (l'effet peut être plus remarquable avec plus de classes par exemple). L'union des deux distributions (de la classe 0 et de la classe 1) peut donner une distribution normale. Donc, il serait intéressant de mesurer 2 valeurs :
1. La divergence de *Kullback-Leibler* (sûrement le plus intéressant)
2. La moyenne et l'écart-type.

In [None]:
X1 = np.random.normal(loc=5.0, scale=1.5, size=(10000,))
X2 = np.random.normal(loc=5.0, scale=1.5, size=(1000,))
X3 = np.random.normal(loc=3.0, scale=1.0, size=(50,))
X4 = np.random.normal(loc=5.0, scale=2.0, size=(10000,))

stats.mannwhitneyu(X1, X2), stats.mannwhitneyu(X1, X3), stats.mannwhitneyu(X1, X4)

In [None]:
X_positive_1 = df_linear_1_normal[df_linear_1_normal['label'] == 1.][1].to_numpy()
X_negative_1 = df_linear_1_normal[df_linear_1_normal['label'] == 0.][1].to_numpy()

X_positive_9 = df_linear_1_normal[df_linear_1_normal['label'] == 1.][9].to_numpy()
X_negative_9 = df_linear_1_normal[df_linear_1_normal['label'] == 0.][9].to_numpy()

stats.mannwhitneyu(X_positive_1, X_negative_1), stats.mannwhitneyu(X_positive_9, X_negative_9)

Utilisons ce test statistique pour déterminer l'importance d'un neurone. Procédons par étapes :
1. Récupérons le dictionnaire des outputs d'une couche
2. Séparons les valeurs par rapport à leur classe
3. Effectuons les tests statistiques suivants :
   1. Si distributions normales ou proches : t-test (ou Student)
   2. Sinon : test de Mann-Whitney U
      1. Si semblables : cherchons voir si la moyenne/variance est similaire

In [None]:
def neuron_is_important(samples: torch.Tensor, positive_indices: torch.Tensor, negative_indices: torch.Tensor) -> bool:
    is_important = False
    X_positive = samples[positive_indices]
    X_negative = samples[negative_indices]

    is_X1_normal = stats.shapiro(X_positive).pvalue > 0.05
    is_X2_normal = stats.shapiro(X_negative).pvalue > 0.05

    if is_X1_normal and is_X2_normal:
        is_important = stats.ttest_ind(X_positive, X_negative, equal_var=False).pvalue < 0.05
    else:
        is_important = stats.mannwhitneyu(X_positive, X_negative).pvalue < 0.05
    
    return is_important

In [None]:
negative_indices = torch.where(y_test == 0)[0]
positive_indices = torch.where(y_test == 1)[0]

layers_important_neurons = {}
layers_non_important_neurons = {}

for layer_name, layer_outputs in out_neurons_collector.items():
    if layer_name == 'fc':
        continue
    linear1 = out_neurons_collector['linear1']

    important_neurons = torch.zeros(size=(layer_outputs.shape[1],), dtype=torch.bool)

    for i in range(layer_outputs.shape[1]):
        samples = layer_outputs[:, i]
        important_neurons[i] = torch.BoolTensor([neuron_is_important(samples, positive_indices, negative_indices)])[0]

    layers_important_neurons[layer_name] = torch.where(important_neurons == True)[0]
    layers_non_important_neurons[layer_name] = torch.where(important_neurons == False)[0]

Pour tester notre méthode, prenons aléatoirement et en répétant 10 fois, des neurones importants, effacons les (à 0) puis évaluons la perte en performance (faire pareil avec les neurones pas importants).

In [None]:
layers_important_neurons

Pour masquer les neurones il faut masquer tous les poids et biais arrivant à ce neurone. Ce faisant nous empêchons tout signal d'arriver jusqu'à ce neurone et donc il ne sera pas utile pour la suite des traitements.

Cependant ce qu'il faut prendre en compte, c'est que cette méthode statistique ne permet pas de prendre en compte toutes les interactions entre les neurones des couches successives. Donc éteindre le signal provenant d'un neurone peut avoir une conséquence dans la couche suivante. Il faut donc trouver une amélioration à cette méthode.

In [None]:
def mask_important_neurons(model: nn.Module, important_neurons: Dict[str, torch.Tensor], percentage_masked: float=0.1) -> nn.Module:
    masked_model = deepcopy(model)
    masked_model.eval()
    for layer_name, positive_indices in important_neurons.items():
        mask_size = int(positive_indices.shape[0] * percentage_masked)
        indices = torch.LongTensor(random.sample(positive_indices.tolist(), k=mask_size))

        layer = masked_model.get_submodule(layer_name)
        layer_weights = layer.weight.data
        layer_biases = layer.bias.data
        layer_weights[indices, :] = 0.
        layer_biases[indices] = 0.
        
        layer.weight.data = layer_weights
        layer.bias.data = layer_biases
    
    return masked_model

In [None]:
important_masked_accuracy = []
non_important_masked_accuracy = []
for _ in range(10):
    important_masked_model = mask_important_neurons(submodel, layers_important_neurons, percentage_masked=0.9)
    non_important_masked_model = mask_important_neurons(submodel, layers_non_important_neurons, percentage_masked=0.9)

    important_outputs = important_masked_model(X_test)
    non_important_outputs = non_important_masked_model(X_test)

    important_accuracy = BinaryAccuracy()(important_outputs, y_test.unsqueeze(1))
    non_important_accuracy = BinaryAccuracy()(non_important_outputs, y_test.unsqueeze(1))

    important_masked_accuracy.append(important_accuracy)
    non_important_masked_accuracy.append(non_important_accuracy)

In [None]:
important_masked_accuracy

In [None]:
non_important_masked_accuracy

Trouver un modèle plus gros, et commencer à réfléchir aux interactions !

Pour les interactions, je pense faire couche par couche afin de noter les changements de distribution d'une couche vers sa suivante, lorsque l'on désactive cette couche. Nous sommes donc dans le cas de la causalité à nous demander ce qu'il se passerait sur la couche suivante si on coupe le signal de la couche précédente.