In [32]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from itertools import product
from typing import List
from tqdm.auto import tqdm
from keras_tqdm import TQDMNotebookCallback as ktqdm
from multiprocessing import cpu_count
import compress_json
import os
from barplots import barplots

In [33]:
import tensorflow as tf
tf.__version__

'1.14.0'

In [2]:
from epigenomic_dataset import load_epigenomes
from sklearn.impute import KNNImputer
from sklearn.preprocessing import RobustScaler

# The considered window size
window_size = 200

# Retrieving the input data
X, y = load_epigenomes(
    cell_line = "HEK293",
    dataset = "fantom",
    regions = "enhancers",
    window_size = window_size
)

y = y.values.ravel()

# Imputation of NaN Values
X[X.columns] = KNNImputer(n_neighbors=X.shape[0]//10).fit_transform(X)

# Robust normalization of the values
X[X.columns] = RobustScaler().fit_transform(X)

X = X.values

# Here one should feature selection. How can we do this?

In [25]:
models = []
kwargs = []

In [26]:
shape=X.shape[1]

In [13]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(
    criterion="gini",  # criterio di gini è tale per cui per ogni step scelgo la feature più discriminante rispetto ai dati
    max_depth=50, #max 2^50 foglie, max 50 split -> grande, soggetto a overfitting.
    random_state=42, #per rendere rimproducibile l'esecuzione dell'albero
    class_weight="balanced" #per evitare il "miss predizione" di una classe, per sbilanciamento di classi
)

models.append(decision_tree)
kwargs.append({})

In [14]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(
    criterion="gini",  
    max_depth=10, #abbasso a 10
    random_state=42, 
    class_weight="balanced" 
)

models.append(decision_tree)
kwargs.append({})

In [15]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(
    n_estimators=500, #500 alberi
    criterion="gini", 
    max_depth=30, #max 30 split
    random_state=42,
    class_weight="balanced",
    n_jobs=cpu_count() #numero di tuning in parallelo: ottimizzazioni in parallelo degl alberi
)

models.append(random_forest)
kwargs.append({})

In [16]:
#non è proprio un percettrone: perché la loss e l'aggiornamento dei pesi non è banale.
# è un livello denso con un neurone. => più semplice modello con keras di rete neutrale
#in alcuni casi è sufficiente per la classificazione senza modelli più complessi
#quando dichiaro in un paper che un modello va meglio => più è semplice meglio è! Occam Razor!!!!!!

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.callbacks import EarlyStopping


perceptron = Sequential([
    Input(shape=(shape,)),#shape di input del dataset
    Dense(1, activation="sigmoid") #attivazione sigmoide
], "Perceptron")

perceptron.compile(
    optimizer="nadam", #magari altri rispetto nadam va meglio
    loss="binary_crossentropy"  #è una classificazione
)

models.append(perceptron)
kwargs.append(dict(
    epochs=1000,
    batch_size=1024,
    validation_split=0.1,
    shuffle=True,
    verbose=False,
    callbacks=[
        EarlyStopping(monitor="val_loss", mode="min", patience=50),
        ktqdm(leave_outer=False)
    ]
))  #aggiungo informazione aggiuntive, batch size arbitraria. 

Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where


In [27]:
#cascata di layer dens
#differenza tra MLP e FFNN è un sottile. FFNN se inserirsco layer che non sono solo densi
#MLP tanti percettroni a più livelli
#FNN non solo

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

mlp = Sequential([
    Input(shape=(shape,)),
    Dense(128, activation="relu"),
    Dense(64, activation="relu"),
    Dense(32, activation="relu"),
    Dense(1, activation="sigmoid")
], "MLP")

mlp.compile(
    optimizer="nadam",
    loss="binary_crossentropy"
)

models.append(mlp)
kwargs.append(dict(
    epochs=1000,
    batch_size=1024,
    validation_split=0.1,
    shuffle=True,
    verbose=False,
    callbacks=[
        EarlyStopping(monitor="val_loss", mode="min", patience=50),
        ktqdm(leave_outer=False)
    ]
))

In [18]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, BatchNormalization, Activation, Dropout


ffnn = Sequential([
    Input(shape=(shape,)),
    Dense(256, activation="relu"),
    Dense(128),
    BatchNormalization(),  #in più rispetto MLP: procedura tc durante il training, 
    #quando arriva un batch questo viene normalizzato su media e varianza su asse del batch. Z-scoring sul batch
    Activation("relu"),
    Dense(64, activation="relu"),
    Dropout(0.3), #in più rispetto MLP: impatta molto sulle reti. durante training disabilita una percentuale di neuroni al 
    #livello precedente. PEr esempio prima ho 64 neuroni, ad ogni epoch una percetuale di questi 64 viene spenta
    #Induce il modello a creare un ensamble di classificatori, cioè il modello non può far uso di tutti i neuroni allo stesso modello
    #utile quando il modello è caratterizzato da overfitting. Se non sto apprendendo i valori di training, il dropout fa danni. 
    #deve apprendere bene i valori di training
    Dense(32, activation="relu"),
    Dense(16, activation="relu"),
    Dense(1, activation="sigmoid")
], "FFNN")

ffnn.compile(
    optimizer="nadam",
    loss="binary_crossentropy"
)

models.append(ffnn)
kwargs.append(dict(
    epochs=1000,
    batch_size=1024,
    validation_split=0.1, #dei dati di training ne uso 10% per la validazione
    shuffle=True,
    verbose=False,
    callbacks=[
        EarlyStopping(monitor="val_loss", mode="min", patience=50),
        ktqdm(leave_outer=False)
    ]
))

ffnn.summary()

Model: "FFNN"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_5 (Dense)              (None, 256)               53248     
_________________________________________________________________
dense_6 (Dense)              (None, 128)               32896     
_________________________________________________________________
batch_normalization (BatchNo (None, 128)               512       
_________________________________________________________________
activation (Activation)      (None, 128)               0         
_________________________________________________________________
dense_7 (Dense)              (None, 64)                8256      
_________________________________________________________________
dropout (Dropout)            (None, 64)                0         
_________________________________________________________________
dense_8 (Dense)              (None, 32)                2080   

In [19]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, BatchNormalization, Activation, Dropout


ffnn2 = Sequential([
    Input(shape=(shape,)),
    Dense(256, activation="relu"),
    Dense(128),
    BatchNormalization(),  
    Activation("relu"),
    Dense(64, activation="relu"),
    Dense(64, activation="relu"), #in più
    Dropout(0.5), #aumento da 0,3 a 0,5
    Dense(32, activation="relu"), #raddoppio abbassando da 64 a 32
    Dense(32, activation="relu"),
    Dropout(0.5), 
    Dense(32, activation="relu"),
    Dense(16, activation="relu"),
    Dense(1, activation="sigmoid")
], "FFNN2")

ffnn2.compile(
    optimizer="nadam",
    loss="binary_crossentropy"
)

models.append(ffnn2)
kwargs.append(dict(
    epochs=1000,
    batch_size=1024,
    validation_split=0.1, 
    shuffle=True,
    verbose=False,
    callbacks=[
        EarlyStopping(monitor="val_loss", mode="min", patience=70, restore_best_weights=True), 
        #aumento pazienza da 50 a 70
        #aggiungo restore_best_weights: quando fermo il testo, lo ripristino quello che per la validation loss era il migliore
        ktqdm(leave_outer=False)
    ]
))

ffnn2.summary()

Model: "FFNN2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_11 (Dense)             (None, 256)               53248     
_________________________________________________________________
dense_12 (Dense)             (None, 128)               32896     
_________________________________________________________________
batch_normalization_1 (Batch (None, 128)               512       
_________________________________________________________________
activation_1 (Activation)    (None, 128)               0         
_________________________________________________________________
dense_13 (Dense)             (None, 64)                8256      
_________________________________________________________________
dense_14 (Dense)             (None, 64)                4160      
_________________________________________________________________
dropout_1 (Dropout)          (None, 64)                0     

In [28]:
from sklearn.model_selection import StratifiedShuffleSplit

splits = 50
holdouts = StratifiedShuffleSplit(n_splits=splits, test_size=0.2, random_state=42)

# sto usando 50 diverse e randomiche suddivisioni del data set 20(test) - 80(learning)

In [29]:
from sklearn.metrics import accuracy_score, balanced_accuracy_score, roc_auc_score, average_precision_score
from sanitize_ml_labels import sanitize_ml_labels

def report(y_true:np.ndarray, y_pred:np.ndarray)->np.ndarray:
    integer_metrics = accuracy_score, balanced_accuracy_score
    float_metrics = roc_auc_score, average_precision_score
    results1 = {
        sanitize_ml_labels(metric.__name__): metric(y_true, np.round(y_pred))
        for metric in integer_metrics
    }
    results2 = {
        sanitize_ml_labels(metric.__name__): metric(y_true, y_pred)
        for metric in float_metrics
    }
    return {
        **results1,
        **results2
    }

#si usano solo per categorizzazione, non hanno senso per regressione
# auroc: area sotto la curva di Receiver operating characteristic: analizza falsi positivi e negativi
# valore minimo è 0.5 (non impara niente)  valore massimo è 1 (modello perfetto)
# auprc: area sotto la curva di precision recall: va a computare per diversi treashold di precisioni diversi, la somma delle aree
#sottese sotto i diversi traingolini della precision-reacall. Un modello che non impara nulla ha AUPRC = 0 e un modello perfetto ha
# AUPRC = 1

In [30]:
def precomputed(results, model:str, holdout:int)->bool:
    df = pd.DataFrame(results)
    if df.empty:
        return False
    return (
        (df.model == model) &
        (df.holdout == holdout)
    ).any()

In [31]:
import json
#if os.path.exists("results1.json"):
 #   with open('results.json') as json_file:
#        results = json.load(json_file)
#else:
results = []
    
for i, (train, test) in tqdm(enumerate(holdouts.split(X, y)), total=splits, desc="Computing holdouts", dynamic_ncols=True):
    for model, params in tqdm(zip(models, kwargs), total=len(models), desc="Training models", leave=False, dynamic_ncols=True):
        model_name = (
            model.__class__.__name__
            if model.__class__.__name__ != "Sequential"
            else model.name
        )
        if precomputed(results, model_name, i):
            continue
        print( model_name)
        model.fit(X[train], y[train], **params)
        results.append({
            "model":model_name,
            "run_type":"train",
            "holdout":i,
            **report(y[train], model.predict(X[train]))
        })
        results.append({
            "model":model_name,
            "run_type":"test",
            "holdout":i,
            **report(y[test], model.predict(X[test]))
        })
       # compress_json.local_dump(results, "results.json")

HBox(children=(FloatProgress(value=0.0, description='Computing holdouts', layout=Layout(flex='2'), max=50.0, s…

HBox(children=(FloatProgress(value=0.0, description='Training models', layout=Layout(flex='2'), max=1.0, style…

MLP


HBox(children=(FloatProgress(value=0.0, description='Training', max=1000.0, style=ProgressStyle(description_wi…

HBox(children=(FloatProgress(value=0.0, description='Epoch 0', max=47104.0, style=ProgressStyle(description_wi…

InternalError: GPU sync failed