## Radiomics

La radiómica es un campo de estudio médico que busca extraer características cuantitativas de imágenes médicas, convirtiendo las imágenes en datos minables y aplicando el análisis de estos datos para brindar soporte a la decisión clínica. De la misma forma que la genómica o la proteómica, este campo de la medicina de precisión busca encontrar patrones explicativos en sets de gran cantidad de datos. Se contrapone a la práctica tradicional de tratar las imágenes médicas como meras imágenes demostrativas destinadas únicamente a interpretación visual. La radiómica contiene estadística de primer, segundo y alto orden, que combinados con datos clínicos del paciente pueden generar modelos que potencialmente podrían mejorar la precisión diagnóstica, prognóstico y predictiva. 

La radiómica ha demostrado un buen desempeño en otros tipos de cáncer, especialmente de cerebro y de próstata, ya que son patologías de alta prevalencia y para las que se cuenta con sets de imágenes de gran tamaño. El pipeline de radiomics consiste en la adquisición de imagen, la segmentación de la región de interés, un posible preprocesamiento de la imagen (filtrado, resampleo, padding, cropping, entr otros) y finalmente la extracción de los "radiomic features". Para Python existe el paquete pyradiomics que explica cómo configurar este proceso en su documentación.
 
## Dataset de Gliomas 

El dataset TCIA-TCGA-LGG es un dataset público que combina información genética del Cancer Genome Archive con imágenes de resonancia magnética de cerebro del Cancer Imaging Archive , pertenecientes a pacientes diagnosticados con glioma.  
TCIA-LGG dataset

In [1]:
import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/rn-2019-itba/Clase-7--Regularizacion/master/radiomics_gliomas.csv')

In [2]:
data.head()

Unnamed: 0,original_firstorder_10Percentile,original_firstorder_90Percentile,original_firstorder_Energy,original_firstorder_Entropy,original_firstorder_InterquartileRange,original_firstorder_Kurtosis,original_firstorder_Maximum,original_firstorder_Mean,original_firstorder_MeanAbsoluteDeviation,original_firstorder_Median,...,wavelet-LLH_firstorder_Uniformity,wavelet-LLH_firstorder_Variance,wavelet-LLH_glcm_Autocorrelation,wavelet-LLH_glcm_ClusterProminence,wavelet-LLH_glcm_ClusterShade,wavelet-LLH_glcm_ClusterTendency,wavelet-LLH_glcm_Contrast,wavelet-LLH_glcm_Correlation,wavelet-LLH_glcm_DifferenceAverage,Mutacion
0,155.615205,353.184777,287821500.0,5.809761,97.306704,2.834441,434.351234,266.625929,60.124082,277.72665,...,0.041838,1257.66767,644.310749,58710.668931,-51.434398,128.596721,69.240755,0.301791,6.214115,1
1,191.101389,372.599007,2066994000.0,5.637016,99.693104,2.549367,424.250372,293.920752,55.622405,306.916096,...,0.110662,212.043507,162.874178,3080.122135,-96.878003,27.905486,5.517043,0.668519,1.679473,1
2,162.543544,413.165807,149680000.0,5.860199,103.001719,2.833426,475.078627,261.387435,70.544241,246.738413,...,0.04586,1237.007712,492.41936,69561.725366,-959.722953,162.728062,60.573934,0.468938,5.976991,1
3,247.658193,420.426441,211750100.0,5.607336,113.453612,2.119373,474.868965,335.706343,58.695066,337.126368,...,0.072517,613.130293,696.9425,15338.156162,-432.844674,52.406665,21.422252,0.386653,3.373647,1
4,191.321605,404.324298,568789700.0,5.871768,96.504857,3.300441,476.342717,314.11618,62.270515,328.312934,...,0.057828,724.36872,857.655164,24572.75763,-132.585964,73.449313,50.76361,0.190613,5.220063,0


In [3]:
X = data[data.columns[:-2]].values
print(X.shape)
         
Y = data['Mutacion'].values
print(Y.shape)

(150, 640)
(150,)


In [4]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(10)
splited_indexs = skf.split(X, Y)

In [5]:
i=0
training_sets = []
for train_index, test_index in splited_indexs:
    i=i+1
    print("CV dataset:", i)
    print(train_index.shape, test_index.shape)
    dictionary = {'X_train':X[train_index], 'y_train':Y[train_index], 'X_test':X[test_index],'y_test':Y[test_index]}
    training_sets.append(dictionary)

CV dataset: 1
(134,) (16,)
CV dataset: 2
(134,) (16,)
CV dataset: 3
(134,) (16,)
CV dataset: 4
(134,) (16,)
CV dataset: 5
(135,) (15,)
CV dataset: 6
(135,) (15,)
CV dataset: 7
(136,) (14,)
CV dataset: 8
(136,) (14,)
CV dataset: 9
(136,) (14,)
CV dataset: 10
(136,) (14,)


In [6]:
from sklearn.linear_model import Lasso
from sklearn.model_selection import cross_val_score
import numpy as np
alfa = 0.5
clf_lasso = Lasso(alpha=alfa, max_iter=1e6)
cross_val_scores = cross_val_score(estimator=clf_lasso, X=X, y=np.array(Y), cv=skf, scoring='neg_mean_squared_error')

print("Alpha {}: {:.2}(+/- {:.2})".format(
        alfa, -cross_val_scores.mean(), cross_val_scores.std()))



Alpha 0.5: 3.6e+03(+/- 6.6e+03)




In [None]:
from keras.models import Sequential
from keras.layers import Dense

model = Sequential()
sgd = optimizers.SGD(lr=lr, decay=decay)
model.add(Dense(hidden_units,input_dim=input_shape,  activation='sigmoid', ))
model.add(Dense(output_size, 
                activation='sigmoid', 
                kernel_initializer='zeros', 
                name='Salida'
               ))
model.compile(loss = 'binary_crossentropy', optimizer=sgd, metrics=['accuracy'])
return model