# Découpage définitif des données au format AutoML

pour le format AutoML cf. la page https://github.com/madclam/m2aic2019/blob/master/Starting_Kit_M2info.pdf

- extraire les données de Magali
- les enrichir avec SMOTE
- passer au format AutoML (train, valid, test), en découpant de manière à ce que les classes soient équilibrées à chaque fois

### PLAN

- 1) chargement des données clean et génération du dataset global (1000 de chaque classe avec SMOTE)
- 2) découpage auto_ML global (TOUTES nos données): train, valid, test (800,100,100 pour chaque classe)
- 3) découpage sample pour starting_kit dans le TRAIN (!!!) précédent

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter
from imblearn.over_sampling import ADASYN, SMOTE

# Chargement des données clean

on charge les données et on utilise SMOTE pour créer l'ensemble "global" de données avec lequel on va travailler

In [2]:
# Chargement des données, clean_data étant les données nettoyées des NaN trop nombreux
df_data = pd.read_csv("data/clean_data.csv")
print("df_data shape:", df_data.shape)
df_metadata = pd.read_csv("data/metadata.csv")
print("df_metadata shape:", df_metadata.shape)
df_metadata[:5]

FileNotFoundError: File b'data/clean_data.csv' does not exist

In [None]:
# Convertir les données en ndarray et supprimer les colonnes inutiles
D = df_data.loc[:, ~df_data.columns.str.contains('^Unnamed')].values
D = D.T

print(type(D))
print(D.shape)

# Générer les labels en fonction d'une colonne choisie
status = pd.Series(df_metadata["tissue_status"].values)
stage = pd.Series(df_metadata["tumor_stage"].values)

labelsBinary, valuesBinary = pd.factorize(status)
labelsStages, valuesStages = pd.factorize(stage)

yBinary = labelsBinary
yStage = labelsStages

print("labelsBinary :", labelsBinary)
print("valuesBinary :", valuesBinary)

print("labelsStages :", labelsStages)
print("valuesStages :", valuesStages)

In [None]:
# IL FAUT ARRIVER À 300 MB après avoir agrandi le nombre d'observations
# ===>>> couper les features
# selection des k best features grâce au test chi2
chi2_selector = SelectKBest(chi2, k=1000)
D = chi2_selector.fit_transform(D, labelsBinary)
print(D.shape)

In [None]:
# 6 occurences nécessaire pour Smote ou Adasyn, 
# on enlève la classe 8 et on duplique une occurence de 2 pour passer à 6 (min nécessaire à SMOTE) 

X_train, X_test, y_train, y_test = train_test_split(D, yStage, test_size=0.2, random_state=42)
# stratify=y, mais une classe avec 1 occurences,on vire cette classe?

recounted = Counter(y_train)
print(recounted)

X_train_sans_8 = X_train[np.where(y_train!=8)]
X_2 = X_train[np.where(y_train==2)][0]
print(X_train_sans_8.shape)
print(X_2.shape)

# dédoublement d'un exemple de la classe 2
X_train_sans_8_double_2 = np.vstack([X_train_sans_8,X_2])
print(X_train_sans_8_double_2.shape)

# dédoublement d'un label de la classe 2
y_train_sans_8 = y_train[np.where(y_train!=8)]
print(y_train_sans_8)
y_train_sans_8 = np.append(y_train_sans_8, 2)
print(y_train_sans_8)

# retrait des instances potentielles de la classe 8 trop petite dans le test
X_test = X_test[np.where(y_test!=8)]
y_test = y_test[np.where(y_test!=8)]

In [None]:
X_train = X_train_sans_8_double_2
y_train = y_train_sans_8

# nombre d'occurences désirées par classe 
# # on a enlevé la classe 8 car qu'une occurence 
# impossible d'appliquer SMOTE ou ADASYN et génération d'une population à partir
# d'un seul exemple est absurde

dict= {0: 1000, 1: 1000, 5: 1000, 3: 1000, -1: 1000, 7: 1000, 4: 1000, 9: 1000, 6: 1000, 2: 1000}  
smote = SMOTE(random_state=42, sampling_strategy=dict)

X_resampled, y_resampled = smote.fit_resample(X_train, y_train)
y_resampled = np.array([y_1 if y_1 != -1 else 8 for y_1 in y_resampled])
print(set(y_resampled))
print(X_resampled.shape)
print(y_resampled.shape)

# Découpage auto_ML global (TOUTES nos données): train, valid, test

chaque ensemble (train, valid, test) doit être équilibré

La dernière colonne contient les labels pour X_and_y

In [None]:
# on récupère un data_frame de chaque classe, dans lesquelles on va piocher pour redéfinir chaque ensemble

X_resampled_df = pd.DataFrame(X_resampled)
y_resampled_df = pd.DataFrame(y_resampled)
y_resampled_df = y_resampled_df.rename(columns={0: 'label'})


# La dernière colonne contient les labels
X_and_y = pd.concat([X_resampled_df, y_resampled_df], axis=1, sort=False)
#X_and_y.head(n=2)
print(X_and_y.shape)

In [None]:
np.unique(X_and_y['label'].values) # vérifie la disparition de la classe -1

In [None]:
# définition d'un dataframe par classe pour découper par classe
# et obtenir des train/valid/test équilibrés

X_and_y_class0 = X_and_y[X_and_y["label"] == 0]
X_and_y_class1 = X_and_y[X_and_y["label"] == 1]
X_and_y_class2 = X_and_y[X_and_y["label"] == 2]
X_and_y_class3 = X_and_y[X_and_y["label"] == 3]
X_and_y_class4 = X_and_y[X_and_y["label"] == 4]
X_and_y_class5 = X_and_y[X_and_y["label"] == 5]
X_and_y_class6 = X_and_y[X_and_y["label"] == 6]
X_and_y_class7 = X_and_y[X_and_y["label"] == 7]
X_and_y_class8 = X_and_y[X_and_y["label"] == 8]
X_and_y_class9 = X_and_y[X_and_y["label"] == 9]

### TRAIN global de taille 800 (dans lequel on prendra tous les sets du starting kit)

La dernière colonne contient les labels

In [None]:
X_and_y_class0_train = X_and_y_class0[:800]
print(X_and_y_class0_train.shape)

X_and_y_class1_train = X_and_y_class1[:800]
X_and_y_class2_train = X_and_y_class2[:800]
X_and_y_class3_train = X_and_y_class3[:800]
X_and_y_class4_train = X_and_y_class4[:800]
X_and_y_class5_train = X_and_y_class5[:800]
X_and_y_class6_train = X_and_y_class6[:800]
X_and_y_class7_train = X_and_y_class7[:800]
X_and_y_class8_train = X_and_y_class8[:800]
X_and_y_class9_train = X_and_y_class9[:800]

# TRAIN global par concaténations des 800 premiers de chaque classe pour obtenir un train équilibré
X_and_y_train = pd.concat([X_and_y_class0_train,X_and_y_class1_train, X_and_y_class2_train,X_and_y_class3_train,X_and_y_class4_train,X_and_y_class5_train,X_and_y_class6_train,X_and_y_class7_train,X_and_y_class8_train,X_and_y_class9_train], axis=0, sort=False)
print(X_and_y_train.shape)

### VALID global de taille 100 (dans lequel on ne prendra RIEN pour le starting kit)

La dernière colonne contient les labels

In [None]:
X_and_y_class0_valid = X_and_y_class0[800:900]
X_and_y_class1_valid = X_and_y_class1[800:900]
X_and_y_class2_valid = X_and_y_class2[800:900]
X_and_y_class3_valid = X_and_y_class3[800:900]
X_and_y_class4_valid = X_and_y_class4[800:900]
X_and_y_class5_valid = X_and_y_class5[800:900]
X_and_y_class6_valid = X_and_y_class6[800:900]
X_and_y_class7_valid = X_and_y_class7[800:900]
X_and_y_class8_valid = X_and_y_class8[800:900]
X_and_y_class9_valid = X_and_y_class9[800:900]

# TRAIN global par concaténations des 800 premiers de chaque classe pour obtenir un train équilibré
X_and_y_valid = pd.concat([X_and_y_class0_valid,X_and_y_class1_valid, X_and_y_class2_valid,X_and_y_class3_valid,X_and_y_class4_valid,X_and_y_class5_valid,X_and_y_class6_valid,X_and_y_class7_valid,X_and_y_class8_valid,X_and_y_class9_valid], axis=0, sort=False)
print(X_and_y_valid.shape)

### TEST global de taille 100 (dans lequel on ne prendra RIEN pour le starting kit)

La dernière colonne contient les labels

In [None]:
X_and_y_class0_test = X_and_y_class0[800:900]
X_and_y_class1_test = X_and_y_class1[800:900]
X_and_y_class2_test = X_and_y_class2[800:900]
X_and_y_class3_test = X_and_y_class3[800:900]
X_and_y_class4_test = X_and_y_class4[800:900]
X_and_y_class5_test = X_and_y_class5[800:900]
X_and_y_class6_test = X_and_y_class6[800:900]
X_and_y_class7_test = X_and_y_class7[800:900]
X_and_y_class8_test = X_and_y_class8[800:900]
X_and_y_class9_test = X_and_y_class9[800:900]

# TRAIN global par concaténations des 800 premiers de chaque classe pour obtenir un train équilibré
X_and_y_test = pd.concat([X_and_y_class0_test,X_and_y_class1_test, X_and_y_class2_test,X_and_y_class3_test,X_and_y_class4_test,X_and_y_class5_test,X_and_y_class6_test,X_and_y_class7_test,X_and_y_class8_test,X_and_y_class9_test], axis=0, sort=False)
print(X_and_y_test.shape)

# Découpage sample pour starting_kit dans le train global défini dans les cellules précédentes (sample train/valid/test provenant TOUS du train global !!!)




### 1) Générer des sets *équilibrés* pour le starting kit

In [None]:
# 5 différents de chaque classe dans chacun des subsets du starting kit

# TRAIN pour starting_kit
X_and_y_class0_trainKit = X_and_y_class0[:5]
X_and_y_class1_trainKit = X_and_y_class1[:5]
X_and_y_class2_trainKit = X_and_y_class2[:5]
X_and_y_class3_trainKit = X_and_y_class3[:5]
X_and_y_class4_trainKit = X_and_y_class4[:5]
X_and_y_class5_trainKit = X_and_y_class5[:5]
X_and_y_class6_trainKit = X_and_y_class6[:5]
X_and_y_class7_trainKit = X_and_y_class7[:5]
X_and_y_class8_trainKit = X_and_y_class8[:5]
X_and_y_class9_trainKit = X_and_y_class9[:5]

X_and_y_trainKit = pd.concat([X_and_y_class0_trainKit,X_and_y_class1_trainKit,\
                              X_and_y_class2_trainKit,X_and_y_class3_trainKit,\
                              X_and_y_class4_trainKit,X_and_y_class5_trainKit,\
                              X_and_y_class6_trainKit,X_and_y_class7_trainKit,\
                              X_and_y_class8_trainKit,X_and_y_class9_trainKit,], axis=0, sort=False)

In [None]:
# TEST pour starting_kit
X_and_y_class0_testKit = X_and_y_class0[5:10]
X_and_y_class1_testKit = X_and_y_class1[5:10]
X_and_y_class2_testKit = X_and_y_class2[5:10]
X_and_y_class3_testKit = X_and_y_class3[5:10]
X_and_y_class4_testKit = X_and_y_class4[5:10]
X_and_y_class5_testKit = X_and_y_class5[5:10]
X_and_y_class6_testKit = X_and_y_class6[5:10]
X_and_y_class7_testKit = X_and_y_class7[5:10]
X_and_y_class8_testKit = X_and_y_class8[5:10]
X_and_y_class9_testKit = X_and_y_class9[5:10]

X_and_y_testKit = pd.concat([X_and_y_class0_testKit,X_and_y_class1_testKit,\
                              X_and_y_class2_testKit,X_and_y_class3_testKit,\
                              X_and_y_class4_testKit,X_and_y_class5_testKit,\
                              X_and_y_class6_testKit,X_and_y_class7_testKit,\
                              X_and_y_class8_testKit,X_and_y_class9_testKit,], axis=0, sort=False)

In [None]:
# VALID pour starting_kit
X_and_y_class0_validKit = X_and_y_class0[10:15]
X_and_y_class1_validKit = X_and_y_class1[10:15]
X_and_y_class2_validKit = X_and_y_class2[10:15]
X_and_y_class3_validKit = X_and_y_class3[10:15]
X_and_y_class4_validKit = X_and_y_class4[10:15]
X_and_y_class5_validKit = X_and_y_class5[10:15]
X_and_y_class6_validKit = X_and_y_class6[10:15]
X_and_y_class7_validKit = X_and_y_class7[10:15]
X_and_y_class8_validKit = X_and_y_class8[10:15]
X_and_y_class9_validKit = X_and_y_class9[10:15]

X_and_y_validKit = pd.concat([X_and_y_class0_validKit,X_and_y_class1_validKit,\
                              X_and_y_class2_validKit,X_and_y_class3_validKit,\
                              X_and_y_class4_validKit,X_and_y_class5_validKit,\
                              X_and_y_class6_validKit,X_and_y_class7_validKit,\
                              X_and_y_class8_validKit,X_and_y_class9_validKit,], axis=0, sort=False)

### 2) Il faut re-séparer les features des labels (contenus dans la dernière colonne des X_and_y_...)

In [None]:
X_sample_startingKit = X_and_y_train.iloc[:,:-1] # pour l'écriture du .name

X_trainKit = X_and_y_trainKit.iloc[:,:-1]
X_testKit = X_and_y_testKit.iloc[:,:-1]
X_validKit = X_and_y_validKit.iloc[:,:-1]

Y_trainKit = X_and_y_trainKit.iloc[:,-1]
Y_testKit = X_and_y_testKit.iloc[:,-1]
Y_validKit = X_and_y_validKit.iloc[:,-1]

In [None]:
X_trainKit.head(n=2)

In [None]:
Y_trainKit.head(n=2)

### 3) puis écrire dans les fichiers AutoML

In [None]:
with open('../starting_kit/sample_data/hadaca_feat.name', 'w') as f:
    for i in range(X_trainKit.values.shape[1]):
        f.write('methyl_{}\n'.format(i))

with open('../starting_kit/sample_data/hadaca_train.data', 'w') as f:
    for x in X_trainKit.values:
        for feat in x:
            f.write('{} '.format(np.float64(feat)))

        f.write('\n')

with open('../starting_kit/sample_data/hadaca_test.data', 'w') as f:
    for x in X_testKit.values:
        for feat in x:
            f.write('{} '.format(np.float64(feat)))

        f.write('\n')


with open('../starting_kit/sample_data/hadaca_valid.data', 'w') as f:
    for x in X_validKit.values:
        for feat in x:
            f.write('{} '.format(np.float64(feat)))

        f.write('\n')

with open('../starting_kit/sample_data/hadaca_train.solution', 'w') as f:
    for x in Y_trainKit.values:
        f.write('{}'.format(x))

        f.write('\n')

with open('../starting_kit/sample_data/hadaca_test.solution', 'w') as f:
    for x in Y_testKit.values:
        f.write('{}'.format(x))

        f.write('\n')


with open('../starting_kit/sample_data/hadaca_valid.solution', 'w') as f:
    for x in Y_validKit.values:
        f.write('{}'.format(x))

        f.write('\n')