# Projet : Forage de données IFT870

# Analyse des données
Ce notebook contient les traces des démarches entreprises pour l'analyse des données mat bruts. Les différentes analyses sont les suivantes : 
- Pourcentage de la surface de la tumeur par rapport à toute l'image
    - Pour toutes les données
    - Pour une classe
- Coordonnées moyenne de la tumeur
    - Pour toutes les données
    - Pour une classe  

In [1]:
from pymatreader import read_mat
import numpy as np
import os

img = read_mat('dataset/mat/1.mat')


In [2]:
def separate_mat_files():
    directory = 'dataset/mat/'
    list_file_class1 = []
    list_file_class2 = []
    list_file_class3 = []
    
    for filename in os.listdir(directory):
        f = os.path.join(directory, filename) 

        if os.path.isfile(f):
            mat = read_mat(f)
            
            if mat['cjdata']['label'] == 1.0:
                list_file_class1.append(mat)
                
            if mat['cjdata']['label'] == 2.0:
                list_file_class2.append(mat)
                
            if mat['cjdata']['label'] == 3.0:
                list_file_class3.append(mat)
                
    return list_file_class1, list_file_class2, list_file_class3

In [3]:
list_file_class1, list_file_class2, list_file_class3 = separate_mat_files()

# Pourcentage de la surface de la tumeur par rapport à toute l'image

In [4]:
def calculate_percentage_tumor(file_mat):
    
    size_image = 512 * 512
    size_tumor = file_mat['cjdata']['tumorMask'].sum()
    percentage_tumor = size_tumor / size_image * 100
    
    return percentage_tumor
calculate_percentage_tumor(img)

1.7429351806640625

In [5]:
def calculate_percentage_tumor_per_class(list_file_class):
    
    size_image = 512 * 512
    list_percentage_per_class = []
    
    for i in range(len(list_file_class)):
        size_tumor_i = list_file_class[i]['cjdata']['tumorMask'].sum()
        percentage_tumor_i = size_tumor_i / size_image*100
        list_percentage_per_class.append(percentage_tumor_i)
    
    return list_percentage_per_class

percentage_class1 = calculate_percentage_tumor_per_class(list_file_class1)
percentage_class2 = calculate_percentage_tumor_per_class(list_file_class2)
percentage_class3 = calculate_percentage_tumor_per_class(list_file_class3)

In [6]:
percentage_all_data = percentage_class1 + percentage_class2 + percentage_class3

In [7]:
def print_caracteristics_percentage(list_percentage):
    array = np.asarray(list_percentage)
    print("le pourcentage minimum est de : ", np.min(array))
    print("le pourcentage maximum est de : ", np.max(array))
    print("l'écart-type est de : ", np.std(array))
    print("la moyenne est de : ", np.mean(array))
    print("la variance est de : ", np.var(array))

In [8]:
print('\033[1m' + "Meningiome")
print('\033[0m')
print_caracteristics_percentage(percentage_class1)

[1mMeningiome
[0m
le pourcentage minimum est de :  0.0972747802734375
le pourcentage maximum est de :  5.80596923828125
l'écart-type est de :  1.192650250115401
la moyenne est de :  1.7756203473624537
la variance est de :  1.4224146191003288


In [9]:
print('\033[1m' + "Gliome")
print('\033[0m')
print_caracteristics_percentage(percentage_class2)

[1mGliome
[0m
le pourcentage minimum est de :  0.1110076904296875
le pourcentage maximum est de :  9.712600708007812
l'écart-type est de :  1.542112064393804
la moyenne est de :  2.204345820829544
la variance est de :  2.37810961914892


In [10]:
print('\033[1m' + "Pituitaire")
print('\033[0m')
print_caracteristics_percentage(percentage_class3)

[1mPituitaire
[0m
le pourcentage minimum est de :  0.0621795654296875
le pourcentage maximum est de :  4.45709228515625
l'écart-type est de :  0.6225113297976087
la moyenne est de :  0.8254512663810484
la variance est de :  0.3875203557263871


In [11]:
print('\033[1m' + "Toutes les données")
print('\033[0m')
print_caracteristics_percentage(percentage_all_data)

[1mToutes les données
[0m
le pourcentage minimum est de :  0.0621795654296875
le pourcentage maximum est de :  9.712600708007812
l'écart-type est de :  1.3801298457068096
la moyenne est de :  1.6867513133713845
la variance est de :  1.9047583910107024


# Localisation de la moyenne de la tumeur

In [17]:
def calculate_mean_tumor_per_class(list_file_class):
    
    array_tumorBorder = img['cjdata']['tumorBorder']
    list_mean_tumor_per_class_coord_x = []
    list_mean_tumor_per_class_coord_y = []
    
    for i in range(len(list_file_class)):
        array_tumorBorder_i = list_file_class[i]['cjdata']['tumorBorder']
        array_tumorBorder_ix = array_tumorBorder[0:len(array_tumorBorder_i):2]
        array_tumorBorder_iy = array_tumorBorder[1:len(array_tumorBorder_i):2]
        mean_tumor_ix = array_tumorBorder_ix.sum() / len(array_tumorBorder_ix)
        mean_tumor_iy = array_tumorBorder_iy.sum() / len(array_tumorBorder_iy)
        list_mean_tumor_per_class_coord_x.append(mean_tumor_ix)
        list_mean_tumor_per_class_coord_y.append(mean_tumor_iy)
    
    return list_mean_tumor_per_class_coord_x, list_mean_tumor_per_class_coord_y

mean_tumor_class1_coord_x, mean_tumor_class1_coord_y = calculate_mean_tumor_per_class(list_file_class1)
mean_tumor_class2_coord_x, mean_tumor_class2_coord_y = calculate_mean_tumor_per_class(list_file_class2)
mean_tumor_class3_coord_x, mean_tumor_class3_coord_y = calculate_mean_tumor_per_class(list_file_class3)

In [18]:
mean_tumor_all_data_coord_x = mean_tumor_class1_coord_x + mean_tumor_class2_coord_x + mean_tumor_class3_coord_x
mean_tumor_all_data_coord_y = mean_tumor_class1_coord_y + mean_tumor_class2_coord_y + mean_tumor_class3_coord_y

In [19]:
def print_caracteristics_mean_tumor(list_mean_tumor_x, list_mean_tumor_y):
    array_coord_x = np.asarray(list_mean_tumor_x)
    array_coord_y = np.asarray(list_mean_tumor_y)
    print("l'écart-type de la coordonnee x est : ", np.std(array_coord_x), " et l'écart-type de la coordonnee y est : ", np.std(array_coord_y))
    print("la moyenne de la coordonnee x est de : ", np.mean(array_coord_x), " et la moyenne de la coordonnee y est de : ", np.mean(array_coord_y))
    print("la variance de la coordonnee x est de : ", np.var(array_coord_x), " et la variance de la coordonnee y est de : ", np.var(array_coord_y))

In [20]:
print('\033[1m' + "Meningiome")
print('\033[0m')
print_caracteristics_mean_tumor(mean_tumor_class1_coord_x, mean_tumor_class1_coord_y)

[1mMeningiome
[0m
l'écart-type de la coordonnee x est :  2.9770820459032024  et l'écart-type de la coordonnee y est :  1.5569586719266386
la moyenne de la coordonnee x est de :  319.77918849786016  et la moyenne de la coordonnee y est de :  219.69697269711665
la variance de la coordonnee x est de :  8.863017508039198  et la variance de la coordonnee y est de :  2.4241203060875622


In [21]:
print('\033[1m' + "Gliome")
print('\033[0m')
print_caracteristics_mean_tumor(mean_tumor_class2_coord_x, mean_tumor_class2_coord_y)

[1mGliome
[0m
l'écart-type de la coordonnee x est :  5.0916790607256495  et l'écart-type de la coordonnee y est :  4.04783085195729
la moyenne de la coordonnee x est de :  322.62594574201825  et la moyenne de la coordonnee y est de :  220.7154755238276
la variance de la coordonnee x est de :  25.925195657432027  et la variance de la coordonnee y est de :  16.384934606057282


In [22]:
print('\033[1m' + "Pituitaire")
print('\033[0m')
print_caracteristics_mean_tumor(mean_tumor_class3_coord_x, mean_tumor_class3_coord_y)

[1mPituitaire
[0m
l'écart-type de la coordonnee x est :  5.235180203551121  et l'écart-type de la coordonnee y est :  4.264985110736015
la moyenne de la coordonnee x est de :  324.0966647732178  et la moyenne de la coordonnee y est de :  220.94790332355737
la variance de la coordonnee x est de :  27.407111763653553  et la variance de la coordonnee y est de :  18.1900979947999


In [23]:
print('\033[1m' + "Toutes les données")
print('\033[0m')
print_caracteristics_mean_tumor(mean_tumor_all_data_coord_x, mean_tumor_all_data_coord_y)

[1mToutes les données
[0m
l'écart-type de la coordonnee x est :  4.991679803165887  et l'écart-type de la coordonnee y est :  3.7330755993459737
la moyenne de la coordonnee x est de :  322.41454383932626  et la moyenne de la coordonnee y est de :  220.55067717279542
la variance de la coordonnee x est de :  24.91686725733423  et la variance de la coordonnee y est de :  13.9358534304323
