# [About the data set](https://www.kaggle.com/datasets/rzemouri/oncotypedx-breast-cancer-dataset?resource=download)
Ο Oncotype DX (ODX) είναι μια υπογραφή έκφρασης πολλαπλών γονιδίων που έχει σχεδιαστεί για ασθενείς με καρκίνο του μαστού με θετικό υποδοχέα οιστρογόνων (ER) και αρνητικό υποδοχέα του ανθρώπινου επιδερμικού αυξητικού παράγοντα 2 (HER2) για την πρόβλεψη του σκορ υποτροπής (RS) και του οφέλους της χημειοθεραπείας (CT). Σκοπός της μελέτης μας είναι η ανάπτυξη ενός εργαλείου πρόβλεψης για τις τρεις κατηγορίες RS που βασίζεται σε βαθιά πολυεπίπεδα perceptrons (DMLP) και χρησιμοποιεί μόνο τις μορφοανοσοανοσολογικές μεταβλητές. Πραγματοποιήσαμε μια αναδρομική κοόρτη 320 ασθενών που υποβλήθηκαν σε έλεγχο ODX από τρία γαλλικά νοσοκομεία. Καταγράφηκαν τα κλινικοπαθολογικά χαρακτηριστικά. Κατασκευάσαμε ένα μοντέλο ταξινόμησης με επιβλεπόμενη μηχανική μάθηση χρησιμοποιώντας το λογισμικό Matlab με 152 περιπτώσεις για την εκπαίδευση και 168 περιπτώσεις για τη δοκιμή. Χρησιμοποιήθηκαν τρεις ταξινομητές για την εκμάθηση των τριών κατηγοριών κινδύνου της ODX, δηλαδή του χαμηλού, του ενδιάμεσου και του υψηλού κινδύνου. Τα πειραματικά αποτελέσματα παρέχουν την περιοχή κάτω από την καμπύλη (AUC), αντίστοιχα, για τις τρεις κατηγορίες κινδύνου: 0,63 [95% διάστημα εμπιστοσύνης: (0,5446, 0,7154), p < 0,001], 0,59 [95% διάστημα εμπιστοσύνης: (0,5031, 0,6769), p < 0,001], 0,75 [95% διάστημα εμπιστοσύνης: (0,6184, 0,8816), p < 0,001]. Το ποσοστό συμφωνίας μεταξύ του πραγματικού RS και του προβλεπόμενου RS κυμάνθηκε από 53 έως 56% για κάθε κατηγορία μεταξύ DMLP και ODX. Το ποσοστό συμφωνίας της συνδυασμένης ομάδας χαμηλού και ενδιάμεσου κινδύνου ήταν 85%. αναπτύξαμε ένα προγνωστικό μοντέλο μηχανικής μάθησης που θα μπορούσε να βοηθήσει στον καθορισμό της RS του ασθενούς. Επιπλέον, ενσωματώσαμε τα ιστοπαθολογικά δεδομένα και τα αποτελέσματα της DMLP για την επιλογή όγκου για τη δοκιμή ODX. Έτσι, η διαδικασία αυτή επιτρέπει την πιο συναφή χρήση των ιστοπαθολογικών δεδομένων και βελτιστοποιεί και ενισχύει αυτές τις πληροφορίες.

Σχετικές εργασίες και αίτηση αναφοράς:

Πρόβλεψη της βαθμολογίας υποτροπής του Oncotype DX με τη χρήση βαθιών πολυεπίπεδων perceptrons σε καρκίνο του μαστού με θετικούς υποδοχείς οιστρογόνων και αρνητικό HER2
Μάιος 2020 Καρκίνος του μαστού 27(5)
DOI: 10.1007/s12282-020-01100-4

Διάγνωση του καρκίνου του μαστού με βάση την από κοινού επιλογή μεταβλητών και το Constructive Deep Neural Network, Μάρτιος 2018, Συνέδριο: 2018 IEEE 4th Middle East Conference on Biomedical Engineering (MECBME), DOI:10.1109/MECBME.2018.8402426

Constructive Deep Neural Network for Breast Cancer Diagnosis, Ιανουάριος 2018, IFAC-PapersOnLine 51(27):98-103, DOI:10.1016/j.ifacol.2018.11.660

## Target feature
    Statur ODX
    -   1 = low value (RS<18)
    -   2 = mid value (RS18-30)
    -   3 = high value (RS>30)

In [75]:
#Libraries
import pandas as pd

In [76]:
#pandas settings
pd.set_option('display.max_columns',58)
missing_values = ['NA', 'NaN', 'N/A', 'NR', ' ']


In [77]:
# loading the dataset
file_path = r'C:\Users\thomo\Desktop\Personal\Uni\Ptixiaki\DataSet\DataSet.xlsx'
df = pd.read_excel(file_path)
df.replace(missing_values, inplace=True)
target = 'Statut ODX'

In [78]:
df.head()

Unnamed: 0,N°Bloc,Type de prélèvement,Bloc ODX,Sexe,DDN,Date diag,Age au diag,Ménopause,ATCD K sein,Consultation oncogénétique,Mutation,Taille tm (mm),Type de gg,Statut ganglionnaire,Nombre de gg+/nb de gg prélevés,Type histo,Type histo associé,Grade SBR,Grade glandes,Grade nucléaire,Grade mitoses,Emboles vasculaires,Envahissement périnerveux,% Stroma,% CT,Topographie infiltrat,Stade pTNM,RE (%),RE intensité,RE Allred,RP (%),RP intensité,RP Allred,HER2 IHC,HER2 SISH,Ki67,% Lt stroma,% CD8 dans tumeur,P53,P53 (%),P53 intensité,Score Oncotype,Distant recurrence (%),Statut ODX,RE Oncotype,RE status O,RP Oncotype,RP status O,HER2 Oncotype,HER 2 status O,Chirurgie,HT,RT,Chimithérapie,DDN.1,EDN,Récidive,Unnamed: 57
0,12.11.07.046,1,E,1,1934-12-26,2012-11-16,77.945205,1,2,,,14,1,0.0,0/1,3,1,3,3,2,3,0,0,20,80.0,2.0,T1cN0(sn)(i-),100,3,8,100,3,8,,,11,5,0.0,0*,30.0,1,2,0.04,1,11.9,positive,8.8,positive,7.8,négative,1,1,1,0,2016-06-15 00:00:00,V,0,
1,12.12.18.104,1,T21,1,1944-04-08,2013-01-03,68.786301,1,0,,,15,1,0.0,0/1,1,5,3,3,3,2,0,0,30,70.0,1.0,T1cN0(sn)(i-),90,3,8,90,3,8,,,24,5,0.0,0*,20.0,1,15,0.1,1,11.1,positive,9.3,positive,9.9,négative,2,1,1,0,2016-10-28 00:00:00,V,0,
2,13.01.08.103,1,R1,1,1950-08-16,2013-01-17,62.465753,1,0,,,6,1,1.0,0.5,1,1,2,3,2,1,0,0,70,30.0,3.0,T1bN1a(sn),95,3,8,60,3,7,,,20,30,5.0,0*,10.0,1,27,0.18,2,8.4,positive,6.1,positive,8.0,négative,2,1,1,0,2015-10-16 00:00:00,V,0,
3,13.01.09.009,1,I3,1,1966-05-16,2013-01-18,46.709589,0,0,,,80,1,3.0,0/1,2,2 + 3,2,3,2,1,0,0,30,70.0,1.0,T3N0(sn)(i+),90,2,7,100,3,8,,,11,5,1.0,0*,30.0,1,12,0.08,1,7.8,positive,8.5,positive,9.4,négative,4,1,1,0,2018-01-18 00:00:00,V,0,
4,13.02.05.076,1,A5,1,1954-12-15,2013-02-14,58.208219,0,0,1.0,6.0,30,1,0.0,0/1,1,1,2,3,2,1,0,0,20,80.0,2.0,T2N0(sn)(i-),100,3,8,2,2,4,,,10,5,0.0,0*,10.0,1,16,0.1,1,10.3,positive,4.0,négative,9.2,négative,2,1,1,0,2016-10-09 00:00:00,V,0,


In [79]:
# Iterate over each column
for column in df.columns:
    print("----", column, "----")
    
    # Calculate missing values
    missing_count = df[column].isnull().sum()
    print("Missing values:", missing_count)
    
    # Convert column to numeric if possible
    if pd.to_numeric(df[column], errors='coerce').notnull().all():
        df[column] = pd.to_numeric(df[column])
        
        # Calculate statistics
        std_deviation = df[column].std()
        print("Standard deviation:", std_deviation)
        
        mean_value = df[column].mean()
        print("Mean value:", mean_value)
        
        max_value = df[column].max()
        print("Maximum value:", max_value)
        
        min_value = df[column].min()
        print("Minimum value:", min_value)
        
    else:
        print("The feature named", column, "is not numeric")
        
    print("\n")

---- N°Bloc ----
Missing values: 0
The feature named N°Bloc is not numeric


---- Type de prélèvement ----
Missing values: 0
Standard deviation: 0.3198398158268636
Mean value: 0.8847352024922118
Maximum value: 1
Minimum value: 0


---- Bloc ODX ----
Missing values: 33
The feature named Bloc ODX is not numeric


---- Sexe ----
Missing values: 0
Standard deviation: 0.05581455721859476
Mean value: 0.9968847352024922
Maximum value: 1
Minimum value: 0


---- DDN ----
Missing values: 0
Standard deviation: 3.621924357059397e+17
Mean value: -3.579145570093458e+17
Maximum value: 503625600000000000
Minimum value: -1236729600000000000


---- Date diag ----
Missing values: 0
Standard deviation: 4.867620098067768e+16
Mean value: 1.4319069308411215e+18
Maximum value: 1547164800000000000
Minimum value: 1345593600000000000


---- Age au diag ----
Missing values: 0
Standard deviation: 11.288386101291726
Mean value: 56.75486706781036
Maximum value: 83.84383561643835
Minimum value: 30.367123287671234


-