# <center> IMPLEMENTAZIONE </center>


Scopo di questo progetto è quello di creare un modello per segmentare automaticamente lo stomaco e l'intestino nelle scansioni MRI, basandosi su un data set di queste scansioni per trovare soluzioni creative di deep learning che aiutino i pazienti oncologici a ricevere cure migliori.

Il processo di data mining è una pipeline che si compone delle seguenti fasi:

1. Data collection
2. Data preprocessing
3. Analytical processing

Seguiremo pertanto questa pipeline, suddividendo il notebook in tre parti principali e spiegando nel dettaglio le scelte fatte. 

# <center> DATA COLLECTION </center>

Questa fase serve a ... ed è di fondamentale importanza perchè buone scelte in questa fase possono avere un impatto significativo sull'intero processo di data mining. 

## Elenco importazioni

In [5]:
import os
import pandas as pd

## Definizione percorsi di base

In [6]:
BASE_DIR = "../BD-Image-Segmentation-Comp/" 
TRAIN_DIR = os.path.join(BASE_DIR, 'train')
TRAIN_CSV = os.path.join(BASE_DIR, 'train.csv')

## Caricamento metadati

In questa fase importiamo il modello dal file `train.csv` al fine di ...

In [7]:
# df stands for dataframe
train_df = pd.read_csv(TRAIN_CSV)
train_df.head()

Unnamed: 0,id,class,segmentation
0,case123_day20_slice_0001,large_bowel,
1,case123_day20_slice_0001,small_bowel,
2,case123_day20_slice_0001,stomach,
3,case123_day20_slice_0002,large_bowel,
4,case123_day20_slice_0002,small_bowel,


In [8]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 115488 entries, 0 to 115487
Data columns (total 3 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   id            115488 non-null  object
 1   class         115488 non-null  object
 2   segmentation  33913 non-null   object
dtypes: object(3)
memory usage: 2.6+ MB


Da una prima lettura, si evince che la maggior parte dei record non presenta alcuna segmentazione.

# <center> DATA PREPROCESSING </center>

Finita la parte di data collection, segue la fase di data preprocessing, in cui ...

Essa si compone dei seguenti passaggi:

1. Feature extraction
2. Data cleaning
3. Feature selection and trasformation

## FEATURE EXTRACTION

Ci troviamo davanti grandi volumi di dati grezzi ed abbiamo poche indicazioni su come questi dovrebbero essere trasformati in database di feature significative.

Il primo passo consiste nell'estrarre gli id dei casi primari. Inoltre, dobbiamo trasformare le maschere di segmentazione in formato `str`, poiché i valori `NaN` saranno difficili da estrarre in altri modi.

Creiamo una funzione ad hoc, chiamata `data_preprocessing` che, ricevuto in input il dataframe grezzo, fornisce in output un dataframe opportunamente processato, che ci servirà per     

In [9]:
train_df["segmentation"] = train_df["segmentation"].astype("str")
train_df["case_id"] = train_df["id"].apply(lambda x: x.split("_")[0][4:])
train_df["day_id"] = train_df["id"].apply(lambda x: x.split("_")[1][3:])
train_df["slice_id"] = train_df["id"].apply(lambda x: x.split("_")[-1])

Il dataset appena formattato avrà quindi questa struttura:

In [11]:
train_df.head()

Unnamed: 0,id,class,segmentation,case_id,day_id,slice_id
0,case123_day20_slice_0001,large_bowel,,123,20,1
1,case123_day20_slice_0001,small_bowel,,123,20,1
2,case123_day20_slice_0001,stomach,,123,20,1
3,case123_day20_slice_0002,large_bowel,,123,20,2
4,case123_day20_slice_0002,small_bowel,,123,20,2


Adesso, avendo ottenuto gli id delle varie immagini, procediamo all'estrazione dei percorsi.

Per prima cosa andiamo a creare una funzione ad hoc, chiamata ``

In [None]:
def fetch_file_from_id(root_dir, case_id):
    case_folder = case_id.split("_")[0]
    day_folder = "_".join(case_id.split("_")[:2])
    file_starter = "_".join(case_id.split("_")[2:])
    # fetching folder paths
    folder = os.path.join(root_dir, case_folder, day_folder, "scans")
    # fetching filenames with similar pattern
    file = glob(f"{folder}/{file_starter}*")
    # returning the first file, though it will always hold one file.
    return file[0]
train_df["path"] = train_df["id"].apply(lambda x: fetch_file_from_id(TRAIN_DIR, x))
train_df.head()

## DATA CLEANING

## FEATURE SELECTION AND TRASFORMATION