# Progetto CHL

## Dataset Preprocessing 

Inizialmente, il dataset era composto da diverse colonne: la prima contenente i geni espressi attraverso i simboli HUGO, la seconda gli identificatori univoci dei geni, e le colonne successive rappresentavano i livelli di espressione genica di ogni gene per ciascun paziente. 

A causa della presenza eccessiva di valori NaN nella prima colonna, abbiamo deciso di eliminarla e di utilizzare l'ID del gene come identificativo principale. Inoltre, abbiamo focalizzato la nostra analisi sull'espressione genetica di un singolo paziente, eliminando le colonne relative agli altri pazienti.

Inoltre sono state eliminate le righe che contenevano come espressione genetica il valore NaN. 

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plt

'''Dataset'''
thca = 'ds_thca.txt'
lusc = 'ds_lusc.txt'
skcm = 'ds_skcm.txt'
coadread = 'ds_coadread.txt'

'''Patient'''
thca_p = 'TCGA-4C-A93U-01'
lusc_p = 'TCGA-21-5787-01'
skcm_p = 'TCGA-D3-A1Q9-06'
coadread_p = 'TCGA-AA-A01P-01'

def processing_ds(ds):
    ds = pd.read_csv('../data/'+ds, sep='\t')
    ds = ds.drop(columns='Hugo_Symbol', axis=1)
    ds = ds.dropna()
    ds = ds.reset_index(drop=True)    
    ds = ds[:10] #per fare prove
    return ds

ds_thca = processing_ds(thca)
ds_lusc = processing_ds(lusc)
ds_skcm = processing_ds(skcm)
ds_coadread = processing_ds(coadread)

## Correlazione

Per ogni coppia di geni, è stata calcolata la correlazione tra questi utilizzando la distanza Euclidea.

In [2]:
def correlation(ds, paziente):
    ds = ds[['Entrez_Gene_Id', paziente]]
    n = len(ds)

    correlation_results = []

    for i in range(0, n):
        gene1 = ds.Entrez_Gene_Id[i]
        val1 = ds.loc[i, paziente]
        
        for j in range(i+1, n):

            gene2 = ds.Entrez_Gene_Id[j]
            val2 = ds.loc[j, paziente]
        
            # Calculate the correlation between the gene expressions
            # Calculate the Euclidean distance between the gene expressions
            correlation = np.sqrt((val1 - val2)**2)
            
            # Add the result as a dictionary to the results list
            correlation_results.append({
                'gene_1': gene1,
                'gene_2': gene2,
                'correlation': correlation
            })

    df = pd.DataFrame(correlation_results)

    return df

In [3]:
correlation(ds_thca, thca_p)

Unnamed: 0,gene_1,gene_2,correlation
0,100130426,100133144,2.9835
1,100130426,100134869,0.2732
2,100130426,10357,3.9577
3,100130426,10431,2.7237
4,100130426,155060,5.1139
5,100130426,26823,3.31
6,100130426,280660,2.4833
7,100130426,340602,2.9571
8,100130426,388795,3.5184
9,100133144,100134869,2.7103


In [4]:
correlation(ds_lusc, lusc_p)

Unnamed: 0,gene_1,gene_2,correlation
0,100130426,100133144,2.59
1,100130426,100134869,1.0999
2,100130426,10357,4.5094
3,100130426,10431,7.0017
4,100130426,155060,3.3741
5,100130426,26823,2.9163
6,100130426,280660,3.5711
7,100130426,340602,3.9031
8,100130426,388795,4.36
9,100133144,100134869,1.4901


In [5]:
correlation(ds_skcm, skcm_p)

Unnamed: 0,gene_1,gene_2,correlation
0,100130426,100133144,4.2592
1,100130426,100134869,3.0309
2,100130426,10357,6.031
3,100130426,10431,5.5156
4,100130426,155060,3.0576
5,100130426,26823,4.7474
6,100130426,280660,5.527
7,100130426,340602,8.1826
8,100130426,388795,5.1732
9,100133144,100134869,1.2283


In [6]:
correlation(ds_coadread, coadread_p)

Unnamed: 0,gene_1,gene_2,correlation
0,100133144,100134869,0.9104
1,100133144,10357,1.1899
2,100133144,10431,1.6573
3,100133144,155060,0.1955
4,100133144,388795,0.2443
5,100133144,390284,0.9356
6,100133144,57714,2.3966
7,100133144,645851,0.6281
8,100133144,653553,0.666
9,100134869,10357,0.2795
