# Obtención de datos



# **1.** Descarga y almacenamiento en DataFrames

La página [cBioPortal](https://www.cbioportal.org/datasets) contiene una gran muestra de datos de estudios de cáncer.

📥 Se descargaron los datos de un estudio en concreto `Breast Invasive Carcinoma (TCGA, Nature 2012)`.

### Información básica del paciente
El archivo `data_clinical_patient.txt` contiene información de los distintos tipos de pacientes que realizaron el estudio.

Leemos su contenido empleando la librería pandas.

In [1]:
import pandas as pd
path = '/Users/Usuario PC/OneDrive/Documentos/Esp. Bioinformática/TIAD/brca_tcga_pub'

# Leemos el archivo data_clinical_patient.txt y lo guardamos en un DataFrame
df_patient = pd.read_csv('brca_tcga_pub/data_clinical_patient.txt', sep='\t',
                         comment='#')

In [2]:
# Mostrar las primeras filas del DataFrame
print(df_patient.head())

# Mostrar cantidad de filas del conjunto de datos
print(f"-----------------------------------")
print(f"El DataFrame tiene {len(df_patient)} filas y {len(df_patient.columns)} columnas.")

     PATIENT_ID     SEX   AGE METASTASIS   OS_STATUS  OS_MONTHS
0  TCGA-A2-A0T2  Female  66.0         M1  1:DECEASED       7.89
1  TCGA-A2-A04P  Female  36.0         M0  1:DECEASED      17.97
2  TCGA-A1-A0SK  Female  54.0         M0  1:DECEASED      31.77
3  TCGA-A2-A0CM  Female  40.0         M0  1:DECEASED      24.77
4  TCGA-AR-A1AR  Female  50.0         M0  1:DECEASED      17.18
-----------------------------------
El DataFrame tiene 825 filas y 6 columnas.


El conjunto de datos consiste en un conjunto de filas con información variada de un paciente. De cada paciente se conoce:
* PATIENT_ID: Identificador único de un paciente
* SEX: Identificador del género de un paciente. Valores posibles:
  * Male (Masculino)
  * Female (Femenino)
* AGE: Edad del paciente.
* METASTASIS: Indica si se detectó metástasis en el paciente (es decir, si el cáncer se ha propagado a otras partes del cuerpo). Valores posibles:
  * M0 (sin metástasis detectada)
  * M1 (con metástasis detectada)
* OS_STATUS: Refleja el estado de supervivencia general del paciente al final del período de observación. Valores posibles:
  * 1:DECEASED (fallecido)
  * 0:LIVING (vivo).
* OS_MONTHS: Representa el tiempo de supervivencia total del paciente en meses desde el momento del diagnóstico inicial hasta el último seguimiento o fallecimiento.

### Información Clínica

📝 Se repite el mismo proceso para el archivo de datos `data_clinical_sample.txt`.

In [5]:
import pandas as pd

# Leer el archivo data_clinical_sample.txt y lo guardo en un DataFrame
df_sample = pd.read_csv('brca_tcga_pub/data_clinical_sample.txt', sep='\t', comment='#') 

In [6]:
print(df_sample.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df_sample)} filas y {len(df_sample.columns)} \
columnas.")

         SAMPLE_ID       PATIENT_ID ER_STATUS PR_STATUS HER2_STATUS  \
0  TCGA-A2-A0T2-01  TCGA-A2-A0T2-01  Negative  Negative    Negative   
1  TCGA-A2-A04P-01  TCGA-A2-A04P-01  Negative  Negative    Negative   
2  TCGA-A1-A0SK-01  TCGA-A1-A0SK-01  Negative  Negative    Negative   
3  TCGA-A2-A0CM-01  TCGA-A2-A0CM-01  Negative  Negative    Negative   
4  TCGA-AR-A1AR-01  TCGA-AR-A1AR-01  Negative  Negative    Negative   

  TUMOR_STAGE TUMOR_T1_CODED NODES NODE_CODED METASTASIS_CODED  ...  \
0          T3        T_Other    N3   Positive         Positive  ...   
1          T2        T_Other    N3   Positive         Negative  ...   
2          T2        T_Other    N0   Negative         Negative  ...   
3          T2        T_Other    N0   Negative         Negative  ...   
4          T1             T1    N2   Positive         Negative  ...   

  CN_CLUSTER INTEGRATED_CLUSTERS_WITH_PAM50 INTEGRATED_CLUSTERS_NO_EXP  \
0        3.0                            2.0                        2.0  

Este segundo conjunto de datos posee muchos más atributos.

Cada fila corresponde a una muestra suministrada por un paciente en específico. De cada muestra se guardan atributos respecto a características biológicas, características moleculares y características clínicas del estudio.

En este caso solo hay una muestra por paciente.

### Información subtipos

Queremos unir a los datos información acerca de los subtipos de muestra, esta información se encuentra disponible en el archivo `data_subtypes.txt`.

📝 Cargamos el contenido del archivo `data_subtypes.txt`.

In [7]:
import pandas as pd

# Leer el archivo data_subtyapes.txt y lo guardo en un DataFrame
df_subtypes = pd.read_csv('brca_tcga_pub/data_subtypes.txt', sep='\t',
                          comment='#') # COMPLETAR

In [8]:
print(df_sample.head())

print(f"-----------------------------------")
# Si los datos se cargaron correctamente entonces deberia haber 825 filas.
print(f"El DataFrame tiene {len(df_sample)} filas y {len(df_sample.columns)} \
columnas.")

         SAMPLE_ID       PATIENT_ID ER_STATUS PR_STATUS HER2_STATUS  \
0  TCGA-A2-A0T2-01  TCGA-A2-A0T2-01  Negative  Negative    Negative   
1  TCGA-A2-A04P-01  TCGA-A2-A04P-01  Negative  Negative    Negative   
2  TCGA-A1-A0SK-01  TCGA-A1-A0SK-01  Negative  Negative    Negative   
3  TCGA-A2-A0CM-01  TCGA-A2-A0CM-01  Negative  Negative    Negative   
4  TCGA-AR-A1AR-01  TCGA-AR-A1AR-01  Negative  Negative    Negative   

  TUMOR_STAGE TUMOR_T1_CODED NODES NODE_CODED METASTASIS_CODED  ...  \
0          T3        T_Other    N3   Positive         Positive  ...   
1          T2        T_Other    N3   Positive         Negative  ...   
2          T2        T_Other    N0   Negative         Negative  ...   
3          T2        T_Other    N0   Negative         Negative  ...   
4          T1             T1    N2   Positive         Negative  ...   

  CN_CLUSTER INTEGRATED_CLUSTERS_WITH_PAM50 INTEGRATED_CLUSTERS_NO_EXP  \
0        3.0                            2.0                        2.0  

### Información genética de los pacientes

El conjunto de datos también contiene información de microrna de diversos genes de los pacientes. Los datos se encuentran en varios archivos con algunas variantes, pero vamos a utilizar los del archivo `data_mrna_agilent_microarray_zscores_ref_all_samples.txt` que ya contiene los [z-scores](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1907322/) para cada gen.

📝 Cargamos el contenido del archivo `data_mrna_agilent_microarray_zscores_ref_all_samples.txt`.

In [9]:
import pandas as pd

# Leemos el archivo archivo data_mrna_agilent_microarray_zscores_ref_all_samples.txt
# y lo guardo en un DataFrame
df_mrna = pd.read_csv(
    'brca_tcga_pub/data_mrna_agilent_microarray_zscores_ref_all_samples.txt',
    sep='\t', comment='#') # COMPLETAR

In [10]:
print(df_mrna.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df_mrna)} filas y {len(df_mrna.columns)} \
columnas.")

  Hugo_Symbol  Entrez_Gene_Id  TCGA-A1-A0SD-01  TCGA-A1-A0SE-01  \
0     CREB3L1           90993           0.7368           0.0689   
1       RPS11            6205           0.8649           0.7607   
2       PNMA1            9240           0.9148          -0.3075   
3        MMP2            4313           1.3556           0.7121   
4    C10orf90          118611          -0.2265          -0.2265   

   TCGA-A1-A0SH-01  TCGA-A1-A0SJ-01  TCGA-A1-A0SK-01  TCGA-A1-A0SM-01  \
0           1.5078          -0.6548          -1.6142           1.7558   
1           0.0529          -0.8340           0.2455          -1.2366   
2           0.3372           1.4930           1.9032           1.2138   
3           2.0616          -1.0392          -1.0392           1.4431   
4          -0.2265          -0.2265          -0.2265          -0.2265   

   TCGA-A1-A0SO-01  TCGA-A1-A0SP-01  ...  TCGA-E2-A15S-01  TCGA-E2-A15T-01  \
0          -1.6142          -1.2067  ...          -1.1187          -0.8458   
1 

# **2.** Transposición de datos
En el archivo `data_mrna_agilent_microarray_zscores_ref_all_samples.txt` los datos de los pacientes (o *muestras*) corresponden a las columnas, y los genes a las filas. Por lo cual se transpuso los mismos, de modo que las filas correspondan a pacientes, para luego unir estos datos con los datos clínicos.

**a)** Primeramente, cada gen está identificado por su código [HUGO](https://www.genenames.org/) y su [Entrez_Gene_Id](https://www.ncbi.nlm.nih.gov/gene). Para simplificar, se quitó la columna `Entrez_Gene_Id` y nos quedamos solo con la columna `Hugo_Symbol`.

In [11]:
# Eliminar el atributo 'Entrez_Gene_Id' 

df_mrna = df_mrna.drop('Entrez_Gene_Id', axis=1) 

**b)** Adicionalmente se convirtió al atributo `Hugo_Symbol` en el nuevo index, de forma que cuando realicemos la transposición se convierta en el *header* o *index* de las columnas.

In [12]:
# Convertir el atributo 'Hugo_Symbol' en el index del dataframe 

df_mrna = df_mrna.set_index('Hugo_Symbol') 

**c)** Se realizó la transposición de los datos guardados en `df_mrna`.

In [13]:
# Transposicion de la matriz de datos con  la funcion'transpose' de pandas

df_mrna = df_mrna.transpose() 

In [None]:
print(df_mrna.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df_mrna)} filas y {len(df_mrna.columns)} \
columnas.")

Hugo_Symbol      CREB3L1   RPS11   PNMA1    MMP2  C10orf90    ZHX3   ERCC5  \
TCGA-A1-A0SD-01   0.7368  0.8649  0.9148  1.3556   -0.2265 -0.2231 -0.7617   
TCGA-A1-A0SE-01   0.0689  0.7607 -0.3075  0.7121   -0.2265 -0.4904 -0.7617   
TCGA-A1-A0SH-01   1.5078  0.0529  0.3372  2.0616   -0.2265  1.7211 -0.7286   
TCGA-A1-A0SJ-01  -0.6548 -0.8340  1.4930 -1.0392   -0.2265  0.9205 -0.6028   
TCGA-A1-A0SK-01  -1.6142  0.2455  1.9032 -1.0392   -0.2265 -0.4904  1.9115   

Hugo_Symbol       GPR98   RXFP3   APBB2  ...  SLC2A11   GRIP2  GPLD1   RAB8A  \
TCGA-A1-A0SD-01 -0.3734 -1.6757  0.7617  ...   0.5858 -0.2865 -0.363 -1.0504   
TCGA-A1-A0SE-01 -0.6993  0.0418  0.4423  ...   0.2056 -0.2865 -0.363  0.5569   
TCGA-A1-A0SH-01 -0.6993 -0.4603  0.9967  ...  -0.6395 -0.2865 -0.363  1.2530   
TCGA-A1-A0SJ-01 -0.6993  0.7799  0.9798  ...   1.2210 -0.2831 -0.363 -0.3855   
TCGA-A1-A0SK-01 -0.6515 -1.6757 -0.2198  ...  -0.6395 -0.2865 -0.363  1.3462   

Hugo_Symbol       RXFP2  PIK3IP1  SLC39A6  SNRPD2 

# **3.** Unir datos en una única tabla.

En este punto se dispone de cuatro DataFrames guardados en las variables `df_patient`, `df_sample`, `df_subtypes` y `df_mrna` respectivamente.

Se sabe que cada muestra de `df_sample` se corresponde con 1 y solo 1 paciente de `df_patient`. Uniremos estas dos tablas en un único DataFrame.

### 📝 **a)** A continuación se muestra una operación de *JOIN* entre las dos tablas. Se unen los atributos de cada paciente con los atributos de su muestra. Consiguiendo un único dataset que contiene en cada fila la información de un paciente y de su muestra.

In [15]:
# El PATIENT_ID de df_sample tiene un formato ligeramente distinto al de
# df_patient. Tiene que ser el mismo.
# PATIENT_ID de df_sample agrega al final de cada PATIENT_ID el texto '-01'.
# PATIENT_ID de df_patient no lo hace.
# SE quitará el '-01' extra del PATIENT_ID de df_sample para que sus valores sean iguales
df_sample['PATIENT_ID'] = df_sample['PATIENT_ID'].str.split('-').str[:3].str.join('-')

In [16]:
# Se Unen cada fila de df_patient con otra fila de df_sample
# según si las 2 filas a unir tienen o no el mismo PATIENT_ID)
df_mix = pd.merge(df_patient, df_sample,
                  left_on='PATIENT_ID',   # Atributo de conexión en df_patient
                  right_on='PATIENT_ID',  # Atributo de conexión en df_sample
                  how='left')

In [17]:
print(df_mix.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df_mix)} filas y {len(df_mix.columns)} \
columnas.")

     PATIENT_ID     SEX   AGE METASTASIS   OS_STATUS  OS_MONTHS  \
0  TCGA-A2-A0T2  Female  66.0         M1  1:DECEASED       7.89   
1  TCGA-A2-A04P  Female  36.0         M0  1:DECEASED      17.97   
2  TCGA-A1-A0SK  Female  54.0         M0  1:DECEASED      31.77   
3  TCGA-A2-A0CM  Female  40.0         M0  1:DECEASED      24.77   
4  TCGA-AR-A1AR  Female  50.0         M0  1:DECEASED      17.18   

         SAMPLE_ID ER_STATUS PR_STATUS HER2_STATUS  ... CN_CLUSTER  \
0  TCGA-A2-A0T2-01  Negative  Negative    Negative  ...        3.0   
1  TCGA-A2-A04P-01  Negative  Negative    Negative  ...        1.0   
2  TCGA-A1-A0SK-01  Negative  Negative    Negative  ...        1.0   
3  TCGA-A2-A0CM-01  Negative  Negative    Negative  ...        4.0   
4  TCGA-AR-A1AR-01  Negative  Negative    Negative  ...        1.0   

  INTEGRATED_CLUSTERS_WITH_PAM50 INTEGRATED_CLUSTERS_NO_EXP  \
0                            2.0                        2.0   
1                            2.0                  

### 📝 **b)** Se repite la operación de *JOIN* ahora entre los DataFrames `df_mix` y el contenido del archivo `df_subtype`.

NOTA: notar que el atributo que tienen en comun ambos DataFrames se llama `SAMPLE_ID` en `df_mix` y `CASE_ID` para `df_subtype`.

In [18]:
# Se Une cada fila de df_mix con otra fila de df_subtype según
# si tienen los mismos valores en SAMPLE_ID y en CASE_ID respectivamente.

df_mix2 = pd.merge(df_mix, df_subtypes, left_on='SAMPLE_ID', right_on='CASE_ID', how='left') 

In [19]:
print(df_mix2.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df_mix2)} filas y {len(df_mix2.columns)} \
columnas.")

     PATIENT_ID     SEX   AGE METASTASIS   OS_STATUS  OS_MONTHS  \
0  TCGA-A2-A0T2  Female  66.0         M1  1:DECEASED       7.89   
1  TCGA-A2-A04P  Female  36.0         M0  1:DECEASED      17.97   
2  TCGA-A1-A0SK  Female  54.0         M0  1:DECEASED      31.77   
3  TCGA-A2-A0CM  Female  40.0         M0  1:DECEASED      24.77   
4  TCGA-AR-A1AR  Female  50.0         M0  1:DECEASED      17.18   

         SAMPLE_ID ER_STATUS PR_STATUS HER2_STATUS  ...  \
0  TCGA-A2-A0T2-01  Negative  Negative    Negative  ...   
1  TCGA-A2-A04P-01  Negative  Negative    Negative  ...   
2  TCGA-A1-A0SK-01  Negative  Negative    Negative  ...   
3  TCGA-A2-A0CM-01  Negative  Negative    Negative  ...   
4  TCGA-AR-A1AR-01  Negative  Negative    Negative  ...   

  INTEGRATED_CLUSTERS_NO_EXP INTEGRATED_CLUSTERS_UNSUP_EXP  \
0                        2.0                           2.0   
1                        2.0                           2.0   
2                        2.0                           2

El DataFrame df_mix2 quedó con ambos atributos SAMPLE_ID y CASE_ID.

📝 Se elimina el atributo CASE_ID.

In [None]:
df_mix2.drop('CASE_ID', axis=1, inplace=True)

In [22]:
print(df_mix2.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df_mix2)} filas y {len(df_mix2.columns)} \
columnas.")

     PATIENT_ID     SEX   AGE METASTASIS   OS_STATUS  OS_MONTHS  \
0  TCGA-A2-A0T2  Female  66.0         M1  1:DECEASED       7.89   
1  TCGA-A2-A04P  Female  36.0         M0  1:DECEASED      17.97   
2  TCGA-A1-A0SK  Female  54.0         M0  1:DECEASED      31.77   
3  TCGA-A2-A0CM  Female  40.0         M0  1:DECEASED      24.77   
4  TCGA-AR-A1AR  Female  50.0         M0  1:DECEASED      17.18   

         SAMPLE_ID ER_STATUS PR_STATUS HER2_STATUS  ...  \
0  TCGA-A2-A0T2-01  Negative  Negative    Negative  ...   
1  TCGA-A2-A04P-01  Negative  Negative    Negative  ...   
2  TCGA-A1-A0SK-01  Negative  Negative    Negative  ...   
3  TCGA-A2-A0CM-01  Negative  Negative    Negative  ...   
4  TCGA-AR-A1AR-01  Negative  Negative    Negative  ...   

  INTEGRATED_CLUSTERS_WITH_PAM50 INTEGRATED_CLUSTERS_NO_EXP  \
0                            2.0                        2.0   
1                            2.0                        2.0   
2                            2.0                     

### 📝 **c)** Finalmente el DataFrame `df_mrna`, se une con los datos de `df_mix2`.

Para realizar la conexión entre cada fila se utiliza el atributo PATIENT_ID del lado de `df_mix2`. `df_mrna` no tiene este atributo en una primera instancia, pero si tiene el atributo Hugo_Symbol, del cual se puede calcular el PATIENT_ID si a cada Hugo_Symbol se le quita la extensión final -01. del lado de `df_mrna`.

In [23]:
# 'Hugo_Symbol' se está usando como index en 'df_mrna'
df_mrna['PATIENT_ID'] = df_mrna.index.str.split('-').str[:3].str.join('-') 

In [24]:
print(df_mrna.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df_mrna)} filas y {len(df_mrna.columns)} \
columnas.")

Hugo_Symbol      CREB3L1   RPS11   PNMA1    MMP2  C10orf90    ZHX3   ERCC5  \
TCGA-A1-A0SD-01   0.7368  0.8649  0.9148  1.3556   -0.2265 -0.2231 -0.7617   
TCGA-A1-A0SE-01   0.0689  0.7607 -0.3075  0.7121   -0.2265 -0.4904 -0.7617   
TCGA-A1-A0SH-01   1.5078  0.0529  0.3372  2.0616   -0.2265  1.7211 -0.7286   
TCGA-A1-A0SJ-01  -0.6548 -0.8340  1.4930 -1.0392   -0.2265  0.9205 -0.6028   
TCGA-A1-A0SK-01  -1.6142  0.2455  1.9032 -1.0392   -0.2265 -0.4904  1.9115   

Hugo_Symbol       GPR98   RXFP3   APBB2  ...   GRIP2  GPLD1   RAB8A   RXFP2  \
TCGA-A1-A0SD-01 -0.3734 -1.6757  0.7617  ... -0.2865 -0.363 -1.0504 -0.0003   
TCGA-A1-A0SE-01 -0.6993  0.0418  0.4423  ... -0.2865 -0.363  0.5569 -0.3267   
TCGA-A1-A0SH-01 -0.6993 -0.4603  0.9967  ... -0.2865 -0.363  1.2530  0.4787   
TCGA-A1-A0SJ-01 -0.6993  0.7799  0.9798  ... -0.2831 -0.363 -0.3855 -1.0854   
TCGA-A1-A0SK-01 -0.6515 -1.6757 -0.2198  ... -0.2865 -0.363  1.3462 -0.8133   

Hugo_Symbol      PIK3IP1  SLC39A6  SNRPD2    AQP7    CTS

📝 Ahora, ambos DataFrames poseen el atributo de conexión `PATIENT_ID`. Se realiza un *JOIN* entre `df_mix2` y `df_mrna` usando `PATIENT_ID` como atributo de unión.

In [25]:
# Se realiza el JOIN de los Dataframes 'df_mix2' y 'df_mrna'
df = pd.merge(df_mix2, df_mrna, left_on='PATIENT_ID', right_on='PATIENT_ID',
              how='left') # COMPLETAR

In [26]:
print(df.head())

print(f"-----------------------------------")

print(f"El DataFrame tiene {len(df)} filas y {len(df.columns)} columnas.")

     PATIENT_ID     SEX   AGE METASTASIS   OS_STATUS  OS_MONTHS  \
0  TCGA-A2-A0T2  Female  66.0         M1  1:DECEASED       7.89   
1  TCGA-A2-A04P  Female  36.0         M0  1:DECEASED      17.97   
2  TCGA-A1-A0SK  Female  54.0         M0  1:DECEASED      31.77   
3  TCGA-A2-A0CM  Female  40.0         M0  1:DECEASED      24.77   
4  TCGA-AR-A1AR  Female  50.0         M0  1:DECEASED      17.18   

         SAMPLE_ID ER_STATUS PR_STATUS HER2_STATUS  ... SLC2A11   GRIP2  \
0  TCGA-A2-A0T2-01  Negative  Negative    Negative  ...  2.1991  0.1544   
1  TCGA-A2-A04P-01  Negative  Negative    Negative  ... -0.6395 -0.2865   
2  TCGA-A1-A0SK-01  Negative  Negative    Negative  ... -0.6395 -0.2865   
3  TCGA-A2-A0CM-01  Negative  Negative    Negative  ... -0.6395 -0.2865   
4  TCGA-AR-A1AR-01  Negative  Negative    Negative  ... -0.6395 -0.2865   

   GPLD1   RAB8A   RXFP2 PIK3IP1 SLC39A6  SNRPD2    AQP7    CTSC  
0 -0.363 -0.1779  1.1753 -1.6969 -0.9826  0.1062 -0.5218 -0.5842  
1 -0.363  1.

# **4.** Almacenar resultados.

Se guarda el DataFrame final `df` en formato *csv* para luego poder procesar los datos.

In [34]:
nombre = 'df_unico.csv' 
df.to_csv(nombre, index=False) 