# Carcinoma do endométrio do corpo uterino
Autores: Duarte Velho(pg53841), Joana Lopes(pg53498), Ricardo Oliveira(pg53501)

Este trabalho foi desenvolvido no âmbito da UC Extração de Conhecimentos de Dados Biológicos (2023/24), do Mestrado em Bioinformática da Escola de Engenharia da Universidade do Minho, e tem como objetivo a análise de um conjunto de dados de expressão genética relacionados com o Carcinoma Endometrial do Corpo Uterino utilizando python e os seus diversos packages.

## 1ª parte
A primeira fase deste trabalho será constituída pelas seguintes etapas: - explicação dos dados, sua origem e relevância; - tarefas de preparação e de pré-processamento dos dados; - sumarização dos dados (estatística descritiva, exploração com recurso a gráficos); - análise estatística univariada e análise de expressão diferencial e de enriquecimento.

### Instalação e importação de packages

Nesta secção são destacados todos os packages utilizados no trabalho, que facilitam a aquisição e análise de dados ao longo do documento, tornando mais eficiente a obtenção e compreensão das informações relevantes.



In [3]:
import pandas as pd
import re
import matplotlib as plt

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


### 1. Introdução

#### 1.1 Enquadramento

Nos dias de hoje, o cancro é uma das principais causas de morte a nível mundial, sendo que, segundo a Organização Mundial da Saúde (OMS), em 2020, foram diagnosticados cerca de 19,3 milhões de novos casos de cancro, que resultaram na morte, de aproximadamente 10 milhões de pessoas [1].
O preocupante aumento da incidência do cancro ao longo das últimas décadas, levou ao surgimento de iniciativas, tal como a PanCancer Atlas, que visam encontrar respostas para as grandes e abrangentes questões sobre o cancro, através da análise de tumores caracterizados no conjunto de dados resultantes do projeto de The Cancer Genome Atlas (TCGA).
O TCGA é um programa de genómica de referência na área do cancro que, em colaboração com o Instituto Nacional do Cancro (NCI) e o Instituto Nacional de Pesquisa do Genoma Humano (NHGRI) dos Estados Unidos, caracterizou mais de 20 mil cancros primários abrangendo 33 tipos de cancro.
Os tipos de cancro selecionados para estudo cumprem requisitos tais como ter um mau prognóstico, ter um impacto geral na saúde pública, disponibilidade de amostras com a qualidade e quantidade desejadas, entre outros.
(National Cancer Institute, 2022)

O cancro endometrial do corpo uterino, um dos cancros incluídos no TCGA, é o sétimo tumor maligno mais frequente no mundo e o quarto mais comum na mulher sendo a doença ginecológica maligna dominante, tendo provocado em 2011 mais de 8 mil mortes [2,3].
De todos os cancros do corpo uterino mais de 83% correspondem a carcinomas do endométrio, enquanto apenas 10% dos diagnósticos são classificados como sarcomas [2].
Este tipo de cancro tem ganho maior atenção por parte da comunidade científica, uma vez que se verificou um aumento da sua incidência com a agravante de que a taxa de sobrevivência aos 5 anos é consideravelmente menor, em comparação com o ano de 1975, passando de 88% para cerca de 84%, em 2006, indicando um aumento na mortalidade [3].
A taxa de sobrevivência está fortemente correlacionada com o estádio da doença aquando do diagnóstico, sendo que para pacientes no estádio inicial se considera curável atingindo cerca de 96% de sobrevivência.
No entanto, para fases mais avançadas e de alto grau, é considerado letal reduzindo drasticamente a taxa de sobrevivência para 17%.

#### 1.2. Objetivo

Com base na problemática apresentada, este trabalho tem como objetivo analisar o perfil transcriptómico de células endometeriais do corpo uterino de pacientes diagnosticados com cancro para determinadas condições descritas nos metadados, de modo a realizar a análise da expressão diferencial com o intuito de compreender qual o efeito do fator no perfil transcriptómico das células e como esse perfil se traduz na gravidade da doença observada.
Os dados utilizados neste trabalho estão disponíveis no [GDC DataPortal](https://shorturl.at/fmpJ5).


### 2. Extração dos dados de transcriptómica e respetivos metadados da base de dados

#### 2.1. Obtenção dos dados

Com o objetivo de analisar os dados de transcriptómica referente ao carcinoma endometrial do corpo uterino, procedemos à extração da informação que se encontra presente no website cBioPortal, onde se encontram disponibilizados, de forma gratuita, uma grande diversidade de alterações genómicas de vários tipos de cancro, incluindo o cancro selecionado para estudo.
Como no trabalho anterior já procedemos ao download dos dados de expressão genética e dos seus respetivos metadados, apenas se realizou a leitura dos respetivos dados utilizando o package pandas

In [13]:
# atenção demora a correr (no meu pc demorou 6min a ler os ficheiros)
gene_exp = pd.read_excel(io="../Data/expressao_genetica.xlsx", index_col=0)
genes_meta = pd.read_excel(io="../Data/genes_metadados.xlsx", index_col=0)
amostras_meta = pd.read_excel(io="../Data/amostras_metadados.xlsx", index_col=0)

In [54]:
print(f"Classe dos dados de expressão:{type(gene_exp)}")
print(f"Classe dos dados de expressão:{type(genes_meta)}")
print(f"Classe dos dados de expressão:{type(amostras_meta)}")
print(f"\nO dataframe da expressão genética tem {gene_exp.shape[0]} linhas e {gene_exp.shape[1]} colunas")
print(f"O dataframe dos genes possui {genes_meta.shape[0]} linhas e {genes_meta.shape[1]} colunas")
print(f"O dataframe das amostras tem {amostras_meta.shape[0]} linhas e {amostras_meta.shape[1]} colunas")
print(f"\nNomes das 5 primeiras colunas do dataframe de expressão genética: {gene_exp.columns.values[0:5]}")
print(f"Nomes das 5 primeiras colunas do dataframe dos genes: {genes_meta.columns.values[0:5]}")
print(f"Nomes das 5 primeiras colunas do dataframe das amostras: {amostras_meta.columns.values[0:5]}")

Classe dos dados de expressão:<class 'pandas.core.frame.DataFrame'>
Classe dos dados de expressão:<class 'pandas.core.frame.DataFrame'>
Classe dos dados de expressão:<class 'pandas.core.frame.DataFrame'>

O dataframe da expressão genética tem 60660 linhas e 589 colunas
O dataframe dos genes possui 60660 linhas e 10 colunas
O dataframe das amostras tem 589 linhas e 78 colunas

Nomes das 5 primeiras colunas do dataframe de expressão genética: ['TCGA-FI-A3PX-01A-11R-A22K-07' 'TCGA-BG-A221-01A-21R-A157-07'
 'TCGA-EY-A1GK-01A-11R-A13S-07' 'TCGA-BG-A2AE-01A-11R-A16F-07'
 'TCGA-AX-A1CE-01A-11R-A137-07']
Nomes das 5 primeiras colunas do dataframe dos genes: ['source' 'type' 'score' 'phase' 'gene_id']
Nomes das 5 primeiras colunas do dataframe das amostras: ['barcode' 'patient' 'sample' 'shortLetterCode' 'definition']


Através da análise exploratória inicial dos dados verificou-se que os dados de expressão genénitca, os dados dos genes e das amostras estão no formato de dataframe. O dataframe da expressão genética é constituído por 60660 linhas que correspondem ao genes para o qual se estudou a sua expressão genética e 589 colunas que representam as amostras análisadas no estudo. Para cada gene existem 10 colunas de metados associados que acrescentam informação adicional sobre os genes, incluindo o gene_id (código Ensembl), tal como a sua fonte, o nome do gene, entre outros atributos, que podem ser accessados e explorados.
Em relação às amostras, existem 78 colunas de metadados que possibilitam a caracterização das 589 amostras utilizadas neste estudo possibilitando a análise do impacto que as diversas características possuem no estádio ou na gravidade da doença com base nos dados da expressão genética de cada amostra.

Por diversas razões várias vezes os metadados associadas às amostras possuem elevada quantidade de valores omissos, o que pode levar a uma redução considerável das amsotras utilizadas em estudo caso a variável que se pretende análisar seja uma das que apresenta elevada percentagem de valores omissos. Para evitar tal acontecimento, primeiramente procedeu-se a uma filtragem do datafram "amostras_meta" com o inuito de apenas preservar as variavíes que possuem menos de 10% de valores omissos

In [104]:
# filtrar as colunas que são objetos
data_types = amostras_meta.dtypes
string_cols = data_types[data_types == 'object'].index
amostras_meta_filtered = amostras_meta[string_cols]


# Identificar colunas com mais de 60 contagens de "not reported" 
rm_not_reported = amostras_meta_filtered.apply(lambda x: x.str.lower().str.count("not reported").sum() > 60)
rm_not_reported = rm_not_reported.index[rm_not_reported].tolist()


# Identificar colunas com mais de 60 contagens de "unkown" 
rm_unkown = amostras_meta_filtered.apply(lambda x: x.str.lower().str.count("unknown").sum() > 60)
rm_unkown = rm_unkown.index[rm_unkown].tolist()


# Identificar colunas com mais de 60 valores NA
rm_nas = amostras_meta.isna().sum() > 60
rm_nas = rm_nas.index[rm_nas].tolist()


# Remover colunas identificadas
amostras_meta_reduzido = amostras_meta.drop(columns=rm_not_reported + rm_unkown + rm_nas)


# Obter dimensões do DataFrame reduzido
dimensao = amostras_meta_reduzido.shape
print(f"Dimensões do DataFrame filtrado: {dimensao}")


Dimensões do DataFrame filtrado: (589, 46)


Com esta filtragem o número de colunas passou de 78 para 46 garantindo assim que as características que possam ser utilizadas para as análises posteriores abrangem a maioria das amostras garantindo maior confiabilidade na análise realizada.

### 3. Análise Descritiva e Exploratória
Para o nosso estudo, de entre as colunas de metadados reduzida, selecionou-se 4 variáveis de caraterísticas distintas, nomeadamente as colunas "vital_status", "primary_diagnosis", "age_at_index" e "figo_stage" para se proceder a uma análise descritiva e exploratória das amostras.

In [106]:
meta_amostras = amostras_meta_reduzido[["vital_status", "primary_diagnosis", "age_at_index","figo_stage"]]



Unnamed: 0_level_0,vital_status,primary_diagnosis,age_at_index,figo_stage
row.names(amostras_metadados),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
TCGA-FI-A3PX-01A-11R-A22K-07,Alive,"Serous cystadenocarcinoma, NOS",57.0,Stage IIIC2
TCGA-BG-A221-01A-21R-A157-07,Alive,"Endometrioid adenocarcinoma, NOS",84.0,Stage IB
TCGA-EY-A1GK-01A-11R-A13S-07,Alive,"Endometrioid adenocarcinoma, NOS",74.0,Stage IB
TCGA-BG-A2AE-01A-11R-A16F-07,Alive,"Serous cystadenocarcinoma, NOS",57.0,Stage IB
TCGA-AX-A1CE-01A-11R-A137-07,Alive,"Endometrioid adenocarcinoma, NOS",60.0,Stage IB
...,...,...,...,...
TCGA-AJ-A3NF-01A-11R-A22K-07,Alive,"Serous cystadenocarcinoma, NOS",60.0,Stage IIIC
TCGA-BK-A0C9-01A-11R-A00V-07,Alive,"Endometrioid adenocarcinoma, NOS",57.0,Stage IB
TCGA-AJ-A5DW-01A-11R-A27V-07,Alive,"Endometrioid adenocarcinoma, NOS",56.0,Stage IA
TCGA-AP-A05J-01A-11R-A00V-07,Alive,"Serous cystadenocarcinoma, NOS",66.0,Stage II
