# Instalação e importação de bibliotecas

In [98]:
pip install opendatasets --q  # instalar a biblioteca opendatasets, que permitirá fazermos download do arquivo do banco de dados que está hospedado na plataforma

In [99]:
import opendatasets as od     # opendatasets - download de arquivos
import pandas as pd           # Pandas - biblioteca padrão para análise de dados no Python

In [100]:
pd.options.display.max_columns = None     # é necessária para que possamos visualizar toda a tabela na tela

# Acessando o arquivo CSV do SFARI

Vamos utilizar o comando od.download, colocando diretamente o link do arquivo que queremos.
Se precisar inserir um username e uma key, é só inserir na caixa de texto que irá abrir conforme ordem abaixo:

* username:
* key:

In [101]:
od.download('https://gene-archive.sfari.org//wp-content/themes/sfari-gene/utilities/download-csv.php?api-endpoint=genes')


Using downloaded and verified file: ./SFARI-Gene_genes_10-31-2019release_08-17-2023export.csv


Com o Pandas, vamos ler o arquivo csv, utilizando o encoding LATIN1, devido aos nossos caractéres próprios.

In [102]:
dados = pd.read_csv('/content/SFARI-Gene_genes_10-31-2019release_08-17-2023export.csv', encoding='latin1')
dados

Unnamed: 0,status,gene-symbol,gene-name,chromosome,genetic-category,gene-score,syndromic,number-of-reports
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,0,1
1,9,ABCA13,ATP binding cassette subfamily A member 13,7,"Rare Single Gene Mutation, Functional",4.0,0,5
2,9,ABCA7,"ATP-binding cassette, sub-family A (ABC1), mem...",19,Rare Single Gene Mutation,4.0,0,2
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,0,2
4,9,ACHE,Acetylcholinesterase (Yt blood group),7,Rare Single Gene Mutation,3.0,0,4
...,...,...,...,...,...,...,...,...
1001,9,YEATS2,YEATS domain containing 2,3,Genetic Association,4.0,0,1
1002,9,ZNF804A,Zinc finger protein 804A,2,"Rare Single Gene Mutation, Genetic Association",3.0,0,13
1003,9,ZNF827,Zinc finger protein 827,4,Genetic Association,4.0,0,1
1004,9,ZSWIM5,"zinc finger, SWIM-type containing 5",1,Rare Single Gene Mutation,6.0,0,1


# Acessando o arquivo CSV do Hugo

Acessar o site do [Hugo](https://www.genenames.org/tools/multi-symbol-checker/), adicionar os genes, baixar o CSV e fazer o upload aqui no colab equanto não encontro uma forma de automatizar o Hugo.

O skiprows serv e pra tirar a linha indesejada. Foi utilizado o número zero para tirar apenas a primeira linha, mas pode-se utilizar 5 que irá tirar as 5 primeiras linhas, por exemplo.


In [103]:
dados_hugo = pd.read_csv('/content/hgnc-symbol-check.csv', skiprows=[0])  # skiprows serv e pra tirar a linha indesejada
dados_hugo

Unnamed: 0,Entrada,Tipo de partida,símbolo aprovado,Nome aprovado,ID HGNC,Localização
0,IGF,símbolo de pseudônimo,IGF1,fator de crescimento semelhante à insulina 1,HGNC: 5464,12q23.2
1,THP1,símbolo de pseudônimo,GLI2,Família GLI dedo de zinco 2,HGNC: 4318,2q14.2
2,GRaC,Incomparável,,,,
3,POU2F2,símbolo aprovado,POU2F2,POU classe 2 homeobox 2,HGNC: 9213,19q13.2
4,COPG2IT1,símbolo aprovado,COPG2IT1,COPG2 transcrição impressa 1,HGNC: 2238,7q32.2
...,...,...,...,...,...,...
505,FXR,símbolo de pseudônimo,NR1H4,receptor nuclear subfamília 1 grupo H membro 4,HGNC: 7967,12q23.1
506,IRS-x,Incomparável,,,,
507,IRS,Incomparável,,,,
508,ENTALHE,Incomparável,,,,


## Fazendo a limpeza dos dados NaN no CSV do Hugo

In [104]:
# Retirando as linhas que contem valores NaN
dados_hugo = dados_hugo.dropna()

# Resetando os índices
dados_hugo = dados_hugo.reset_index(drop = True)

# Revendo DataFrame
dados_hugo

Unnamed: 0,Entrada,Tipo de partida,símbolo aprovado,Nome aprovado,ID HGNC,Localização
0,IGF,símbolo de pseudônimo,IGF1,fator de crescimento semelhante à insulina 1,HGNC: 5464,12q23.2
1,THP1,símbolo de pseudônimo,GLI2,Família GLI dedo de zinco 2,HGNC: 4318,2q14.2
2,POU2F2,símbolo aprovado,POU2F2,POU classe 2 homeobox 2,HGNC: 9213,19q13.2
3,COPG2IT1,símbolo aprovado,COPG2IT1,COPG2 transcrição impressa 1,HGNC: 2238,7q32.2
4,ZIM2,símbolo aprovado,ZIM2,dedo de zinco impresso 2,HGNC: 12875,19q13.43
...,...,...,...,...,...,...
464,GDF7,símbolo aprovado,GDF7,fator de diferenciação de crescimento 7,HGNC: 4222,2p24.1
465,PDCD10,símbolo aprovado,PDCD10,morte celular programada 10,HGNC: 8761,3q26.1
466,DPYSL2,símbolo aprovado,DPYSL2,dihidropirimidinase tipo 2,HGNC: 3014,8p21.2
467,GR,símbolo de pseudônimo,NR3C1,receptor nuclear subfamília 3 grupo C membro 1,HGNC: 7978,5q31.3


In [105]:
dados_hugo_simbolo_aprovado = dados_hugo[['símbolo aprovado']] # Usando apenas a coluna que importa
dados_hugo_simbolo_aprovado

Unnamed: 0,símbolo aprovado
0,IGF1
1,GLI2
2,POU2F2
3,COPG2IT1
4,ZIM2
...,...
464,GDF7
465,PDCD10
466,DPYSL2
467,NR3C1


# Recodificação dos dados

Um dos grandes problemas dos arquivos DBF(caso use ele)/CSV é a codificação das variáveis. Simplesmente abrir o arquivo não traz informações claras, pois acabamos tendo que recorrer ao Dicionário de Dados daquele arquivo. Com o Python, conseguimos recodificar as colunas, escrevendo o dicionário de dados para cada uma. É um trabalho que leva algum tempo, porém, precisamos fazê-lo somente uma vez e depois já estará pronto.

Avaliando o dicionário de dados, percebemos que muitas variáveis apresentam apenas o SIM e o NÃO. Para essas, faremos apenas um mini dicionário e aplicaremos a função REPLACE, que vai substituir os valores encontrados na tabela por aqueles vistos no dicionário.

Utilizaremos uma coluna como exemplo, e depois aplicamos para as demais.

In [106]:
dados['syndromic'] = dados['syndromic'].replace({0:'Não', 1:'Sim'})

dados

Unnamed: 0,status,gene-symbol,gene-name,chromosome,genetic-category,gene-score,syndromic,number-of-reports
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,Não,1
1,9,ABCA13,ATP binding cassette subfamily A member 13,7,"Rare Single Gene Mutation, Functional",4.0,Não,5
2,9,ABCA7,"ATP-binding cassette, sub-family A (ABC1), mem...",19,Rare Single Gene Mutation,4.0,Não,2
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,Não,2
4,9,ACHE,Acetylcholinesterase (Yt blood group),7,Rare Single Gene Mutation,3.0,Não,4
...,...,...,...,...,...,...,...,...
1001,9,YEATS2,YEATS domain containing 2,3,Genetic Association,4.0,Não,1
1002,9,ZNF804A,Zinc finger protein 804A,2,"Rare Single Gene Mutation, Genetic Association",3.0,Não,13
1003,9,ZNF827,Zinc finger protein 827,4,Genetic Association,4.0,Não,1
1004,9,ZSWIM5,"zinc finger, SWIM-type containing 5",1,Rare Single Gene Mutation,6.0,Não,1


Agora, caso se queira alterar diversas colunas com a mesma informação, criaremos uma lista com as colunas que possuem codificação de SIM/NÃO, e aplicaremos uma das funções mais úteis do Python, o loop de repetição chamado de FOR.

Essa função nos permite aplicar diversas vezes a mesma operação, alterando apenas um parâmetro.

Deixei com # pois não utilizaremos nessa tabela, mas o código está aí se precisar.

In [107]:
#lista_de_colunas = ['status', 'gene-symbol', 'gene-name', 'chromosome', 'genetic-category',
#       'gene-score', 'syndromic', 'number-of-reports']
#
#for coluna in lista_de_colunas:
#  dados[coluna] = dados[coluna].replace({0:'Não', 1:'Sim'})
#
#dados

# Renomeando as colunas

Se precisarmos renomear as colunas faremos da seguinte forma:
Primeiramente, vamos coletar o nome de todas.

In [108]:
dados.columns     # mostrar o nome de todas as colunas da tabela

Index(['status', 'gene-symbol', 'gene-name', 'chromosome', 'genetic-category',
       'gene-score', 'syndromic', 'number-of-reports'],
      dtype='object')

In [109]:
dados_hugo.columns    # mostrar o nome de todas as colunas da tabela

Index(['Entrada', 'Tipo de partida', 'símbolo aprovado', 'Nome aprovado',
       'ID HGNC', 'Localização'],
      dtype='object')

Agora, copiamos e colamos esta lista, e vamos adaptando de maneira a criar um dicionário.

In [110]:
dicionario_colunas = {'status':'Status',
                      'gene-symbol':'Símbolo do gene',
                      'gene-name':'Nome do gene',
                      'chromosome':'Cromossomo',
                      'genetic-category':'Categoria genética',
                      'gene-score':'Pontuação do gene',
                      'syndromic':'Sindrômico',
                      'number-of-reports':'Número de relatos'
                      }

Agora que temos o dicionário das colunas COMPLETO, utilizamos o comando de RENAME no nosso DataFrame, assim teremos ele organizado de maneira mais adequada.

In [111]:
dados_final = dados.rename(columns=dicionario_colunas)
dados_final

Unnamed: 0,Status,Símbolo do gene,Nome do gene,Cromossomo,Categoria genética,Pontuação do gene,Sindrômico,Número de relatos
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,Não,1
1,9,ABCA13,ATP binding cassette subfamily A member 13,7,"Rare Single Gene Mutation, Functional",4.0,Não,5
2,9,ABCA7,"ATP-binding cassette, sub-family A (ABC1), mem...",19,Rare Single Gene Mutation,4.0,Não,2
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,Não,2
4,9,ACHE,Acetylcholinesterase (Yt blood group),7,Rare Single Gene Mutation,3.0,Não,4
...,...,...,...,...,...,...,...,...
1001,9,YEATS2,YEATS domain containing 2,3,Genetic Association,4.0,Não,1
1002,9,ZNF804A,Zinc finger protein 804A,2,"Rare Single Gene Mutation, Genetic Association",3.0,Não,13
1003,9,ZNF827,Zinc finger protein 827,4,Genetic Association,4.0,Não,1
1004,9,ZSWIM5,"zinc finger, SWIM-type containing 5",1,Rare Single Gene Mutation,6.0,Não,1


# Comparando colunas

In [112]:
# esse código retorna uma lista boleana, dos valores que de DF1 que existem em DF2: true se existir ou false se não existir
existem_em_df1 = dados_final['Símbolo do gene'].isin(dados_hugo_simbolo_aprovado['símbolo aprovado'])
existem_em_df2 = dados_hugo_simbolo_aprovado['símbolo aprovado'].isin(dados_final['Símbolo do gene'])

nao_existem_em_df1 = ~existem_em_df1
nao_existem_em_df2 = ~existem_em_df2

# obtem os valores que existem no em ambos os Dataframes (df1 e df2):
dados_final = dados_final[existem_em_df1] #retorna os valores que existem em df1 e existem em df2
dados_hugo_simbolo_aprovado = dados_hugo_simbolo_aprovado[existem_em_df2] #retorna os valores que existem em df2 e existem em df1

dados_final_ = dados_final[nao_existem_em_df1]  #retorna os valores que estão em DF1, mas não estão em DF2
dados_hugo_simbolo_aprovado_ = dados_hugo_simbolo_aprovado[nao_existem_em_df2] #retorna os valores que estão em DF2, mas não estão em DF1

dados_final

  dados_final_ = dados_final[nao_existem_em_df1]  #retorna os valores que estão em DF1, mas não estão em DF2
  dados_hugo_simbolo_aprovado_ = dados_hugo_simbolo_aprovado[nao_existem_em_df2] #retorna os valores que estão em DF2, mas não estão em DF1


Unnamed: 0,Status,Símbolo do gene,Nome do gene,Cromossomo,Categoria genética,Pontuação do gene,Sindrômico,Número de relatos
20,9,AGTR2,"angiotensin II receptor, type 2",X,Rare Single Gene Mutation,4.0,Não,3
29,9,ANXA1,Annexin A1,9,Rare Single Gene Mutation,3.0,Não,2
128,9,CD44,CD44 molecule (Indian blood group),11,"Rare Single Gene Mutation, Functional",5.0,Não,4
163,9,CHRNA7,"cholinergic receptor, nicotinic, alpha 7",15,Rare Single Gene Mutation,3.0,Não,13
177,9,CNR1,cannabinoid receptor 1 (brain),6,"Rare Single Gene Mutation, Genetic Association",3.0,Não,7
187,9,CREBBP,CREB binding protein,16,"Rare Single Gene Mutation, Syndromic, Genetic ...",1.0,Não,24
253,9,DPYSL2,dihydropyrimidinase like 2,8,"Rare Single Gene Mutation, Genetic Association",3.0,Não,12
307,9,F13A1,"coagulation factor XIII, A1 polypeptide",6,"Rare Single Gene Mutation, Functional",5.0,Não,6
329,9,ELOVL2,ELOVL fatty acid elongase 2,6,Genetic Association,4.0,Não,1
337,9,FOXP2,forkhead box P2,7,"Rare Single Gene Mutation, Genetic Association",3.0,Não,41


# Exportação para EXCEL

Caso queira exportar o novo DataFrame para csv, caso haja a necessidade de visualizar os dados em um programa. Esta operação demora um pouco.

In [113]:
dados_final.to_excel('Dados_SFARI_genes_comparado.xlsx')

#===================================================================