# Instalação e importação de bibliotecas

In [28]:
pip install opendatasets --q  # instalar a biblioteca opendatasets, que permitirá fazermos download do arquivo do banco de dados que está hospedado na plataforma

In [29]:
import opendatasets as od     # opendatasets - download de arquivos
import pandas as pd           # Pandas - biblioteca padrão para análise de dados no Python

In [30]:
pd.options.display.max_columns = None     # é necessária para que possamos visualizar toda a tabela na tela

# Acessando o arquivo CSV

Vamos utilizar o comando od.download, colocando diretamente o link do arquivo que queremos.
Se precisar inserir um username e uma key, é só inserir na caixa de texto que irá abrir conforme ordem abaixo:

* username:
* key:

In [31]:
od.download('https://gene-archive.sfari.org//wp-content/themes/sfari-gene/utilities/download-csv.php?api-endpoint=genes')

Using downloaded and verified file: ./SFARI-Gene_genes_10-31-2019release_08-17-2023export.csv


Com o Pandas, vamos ler o arquivo csv, utilizando o encoding LATIN1, devido aos nossos caractéres próprios.

In [32]:
dados = pd.read_csv('/content/SFARI-Gene_genes_10-31-2019release_08-17-2023export.csv', encoding='latin1')
dados

Unnamed: 0,status,gene-symbol,gene-name,chromosome,genetic-category,gene-score,syndromic,number-of-reports
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,0,1
1,9,ABCA13,ATP binding cassette subfamily A member 13,7,"Rare Single Gene Mutation, Functional",4.0,0,5
2,9,ABCA7,"ATP-binding cassette, sub-family A (ABC1), mem...",19,Rare Single Gene Mutation,4.0,0,2
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,0,2
4,9,ACHE,Acetylcholinesterase (Yt blood group),7,Rare Single Gene Mutation,3.0,0,4
...,...,...,...,...,...,...,...,...
1001,9,YEATS2,YEATS domain containing 2,3,Genetic Association,4.0,0,1
1002,9,ZNF804A,Zinc finger protein 804A,2,"Rare Single Gene Mutation, Genetic Association",3.0,0,13
1003,9,ZNF827,Zinc finger protein 827,4,Genetic Association,4.0,0,1
1004,9,ZSWIM5,"zinc finger, SWIM-type containing 5",1,Rare Single Gene Mutation,6.0,0,1


# Recodificação dos dados

Um dos grandes problemas dos arquivos DBF(caso use ele)/CSV é a codificação das variáveis. Simplesmente abrir o arquivo não traz informações claras, pois acabamos tendo que recorrer ao Dicionário de Dados daquele arquivo. Com o Python, conseguimos recodificar as colunas, escrevendo o dicionário de dados para cada uma. É um trabalho que leva algum tempo, porém, precisamos fazê-lo somente uma vez e depois já estará pronto.

Avaliando o dicionário de dados, percebemos que muitas variáveis apresentam apenas o SIM e o NÃO. Para essas, faremos apenas um mini dicionário e aplicaremos a função REPLACE, que vai substituir os valores encontrados na tabela por aqueles vistos no dicionário.

Utilizaremos uma coluna como exemplo, e depois aplicamos para as demais.

In [33]:
dados['syndromic'] = dados['syndromic'].replace({0:'Não', 1:'Sim'})

dados

Unnamed: 0,status,gene-symbol,gene-name,chromosome,genetic-category,gene-score,syndromic,number-of-reports
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,Não,1
1,9,ABCA13,ATP binding cassette subfamily A member 13,7,"Rare Single Gene Mutation, Functional",4.0,Não,5
2,9,ABCA7,"ATP-binding cassette, sub-family A (ABC1), mem...",19,Rare Single Gene Mutation,4.0,Não,2
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,Não,2
4,9,ACHE,Acetylcholinesterase (Yt blood group),7,Rare Single Gene Mutation,3.0,Não,4
...,...,...,...,...,...,...,...,...
1001,9,YEATS2,YEATS domain containing 2,3,Genetic Association,4.0,Não,1
1002,9,ZNF804A,Zinc finger protein 804A,2,"Rare Single Gene Mutation, Genetic Association",3.0,Não,13
1003,9,ZNF827,Zinc finger protein 827,4,Genetic Association,4.0,Não,1
1004,9,ZSWIM5,"zinc finger, SWIM-type containing 5",1,Rare Single Gene Mutation,6.0,Não,1


Agora, caso se queira alterar diversas colunas com a mesma informação, criaremos uma lista com as colunas que possuem codificação de SIM/NÃO, e aplicaremos uma das funções mais úteis do Python, o loop de repetição chamado de FOR.

Essa função nos permite aplicar diversas vezes a mesma operação, alterando apenas um parâmetro.

Deixei com # pois não utilizaremos nessa tabela, mas o código está aí se precisar.

In [34]:
#lista_de_colunas = ['status', 'gene-symbol', 'gene-name', 'chromosome', 'genetic-category',
#       'gene-score', 'syndromic', 'number-of-reports']
#
#for coluna in lista_de_colunas:
#  dados[coluna] = dados[coluna].replace({0:'Não', 1:'Sim'})
#
#dados

# Renomeando as colunas

Se precisarmos renomear as colunas faremos da seguinte forma:
Primeiramente, vamos coletar o nome de todas.

In [35]:
dados.columns     # mostrar o nome de todas as colunas da tabela

Index(['status', 'gene-symbol', 'gene-name', 'chromosome', 'genetic-category',
       'gene-score', 'syndromic', 'number-of-reports'],
      dtype='object')

Agora, copiamos e colamos esta lista, e vamos adaptando de maneira a criar um dicionário.

In [42]:
dicionario_colunas = {'status':'Status',
                      'gene-symbol':'Símbolo do gene',
                      'gene-name':'Nome do gene',
                      'chromosome':'Cromossomo',
                      'genetic-category':'Categoria genética',
                      'gene-score':'Pontuação do gene',
                      'syndromic':'Sindrômico',
                      'number-of-reports':'Número de relatos'
                      }

Agora que temos o dicionário das colunas COMPLETO, utilizamos o comando de RENAME no nosso DataFrame, assim teremos ele organizado de maneira mais adequada.

In [43]:
dados_final = dados.rename(columns=dicionario_colunas)
dados_final

Unnamed: 0,Status,Símbolo do gene,Nome do gene,Cromossomo,Categoria genética,Pontuação do gene,Sindrômico,Número de relatos
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,Não,1
1,9,ABCA13,ATP binding cassette subfamily A member 13,7,"Rare Single Gene Mutation, Functional",4.0,Não,5
2,9,ABCA7,"ATP-binding cassette, sub-family A (ABC1), mem...",19,Rare Single Gene Mutation,4.0,Não,2
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,Não,2
4,9,ACHE,Acetylcholinesterase (Yt blood group),7,Rare Single Gene Mutation,3.0,Não,4
...,...,...,...,...,...,...,...,...
1001,9,YEATS2,YEATS domain containing 2,3,Genetic Association,4.0,Não,1
1002,9,ZNF804A,Zinc finger protein 804A,2,"Rare Single Gene Mutation, Genetic Association",3.0,Não,13
1003,9,ZNF827,Zinc finger protein 827,4,Genetic Association,4.0,Não,1
1004,9,ZSWIM5,"zinc finger, SWIM-type containing 5",1,Rare Single Gene Mutation,6.0,Não,1


# Exportação para csv

Caso queira exportar o novo DataFrame para csv, caso haja a necessidade de visualizar os dados em um programa. Esta operação demora um pouco.

In [38]:
# dados_finalo.to_csv('Dados_SFARI_genes_renomeado.csv', sep=';')

# Aplicação de filtros

Uma coisa que muitas vezes fazemos ao analisar um banco de dados, é um filtro. Digamos que eu queira verificar SOMENTE os dados do cromossomo 17.

A primeira coisa a fazer é declarar o filtro, e depois vamos aplicá-lo.

In [39]:
filtro = dados_final['Cromossomo'] == '17'
dados_cromossomo_17 = dados_final[filtro]
dados_cromossomo_17

Unnamed: 0,Status,Símbolo do gene,Nome do gene,Cromossomo,Categoria genética,Pontuação do gene,Sindrômico,Número de relatos
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,Não,1
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,Não,2
80,9,BAIAP2,BAI1-associated protein 2,17,"Rare Single Gene Mutation, Genetic Association",5.0,Não,10
107,9,CACNA1G,"calcium channel, voltage-dependent, T type, al...",17,"Rare Single Gene Mutation, Syndromic, Genetic ...",4.0,Não,19
160,9,CHD3,chromodomain helicase DNA binding protein 3,17,"Rare Single Gene Mutation, Syndromic",1.0,Sim,4
190,9,CSNK1D,"casein kinase 1, delta",17,Rare Single Gene Mutation,6.0,Não,1
233,9,DLG4,discs large MAGUK scaffold protein 4,17,"Rare Single Gene Mutation, Syndromic, Functional",1.0,Não,10
240,9,DNAH17,dynein axonemal heavy chain 17,17,Rare Single Gene Mutation,4.0,Não,4
271,9,DLX3,distal-less homeobox 3,17,Rare Single Gene Mutation,3.0,Não,2
353,9,GGNBP2,gametogenetin binding protein 2,17,Rare Single Gene Mutation,3.0,Não,2


E se quisermos fazer um DataFrame com mais de um parâmetro de filtro? Algumas maneiras de fazer:

* 1) Fazer um filtro seguido do outro - desvantagem é que não podemos utilizar parâmetros dentro da mesma coluna, como por exemplo selecionar mais de uma coluna.

In [45]:
filtro_cromossomo = dados_final['Cromossomo'] == '17'
filtro_sindromico = dados_final['Sindrômico'] == 'Sim'
dados_final[filtro_cromossomo][filtro_sindromico]

  dados_final[filtro_cromossomo][filtro_sindromico]


Unnamed: 0,Status,Símbolo do gene,Nome do gene,Cromossomo,Categoria genética,Pontuação do gene,Sindrômico,Número de relatos
160,9,CHD3,chromodomain helicase DNA binding protein 3,17,"Rare Single Gene Mutation, Syndromic",1.0,Sim,4
528,9,MED13,mediator complex subunit 13,17,"Rare Single Gene Mutation, Syndromic",1.0,Sim,4
573,9,NF1,"neurofibromin 1 (neurofibromatosis, von Reckli...",17,"Rare Single Gene Mutation, Syndromic, Genetic ...",1.0,Sim,24
692,9,PPM1D,"protein phosphatase, Mg2+/Mn2+ dependent 1D",17,"Rare Single Gene Mutation, Syndromic",4.0,Sim,6
707,9,PSMD12,"proteasome 26S subunit, non-ATPase 12",17,Syndromic,1.0,Sim,3
724,9,RAI1,retinoic acid induced 1,17,"Rare Single Gene Mutation, Syndromic",1.0,Sim,21
769,9,RNF135,Ring finger protein 135,17,"Rare Single Gene Mutation, Syndromic, Genetic ...",4.0,Sim,3
912,9,TLK2,tousled-like kinase 2,17,"Rare Single Gene Mutation, Syndromic",1.0,Sim,12


* 2) Filtros composto: é o melhor jeito de fazer, podendo colocar filtros com E (&) / OU ( | )

In [46]:
# criar os filtros
filtro_cromossomo_17 = dados_final['Cromossomo'] == '17'
filtro_cromossomo_19 = dados_final['Cromossomo'] == '19'
filtro_sindromico = dados_final['Sindrômico'] == 'Sim'

# juntar os filtros
filtro_composto = filtro_sindromico & (filtro_cromossomo_17 | filtro_cromossomo_19)

# aplicar o filtro composto
dados_final[filtro_composto]


Unnamed: 0,Status,Símbolo do gene,Nome do gene,Cromossomo,Categoria genética,Pontuação do gene,Sindrômico,Número de relatos
68,9,ATP1A3,ATPase Na+/K+ transporting subunit alpha 3,19,"Rare Single Gene Mutation, Syndromic, Functional",4.0,Sim,13
160,9,CHD3,chromodomain helicase DNA binding protein 3,17,"Rare Single Gene Mutation, Syndromic",1.0,Sim,4
167,9,CIC,capicua transcriptional repressor,19,"Rare Single Gene Mutation, Functional",1.0,Sim,5
176,9,CNOT3,CCR4-NOT transcription complex subunit 3,19,"Rare Single Gene Mutation, Syndromic",1.0,Sim,5
237,9,DMPK,dystrophia myotonica-protein kinase,19,"Rare Single Gene Mutation, Syndromic",1.0,Sim,7
520,9,MBOAT7,membrane bound O-acyltransferase domain contai...,19,"Rare Single Gene Mutation, Syndromic",1.0,Sim,3
528,9,MED13,mediator complex subunit 13,17,"Rare Single Gene Mutation, Syndromic",1.0,Sim,4
564,9,NACC1,nucleus accumbens associated 1,19,"Rare Single Gene Mutation, Syndromic",4.0,Sim,4
573,9,NF1,"neurofibromin 1 (neurofibromatosis, von Reckli...",17,"Rare Single Gene Mutation, Syndromic, Genetic ...",1.0,Sim,24
692,9,PPM1D,"protein phosphatase, Mg2+/Mn2+ dependent 1D",17,"Rare Single Gene Mutation, Syndromic",4.0,Sim,6


* 3) Filtro composto para a mesma coluna, criando uma lista: quando queremos fazer um filtro que é sempre na mesma coluna, mas temos vários itens. Aplica-se o filtro utilizando a função *isin*

In [48]:
# criar a lista de cromossomos
lista_cromossomos = ['1', '3', '7', '9', '17', '19']

# definir o filtro
filtro_cromossomos = dados_final['Cromossomo'].isin(lista_cromossomos)

# aplicar filtro
dados_final[filtro_cromossomos]

Unnamed: 0,Status,Símbolo do gene,Nome do gene,Cromossomo,Categoria genética,Pontuação do gene,Sindrômico,Número de relatos
0,9,ABCA10,"ATP-binding cassette, sub-family A (ABC1), mem...",17,Rare Single Gene Mutation,4.0,Não,1
1,9,ABCA13,ATP binding cassette subfamily A member 13,7,"Rare Single Gene Mutation, Functional",4.0,Não,5
2,9,ABCA7,"ATP-binding cassette, sub-family A (ABC1), mem...",19,Rare Single Gene Mutation,4.0,Não,2
3,9,ACE,angiotensin I converting enzyme,17,"Rare Single Gene Mutation, Genetic Association",4.0,Não,2
4,9,ACHE,Acetylcholinesterase (Yt blood group),7,Rare Single Gene Mutation,3.0,Não,4
...,...,...,...,...,...,...,...,...
993,9,ZNF626,zinc finger protein 626,19,Rare Single Gene Mutation,4.0,Não,2
994,9,ZNF713,Zinc finger protein 713,7,Rare Single Gene Mutation,4.0,Não,1
996,9,ZNF8,Zinc finger protein 8,19,Rare Single Gene Mutation,5.0,Não,1
1001,9,YEATS2,YEATS domain containing 2,3,Genetic Association,4.0,Não,1


# Análises

## Contagem de valores

Quais os 10 cromossomos tem o maior número de incidência?

In [49]:
dados_final['Cromossomo'].value_counts().head(10)

1     90
2     84
X     68
7     68
3     66
5     56
17    51
6     51
11    49
15    48
Name: Cromossomo, dtype: int64

## Tabela dinâmica

Se quisermos fazer uma tabela dinâmica, contendo o **número de acidentes por UF de ocorrência e Tipo de acidente**, utilizamos a função **CROSSTAB** do Pandas, onde apenas devemos colocar as colunas que queremos como índice e como coluna. [Referência1](https://pbpython.com/pandas-crosstab.html), [Referência2](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html)

In [52]:
pd.crosstab(dados_final['Cromossomo'], dados_final['Sindrômico'], margins=True)

Sindrômico,Não,Sim,All
Cromossomo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,81,9,90
10,28,4,32
11,44,5,49
12,40,8,48
13,13,2,15
14,18,5,23
15,42,6,48
16,35,4,39
17,43,8,51
18,12,2,14


E se queremos em **porcentagem** de Sindrômico por Cromossomo

In [58]:
(pd.crosstab(dados_final['Cromossomo'], dados_final['Sindrômico'], normalize='index')*100).round(2)

Sindrômico,Não,Sim
Cromossomo,Unnamed: 1_level_1,Unnamed: 2_level_1
1,90.0,10.0
10,87.5,12.5
11,89.8,10.2
12,83.33,16.67
13,86.67,13.33
14,78.26,21.74
15,87.5,12.5
16,89.74,10.26
17,84.31,15.69
18,85.71,14.29


In [63]:
percentual_cromossomo = (pd.crosstab(dados_final['Cromossomo'], dados_final['Sindrômico'], normalize='index')*100).round(2)
percentual_cromossomo.sort_values('Não', ascending=False)

Sindrômico,Não,Sim
Cromossomo,Unnamed: 1_level_1,Unnamed: 2_level_1
Y,100.0,0.0
"X,Y",100.0,0.0
4,96.43,3.57
20,91.3,8.7
7,91.18,8.82
3,90.91,9.09
21,90.91,9.09
1,90.0,10.0
11,89.8,10.2
16,89.74,10.26


# Visualização de dados

As principais bibliotecas utilizadas para visualização de dados atualmente são a **Matplotlib** e a **Seaborn**.
* Matplotlib - é a biblioteca padrão do Python, que faz rodar quase todas as visualizações;
* Seaborn - biblioteca que já faz algumas operações além de apenas plotar o gráfico, como adicionar rótulos nos eixos automaticamente, além de possuir [muitos exemplos de gráficos muito bonitos](https://seaborn.pydata.org/examples/index.html).

Referências: https://python-graph-gallery.com/

Immportar bibliotecas.