 1° Análise Exploratória dos Dados

---

Interpretações clínicas suportadas
de mutações relacionadas ao câncer




##Bibliotecas

In [1]:
#Importações
import requests
import json
import pandas as pd
import plotly.graph_objects as go
import matplotlib.pyplot as plt

##**Fonte:**
https://civic.readthedocs.io/en/latest/api.html

##Carregando os Dados

In [None]:
#Dados
df = pd.read_csv('/content/Civic (1) - Copia.csv')
# Vendo os primeiros registros
df.head(5)

In [3]:
# Verificar as colunas disponíveis no DataFrame
print(df.columns)

Index(['gene', 'entrez_id', 'variant', 'disease', 'doid', 'phenotypes',
       'drugs', 'drug_interaction_type', 'evidence_type', 'evidence_direction',
       'evidence_level', 'clinical_significance', 'evidence_statement',
       'citation_id', 'source_type', 'citation', 'rating', 'evidence_status',
       'evidence_id', 'variant_id', 'gene_id', 'chromosome', 'start', 'stop',
       'reference_bases', 'variant_bases', 'representative_transcript',
       'ensembl_version', 'reference_build', 'variant_summary',
       'variant_origin', 'is_flagged', 'variant_types', 'hgvs_expressions',
       'civic_variant_evidence_score', 'allele_registry_id', 'clinvar_ids',
       'variant_aliases', 'description'],
      dtype='object')


##Detalhes de Genes de MyGene

In [4]:
# Contando a frequência de gene
gene_counts = df['gene'].value_counts().reset_index()
gene_counts.columns = ['gene', 'count']

In [5]:
# Pegar os 10 genes mais frequentes
top_genes = gene_counts.head(10)  
categorias = top_genes['gene']
valores = top_genes['count']

In [6]:
# Criar um objeto figura
fig = go.Figure()

# Adicionar um gráfico de barras
fig.add_trace(go.Bar(x=categorias, y=valores, name='Genes Mais Frequentes',
                     text=valores, textposition='auto',
                     marker_color='green'
                     )) # Cor das barras)  # Adicionar marcadores de valores
                     
# Personalizar o layout do gráfico
fig.update_layout(title='Genes Mais Frequentes',
                  xaxis_title='Genes',
                  yaxis_title='Contagem de Frequência')

# Exibir o gráfico
fig.show()

##Principais Variantes do Nosso Dados

In [7]:
# Contar os valores únicos na coluna 'variant'
variante_counts = df['variant'].value_counts().head(5)

In [8]:
# Criar o gráfico de barras
fig = go.Figure()

# Adicionar os dados ao gráfico
fig.add_trace(go.Bar(
    x=variante_counts.index, # Valores únicos da coluna 'variant' no eixo x
    y=variante_counts.values, # Contagem dos valores únicos no eixo y
    marker_color='green' # Cor das barras
))
# Atualizar o layout do gráfico
fig.update_layout(
    title='Principais Variantes',
    xaxis=dict(title='Variantes'),
    yaxis=dict(title='Contagem'),
    showlegend=False, # Não mostrar a legenda
)

# Mostrar o gráfico
fig.show()

## Ontologia de Doenças


In [60]:
# Filtrar apenas a doenças de câncer
cancer_diseases = ['Cancer']
df_cancer = df[df['disease'].isin(cancer_diseases)]

In [69]:
# Filtrar as colunas de interesse (variant, disease, clinical_significance)
df_cancer = df_cancer[['variant', 'disease', 'clinical_significance']]

# Agrupar os dados por variant, disease e clinical_significance, e contar a ocorrência de cada combinação
variant_disease_action_counts = df_cancer.groupby(['variant', 'disease', 'clinical_significance']).size().reset_index(name='count')

# Ordenar os dados por count em ordem decrescente
variant_disease_action_counts = variant_disease_action_counts.sort_values(by='count', ascending=False)

# Filtrar apenas as top 10 variantes mais frequentes para cada doença
variant_disease_action_counts_top10 = variant_disease_action_counts.groupby('disease').head(10)

In [72]:
# Criar um gráfico de barras
fig = px.bar(variant_disease_action_counts_top10, x='variant', y='count', color='clinical_significance',
             facet_col='disease', facet_col_wrap=3, facet_row_spacing=0.02,
             labels={'variant': 'Variante', 'count': 'Contagem', 'clinical_significance': 'Ação Clínica', 'disease': 'Doença'},
             title='Variantes de Câncer Primario e Ações Clínicas')

# Exibir o gráfico
fig.show()

##Tipo Evidências Clinica para  Predisposição ao Câncer ou Diagnóstico

In [65]:
#Contar frequências Tipo Evidencia 
frequency_counts = df['evidence_type'].value_counts()
frequency_counts

In [75]:
# Gráfico de barras
fig_bar = go.Figure(go.Bar(x=frequency_counts.index, y=frequency_counts.values, marker_color='green'))
fig_bar.update_layout(title='Frequências de Categorias', xaxis_title='Categoria', yaxis_title='Contagem',)
fig_bar.show()

# Gráfico de pizza
fig_pie = go.Figure(go.Pie(labels=frequency_counts.index, values=frequency_counts.values))
fig_pie.update_layout(title='Frequências de Categorias')
fig_pie.show()


##Relatório de Análise Exploratória de Dados da API CivicDB

A API fornece informações sobre genes associados a variantes e doenças. O conjunto de dados consiste em uma lista de genes, cada um com seus respectivos campos e valores.

1. Informações Gerais:


A API possui informações sobre 1402 genes.
Existem 3 campos obrigatórios para cada gene: "name", "entrez_id" e "variants_count"

2. Campos:

"gene": Nome do gene.
"entrez_id": ID do gene na base de dados NCBI Entrez.
"variants_count": Número de variantes associadas ao gene.
"description": Descrição do gene.
"aliases": Outros nomes pelos quais o gene é conhecido.
"tipo": Tipo de gene.
"location": Localização do gene.
"cromossomo": Cromossomo do gene.
"map_location": Localização no mapa genético.
"biotipo": Biótipo do gene.
"reference_genoma": Genoma de referência do gene.
"ensembl_id": ID do gene na base de dados Ensembl.
"símbolo": Símbolo do gene.
"hgnc_id": ID do gene na base de dados HGNC.
"summary": Resumo do gene.


3.   Distribuição dos dados:


O número de variantes associadas aos genes varia de 1 a 312.
A maioria dos genes tem menos de 50 variantes associadas.
Os genes estão distribuídos em diversos cromossomos.
Existem genes de diversos biótipos.



4.   Análise Adicional:


Seria interessante fazer uma análise de associação de genes com doenças e variantes para entender melhor a herança de cada gene na biologia e medicina.
Também seria interessante analisar a distribuição dos tipos de variantes associados a cada gene, para entender melhor o impacto das variantes no gene e suas funções biológicas.
Além disso, seria útil fazer uma análise de similaridade entre os genes com base em suas incorporadas e abstratas, para identificar possíveis grupos ou famílias de genes.




*   Conclusão: 

A API CivicDB fornece uma rica fonte de informações sobre genes, variantes e doenças. A análise exploratória realizada neste relatório mostra que existem diversos genes com diferentes níveis de resistência e associação com variantes. Uma análise mais aprofundada poderia ser útil para entender melhor a biologia e a medicina relacionadas a esses genes.

##Relatório da Tarefa Exploratória de Dados da API CIViC

Introdução: 
A API CIViC (Clinical Interpretation of Variants in Cancer) é uma plataforma online que fornece informações sobre variantes genéticas associadas ao câncer. Através da API, é possível acessar informações sobre genes, variantes, doenças, evidências clínicas e muito mais. Neste relatório, realizamos uma análise exploratória de dados da API CIViC, com o objetivo de entender a estrutura dos dados e identificar possíveis insights.

Metodologia:
Para realizar uma análise exploratória de dados da API CIViC, utilizamos uma biblioteca requests em Python para fazer requisições HTTP à API e obter os dados em formato JSON. Em seguida, utilizamos técnicas de manipulação de dados e visualização para analisar os dados obtidos.

Resultados:

Estrutura dos Dados: 
A API CIViC fornece informações sobre genes, variantes, doenças, evidências clínicas e outros dados relacionados ao câncer. Os dados estão organizados em uma estrutura de árvore, onde é possível navegar por diferentes níveis de informações, como genes, variantes e suas respectivas evidências.

Informações sobre Genes:
Os dados obtidos da API CIViC fornecem informações específicas sobre genes, incluindo o nome do gene, ID do gene, descrição do gene, ID do Entrez, entre outros. Essas informações podem ser utilizadas para identificar genes associados ao câncer e realizar análises genéticas.

Informações sobre Variantes:
A API CIViC também fornece informações específicas sobre variantes genéticas, incluindo o nome da variante, ID da variante, descrição da variante, doenças associadas, evidências clínicas e outras informações relevantes. Essas informações são úteis para compreender os dados.

Fim!

** então o ideal seria refazer a parte exploratória, com gráficos simples, mas muitos deles

com perguntas como por exemplo, será que o evidence_type (coluna que provavelmente a leticia vai fazer o predict) tem relação com genes especificos?


ou se a resposta ao tratamento tem relação com o diagnostico?

todas as perguntas são feitas antes de criar os gráficos, apenas olhando para eles e ai sim tu vai criar gráficos para visualizar se faz sentido ou não e explicar o pq**