# Rafael Santos - 118336 - Ex: 16, 17, 18 e 19

### 16.1 - Obter dados do gene com ID 593

In [1]:
# Importar a biblioteca necessária para fazer requisições HTTP
import requests

In [2]:
# URL da API para obter informações sobre o gene com ID 593
url = "https://mygene.info/v3/gene/593"

# Fazer uma requisição GET à API
response = requests.get(url)

In [3]:
# Verificar se a resposta foi bem-sucedida (status code 200)
if response.status_code == 200:
    # Converter a resposta para formato JSON
    data = response.json()

    # Mostrar os principais campos de interesse do gene
    print(" Dados do gene 593:")
    print(f"Symbol: {data.get('symbol')}")      # Símbolo do gene
    print(f"Name: {data.get('name')}")          # Nome completo
    print(f"Summary: {data.get('summary', 'N/A')}")  # Resumo (se existir)

else:
    # Mostrar mensagem de erro se a resposta não for 200
    print(" Erro ao aceder à API:", response.status_code)

 Dados do gene 593:
Symbol: BCKDHA
Name: branched chain keto acid dehydrogenase E1 subunit alpha
Summary: The branched-chain alpha-keto acid (BCAA) dehydrogenase (BCKD) complex is an innter mitochondrial enzyme complex that catalyzes the second major step in the catabolism of the branched-chain amino acids leucine, isoleucine, and valine. The BCKD complex consists of three catalytic components: a heterotetrameric (alpha2-beta2) branched-chain alpha-keto acid decarboxylase (E1), a dihydrolipoyl transacylase (E2), and a dihydrolipoamide dehydrogenase (E3). This gene encodes the alpha subunit of the decarboxylase (E1) component. Mutations in this gene result in maple syrup urine disease, type IA. Multiple transcript variants encoding different isoforms have been found for this gene.[provided by RefSeq, Sep 2009].


### 16.2 - Busca de informações genéticas relacionadas ao símbolo genético BRCA1

In [4]:
# URL da API com a query para procurar o gene com símbolo BRCA1
url = "https://mygene.info/v3/query?q=symbol:BRCA1"

# Fazer uma requisição GET à API
response = requests.get(url)

In [5]:
# Verificar se a resposta foi bem-sucedida (status code 200)
if response.status_code == 200:
    # Converter a resposta para formato JSON
    data = response.json()

    # Verificar se vieram resultados
    hits = data.get("hits", [])
    
    if hits:
        # Mostrar o primeiro resultado da pesquisa
        gene = hits[0]  # Pega o primeiro registo da lista

        print(" Informação sobre o gene BRCA1:")
        print(f"Symbol: {gene.get('symbol')}")
        print(f"Name: {gene.get('name')}")
        print(f"Entrez Gene ID: {gene.get('_id')}")
        print(f"Organism: {gene.get('taxid', 'N/A')}")  # taxid = ID do organismo
        print(f"Summary: {gene.get('summary', 'Sem resumo disponível.')}")
    else:
        print(" Nenhum resultado encontrado para o símbolo BRCA1.")

else:
    # Mostrar erro se o pedido não for bem-sucedido
    print(" Erro ao aceder à API:", response.status_code)

 Informação sobre o gene BRCA1:
Symbol: BRCA1
Name: BRCA1 DNA repair associated
Entrez Gene ID: 672
Organism: 9606
Summary: Sem resumo disponível.


### 16.3 - Escreva uma URL para recuperar as informações dos genes com as palavras tumor e supressor em qualquer atributo

In [6]:
# URL da API com os termos de pesquisa: "tumor" AND "suppressor"
url = "https://mygene.info/v3/query?q=tumor+AND+suppressor"

# Fazer uma requisição GET à API
response = requests.get(url)

In [7]:
# Verificar se a resposta foi bem-sucedida (status code 200)
if response.status_code == 200:
    # Converter a resposta para JSON
    data = response.json()

    # Obter os resultados (lista de genes)
    hits = data.get("hits", [])

    # Mostrar até 5 resultados (por exemplo)
    print(" Genes que contêm 'tumor' e 'suppressor':\n")
    for gene in hits[:5]:
        print(f"Symbol: {gene.get('symbol', 'N/A')}")
        print(f"Name: {gene.get('name', 'N/A')}")
        print(f"Summary: {gene.get('summary', 'Sem resumo disponível.')}")
        print("-" * 50)

else:
    print(" Erro ao aceder à API:", response.status_code)

 Genes que contêm 'tumor' e 'suppressor':

Symbol: LNCPTCTS
Name: lncRNA papillary thyroid carcinoma tumor suppressor
Summary: Sem resumo disponível.
--------------------------------------------------
Symbol: LOC282551
Name: Insulinoma tumor suppressor gene locus
Summary: Sem resumo disponível.
--------------------------------------------------
Symbol: TSG11
Name: Tumor suppressor gene on chromosome 11
Summary: Sem resumo disponível.
--------------------------------------------------
Symbol: LNCPTCTS
Name: lncRNA papillary thyroid carcinoma tumor suppressor
Summary: Sem resumo disponível.
--------------------------------------------------
Symbol: MLRL
Name: Myeloid leukemia-related gene (myeloid tumor suppressor)
Summary: Sem resumo disponível.
--------------------------------------------------


### 17 - Escreva uma função em Python para exibir o resultado de solicitações como em 16.2 no seguinte formato

In [15]:
# URL da API com a query para pesquisar pelo símbolo BRCA1
url = "https://mygene.info/v3/query?q=symbol:BRCA1"

# Fazer a requisição GET à API
response = requests.get(url)

In [16]:
def mostrar_resultados_formatados(data):
    """
    Esta função formata e apresenta os resultados da API MyGene
    com alinhamento igual ao exemplo do enunciado:
    - GeneID e Entrezgene alinhados à direita
    - Score alinhado à esquerda no cabeçalho e centrado nos valores
    """

    total = data.get('total', 0)
    hits = data.get('hits', [])

    # Cabeçalho com contagem de resultados
    print(f"\nInfo for (id: {len(hits)} total: {total}):\n")

    # Cabeçalho da tabela com alinhamento personalizado
    print(f"{'GeneID':>10} {'Score':<25} {'Entrezgene':>15}")
    print("-" * 55)

    # Mostrar os primeiros 4 resultados
    for hit in hits[:4]:
        gene_id = str(hit.get('_id', 'N/A'))
        score = hit.get('_score', 0.0)
        taxid = hit.get('taxid', 'N/A')
        entrezgene = str(hit.get('entrezgene', 'N/A'))

        # Formatamos cada valor com largura fixa
        score_fmt = f"({score:10.6f}, {str(taxid):>5},  8)"

        print(f"{gene_id:>10} {score_fmt:<25} {entrezgene:>15}")


    # Rodapé
    print(f"{'...':>10} {'...':^25} {'...':>15}\n")

In [17]:
# Verificar se a resposta foi bem-sucedida
if response.status_code == 200:
    # Converter a resposta em JSON
    data = response.json()

    # Chamar a função que formata e imprime os dados
    mostrar_resultados_formatados(data)

else:
    print(" Erro ao aceder à API:", response.status_code)


Info for (id: 10 total: 531):

    GeneID Score                          Entrezgene
-------------------------------------------------------
       672 ( 18.103941,  9606,  8)               672
     12189 ( 15.183950, 10090,  8)             12189
    497672 ( 12.847959, 10116,  8)            497672
 103821581 ( 11.679962,  9135,  8)         103821581
       ...            ...                        ...



### 18 - Escreva uma função Python para recuperar (de Mygene.info) e listar o símbolo, nome, resumo, p_li e genomic_loc dos genes em um formato de fácil leitura.

In [18]:
def detalhes_gene(gene_ids):
    """
    Esta função recebe uma lista de geneIDs e, para cada um deles,
    faz uma requisição à API MyGene.info para obter:
    - symbol
    - name
    - summary
    - p_li
    - genomic_loc

    Os dados são mostrados de forma clara e legível.
    """
    for gene_id in gene_ids:
        print(f"\n Detalhes do gene ID: {gene_id}")
        url = f"https://mygene.info/v3/gene/{gene_id}"
        response = requests.get(url)

        if response.status_code == 200:
            data = response.json()

            symbol = data.get("symbol", "N/A")
            name = data.get("name", "N/A")
            summary = data.get("summary", "Sem resumo disponível.")
            p_li = data.get("pLI", "N/A")
            genomic_loc = data.get("genomic_pos", {})

            # Tratar posição genómica
            if isinstance(genomic_loc, list) and genomic_loc:
                loc = genomic_loc[0]
            elif isinstance(genomic_loc, dict):
                loc = genomic_loc
            else:
                loc = {}

            loc_str = f"{loc.get('chr', '?')}:{loc.get('start', '?')}–{loc.get('end', '?')}" if loc else "N/A"

            # Imprimir informação formatada
            print(f"   Symbol       : {symbol}")
            print(f"   Name         : {name}")
            print(f"   Summary      : {summary}")
            print(f"   pLI          : {p_li}")
            print(f"   Genomic Loc  : {loc_str}")

        else:
            print(f" Erro ao obter o gene {gene_id} (status {response.status_code})")

In [19]:
# IDs que obtiveste na questão 17
lista_ids = [672, 12189, 497672, 103821581]

# Chamada da função
detalhes_gene(lista_ids)


 Detalhes do gene ID: 672
   Symbol       : BRCA1
   Name         : BRCA1 DNA repair associated
   Summary      : This gene encodes a 190 kD nuclear phosphoprotein that plays a role in maintaining genomic stability, and it also acts as a tumor suppressor. The BRCA1 gene contains 22 exons spanning about 110 kb of DNA. The encoded protein combines with other tumor suppressors, DNA damage sensors, and signal transducers to form a large multi-subunit protein complex known as the BRCA1-associated genome surveillance complex (BASC). This gene product associates with RNA polymerase II, and through the C-terminal domain, also interacts with histone deacetylase complexes. This protein thus plays a role in transcription, DNA repair of double-stranded breaks, and recombination. Mutations in this gene are responsible for approximately 40% of inherited breast cancers and more than 80% of inherited breast and ovarian cancers. Alternative splicing plays a role in modulating the subcellular localizat

### 19 - Obtenha os dados (símbolo, nome, resumo e p_li) de 15 a 20 genes e insira-os na tabela geneAttributes

In [20]:
# Visualizar 15 genes da API

# Define a URL da API com uma query para procurar genes relacionados à palavra "DNA"
# 'size=15' limita os resultados a 15 genes
query_url = "https://mygene.info/v3/query?q=DNA&size=15"

# Faz a requisição GET à API
response = requests.get(query_url)

# Lista onde serão guardados os geneIDs que queremos inserir mais tarde
gene_ids = []

# Verifica se a resposta foi bem-sucedida (HTTP 200)
if response.status_code == 200:
    data = response.json()            # Converte a resposta JSON em dicionário
    hits = data.get("hits", [])       # Extrai a lista de genes encontrados

    print(f"\n {len(hits)} genes encontrados:\n")

    # Itera sobre os genes retornados e mostra os campos relevantes
    for i, hit in enumerate(hits, 1):
        gene_id = hit.get("_id")                  # ID numérico do gene
        symbol = hit.get("symbol", "N/A")         # Símbolo (ex: BRCA1)
        name = hit.get("name", "N/A")             # Nome do gene

        # Imprime os dados de forma legível
        print(f"{i:>2}. ID: {gene_id:<10} Symbol: {symbol:<10} Name: {name}")

        # Adiciona o gene ID à lista, convertendo para inteiro
        if gene_id is not None:
            gene_ids.append(int(gene_id))
else:
    # Se a resposta não for 200, imprime o código de erro
    print(" Erro ao buscar genes:", response.status_code)


 15 genes encontrados:

 1. ID: 1791       Symbol: DNTT       Name: DNA nucleotidylexotransferase
 2. ID: 1786       Symbol: DNMT1      Name: DNA methyltransferase 1
 3. ID: 4595       Symbol: MUTYH      Name: mutY DNA glycosylase
 4. ID: 5423       Symbol: POLB       Name: DNA polymerase beta
 5. ID: 353497     Symbol: POLN       Name: DNA polymerase nu
 6. ID: 3981       Symbol: LIG4       Name: DNA ligase 4
 7. ID: 6996       Symbol: TDG        Name: thymine DNA glycosylase
 8. ID: 51426      Symbol: POLK       Name: DNA polymerase kappa
 9. ID: 5429       Symbol: POLH       Name: DNA polymerase eta
10. ID: 7150       Symbol: TOP1       Name: DNA topoisomerase I
11. ID: 10721      Symbol: POLQ       Name: DNA polymerase theta
12. ID: 11201      Symbol: POLI       Name: DNA polymerase iota
13. ID: 92797      Symbol: HELB       Name: DNA helicase B
14. ID: 7374       Symbol: UNG        Name: uracil DNA glycosylase
15. ID: 27434      Symbol: POLM       Name: DNA polymerase mu


In [21]:
# Conexão à base de dados SQL Server
import pyodbc
conn = pyodbc.connect(
    'DRIVER={SQL Server};'
    'SERVER=deti-sql-aulas.ua.pt;'
    'DATABASE=sbd24_118336;'
    'UID=sbd24_118336;'
    'PWD=pascoa'
)
cursor = conn.cursor()

In [23]:
# Função para obter o próximo geneNID
def get_next_geneNID():
    cursor.execute("SELECT ISNULL(MAX(geneNID), 0) + 1 FROM geneAttributes")
    return cursor.fetchone()[0]

# Inserção de cada gene
for gene_id in gene_ids:
    url = f"https://mygene.info/v3/gene/{gene_id}"
    response = requests.get(url)

    if response.status_code == 200:
        data = response.json()

        geneNID = get_next_geneNID()
        geneId = data.get('_id')
        geneName = data.get('symbol', 'N/A')
        geneDescription = (data.get('summary') or data.get('name', 'N/A'))[:255]
        pLI = data.get('pLI', None)

        try:
            cursor.execute("""
                INSERT INTO dbo.geneAttributes (geneNID, geneId, geneName, geneDescription, pLI)
                VALUES (?, ?, ?, ?, ?)
            """, (geneNID, geneId, geneName, geneDescription, pLI))
            conn.commit()
            print(f" Inserido: {geneName} (ID: {geneId})")
        except Exception as e:
            print(f" Erro ao inserir gene {geneId}: {e}")
    else:
        print(f" Erro ao obter gene {gene_id} (status {response.status_code})")

 Inserido: DNTT (ID: 1791)
 Inserido: DNMT1 (ID: 1786)
 Inserido: MUTYH (ID: 4595)
 Inserido: POLB (ID: 5423)
 Inserido: POLN (ID: 353497)
 Inserido: LIG4 (ID: 3981)
 Inserido: TDG (ID: 6996)
 Inserido: POLK (ID: 51426)
 Inserido: POLH (ID: 5429)
 Inserido: TOP1 (ID: 7150)
 Inserido: POLQ (ID: 10721)
 Inserido: POLI (ID: 11201)
 Inserido: HELB (ID: 92797)
 Inserido: UNG (ID: 7374)
 Inserido: POLM (ID: 27434)


In [24]:
# Fechar conexão
conn.close()