# Cálculo de Temperatura de Melting e Conteúdo GC

**Nome:** Gabriel Pinheiro de Campos  
**RA:** 156315  
**Turma:** NB  

## Objetivos

Este notebook tem como objetivo analisar sequências de DNA da *E. coli* Sakai para:

1. Calcular o número de nucleotídeos (A, T, C, G e total) para cada sequência
2. Calcular o conteúdo GC de cada sequência
3. Calcular a temperatura de melting usando o conteúdo GC e [Na+] = 100 mM
4. Visualizar a relação entre conteúdo GC e temperatura de melting através de um gráfico

## Importação de Bibliotecas

In [None]:
# Importando as bibliotecas necessárias
from Bio import SeqIO
import matplotlib.pyplot as plt
import csv
import math
import os
import pandas as pd
import numpy as np

# Configuração para exibir gráficos no notebook
%matplotlib inline
plt.style.use('seaborn-v0_8-whitegrid')

## Definição de Funções

In [None]:
def calcular_temperatura_melting(conteudo_gc, comprimento, concentracao_sodio=100):
    """
    Calcula a temperatura de melting de uma sequência de DNA.
    
    Fórmula: Tm = 81.5 + 16.6 * log10([Na+]/1000) + 0.41 * (%GC) - 500/comprimento
    
    Parâmetros:
    - conteudo_gc: proporção de G+C na sequência (0 a 1)
    - comprimento: comprimento da sequência em nucleotídeos
    - concentracao_sodio: concentração de Na+ em mM (padrão: 100 mM)
    
    Retorna:
    - Temperatura de melting em °C
    """
    return 81.5 + 16.6 * math.log10(concentracao_sodio/1000) + 0.41 * (conteudo_gc*100) - 500/comprimento

## Processamento do Arquivo FASTA

In [None]:
# Definindo os arquivos
arquivo_entrada = "Ecoli_Sakai_cds_from_genomic.fna"
arquivo_saida_dados = "Dados das sequencias.csv"
arquivo_saida_gc = "Conteudo_GC.csv"
arquivo_saida_temp = "Temperatura_x_GC.csv"
arquivo_grafico = "GC_x_Temperatura.png"

print(f"Processando arquivo: {arquivo_entrada}")

# Verificar se o arquivo existe
if not os.path.exists(arquivo_entrada):
    print(f"ERRO: O arquivo {arquivo_entrada} não foi encontrado!")
else:
    # Armazenar os dados de todas as sequências
    dados_sequencias = []
    
    # Ler o arquivo FASTA
    for registro in SeqIO.parse(arquivo_entrada, "fasta"):
        # Obter identificador e sequência
        identificador = registro.id
        sequencia = str(registro.seq).upper()
        
        # Contar nucleotídeos
        contador_A = sequencia.count("A")
        contador_T = sequencia.count("T")
        contador_C = sequencia.count("C")
        contador_G = sequencia.count("G")
        total = contador_A + contador_T + contador_C + contador_G
        
        # Calcular conteúdo GC
        conteudo_gc = (contador_G + contador_C) / total if total > 0 else 0
        
        # Calcular temperatura de melting
        temperatura_melting = calcular_temperatura_melting(conteudo_gc, total)
        
        # Armazenar os resultados
        dados_sequencias.append({
            "identificador": identificador,
            "contador_A": contador_A,
            "contador_T": contador_T,
            "contador_C": contador_C,
            "contador_G": contador_G,
            "total": total,
            "conteudo_gc": conteudo_gc,
            "temperatura_melting": temperatura_melting
        })
    
    print(f"Foram processadas {len(dados_sequencias)} sequências.")

## Criação dos Arquivos CSV

In [None]:
# Criar arquivo CSV com os dados das sequências
with open(arquivo_saida_dados, 'w', newline='') as arquivo:
    escritor = csv.writer(arquivo)
    escritor.writerow(["Sequencia", "A", "T", "C", "G", "Total"])
    for dados in dados_sequencias:
        escritor.writerow([
            dados["identificador"],
            dados["contador_A"], 
            dados["contador_T"], 
            dados["contador_C"], 
            dados["contador_G"], 
            dados["total"]
        ])

print(f"Arquivo criado: {arquivo_saida_dados}")

# Criar arquivo CSV com o conteúdo GC
with open(arquivo_saida_gc, 'w', newline='') as arquivo:
    escritor = csv.writer(arquivo)
    escritor.writerow(["Sequencia", "Conteudo GC"])
    for dados in dados_sequencias:
        escritor.writerow([
            dados["identificador"],
            f"{dados['conteudo_gc']:.3f}"  # 3 casas decimais
        ])

print(f"Arquivo criado: {arquivo_saida_gc}")

# Criar arquivo CSV com temperatura de melting e conteúdo GC
with open(arquivo_saida_temp, 'w', newline='') as arquivo:
    escritor = csv.writer(arquivo)
    escritor.writerow(["Temperatura de Melting", "Conteudo GC (%)"])
    for dados in dados_sequencias:
        escritor.writerow([
            f"{dados['temperatura_melting']:.3f}",  # 3 casas decimais
            f"{dados['conteudo_gc']*100:.2f}"       # 2 casas decimais
        ])

print(f"Arquivo criado: {arquivo_saida_temp}")

## Análise Exploratória dos Dados

In [None]:
# Converter para DataFrame para análise
df = pd.DataFrame(dados_sequencias)

# Exibir uma visão geral dos dados
print("Resumo dos dados:")
print(f"Total de sequências analisadas: {len(df)}")
print("\nEstatísticas básicas:")
print(df[["contador_A", "contador_T", "contador_C", "contador_G", "total", "conteudo_gc", "temperatura_melting"]].describe())

# Exibir as primeiras linhas para verificação
print("\nPrimeiras 5 sequências analisadas:")
df.head()

## Visualização dos Dados

In [None]:
# Criar gráfico de dispersão
temperaturas = [dados["temperatura_melting"] for dados in dados_sequencias]
conteudos_gc = [dados["conteudo_gc"] * 100 for dados in dados_sequencias]

plt.figure(figsize=(12, 8))
scatter = plt.scatter(temperaturas, conteudos_gc, alpha=0.5, s=15, c=conteudos_gc, cmap='viridis')
plt.colorbar(scatter, label='Conteúdo GC (%)')
plt.xlabel('Temperatura de Melting (°C)', fontsize=12)
plt.ylabel('Conteúdo GC (%)', fontsize=12)
plt.title('Relação entre Conteúdo GC e Temperatura de Melting\n(Gabriel Pinheiro de Campos)', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.7)

# Adicionar linha de tendência
z = np.polyfit(temperaturas, conteudos_gc, 1)
p = np.poly1d(z)
plt.plot(temperaturas, p(temperaturas), "r--", alpha=0.8, label=f'Tendência: y={z[0]:.2f}x{z[1]:+.2f}')
plt.legend()

# Salvar o gráfico como arquivo de imagem
plt.savefig(arquivo_grafico, dpi=300, bbox_inches='tight')
print(f"Gráfico salvo em: {arquivo_grafico}")
plt.show()

## Análises adicionais

In [None]:
# Histograma do conteúdo GC
plt.figure(figsize=(10, 6))
plt.hist(conteudos_gc, bins=30, alpha=0.7, color='green')
plt.xlabel('Conteúdo GC (%)', fontsize=12)
plt.ylabel('Número de sequências', fontsize=12)
plt.title('Distribuição do Conteúdo GC nas sequências de E. coli Sakai', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

# Histograma das temperaturas de melting
plt.figure(figsize=(10, 6))
plt.hist(temperaturas, bins=30, alpha=0.7, color='blue')
plt.xlabel('Temperatura de Melting (°C)', fontsize=12)
plt.ylabel('Número de sequências', fontsize=12)
plt.title('Distribuição das Temperaturas de Melting nas sequências de E. coli Sakai', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

## Conclusões

Esta análise permitiu calcular e visualizar a relação entre o conteúdo GC e a temperatura de melting para 5155 potenciais genes da *E. coli* Sakai. Os resultados mostram uma clara correlação positiva entre o conteúdo GC e a temperatura de melting, o que está de acordo com a literatura científica, já que pares G-C formam três ligações de hidrogênio, enquanto pares A-T formam apenas duas, tornando o DNA mais rico em GC mais estável termicamente.

Os dados foram exportados em três formatos CSV conforme solicitado:
- "Dados das sequencias.csv": Contagem de nucleotídeos para cada sequência
- "Conteudo_GC.csv": Conteúdo GC de cada sequência
- "Temperatura_x_GC.csv": Temperatura de melting e conteúdo GC (%) para cada sequência

O gráfico de dispersão gerado ilustra visualmente esta relação e foi salvo como "GC_x_Temperatura.png".