<a href="https://colab.research.google.com/github/grsart/BiomolComp/blob/main/Pratica11/03-TFBinding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sítio de Interação de Fator de Transcrição


Fatores de transcrição são tipicamente proteínas que reconhecem sequências específicas, e de tamanho específico, do DNA e regulam a transcrição de genes nas adjacências do sítio de interação.

Os sítio de interação tipicamente contem ~10 bp com uma assinatura de sequência mais ou menos conhecida (e.g.: AGGTCA).

## Fator de Transcrição JUND

As sequências de DNA que são reconhecidas pelo fator de transcrição JUND foram mapeadas exaustivamente no genoma humano. Neste experimento, vamos usar apenas os dados do cromossomo 22 (um dos menores), e que conta com 50 milhões de bases. Neste experimento, elas foram divididas em segmentos de 101 pares de bases e foram rotuladas para indicar a ligação ou não do JUND a este segmento.

Novamente, vamos usar o *one-hot encoded* para representar as sequências: vetores de quatro elementos contendo um 1 e três 0, para representar A,G,C ou T.

**Q1: A representação em um vetor one-hot encode de quatro elementos é suficiente para todos os casos? Como resolveria situações onde aparece X na representação?**

Novamente vamos usar uma rede CNN, mas desta vez uma rede 1D, já que o dado é também 1D.

## Inicialmente, vamos instalar as bibliotecas necessárias:

In [None]:
# Train a model to predict binding sites for the transcription factor JUND.
#!pip3 install deepchem

!pip install -q tf-keras "deepchem[tensorflow]"
!apt-get install subversion

import os
os.environ["TF_USE_LEGACY_KERAS"] = "1"  # dizer para o TF usar o Keras 2 (tf_keras)

import deepchem as dc
import tensorflow as tf
import tensorflow.keras.layers as layers
%matplotlib inline
import matplotlib.pyplot as plt
!nvidia-smi

## Carregando os dados

Os dados que usaremos serão obtidos do GitHub com os comandos da célula abaixo.

In [None]:
# Baixar o repositório (clone raso para ficar mais leve)
!git clone --depth 1 https://github.com/deepchem/DeepLearningLifeSciences.git

# Entrar na pasta do Chapter 06
%cd DeepLearningLifeSciences/Chapter06
!ls

In [None]:
# Load the data.

train = dc.data.DiskDataset('train_dataset')
valid = dc.data.DiskDataset('valid_dataset')

## Construção do Modelo

Na célula abaixo, construiremos o nosso modelo. A lógica é muito similar àquela usada no conjunto de dados MNIST. Aqui o modelo de convolução unidimensional (*Conv1D*) é empregado recebendo como input vetores de características de 101x4 elementos.

**Q2: Explique o que tem no vetor de características de tamanho 101x4.**

**Q3: Qual foi o mecanismo de ativação das camadas ocultas do modelo? E para a camada de saída?**

**Q4: Quantas camadas ocultas foram definidas para esse modelo? E qual a largura de cada uma delas?**

**Q5: Avaliando o código abaixo, qual o tipo de regularização foi utilizado? Explique qual o princípio e o que significa o valor associado**

**Q6: Qual a função de perda que foi utilizada para esse modelo?**

A camada densa de saída retorna valores entre 0 e 1, indicando a probabilidade de cada sequência conter um sítio de interação.

In [None]:
# Arquitetura do modelo

features = tf.keras.Input(shape=(101, 4))
prev = features
for i in range(3):
    prev = layers.Conv1D(filters=15, kernel_size=10, activation=tf.nn.relu, padding='same')(prev)
    prev = layers.Dropout(rate=0.5)(prev)
logits = layers.Dense(units=1)(layers.Flatten()(prev))
output = layers.Activation(tf.math.sigmoid)(logits)
keras_model = tf.keras.Model(inputs=features, outputs=[output, logits])
model = dc.models.KerasModel(
    keras_model,
    loss=dc.models.losses.SigmoidCrossEntropy(),
    output_types=['prediction', 'loss'],
    batch_size=1000,
    model_dir='tf')

## Treinamento e Métrica

Novamente a métrica será a ROC AUC. A cada 10 épocas, o modelo é avaliado nos conjuntos de treinamento e teste.

**Q7: O que significa rodar 10 épocas?**

In [None]:
# Treinamento do modelo e avaliação

metric = dc.metrics.Metric(dc.metrics.roc_auc_score)

xs=[]
ytrain=[]
yvalid=[]

for i in range(20):
    model.fit(train, nb_epoch=10)
    print("Round %d:" % (i+1))
    m = model.evaluate(train, [metric])
    auc = m['roc_auc_score']
    print("ROC AUC [train]: %7.3f" % auc)
    ytrain.append(auc)
    m = model.evaluate(valid, [metric])
    auc = m['roc_auc_score']
    print("ROC AUC [valid]: %7.3f" % auc)
    yvalid.append(auc)
    xs.append(i+1)
    print()

## Gráfico: Evolução do Treinamento da Rede

In [None]:
# Representação Gráfica da Evolução do Treinamento

plt.style.use('seaborn-v0_8-whitegrid')
plt.ylabel('ROC AUC')
plt.xlabel('Iteration')
plt.plot(xs, ytrain, '-ok', label='train')
plt.plot(xs, yvalid, '-or', label='valid')
plt.legend()
plt.show()

**Q8: Interprete o gráfico resultante em termos de treinamento e validação. Em que passo já não é observada nenhuma melhora na validação? Explique**