# Stanford RNA 3D Folding - Visão Geral da Competição

**Autor**: Mauro Risonho de Paula Assumpção <mauro.risonho@gmail.com>  
**Competição**: Stanford RNA 3D Folding  
**Plataforma**: Kaggle  
**Data**: Outubro 2025  

---

## Visão Geral

Bem-vindos à competição **Stanford RNA 3D Folding**! Este desafio foca em resolver a predição de estrutura de RNA, um dos grandes desafios restantes da biologia.

### Resumo da Competição
- **Organizador**: Universidade de Stanford
- **Tipo**: Competição de Código em Destaque
- **Duração**: ~7 meses (27 Fev - 24 Set, 2025)
- **Prêmios**: $75.000
- **Participantes**: 10.328 inscritos, 1.706 participantes, 1.516 equipes, 2.437 submissões

## Descrição do Problema

### O Desafio

O RNA é vital para os processos mais essenciais da vida, mas apesar de sua importância, prever sua estrutura 3D ainda é difícil. Avanços de deep learning como o AlphaFold transformaram a predição de estrutura de proteínas, mas o progresso com RNA tem sido muito mais lento devido a dados limitados e métodos de avaliação.

### O Objetivo

Nesta competição, você desenvolverá modelos de machine learning para prever a estrutura 3D de uma molécula de RNA a partir de sua sequência. O objetivo é melhorar nosso entendimento de processos biológicos e impulsionar novos avanços em medicina e biotecnologia.

### Impacto Científico

Esta competição se baseia em avanços recentes, como o modelo de fundação de deep learning RibonanzaNet, que emergiu de uma competição anterior do Kaggle. Agora, você enfrentará o próximo desafio—prever a estrutura 3D completa do RNA.

Seu trabalho pode impulsionar a medicina baseada em RNA, tornando tratamentos como imunoterapias contra câncer e edição genética CRISPR mais acessíveis e eficazes. Mais fundamentalmente, seu trabalho pode ser o passo chave para iluminar as dobras e funções de moléculas de RNA naturais, que têm sido chamadas de 'matéria escura da biologia'.

### Colaboração

Esta competição é possível através de um esforço colaborativo mundial incluindo os organizadores, biólogos estruturais experimentais de RNA, e preditores das competições CASP16 e RNA-Puzzles; Instituto Médico Howard Hughes; o Instituto de Design de Proteínas; e Escola de Medicina da Universidade de Stanford.

## Métricas de Avaliação

### TM-score ("Template Modeling" Score)

As submissões são pontuadas usando **TM-score**, que vai de 0.0 a 1.0 (maior é melhor):

$$\text{TM-score} = \max \left( \frac{1}{L_{ref}} \sum_{i=1}^{L_{ref}} \frac{1}{1 + \left(\frac{d_i}{d_0}\right)^2} \right)$$

Onde:
- $L_{ref}$ é o número de resíduos resolvidos na estrutura de referência experimental ("verdade fundamental")
- $L_{align}$ é o número de resíduos alinhados
- $d_i$ é a distância entre o $i$-ésimo par de resíduos alinhados, em Angstroms
- $d_0$ é um fator de escala de distância em Angstroms, definido como:

$$d_0 = 0.6(L_{ref} - 0.5)^{1/2} - 2.5$$

para $L_{ref} ≥ 30$; e $d_0 = 0.3, 0.4, 0.5, 0.6$, ou $0.7$ para $L_{ref} <12, 12-15, 16-19, 20-23$, ou $24-29$, respectivamente.

### Processo de Alinhamento

A rotação e translação de estruturas preditas para alinhar com estruturas de referência experimentais são realizadas pelo **US-align**. Para corresponder às configurações padrão, como usado nas competições CASP, o alinhamento será independente de sequência.

### Pontuação Final

Para cada sequência de RNA alvo, você submeterá 5 predições e sua pontuação final será a média dos melhores-de-5 TM-scores de todos os alvos. Para alguns alvos, múltiplas estruturas ligeiramente diferentes foram capturadas experimentalmente; as pontuações de suas predições serão baseadas no melhor TM-score comparado a cada uma dessas estruturas de referência.

## Cronograma

### Datas Importantes

- **27 de Fevereiro, 2025** - Data de Início
- **23 de Abril, 2025** - Atualização do leaderboard público e Prêmios de Compartilhamento Antecipado
- **22 de Maio, 2025** - Prazo de Inscrição (deve aceitar as regras da competição antes desta data)
- **22 de Maio, 2025** - Prazo de Fusão de Equipes (último dia que participantes podem se juntar ou fundir equipes)
- **29 de Maio, 2025** - Prazo final de submissões
- **24 de Setembro, 2025** - Data de Término da Competição

### Notas Importantes

Todos os prazos são às 23:59 UTC no dia correspondente, salvo indicação contrária. Os organizadores da competição se reservam o direito de atualizar o cronograma do concurso se julgarem necessário.

### Cronograma de Avaliação de Dados Futuros

Após o prazo final de submissão haverá atualizações periódicas do leaderboard para refletir até 40 novos RNA (sequências) gerados após o término da competição. Novas atualizações de dados que serão executadas contra notebooks selecionados.

**24 de Setembro, 2025** - Data de Término da Competição - Esta data está sujeita a mudanças com base na disponibilidade de novas sequências. Acompanhe o fórum após o fim da competição para atualizações.

## Prêmios

### Prêmios do Leaderboard

- **1º Lugar** - $45.000
- **2º Lugar** - $15.000
- **3º Lugar** - $10.000

### Prêmios de Compartilhamento Antecipado

Participantes desta competição são encorajados a disponibilizar publicamente seus notebooks através da competição. Haverá uma atualização do leaderboard público 2 meses após o início da competição. Naquele momento, $2.500 será concedido às duas primeiras equipes a publicar um notebook público com pontuação acima do score `VFOLD_human_expert` no leaderboard. Uma postagem de discussão detalhará o timing da atualização.

#### Requisitos para o Prêmio de Compartilhamento Antecipado:

1) Publicar um notebook público com pontuação acima do score de benchmark no leaderboard após a atualização de dados (os dois primeiros notebooks que atenderem a este critério serão avaliados).

2) Dentre todos os participantes ou Equipes que submeteram notebooks com pontuação acima do score de benchmark, ser os dois primeiros a tornar seus notebooks públicos. O notebook público precisa aderir aos mesmos requisitos e restrições sobre licenciamento, reprodutibilidade e documentação aos quais a Submissão vencedora está sujeita (ver Regras da Competição).

3) Manter os notebooks e quaisquer datasets que usem publicamente disponíveis até o **Prazo Final de Submissão** de 29 de Maio, 2025. Submissões devem usar apenas informações publicamente disponíveis antes das datas de corte temporal fornecidas com sequências de teste.

### Autoria de Artigo

Participantes com melhor desempenho nas classificações do Leaderboard Público no prazo final de submissão serão convidados a contribuir com seu código e descrições de modelo para um artigo científico resumindo o resultado científico da competição.

O Patrocinador da Competição irá, após a atualização de dados, avaliar todas as Submissões elegíveis para o Prêmio de Compartilhamento Antecipado na ordem em que as Submissões foram feitas. Se for descoberto que tais Submissões que pontuaram mais que o score de benchmark não têm documentação ou têm documentação incompleta, licenciamento incompatível, ou são de qualquer outra forma incompatíveis com as regras às quais a Submissão vencedora está sujeita, não serão consideradas para o Prêmio de Compartilhamento Antecipado e as próximas Submissões serão avaliadas.

## Requisitos de Código

### Esta é uma Competição de Código

Submissões para esta competição devem ser feitas através de Notebooks. Para que o botão "Submit" esteja ativo após um commit, as seguintes condições devem ser atendidas:

- **Notebook CPU** ≤ 8 horas de tempo de execução
- **Notebook GPU** ≤ 8 horas de tempo de execução
- **Acesso à internet desabilitado**
- **Dados externos livres e publicamente disponíveis são permitidos**, incluindo modelos pré-treinados
- **Arquivo de submissão deve ser nomeado** `submission.csv`
- **Tempos de execução de submissão foram ligeiramente ofuscados**. Se você repetir exatamente a mesma submissão verá até 5 minutos de variância no tempo antes de receber sua pontuação.

### Fase de Avaliação de Dados Futuros

Os limites de tempo de execução para notebooks CPU e GPU serão estendidos durante o período de avaliação de dados futuros proporcional ao número de amostras futuras. Você deve garantir que sua submissão complete dentro desse tempo. O tempo extra de execução nos permitirá usar um conjunto de teste substancialmente maior como base para classificar submissões no leaderboard privado final.

### Informações Adicionais

Por favor, veja o [FAQ de Competição de Código](https://www.kaggle.com/docs/competitions#notebooks-only-FAQ) para mais informações sobre como submeter. E revise o [doc de debugging de código](https://www.kaggle.com/code-competition-debugging) se estiver enfrentando erros de submissão.

## Formato do Arquivo de Submissão

Para cada sequência no conjunto de teste, você pode prever cinco estruturas. Seu notebook deve procurar por um arquivo `test_sequences.csv` e gerar `submission.csv`. Este arquivo deve conter coordenadas x, y, z do átomo C1' em cada resíduo através de suas estruturas preditas 1 a 5:

```
ID,resname,resid,x_1,y_1,z_1,...,x_5,y_5,z_5
R1107_1,G,1,-7.361,9.392,9.361,...,-7.361,9.025,8.932
R1107_2,G,1,-8.02,11.014,14.606,...,-7.953,10.02,12.127
etc.
```

Você deve submeter cinco conjuntos de coordenadas.

## Recursos Adicionais

### Contexto da Competição

**Qual é o estado da arte em predição de estrutura 3D de RNA?**
- [Desafio CASP16 de 2024, incluindo apresentações dos organizadores desta competição](https://predictioncenter.org/casp16/)
- [Resultados mais recentes do RNA-Puzzles, incluindo predições dos organizadores desta competição](https://www.nature.com/articles/s41592-024-02543-9)

**O modelo de fundação RibonanzaNet**
- [Ribonanza: deep learning de estrutura de RNA através de crowdsourcing duplo](https://www.biorxiv.org/content/10.1101/2024.02.24.581671v2)

**Desafio Kaggle Stanford Ribonanza RNA Folding**
- [Link da competição anterior](https://www.kaggle.com/competitions/stanford-ribonanza-rna-folding)

### Referências Científicas

**Como pensar sobre estrutura de RNA**
- [Uma perspectiva de especialistas do domínio](https://www.pnas.org/doi/10.1073/pnas.2112677119)

### Tags
- Jogos de Vídeo
- Biologia
- Química
- Biotecnologia
- Regressão
- Métrica Personalizada

## Citação

Shujun He, organizadores CASP16, experimentalistas de RNA CASP16, consórcio RNA-Puzzles, equipe VFOLD, Rachael Kretsch, Alissa Hummer, Andrew Favor, Walter Reade, Maggie Demkin, Raju Das, et al. Stanford RNA 3D Folding. https://kaggle.com/competitions/stanford-rna-3d-folding, 2025. Kaggle.

---

## Próximos Passos

Este notebook fornece uma visão geral abrangente da competição Stanford RNA 3D Folding. Para começar:

1. **Explore os dados**: Examine os conjuntos de dados de treinamento e teste
2. **Entenda a avaliação**: Estude a implementação da métrica TM-score
3. **Revise abordagens baseline**: Examine métodos existentes de predição de estrutura de RNA
4. **Desenvolva sua solução**: Construa e treine seus modelos
5. **Submeta suas predições**: Siga os requisitos de formato de submissão

Boa sorte na competição!