# ab1scope: Interactive Analysis of Sanger Sequencing Data

Welcome to **ab1scope**, an interactive toolkit for processing `.ab1` files generated from Sanger DNA sequencing. This notebook is designed to help you explore, visualize, and curate electropherogram trace data, offering key features such as:

- Interactive selection of signal filtering and smoothing parameters  
- Real-time visualization of the four-base trace signals (A, C, G, T)  
- Generation of filtered base sequences (including IUPAC notation)  
- Quality diagnostics using intensity, dominance, and Phred-like metrics  
- Export of results in FASTA and CSV formats  
- Batch processing of multiple `.ab1` files

This tool is ideal for researchers, students, and laboratory technicians looking to:
- Evaluate the quality of Sanger sequencing runs  
- Identify ambiguities and sequencing artifacts  
- Extract reliable sequences for downstream applications  

Make sure your `.ab1` files are located in a designated folder before you begin. Each file will be analyzed independently, and all outputs (graphs, sequences, and tables) will be saved to a `/data` subfolder within the selected directory.

> **Note**: This notebook is optimized for interactive use in Jupyter environments and relies on widgets for parameter control.

---

## How to Use This Notebook

1. **Set the input folder** containing `.ab1` files  
2. **Run the interactive cell** to analyze individual files  
3. **Review the chromatogram, sequence, and diagnostics**  
4. **Export results** for each file (CSV and FASTA)  
5. Optionally, **run batch functions** to apply analysis to all files automatically

Let's get started!


In [1]:
import plotly.io as pio
import sys
import os
import numpy as np
import pandas as pd

sys.path.append(os.path.abspath(".."))
import ab1scope

## üìÇ Sele√ß√£o da Pasta de Entrada e Visualiza√ß√£o dos Arquivos

Nesta etapa, voc√™ define o caminho para a pasta que cont√©m os arquivos `.ab1` a serem analisados.

- A vari√°vel `path` deve apontar para o diret√≥rio com os arquivos de sequenciamento.
- A seguir, o notebook lista automaticamente todos os arquivos `.ab1` encontrados nessa pasta.
- Em seguida, √© executada a fun√ß√£o `process_ab1()` do `ab1scope`, que abre uma interface interativa para visualiza√ß√£o e an√°lise de um arquivo por vez.

> ‚öôÔ∏è A interface permite ajustar par√¢metros como intensidade m√≠nima e m√°xima, raz√£o de domin√¢ncia entre bases, normaliza√ß√£o e suaviza√ß√£o dos sinais, al√©m do zoom sobre a regi√£o de interesse.

In [2]:
pio.renderers.default = "notebook_connected"

path = r"C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55"

# Lista apenas arquivos com extens√£o .ab1 (case-insensitive)
ab1_files = [f for f in os.listdir(path) if f.lower().endswith(".ab1")]

# Exibe os arquivos encontrados
print("Arquivos .ab1 encontrados:")
for f in ab1_files:
    print(f)

state = ab1scope.process_ab1(ab1_dir=path, return_data=True)

Arquivos .ab1 encontrados:
HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1
HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA.ab1


VBox(children=(Dropdown(description='File:', options=('HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1', 'HUG‚Ä¶

Output()

Output()

## üìä Registro e Visualiza√ß√£o dos Par√¢metros de Processamento

Ap√≥s a an√°lise interativa de cada arquivo `.ab1`, os par√¢metros utilizados (como limites de intensidade, raz√£o de domin√¢ncia, uso de normaliza√ß√£o e suaviza√ß√£o) s√£o armazenados no dicion√°rio `state`.

Esta c√©lula extrai os par√¢metros utilizados para cada arquivo analisado e organiza essas informa√ß√µes em um `DataFrame` (`df_params`) para documenta√ß√£o e inspe√ß√£o.

### O que √© exibido:
- Nome do arquivo `.ab1`  
- Par√¢metros ajustados manualmente durante a an√°lise interativa  
- Intervalo de zoom e configura√ß√µes de pr√©-processamento

Essa tabela √© √∫til para:
- Verificar quais par√¢metros foram utilizados em cada an√°lise  
- Reproduzir ou justificar decis√µes durante o processamento de sequ√™ncias  
- Comparar a consist√™ncia entre diferentes arquivos processados


In [10]:
base_pos, A, C, G, T = state["result"]

param_rows = []

for fname, data in state.items():
    if isinstance(data, dict) and "params" in data:
        row = {"file_name": fname}
        row.update(data["params"])
        param_rows.append(row)

df_params = pd.DataFrame(param_rows)
display(df_params)


Unnamed: 0,file_name,intensity_min_threshold,intensity_max_threshold,dominance_ratio_threshold,normalize,smooth,smooth_window,zoom_range
0,HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1,0,20000,1.0,False,True,5,"(0, 1000)"
1,HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA.ab1,0,20000,1.0,False,True,5,"(0, 1000)"


## üìà Visualiza√ß√£o da Qualidade dos Sinais para Todos os Arquivos

Nesta etapa, aplicamos a fun√ß√£o `plot_quality_analysis()` para **todos os arquivos `.ab1` processados anteriormente** com a fun√ß√£o `process_ab1()`.

### O que essa c√©lula faz:
- Percorre cada entrada no dicion√°rio `state`, que armazena os resultados e par√¢metros para cada arquivo.
- Recupera os sinais de intensidade (`A`, `C`, `G`, `T`) e as posi√ß√µes das bases (`base_pos`) para cada arquivo.
- Gera automaticamente o gr√°fico de eletroferograma com as chamadas de base, destacando as posi√ß√µes aceitas e rejeitadas com base nos crit√©rios definidos.

> ‚úÖ √ötil para validar visualmente a qualidade da leitura de cada sequ√™ncia processada e verificar se os par√¢metros definidos produziram bons resultados.

In [11]:
# Aplicar plot_quality_analysis para todos os arquivos que foram processados
for fname, data in state.items():
    if fname == "result" or "params" not in data:
        continue  # pula a chave 'result' ou qualquer outra sem os dados esperados
    
    base_pos, A, C, G, T = data["result"]
    ab1scope.plot_quality_analysis(base_pos, A, C, G, T, file_name=fname)

‚úÖ HTMLs saved in ./images:
- HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1_dominance_ratio.html
- HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1_total_intensity.html
- HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1_quality_score.html
‚úÖ HTMLs saved in ./images:
- HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA.ab1_dominance_ratio.html
- HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA.ab1_total_intensity.html
- HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA.ab1_quality_score.html


## üî¨ An√°lise da Qualidade por Arquivo com Escore Tipo Phred

Esta c√©lula aplica a fun√ß√£o `analyze_quality_score_phred_like()` a todos os arquivos `.ab1` que j√° foram processados. A an√°lise simula escores de qualidade no estilo **Phred**, com base na domin√¢ncia do sinal da base chamada sobre os demais sinais (A, C, G, T).

### O que √© feito aqui:
- Para cada arquivo no dicion√°rio `state`, s√£o extra√≠dos os sinais de intensidade e as posi√ß√µes das bases.
- A fun√ß√£o calcula:
  - `phred_scores`: valores simulados de qualidade para cada base chamada;
  - `dominance_ratios`: raz√£o entre o maior e o segundo maior sinal (base dominante vs. concorrente);
  - `low_regions`: regi√µes da sequ√™ncia com qualidade abaixo de um limiar, √∫teis para identificar trechos pouco confi√°veis.
- Os resultados s√£o armazenados no dicion√°rio `quality_scores_results`, organizado por nome de arquivo.

> üß™ Essa an√°lise ajuda a identificar **regi√µes de baixa confiabilidade**, que podem ser amb√≠guas ou propensas a erros na chamada de bases.

In [12]:
# Agora aplicar analyze_quality_score_phred_like para todos os arquivos processados
quality_scores_results = {}

for fname, data in state.items():
    if fname == "result" or "params" not in data:
        continue  # ignora chaves que n√£o representam arquivos analisados

    base_pos, A, C, G, T = data["result"]

    phred_scores, dominance_ratios, low_regions = ab1scope.analyze_quality_score_phred_like(
        base_positions=base_pos,
        A=A, C=C, G=G, T=T,
        file_name=fname,
        ab1_dir=path)

    quality_scores_results[fname] = {
        "phred_scores": phred_scores,
        "dominance_ratios": dominance_ratios,
        "low_regions": low_regions}

‚úÖ Quality analysis plot saved to: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\images\HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA_quality.html
‚úÖ Quality analysis plot saved to: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\images\HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA_quality.html


## üß¨ Detec√ß√£o de Ambiguidades e Indels nas Sequ√™ncias Processadas

Nesta c√©lula, aplicamos a fun√ß√£o `detect_ambiguities_and_indels()` a cada sequ√™ncia processada. O objetivo √© identificar:

- **Bases amb√≠guas** (representadas por c√≥digos IUPAC como R, Y, S, etc.), que indicam presen√ßa de sinais m√∫ltiplos pr√≥ximos;
- **Poss√≠veis inser√ß√µes ou dele√ß√µes (indels)**, que podem ser inferidas por padr√µes incomuns de sinal ou regi√µes de baixa qualidade.

### Etapas realizadas:
- Para cada arquivo com dados v√°lidos:
  - Recupera-se a sequ√™ncia filtrada (`filtered_seq`) e os sinais de intensidade das quatro bases.
  - A fun√ß√£o analisa cada posi√ß√£o da sequ√™ncia para identificar potenciais **ambiguidades ou indels**.
- Os resultados s√£o salvos no dicion√°rio `indel_results`, com um `DataFrame` por arquivo contendo:
  - Posi√ß√£o
  - Base dominante
  - Bases alternativas
  - Raz√µes de domin√¢ncia
  - Classifica√ß√£o como ambiguidade ou potencial indel

> üß† Esta etapa √© crucial para validar a qualidade da sequ√™ncia e identificar posi√ß√µes problem√°ticas que merecem aten√ß√£o ou revis√£o manual.


In [13]:
# Agora aplicar detect_ambiguities_and_indels para cada entrada com dados no state
indel_results = {}

for fname, data in state.items():
    if fname == "result" or "params" not in data:
        continue  # pular entradas inv√°lidas

    base_pos, A, C, G, T = data["result"]
    iupac_seq = data["filtered_seq"]

    df_ambigs = ab1scope.detect_ambiguities_and_indels(
        base_positions=base_pos,
        A=A, C=C, G=C, T=T,
        iupac_seq=iupac_seq,
        file_name=fname,
        ab1_dir=path
    )

    # Armazena o DataFrame de ambiguidades para esse arquivo
    indel_results[fname] = df_ambigs

‚úÖ Ambiguities and indels exported to: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\data\HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA_ambiguities_and_indels.csv
‚úÖ Ambiguities and indels exported to: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\data\HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA_ambiguities_and_indels.csv


## üìä Compara√ß√£o Visual entre Arquivos .ab1

Nesta etapa, utilizamos a fun√ß√£o `compare_ab1_samples()` para realizar uma **compara√ß√£o direta** entre os arquivos .ab1 selecionados.

### O que esta fun√ß√£o faz:
- **Carrega e processa** os sinais de intensidade (A, C, G, T) de todos os arquivos listados;
- Gera **gr√°ficos interativos** sobrepostos que permitem:
  - Visualizar o perfil eletrofor√©tico de diferentes amostras;
  - Verificar a consist√™ncia dos picos e poss√≠veis falhas;
  - Comparar a intensidade de sinais entre arquivos (por base e posi√ß√£o);
  - Detectar varia√ß√µes que podem indicar erros, contamina√ß√µes ou diferen√ßas biol√≥gicas.

### Aplica√ß√µes:
- Verificar se dois arquivos s√£o replicatas confi√°veis;
- Avaliar se h√° diferen√ßas significativas entre amostras;
- Identificar ru√≠dos ou regi√µes truncadas.

> üìå √ötil especialmente para checagem de qualidade global e interpreta√ß√£o visual das curvas de fluoresc√™ncia ao longo da leitura.


In [17]:
ab1scope.compare_ab1_samples(
    ab1_dir=path, 
    file_list=ab1_files)


First 20 polymorphic positions:


Unnamed: 0_level_0,HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1,HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA.ab1,Polymorphism
Base_Position,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
663,T,C,True
7760,C,G,True
7895,C,A,True
7919,G,T,True
7981,T,A,True
7994,G,T,True
8019,C,A,True
8070,C,A,True
9109,T,C,True
9322,C,A,True


‚úÖ Comparison plot saved as HTML.
‚úÖ Alignment saved to 'data/sequence_alignment.csv'


## üî§ Gera√ß√£o e Exporta√ß√£o de Sequ√™ncias com C√≥digo IUPAC

Nesta etapa, geramos as sequ√™ncias de DNA utilizando **c√≥digos IUPAC**, que permitem representar bases amb√≠guas de forma padronizada.

### O que est√° sendo feito:
- Para cada arquivo `.ab1` processado:
  - Utilizamos as intensidades de sinal das quatro bases (A, C, G, T) para **determinar a base mais prov√°vel ou combina√ß√£o amb√≠gua**, de acordo com as regras do c√≥digo IUPAC;
  - A sequ√™ncia gerada √© ent√£o salva no formato **FASTA**, amplamente utilizado para an√°lises bioinform√°ticas;
  - A sequ√™ncia IUPAC tamb√©m √© armazenada na estrutura `state` para uso posterior no notebook.

### Exemplo de codifica√ß√£o IUPAC:
| C√≥digo | Significado | Bases poss√≠veis |
|--------|-------------|------------------|
| A      | Adenina     | A                |
| R      | Purina      | A ou G           |
| Y      | Pirimidina  | C ou T           |
| N      | Qualquer    | A, C, G ou T     |

### Por que usar IUPAC?
- Permite representar **incertezas** nos picos sem perder a informa√ß√£o;
- √â ideal para sequ√™ncias que ser√£o comparadas, alinhadas ou anotadas;
- Facilita o rastreio de regi√µes problem√°ticas em an√°lises futuras.

> üìÅ Os arquivos FASTA s√£o salvos automaticamente no diret√≥rio `data/`, dentro da pasta onde est√£o os arquivos `.ab1`.


In [15]:
# gerar sequ√™ncia com IUPAC:
for fname, data in state.items():
    if fname == "result" or "params" not in data:
        continue  # ignora chaves inv√°lidas

    base_pos, A, C, G, T = data["result"]

    # Gera a sequ√™ncia com c√≥digos IUPAC
    iupac_seq = ab1scope.call_iupac_sequence(base_pos, A, C, G, T)

    # Salva em formato FASTA
    ab1scope.export_iupac_fasta(iupac_seq, fname, path)

    # Opcional: salva tamb√©m no pr√≥prio state
    state[fname]["iupac_seq"] = iupac_seq

‚úÖ IUPAC FASTA saved: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\data\HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA_iupac.fasta
‚úÖ IUPAC FASTA saved: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\data\HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA_iupac.fasta


## ‚öôÔ∏è Gera√ß√£o e Exporta√ß√£o Automatizada de Sequ√™ncias IUPAC

Esta c√©lula executa de forma **automatizada** a gera√ß√£o das sequ√™ncias em c√≥digo IUPAC para **todos os arquivos `.ab1`** listados, com base nos resultados previamente processados e otimizados armazenados no dicion√°rio `state`.

### O que faz a fun√ß√£o:
- Itera sobre cada arquivo `.ab1` listado em `ab1_files`;
- Utiliza as intensidades de sinal (A, C, G, T) e posi√ß√µes j√° processadas;
- Aplica as regras do c√≥digo IUPAC para gerar a sequ√™ncia correspondente;
- Exporta a sequ√™ncia no formato **FASTA** para a pasta `data/`;
- Atualiza o dicion√°rio `state` com as sequ√™ncias IUPAC geradas.

### Vantagens:
- **Evita retrabalho**, reaproveitando os par√¢metros ajustados via interface interativa;
- Garante consist√™ncia e reprodutibilidade dos resultados;
- Facilita a documenta√ß√£o e o compartilhamento das sequ√™ncias.

> üíæ Os arquivos `.fasta` gerados podem ser utilizados diretamente em pipelines de alinhamento, BLAST ou montagem de contigs.


In [18]:
# Executar gera√ß√£o e exporta√ß√£o para todos os arquivos
ab1scope.generate_and_export_iupac_for_files(ab1_files, path, state=state)

Processando: HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA.ab1
‚úÖ IUPAC FASTA saved: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\data\HUGO_LIMA_01_E07_2025-06-06-13-11-55_PSEQDNA_iupac.fasta
Processando: HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA.ab1
‚úÖ IUPAC FASTA saved: C:\Users\borge\Documents\proc_sanger\HUGO_LIMA_02seqs_BIOF-06062025_2025-06-06-13-11-55\data\HUGO_LIMA_02_F07_2025-06-06-13-11-55_PSEQDNA_iupac.fasta
‚úÖ Todas as sequ√™ncias foram exportadas para FASTA com c√≥digo IUPAC.


{'result': (array([    3,    15,    29, ..., 15002, 15023, 15058], shape=(1129,)),
  array([ 72. ,  97.2, 123.2, ...,  52.6,  42.6,  32.2], shape=(15071,)),
  array([19.4, 28. , 37.4, ..., 21.2, 18.6, 14.8], shape=(15071,)),
  array([ 32. ,  42.8,  54. , ..., 272. , 218.4, 164.2], shape=(15071,)),
  array([10.4, 15.8, 22.2, ..., 35.6, 28.4, 21.4], shape=(15071,))),
 'filtered_seq': 'AAAAAAACAATGGGCCTTCGATCCAGTACCTACCTTGGGTAAAAGACAGAATAACTAAAGACAGCCTATAGACAACGTGATTTGGCAATAAAAACTCCTGGGGAACCCTAACCATGCCGCTTTTCGCGAATACACATGACCCATGGCCGAGATTGACAACGACCTGTATAGTGACGGCATGCAGGAAGAAAAGCCACATGGCTTCCAATACTACGTCAGCATGAGGTGACACAACCACGTCATTCTCTGAAACTGACACTCTAATTTCACTGTTGCTAAACAATCATCAGAAAACCGGGGTTATCCGAAATATCCATTGACTAACATCCTATTATAGACAAACAACCGAGTGAGAACGGAGCCCTTGTGGGGTGTGAAACCACCACGTGACTAAGCTTCACAACCGTCATCGTAATGCCTGTTAGATTCATCATTATAAGCCACTAACAACGATCCATAGGCGTTAACCGGCGGAAATAGCCCATAGTTAGCAATAAGTCCGGCCAGTCAGGAGGCCCACTGATCATGTCCTGAGAAACACATCCTGACCCTGACGGCCTGCACAGCGAAGCAAAAGCACAAACCGGTTGCAGAGCATAAGACCCGATAGCACG