# üêü Filogenia molecular de *Leporinus* usando COI

Notebook para ejecutar en **Google Colab** (o cualquier entorno Jupyter) el flujo descrito en el README:

- Cargar el archivo `ANOS_COI.fasta`
- Revisar calidad b√°sica de las secuencias
- Alinear con **MAFFT**
- Inferir un √°rbol de M√°xima Verosimilitud con **IQ-TREE**
- Visualizar el √°rbol

---

## 1Ô∏è‚É£ Instrucciones iniciales

1. Sube el archivo **`ANOS_COI.fasta`** al entorno de Colab.
   - En Colab, haz clic en el √≠cono de carpeta (barra lateral izquierda).
   - Haz clic en el √≠cono de **subir (upload)**.
   - Selecciona tu archivo `ANOS_COI.fasta` desde tu computadora.
   - El archivo quedar√° en la ruta de trabajo actual, t√≠picamente `/content/ANOS_COI.fasta`.

2. Ejecuta las celdas **en orden**, de arriba hacia abajo.

A partir de aqu√≠, el notebook asumir√° que el archivo se llama exactamente `ANOS_COI.fasta` y est√° en el directorio de trabajo actual.

In [None]:
#@title Ver archivos presentes en el entorno
!pwd
!ls

## 2Ô∏è‚É£ Instalaci√≥n de dependencias

En esta celda instalamos:

- **MAFFT** ‚Üí para el alineamiento m√∫ltiple
- **IQ-TREE** ‚Üí para la inferencia filogen√©tica por M√°xima Verosimilitud
- **Biopython** ‚Üí para manipular archivos FASTA y √°rboles
- **matplotlib** y **pandas** ‚Üí para tablas y gr√°ficos de calidad

Esto puede tardar algunos minutos la primera vez.

In [None]:
#@title Instalar MAFFT, IQ-TREE y librer√≠as de Python
%%bash
set -e
apt-get update -qq
apt-get install -y mafft iqtree -qq
python -m pip install --quiet biopython matplotlib pandas

## 3Ô∏è‚É£ Carga y revisi√≥n b√°sica del archivo FASTA

En esta secci√≥n:
- Leemos `ANOS_COI.fasta`
- Contamos cu√°ntas secuencias hay
- Calculamos longitudes m√≠nima, m√°xima y promedio
- Contamos cu√°ntas **N** tiene cada secuencia
- Generamos una tabla resumen y gr√°ficos simples

In [None]:
#@title Leer FASTA y hacer control de calidad b√°sico
from Bio import SeqIO
import pandas as pd
import matplotlib.pyplot as plt

fasta_path = 'ANOS_COI.fasta'  # Cambia esto si tu archivo tiene otro nombre

records = list(SeqIO.parse(fasta_path, 'fasta'))
print(f"N√∫mero total de secuencias cargadas: {len(records)}")

data = []
for rec in records:
    seq_str = str(rec.seq).upper()
    length = len(seq_str)
    n_count = seq_str.count('N')
    data.append({
        'id': rec.id,
        'longitud': length,
        'Ns': n_count
    })

df = pd.DataFrame(data)
display(df.head())
print('\nResumen de longitudes:')
display(df['longitud'].describe())
print('\nResumen de Ns:')
display(df['Ns'].describe())

fig, axes = plt.subplots(1, 2, figsize=(12, 4))
axes[0].hist(df['longitud'], bins=20)
axes[0].set_title('Distribuci√≥n de longitudes')
axes[0].set_xlabel('Longitud (bp)')
axes[0].set_ylabel('Frecuencia')

axes[1].hist(df['Ns'], bins=20)
axes[1].set_title('Distribuci√≥n de Ns por secuencia')
axes[1].set_xlabel('N√∫mero de Ns')
axes[1].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

## 4Ô∏è‚É£ Alineamiento de las secuencias con MAFFT

En esta celda:
- Ejecutamos **MAFFT** con el modo autom√°tico (`--auto`)
- Usamos 4 hilos (`--thread 4`, puedes ajustar este valor)
- Guardamos el alineamiento en `ANOS_COI_aligned.fasta`

‚ö†Ô∏è Nota: Si quieres usar otro nombre de archivo, c√°mbialo tanto aqu√≠ como en las celdas siguientes.

In [None]:
#@title Ejecutar MAFFT para alinear las secuencias
%%bash
set -e
echo 'Iniciando alineamiento con MAFFT...'
mafft --auto --thread 4 ANOS_COI.fasta > ANOS_COI_aligned.fasta
echo 'Alineamiento completado. Archivo: ANOS_COI_aligned.fasta'

### Verificaci√≥n r√°pida del alineamiento

Aqu√≠ cargamos el archivo alineado y verificamos:
- Longitud del alineamiento (n√∫mero de columnas)
- Algunas secuencias de ejemplo.

In [None]:
#@title Cargar y revisar el alineamiento
from Bio import AlignIO

alignment = AlignIO.read('ANOS_COI_aligned.fasta', 'fasta')
print(f"N√∫mero de secuencias en el alineamiento: {len(alignment)}")
print(f"Longitud del alineamiento (columnas): {alignment.get_alignment_length()}")

print('\nPrimeras 2 secuencias (primeros 80 caracteres alineados):')
for rec in alignment[:2]:
    print(rec.id)
    print(str(rec.seq)[:80])
    print('...')

## 5Ô∏è‚É£ Inferencia del √°rbol filogen√©tico con IQ-TREE

En esta celda corremos IQ-TREE con:

- `-s ANOS_COI_aligned.fasta` ‚Üí alineamiento de entrada
- `-m MFP` ‚Üí ModelFinder (selecci√≥n autom√°tica del mejor modelo de sustituci√≥n)
- `-bb 1000` ‚Üí 1000 r√©plicas de **bootstrap ultrarr√°pido**
- `-nt AUTO` ‚Üí detecci√≥n autom√°tica del n√∫mero de hilos

Esto generar√° varios archivos. El √°rbol principal estar√° en `ANOS_COI_aligned.fasta.treefile`.

In [None]:
#@title Ejecutar IQ-TREE (M√°xima Verosimilitud + bootstrap)
%%bash
set -e
echo 'Iniciando IQ-TREE...'
iqtree -s ANOS_COI_aligned.fasta -m MFP -bb 1000 -nt AUTO
echo 'IQ-TREE finalizado.'

### Archivos generados por IQ-TREE

Listamos los archivos en el directorio actual para identificar la salida de IQ-TREE (incluyendo el `.treefile`).

In [None]:
#@title Listar archivos generados
!ls

## 6Ô∏è‚É£ Visualizaci√≥n del √°rbol con Biopython (Phylo)

En esta secci√≥n:
- Leemos el archivo `.treefile` generado por IQ-TREE
- Dibujamos el √°rbol usando `Bio.Phylo`

Puedes ajustar el tama√±o de la figura para ver mejor las etiquetas.

In [None]:
#@title Cargar y dibujar el √°rbol de IQ-TREE
from Bio import Phylo
import matplotlib.pyplot as plt

treefile = 'ANOS_COI_aligned.fasta.treefile'

tree = Phylo.read(treefile, 'newick')
print(tree)

fig = plt.figure(figsize=(10, 20))  # ajusta el tama√±o seg√∫n la cantidad de secuencias
axes = fig.add_subplot(1, 1, 1)
Phylo.draw(tree, do_show=True, axes=axes)

## 7Ô∏è‚É£ (Opcional) √Årbol en formato ASCII

Si el gr√°fico no se ve bien o hay muchas secuencias, puedes usar la representaci√≥n en texto (ASCII) para una vista r√°pida.

In [None]:
#@title Mostrar √°rbol en formato ASCII (texto)
from Bio import Phylo

treefile = 'ANOS_COI_aligned.fasta.treefile'
tree = Phylo.read(treefile, 'newick')
Phylo.draw_ascii(tree)

## ‚úÖ Resumen

En este notebook hemos:

1. Cargado el archivo `ANOS_COI.fasta` con secuencias COI de *Leporinus*.
2. Realizado un control de calidad b√°sico (longitud, Ns).
3. Alineado las secuencias con **MAFFT**.
4. Inferido un √°rbol de M√°xima Verosimilitud con **IQ-TREE** (ModelFinder + bootstrap).
5. Visualizado el √°rbol con **Biopython Phylo**.

Esto confirma que el flujo descrito en tu README se puede ejecutar completamente en Python (v√≠a Colab), utilizando herramientas est√°ndar de filogenia.

Puedes adaptar este notebook para tu repositorio de GitHub, o dividir sus pasos en scripts `.py` si deseas un pipeline m√°s modular.