[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](
https://colab.research.google.com/github/AGENslab/Python_learning-Sesion_1/blob/main/notebooks/example_blank.ipynb
)

# 🧪 Sesión 1 – Fundamentos de Python para Ciencias Biológicas

**22/08/2025 – Dra. Carol Moraga e Ing. Felipe Gómez**

Bienvenid@. En este notebook practicaremos:
- Sintaxis básica de Python
- Estructuras de datos
- Control de flujo y funciones
- Lectura de un FASTA, GC% y k-mers

## 📁 Configuración mínima

Si corres en **Colab**, ejecuta la celda de abajo para subir el archivo `data/ejemplo.fasta` desde tu equipo (o monta Drive).

In [None]:
# En Colab, descomenta para subir archivos manualmente
# !wget https://raw.githubusercontent.com/AGENslab/Python_learning-Sesion_1/refs/heads/main/data/ejemplo.fasta

## 🔤 Sintaxis básica: variables y tipos

In [None]:
entero = 42
pi = 3.14159
mensaje = "Hola bio-mundo"
es_valido = True

print(type(entero), type(pi), type(mensaje), type(es_valido))
assert isinstance(entero, int)
assert isinstance(mensaje, str)

## 🧱 Estructuras de datos: listas y diccionarios

In [None]:
# Lista de longitudes de secuencias (ficticias)
longitudes = [120, 98, 301, 250]
# Diccionario: id -> especie
metadatos = {"seq1": "E. coli", "seq2": "A. thaliana"}

# Operaciones básicas
longitudes.append(180)
promedio = sum(longitudes) / len(longitudes)

print("N:", len(longitudes), "Promedio:", round(promedio, 2))
print("Especies:", list(metadatos.values()))

assert len(longitudes) == 5
assert "seq1" in metadatos

## 🔁 Control de flujo: `if`, `for`

In [None]:
# Clasifica longitudes en cortas/medias/largas
clasificacion = []
for L in longitudes:
    if L < 120:
        clasificacion.append("corta")
    elif L <= 250:
        clasificacion.append("media")
    else:
        clasificacion.append("larga")

clasificacion

## 🧩 Funciones

In [None]:
# TODO: Implementa la función es_base(b)
def es_base(b):
    pass

assert es_base("A") and not es_base("N")

## 📄 Lectura de FASTA (sin librerías externas)

Implementaremos una función mínima que lea un archivo FASTA simple y retorne un diccionario `id -> secuencia`.

In [None]:
# TODO: Implementa la función leer_fasta(path)
def leer_fasta(path):
    pass

# Prueba rápida: debería cargar data/ejemplo.fasta

## 🧮 GC% por secuencia y global

Escribe una función `gc_percent(seq)` que retorne el porcentaje de G y C sobre A/C/G/T (ignora otras letras).

In [None]:
# TODO: Implementa la función gc_percent(seq)
def gc_percent(seq):
    pass

# Prueba rápida
assert abs(gc_percent("GCGC") - 100.0) < 1e-6

In [None]:
# Si cargaste 'seqs', calcula GC% por id y el global
if 'seqs' in globals():
    gc_por_id = {sid: gc_percent(s) for sid, s in seqs.items()}
    gc_global = sum(gc_por_id.values()) / len(gc_por_id) if gc_por_id else 0.0
    print("GC% global:", round(gc_global, 2))
    list(gc_por_id.items())[:5]

## 🔢 Conteo de k-mers

Implementa `contar_kmers(seq, k)` que retorne un diccionario con la frecuencia de cada k-mer (sólo A/C/G/T). Luego crea un *ranking* de los más frecuentes.

In [None]:
# TODO: Implementa la función contar_kmers(seq, k)
def contar_kmers(seq, k=3):
    pass

# Prueba rápida
d = contar_kmers("AAACAAA", k=3)
assert d.get("AAA", 0) == 3

In [None]:
# Ranking de k-mers por secuencia y top global
def top_kmers_de_seqs(seqs, k=3, top=10):
    total = Counter()
    por_id = {}
    for sid, s in seqs.items():
        c = Counter(contar_kmers(s, k))
        por_id[sid] = c.most_common(top)
        total.update(c)
    return por_id, total.most_common(top)

if 'seqs' in globals():
    por_id, top_global = top_kmers_de_seqs(seqs, k=3, top=10)
    print("Top global (k=3):", top_global[:5])
    # Muestra top 5 del primer id
    first = next(iter(seqs)) if seqs else None
    if first:
        print("Top 5 de", first, por_id[first][:5])

## ✅ Cierre
- Practicaste variables, estructuras y funciones en Python.
- Leíste un FASTA simple y calculaste **GC%**.
- Implementaste un contador de **k-mers** con ranking.

**Desafíos opcionales:**
1. Generaliza `gc_percent` para devolver también el conteo de cada base.
2. Escribe una versión de `contar_kmers` que acepte alfabetos ambiguos (ej. `N`).
3. Grafica el top-10 de k-mers con `matplotlib`.