# Archivo a archivo
Este archivo tiene el propósito de proporcionar el estudio de cada archivo existente dentro del código Rust del paquete de go3 para explicar su funcionamiento clave, asimismo, se toma la iniciativa de presentar dos razones fundamentales para determinar que una comparación con PyGoSemSim no se considera viable.

## Código 1 - libs.rs
Este es el archivo intermedio que permite la comunicación entre Python y Rust, por ende, ya se deduce que la implementación de las funcionalidades de este paquete son completamente hechas en Rust que es envuelto por el paquete pyo3 que permite invocarlas bajo la sintaxis del lenguaje de destino. A continuación el desglose linea a linea.

In [None]:
// En esta sección se realiza la envoltura de los archivos Rust con pyo3 estableciendolo en
// 3 pasos:
use pyo3::prelude::*;           //Rust comprende Python (viceversa).
use pyo3::types::PyModule;      //Rust entiende el concepto de módulo de Python.
use pyo3::wrap_pyfunction;      //Python invoca código de Rust.

// Se solicita la carga de tres archivo existentes en el mismo directorio en el que se
// encuentra el archivo actual.
pub mod go_loader;              // Lectura de archivos de entrada, relaciones e IC.
pub mod go_ontology;            // --
pub mod go_semantic;            // --

// Dentro de cada uno de estos archivos mencionados previamente, se solicita la disponibilidad
// de las funciones que se mencionan a continuación.
use go_loader::{load_go_terms, load_gaf, build_term_counter};
use go_ontology::{get_term_by_id, ancestors, common_ancestor, deepest_common_ancestor};
use go_semantic::{term_ic, semantic_similarity, batch_similarity, compare_genes, compare_gene_pairs_batch, set_num_threads};

// En esta sección se realiza la envoltura de todas las componentes invocadas anteriormente
// de forma en que estas sean reconocidad como modulo de Python.
#[pymodule]
fn go3(_py: Python, m: &Bound<'_, PyModule>) -> PyResult<()> {

    // Funciones añadidas por archivos.
    m.add_function(wrap_pyfunction!(load_go_terms, m)?)?;
    m.add_function(wrap_pyfunction!(load_gaf, m)?)?;
    m.add_function(wrap_pyfunction!(build_term_counter, m)?)?;

    m.add_function(wrap_pyfunction!(get_term_by_id, m)?)?;
    m.add_function(wrap_pyfunction!(ancestors, m)?)?;
    m.add_function(wrap_pyfunction!(common_ancestor, m)?)?;
    m.add_function(wrap_pyfunction!(deepest_common_ancestor, m)?)?;

    m.add_function(wrap_pyfunction!(set_num_threads, m)?)?;
    m.add_function(wrap_pyfunction!(term_ic, m)?)?;
    m.add_function(wrap_pyfunction!(semantic_similarity, m)?)?;
    m.add_function(wrap_pyfunction!(batch_similarity, m)?)?;
    m.add_function(wrap_pyfunction!(compare_genes, m)?)?;
    m.add_function(wrap_pyfunction!(compare_gene_pairs_batch, m)?)?;

    // Objetos o clases por archivo.
    m.add_class::<go_ontology::PyGOTerm>()?;
    m.add_class::<go_loader::GAFAnnotation>()?;
    m.add_class::<go_loader::TermCounter>()?;

    // Retroalimentación que indica exito o error en la migración de funciones.
    Ok(())
}

## Código 2 - goloader.rs
Archivo encargado del procesamiento de los archivos .obo y gaf para la construcción de las relaciones jerarquicas entre terminos, relaciones gen a termino y el cálculo de IC de cada término existente.

In [None]:
// ---------------- Librerias.
use pyo3::prelude::*;                                               // Rust comprende Python (viceversa).
use once_cell::sync::OnceCell;                                      // Implementación de variables globales de una sola carga.
use rustc_hash::{FxHashMap as HashMap, FxHashSet as HashSet};       // Invocación de tablas hash.
use std::io::{BufReader, BufRead};                                  // Lectura eficiente de archivos.
use std::fs::File;                                                  // Apertura y manejo de archivos.
use parking_lot::RwLock;                                            // Administración de hilos por semaforo.
use std::path::Path;                                                // Administración de rutas.
use std::fs;                                                        // Administración de entradas y salidas.
use reqwest::blocking::get;                                         // Peticiones para obtención de recursos en internet.
use rayon::prelude::*;                                              // Automatización del uso de todos los nucleos disponibles de un dispositivo.

// ---------------- Componentes globales.
// Declaración de entidades estáticas en memoria y global en toda la ejecución del código;
// cabe señalar que estos son persistentes mientras el código se ejecuta y estos poseen la
// capacidad de ser leidos por varios threads con bloqueo si se requiere escribir.
use crate::go_ontology::{GOTerm, PyGOTerm, collect_ancestors, get_terms_or_error};
pub static GO_TERMS_CACHE: OnceCell<RwLock<HashMap<String, GOTerm>>> = OnceCell::new();                 // Hash entre el GO_ID y su información.
pub static GENE2GO_CACHE: OnceCell<RwLock<HashMap<String, Vec<String>>>> = OnceCell::new();             // Hash entre un gen y sus términos GO relacionados.
pub static ANCESTORS_CACHE: OnceCell<RwLock<HashMap<String, HashSet<String>>>> = OnceCell::new();       // Hash entre un GO_ID y sus respectivos ancestros.
pub static DCA_CACHE: OnceCell<RwLock<HashMap<(String, String), String>>> = OnceCell::new();            // DCA - Deep Common Ancestor entre un par de terminos.

/// Struct representing a single annotation from a GAF file.
/// 
/// Fields
/// ------
/// db_object_id : str
///   The gene product identifier (e.g., UniProt ID).
/// go_term : str
///   The GO term ID (e.g., GO:0008150).
/// evidence : str
///   The evidence code for the annotation (e.g., IEA).
/*De este componente se puede comprender que solamente del GAF se obtiene el db_object_id
el go_term y la evidencia asociada a este mismo, siendo las tres columnas claves.*/
#[pyclass]                      // Se considera una clase compatible con Python.
#[derive(Clone)]                // Permite replicación/copia si es requerido.
pub struct GAFAnnotation {
    #[pyo3(get)]
    pub db_object_id: String,
    #[pyo3(get)]
    pub go_term: String,
    #[pyo3(get)]
    pub evidence: String,
}

/// Struct holding annotation counts and information content (IC) for GO terms.
///
/// Fields
/// ------
/// counts : dict
///   Mapping from GO term ID to annotation count.
/// total_by_ns : dict
///   Mapping from namespace to total annotation count.
/// ic : dict
///   Mapping from GO term ID to information content (IC).
/*Estructura encargada de establecer la computación de information content (IC) de
cada termino GO asociado.*/
#[pyclass]
#[derive(Clone)]
pub struct TermCounter {
    #[pyo3(get)]
    pub counts: HashMap<String, usize>,         // term_id -> count
    #[pyo3(get)]
    pub total_by_ns: HashMap<String, usize>,    // namespace -> total annotations
    #[pyo3(get)]
    pub ic: HashMap<String, f64>,               // term_id -> IC
}

/// Parse a GO OBO file and return a map of GO term IDs to GOTerm structs.
///
/// Arguments
/// ---------
/// path : str
///   Path to the OBO file.
///
/// Returns
/// -------
/// dict
///   Map of GO term IDs to term structs.
pub fn parse_obo(path: &str) -> HashMap<String, GOTerm> {
    let contents = fs::read_to_string(path).expect("Can't open OBO file");                          // Carga completa en memoria del archivo
    let chunks = contents.split("[Term]");                                                          // Separación de chunks de líneas según campo [Term]

    let canonical_terms: Vec<GOTerm> = chunks                                                       // Procesamiento paralelo de GoTerms (ignora obsoletos o mal formateados).
        .par_bridge()
        .filter_map(parse_term_chunk)
        .filter(|term| !term.is_obsolete)
        .collect();

    let mut term_map: HashMap<String, GOTerm> =                                                     // Preparación de memoria y configurar uso de hashing rápido.
        HashMap::with_capacity_and_hasher(canonical_terms.len() * 2, Default::default());

    for term in canonical_terms.into_iter() {                                                       // Uso de procesamiento de otros identificadores y términos asociados a un
        // Collect the "synonym group": canonical + alts                                            // GoTerm de forma en que todos apunten a la misma información.
        let mut all_ids = term.alt_ids.clone();
        all_ids.push(term.id.clone());

        // Build GOTerm copies for each ID
        for id in &all_ids {
            let mut clone = term.clone();
            clone.id = id.clone();
            clone.alt_ids = all_ids.clone(); // all point to the same group
            term_map.insert(id.clone(), clone);
        }
    }

    // Compute children, levels, depths, etc.
    compute_levels_and_depths(&mut term_map);                                                       // Se verifica profundidad/especifidad de cada término.

    // Precompute ancestors for caching
    let ancestors_map: HashMap<String, HashSet<String>> = term_map                                  // Se identifican (una sola vez) los ancestros a cada GoTerm.
        .par_iter()
        .map(|(id, _)| {
            let ancestors = crate::go_ontology::collect_ancestors(id, &term_map)
                .into_iter()
                .map(|s| s.to_string())
                .collect();
            (id.clone(), ancestors)
        })
        .collect();
    let _ = ANCESTORS_CACHE.set(RwLock::new(ancestors_map));                                        // Guardado en cache.

    // Initialize DCA_CACHE
    let _ = DCA_CACHE.set(RwLock::new(HashMap::default()));                                         // Se inicializa cache de ancestro más cercano (se calcula por demanda).

    term_map                                                                                        // Se retorna mapeo de GoTermns.
}

/// Parse a chunk of text representing a single GO term from an OBO file.
///
/// Arguments
/// ---------
/// chunk : str
///   Text chunk for a single term.
///
/// Returns
/// -------
/// Option[GOTerm]
///   Parsed term or None if invalid/obsolete.
fn parse_term_chunk(chunk: &str) -> Option<GOTerm> {
    // Definición de la estructura de un término (dentro del archivo).
    let mut term = GOTerm {
        id: String::new(),                              // Identificador.
        name: String::new(),                            // Nombre.
        namespace: String::new(),                       // Ontología BP, MC, CC.
        definition: String::new(),                      // Definición.
        parents: Vec::new(),                            // Padres.
        is_obsolete: false,                             // ¿Es obsoleto?
        alt_ids: Vec::new(),                            // Ids alternativos.
        replaced_by: None,                              // Reemplazado por... (si esta obsoleto).
        consider: Vec::new(),                           // Considerar ¿Qué cosa?.
        synonyms: Vec::new(),                           // Sinónimos.
        xrefs: Vec::new(),                              // Referencias asociadas a...
        relationships: Vec::new(),                      // Relaciones con otros términois.
        comment: None,                                  // Comentarios.
        children: Vec::new(),                           // Hijos.
        level: None,                                    // Nivel.
        depth: None,                                    // Profundidad/Especificidad.
    };

    let chunk = chunk.split("[Typedef]").next().unwrap_or(chunk);       // Ignorar campos Typedef.

    let lines: Vec<&str> = chunk
        .lines()
        .map(|l| l.trim())                               // eliminamos espacios a izquierda y derecha
        .filter(|l| !l.is_empty())                       // quitamos líneas vacías
        .collect();

    if lines.is_empty() {
        return None;
    }
    let mut valid = false;

    // Verificación de campos que se obtienen de cada sección existente en Term.
    for line in lines {
        if line.starts_with("id: ") {                                               // Verificación para que sea válido (debe tener campo ID).
            term.id = line["id: ".len()..].to_string();
            valid = true;
        } else if line.starts_with("name: ") {
            term.name = line["name: ".len()..].to_string();
        } else if line.starts_with("namespace: ") {
            term.namespace = line["namespace: ".len()..].to_string();
        } else if line.starts_with("def: ") {
            term.definition = line["def: ".len()..].to_string();
        } else if line.starts_with("is_a: ") {
            let parent = line["is_a: ".len()..]
                .split_whitespace()
                .next()
                .unwrap_or("")
                .to_string();
            if !parent.is_empty() {
                term.parents.push(parent);
            }
        } else if line.starts_with("alt_id: ") {
            term.alt_ids.push(line["alt_id: ".len()..].to_string());
        } else if line.starts_with("is_obsolete: true") {
            term.is_obsolete = true;
        } else if line.starts_with("replaced_by: ") {
            term.replaced_by = Some(line["replaced_by: ".len()..].to_string());
        } else if line.starts_with("consider: ") {
            term.consider.push(line["consider: ".len()..].to_string());
        } else if line.starts_with("synonym: ") {
            term.synonyms.push(line["synonym: ".len()..].to_string());
        } else if line.starts_with("xref: ") {
            term.xrefs.push(line["xref: ".len()..].to_string());
        } else if line.starts_with("relationship: ") {
            let rel_def = &line["relationship: ".len()..];
            let mut parts = rel_def.split_whitespace();
            if let (Some(rel), Some(target)) = (parts.next(), parts.next()) {
                term.relationships.push((rel.to_string(), target.to_string()));
            }
        }
    }

    if valid {
        Some(term)                                       // Si el termino es válido lo devuelve, en caso contrario se ignora.
    } else {
        None
    }
}

/// Compute the level and depth for each GO term in the ontology.
///
/// Arguments
/// ---------
/// terms : dict
///   Mutable map of GO terms.
///
/// Returns
/// -------
/// None
///   Updates the `level` and `depth` fields of each term in-place.
pub fn compute_levels_and_depths(terms: &mut HashMap<String, GOTerm>) {
    
    // Paso 1: construir mapa de hijos teniendo en consideración las relaciones
    // is_a para establecer jerarquía padre-hijo.
    let mut child_map: HashMap<String, Vec<String>> = HashMap::default();
    for (id, term) in terms.iter() {
        for parent in &term.parents {
            child_map.entry(parent.clone()).or_default().push(id.clone());
        }
    }

    // Paso 2: inicializar level como una componente que identifica la distancia mínima
    // entre el término raiz y el termino en estudio. Esto como función recursiva interna
    // que selecciona camino según los padres de menor distancia.
    fn init_level(
        term_id: &str,
        terms: &mut HashMap<String, GOTerm>,
        visiting: &mut HashSet<String>,
    ) -> usize {
        if visiting.contains(term_id) {
            // Ciclo detectado: se evita recursión infinita
            eprintln!("⚠️ Ciclo detectado en level: {}", term_id);
            return 0;
        }

        if let Some(level) = terms.get(term_id).and_then(|t| t.level) {
            return level;
        }

        visiting.insert(term_id.to_string());

        let parents = terms
            .get(term_id)
            .map(|t| t.parents.clone())
            .unwrap_or_default();

        let level = if parents.is_empty() {
            0
        } else {
            parents
                .iter()
                .map(|p| init_level(p, terms, visiting))
                .min()
                .unwrap_or(0) + 1
        };

        visiting.remove(term_id);
        if let Some(term) = terms.get_mut(term_id) {
            term.level = Some(level);
        }

        level
    }

    // Paso 3: inicializar depth como la distancia más larga a la raíz. Mismo concepto 
    // que punto anterior.
    fn init_depth(
        term_id: &str,
        terms: &mut HashMap<String, GOTerm>,
        visiting: &mut HashSet<String>,
    ) -> usize {
        if visiting.contains(term_id) {
            eprintln!("Ciclo detectado en depth: {}", term_id);
            return 0;
        }

        if let Some(depth) = terms.get(term_id).and_then(|t| t.depth) {
            return depth;
        }

        visiting.insert(term_id.to_string());

        let parents = terms
            .get(term_id)
            .map(|t| t.parents.clone())
            .unwrap_or_default();

        let depth = if parents.is_empty() {
            0
        } else {
            parents
                .iter()
                .map(|p| init_depth(p, terms, visiting))
                .max()
                .unwrap_or(0) + 1
        };

        visiting.remove(term_id);
        if let Some(term) = terms.get_mut(term_id) {
            term.depth = Some(depth);
        }

        depth
    }

    // Paso 4: recorrer todos los términos y calcular level + depth como llamados
    // a las funciones por cada ids.
    let ids: Vec<String> = terms.keys().cloned().collect();
    for id in &ids {
        let mut visiting = HashSet::default();
        init_level(id, terms, &mut visiting);

        let mut visiting = HashSet::default();
        init_depth(id, terms, &mut visiting);
    }

    // Paso 5: rellenar el campo children con los hijos (solo vía is_a).
    for (parent, children) in child_map {
        if let Some(term) = terms.get_mut(&parent) {
            term.children = children;
        }
    }
}

/// Download the latest GO OBO file if not present locally.
///
/// Arguments
/// ---------
/// None
///
/// Returns
/// -------
/// str
///   Path to the downloaded or existing OBO file.
// Obtención de archivo .obo verificando si este existe en la ruta de destino, por defecto,
// descarga la versión básica ¿Por qué se tomo esa decisión?.
pub fn download_obo() -> Result<String, String> {
    let obo_path = "go-basic.obo";
    if Path::new(obo_path).exists() {
        return Ok(obo_path.to_string());
    }

    let url = "http://purl.obolibrary.org/obo/go/go-basic.obo";
    println!("Descargando ontología desde: {}", url);
    let response = get(url).map_err(|e| e.to_string())?;

    let content = response.text().map_err(|e| e.to_string())?;
    fs::write(obo_path, content).map_err(|e| e.to_string())?;

    Ok(obo_path.to_string())
}

/// Load GO terms from an OBO file and cache them globally.
///
/// Arguments
/// ---------
/// path : Optional[str]
///   Optional path to the OBO file.
///
/// Returns
/// -------
/// list of PyGOTerm
///   List of GO terms as Python objects.
// En esta función se realiza el llamado al parseo de GoTerms y su guardado en chache
// para no necesitar re-ejecuciones de la función.
#[pyfunction]
#[pyo3(signature = (path=None))]
pub fn load_go_terms(path: Option<String>) -> PyResult<Vec<PyGOTerm>> {
    let path = path.unwrap_or_else(|| download_obo().unwrap());
    let terms_map = parse_obo(&path);

    // Guardar en la caché global
    let _ = GO_TERMS_CACHE.set(RwLock::new(terms_map.clone()));

    // Devolver lista de PyGOTerm (compatibilidad con Python).
    let terms_vec = terms_map
        .into_iter()
        .map(|(_, v)| PyGOTerm::from(&v))
        .collect();

    Ok(terms_vec)
}

/// Load a GAF annotation file and cache the gene-to-GO mapping.
///
/// Arguments
/// ---------
/// path : str
///   Path to the GAF file.
///
/// Returns
/// -------
/// list of GAFAnnotation
///   List of parsed GAF annotations.
// 
#[pyfunction]
pub fn load_gaf(path: String) -> PyResult<Vec<GAFAnnotation>> {
    // Se verifica acceso al archivo .gaf existente, en caso de que este no pueda ser 
    // accedido, entonces la función termina.
    let file = File::open(&path)
        .map_err(|e| pyo3::exceptions::PyIOError::new_err(e.to_string()))?;
    let reader = BufReader::new(file);

    // Get the loaded GO terms to check for obsolete terms.
    // Recordar: Debieron haberse cargado en cache los go terms.
    let terms = match crate::go_ontology::get_terms_or_error() {
        Ok(t) => t,
        Err(e) => return Err(e),
    };

    let mut annotations: Vec<GAFAnnotation> = Vec::new();                   // Vector de anotaciones de GAF (parte vacía).
    let mut gene2go: HashMap<String, Vec<String>> = HashMap::default();     // Relación de genes a términos.

    // Lectura linea a linea filtrando aquellas que no empiecen con '!'.
    for line in reader.lines().filter_map(Result::ok).filter(|l| !l.starts_with('!')) {
        let cols: Vec<&str> = line.split('\t').collect();                   // Identificar columnas mediante una separación por tabuladores (son 7).
        if cols.len() < 7 {                                                 // Debe tener como mínimo 7 campos como mínimo.
            continue;
        }

        // Columnas consideradas de cada linea válida.
        let db_object_id = cols[1].to_string();
        let qualifier = cols[3].to_string();
        let mut go_term = cols[4].to_string();
        let evidence = cols[6].to_string();
        let gene = cols[2].to_string();

        // Se ignoran registros de genes con terminos sin evidencia sustentada,
        // asimismo de asociaciones del tipo "El gen NO hace esto".
        // Filter out ND annotations.
        if evidence == "ND" {
            continue;
        }
        // Skip NOT annotations.
        if qualifier.contains("NOT") {
            continue;
        }


        // Resolve obsolete terms
        if let Some(term) = terms.get(&go_term) {
            if term.is_obsolete {
                if let Some(ref replacement) = term.replaced_by {
                    // Use the replacement term instead
                    go_term = replacement.clone();
                } else if !term.consider.is_empty() {
                    // If there are "consider" terms, choose the first one
                    go_term = term.consider[0].clone();
                } else {
                    // If no replacement, drop the annotation
                    continue;
                }
            }
        } else {
            // GO term not found at all
            continue;
        }

        // Add annotation.
        annotations.push(GAFAnnotation {
            db_object_id: db_object_id.clone(),
            go_term: go_term.clone(),
            evidence,
        });

        // Update gene -> GO mapping
        gene2go.entry(gene).or_default().push(go_term);
    }

    // Save in global cache.
    let _ = GENE2GO_CACHE.set(RwLock::new(gene2go));

    Ok(annotations)
}
/// Build a term counter (counts, IC) from GAF annotations.
///
/// Arguments
/// ---------
/// py_annotations : list of GAFAnnotation
///   List of GAFAnnotation Python objects.
///
/// Returns
/// -------
/// TermCounter
///   Struct with counts and IC values.

#[pyfunction]
pub fn build_term_counter(
    py: Python<'_>,
    py_annotations: Vec<Py<GAFAnnotation>>,
) -> PyResult<TermCounter> {
    // Obtener los términos GO desde el caché global.
    let terms = get_terms_or_error()?;

    // Convertir las anotaciones de Py<GAFAnnotation> a GAFAnnotation (Rust).
    let annotations: Vec<GAFAnnotation> = py_annotations
        .into_iter()
        .map(|py_ann| py_ann.extract(py))
        .collect::<PyResult<_>>()?;

    // Llamar a la función de conteo interna.
    Ok(_build_term_counter(&annotations, &terms))
}

/// Internal: Build a term counter from Rust GAFAnnotation and GOTerm.
///
/// Arguments
/// ---------
/// annotations : list of GAFAnnotation
///   List of GAFAnnotation structs.
/// terms : dict
///   Map of GO terms.
///
/// Returns
/// -------
/// TermCounter
///   Struct with counts and IC values.
fn _build_term_counter(
    annotations: &[GAFAnnotation],
    terms: &HashMap<String, GOTerm>,
) -> TermCounter {
    use rayon::prelude::*;                          // Motor de paralelismo.
    use std::sync::Mutex;                           // Controlador de exclusión mutua.

    // Parallel: build obj_to_terms - Objeto con toda la relación entre los términos y las anotaciones
    // procesadas en el GAF.
    let obj_to_terms: HashMap<&str, HashSet<String>> = {
        let obj_to_terms_mutex: Mutex<HashMap<&str, HashSet<String>>> = Mutex::new(HashMap::default());
        annotations.par_iter().for_each(|ann| {
            let go_id = ann.go_term.as_str();
            let mut term_set: HashSet<String> = collect_ancestors(go_id, terms);
            term_set.insert(go_id.to_string());
            let mut map = obj_to_terms_mutex.lock().unwrap();
            map.entry(ann.db_object_id.as_str())
                .or_default()
                .extend(term_set);
        });
        obj_to_terms_mutex.into_inner().unwrap()
    };

    // Parallel: build counts and total_by_ns - Conteo de cada gen presente por termino y
    // cantidad de genes únicos por ontología.
    let (counts, total_by_ns) = {
        let counts_mutex: Mutex<HashMap<String, usize>> = Mutex::new(HashMap::default());
        let total_by_ns_mutex: Mutex<HashMap<String, usize>> = Mutex::new(HashMap::default());
        obj_to_terms.values().collect::<Vec<_>>().par_iter().for_each(|term_ids| {
            let mut namespaces_seen = HashSet::default();
            for term_id in *term_ids {
                if let Some(term) = terms.get(term_id.as_str()) {
                    let mut counts = counts_mutex.lock().unwrap();
                    *counts.entry(term_id.to_string()).or_insert(0) += 1;
                    namespaces_seen.insert(term.namespace.as_str());
                }
            }
            for ns in namespaces_seen {
                let mut total_by_ns = total_by_ns_mutex.lock().unwrap();
                *total_by_ns.entry(ns.to_string()).or_insert(0) += 1;
            }
        });
        (counts_mutex.into_inner().unwrap(), total_by_ns_mutex.into_inner().unwrap())
    };

    // Calcular IC (secuencial, as it's fast).
    let mut ic: HashMap<String, f64> = HashMap::default();
    for (term_id, count) in &counts {
        if let Some(term) = terms.get(term_id.as_str()) {
            let total = total_by_ns.get(&term.namespace).copied().unwrap_or(1);
            let freq = *count as f64 / total as f64;
            let info_content = if freq > 0.0 { -freq.ln() } else { 0.0 };
            ic.insert(term_id.clone(), info_content);
        }
    }

    TermCounter {
        counts,
        total_by_ns,
        ic,
    }
}

## Código 3 - go_ontology.rs


In [None]:
// ---------------- Librerias.
use rustc_hash::{FxHashMap as HashMap, FxHashSet as HashSet};       // Invocación de tablas hash.      
use pyo3::prelude::*;                                               // Rust comprende Python (viceversa).
use pyo3::types::PyString;                                          // Se invoca tipo de dato string de Python.
use crate::go_loader::{GO_TERMS_CACHE, GENE2GO_CACHE};              // Se obtiene la cache generada en go_loader (si existe).
use pyo3::exceptions::PyValueError;                                 // Se invoca 'error por valor' de Python.

/// Struct representing a Gene Ontology (GO) term.
///
/// Fields
/// ------
/// id : str
///   GO term identifier (e.g., GO:0006397).
/// name : str
///   Human-readable name of the term.
/// namespace : str
///   Ontology namespace (e.g., biological_process).
/// definition : str
///   Textual definition of the term.
/// parents : list of str
///   List of parent GO term IDs (is_a relationships).
/// children : list of str
///   List of child GO term IDs (is_a relationships).
/// depth : Optional[int]
///   Maximum distance to a root term (None if not computed).
/// level : Optional[int]
///   Minimum distance to a root term (None if not computed).
/// is_obsolete : bool
///   True if the term is obsolete.
/// alt_ids : list of str
///   Alternative GO IDs for this term.
/// replaced_by : Optional[str]
///   If obsolete, the term that replaces this one.
/// consider : list of str
///   Suggested replacement terms if obsolete.
/// synonyms : list of str
///   List of synonyms.
/// xrefs : list of str
///   Cross-references to other databases.
/// relationships : list of (str, str)
///   Other relationships (e.g., part_of).
/// comment : Optional[str]
///   Additional comments.
#[derive(Clone)]
pub struct GOTerm {
    pub id: String,
    pub name: String,
    pub namespace: String,
    pub definition: String,
    pub parents: Vec<String>,
    pub children: Vec<String>,
    pub depth: Option<usize>,
    pub level: Option<usize>,
    pub is_obsolete: bool,
    pub alt_ids: Vec<String>,
    pub replaced_by: Option<String>,
    pub consider: Vec<String>,
    pub synonyms: Vec<String>,
    pub xrefs: Vec<String>,
    pub relationships: Vec<(String, String)>,
    pub comment: Option<String>,
}

/// Python-exposed struct representing a GO term (for use in the Python API).
///
/// Fields
/// ------
/// id : str
///   GO term identifier.
/// name : str
///   Human-readable name of the term.
/// namespace : str
///   Ontology namespace.
/// definition : str
///   Textual definition of the term.
/// parents : list of str
///   List of parent GO term IDs.
/// children : list of str
///   List of child GO term IDs.
/// depth : Optional[int]
///   Maximum distance to a root term.
/// level : Optional[int]
///   Minimum distance to a root term.
/// is_obsolete : bool
///   True if the term is obsolete.
/// alt_ids : list of str
///   Alternative GO IDs for this term.
/// replaced_by : Optional[str]
///   If obsolete, the term that replaces this one.
/// consider : list of str
///   Suggested replacement terms if obsolete.
/// synonyms : list of str
///   List of synonyms.
/// xrefs : list of str
///   Cross-references to other databases.
/// relationships : list of (str, str)
///   Other relationships (e.g., part_of).
/// comment : Optional[str]
///   Additional comments.
#[pyclass]
#[derive(Clone)]
pub struct PyGOTerm {
    #[pyo3(get)] pub id: String,
    #[pyo3(get)] pub name: String,
    #[pyo3(get)] pub namespace: String,
    #[pyo3(get)] pub definition: String,
    #[pyo3(get)] pub parents: Vec<String>,
    #[pyo3(get)] pub children: Vec<String>,
    #[pyo3(get)] pub depth: Option<usize>,
    #[pyo3(get)] pub level: Option<usize>,
    #[pyo3(get)] pub is_obsolete: bool,
    #[pyo3(get)] pub alt_ids: Vec<String>,
    #[pyo3(get)] pub replaced_by: Option<String>,
    #[pyo3(get)] pub consider: Vec<String>,
    #[pyo3(get)] pub synonyms: Vec<String>,
    #[pyo3(get)] pub xrefs: Vec<String>,
    #[pyo3(get)] pub relationships: Vec<(String, String)>,
    #[pyo3(get)] pub comment: Option<String>,
}

impl From<&GOTerm> for PyGOTerm {
    fn from(term: &GOTerm) -> Self {
        Self {
            id: term.id.clone(),
            name: term.name.clone(),
            namespace: term.namespace.clone(),
            definition: term.definition.clone(),
            parents: term.parents.clone(),
            children: term.children.clone(),
            depth: term.depth,
            level: term.level,
            is_obsolete: term.is_obsolete,
            alt_ids: term.alt_ids.clone(),
            replaced_by: term.replaced_by.clone(),
            consider: term.consider.clone(),
            synonyms: term.synonyms.clone(),
            xrefs: term.xrefs.clone(),
            relationships: term.relationships.clone(),
            comment: term.comment.clone(),
        }
    }
}

#[pymethods]
impl PyGOTerm {
    fn __repr__(slf: &Bound<'_, Self>) -> PyResult<String> {
        let class_name: Bound<'_, PyString> = slf.get_type().qualname()?;
        let s = slf.borrow();
        Ok(format!(
            "{} id: {}\nname: {}\nnamespace: {}\ndefinition: {}\nparents: {:?}\nchildren: {:?}\ndepth: {:?}\nlevel: {:?}\nis_obsolete: {}\nalt_ids: {:?}\nreplaced_by: {:?}\nconsider: {:?}\nsynonyms: {:?}\nxrefs: {:?}\nrelationships: {:?}\ncomments: {:?}",
            class_name, s.id, s.name, s.namespace, s.definition, s.parents, s.children, s.depth, s.level,
            s.is_obsolete, s.alt_ids, s.replaced_by, s.consider, s.synonyms, s.xrefs, s.relationships, s.comment
        ))
    }
}

impl From<PyGOTerm> for GOTerm {
    fn from(py_term: PyGOTerm) -> Self {
        Self {
            id: py_term.id,
            name: py_term.name,
            namespace: py_term.namespace,
            definition: py_term.definition,
            parents: py_term.parents,
            children: py_term.children,
            depth: py_term.depth,
            level: py_term.level,
            is_obsolete: py_term.is_obsolete,
            alt_ids: py_term.alt_ids,
            replaced_by: py_term.replaced_by,
            consider: py_term.consider,
            synonyms: py_term.synonyms,
            xrefs: py_term.xrefs,
            relationships: py_term.relationships,
            comment: py_term.comment,
        }
    }
}

/// Get a read lock on the global GO terms map, or error if not loaded.
///
/// Arguments
/// ---------
/// None
///
/// Returns
/// -------
/// RwLockReadGuard<HashMap<String, GOTerm>>
///   Read guard for the GO terms map.
pub fn get_terms_or_error<'a>() -> PyResult<parking_lot::RwLockReadGuard<'a, HashMap<String, GOTerm>>> {
    Ok(
        GO_TERMS_CACHE
            .get()
            .ok_or_else(|| pyo3::exceptions::PyRuntimeError::new_err("GO terms not loaded. Call go3.load_go_terms() first."))?
            .read()
    )
}

/// Get a read lock on the global gene-to-GO mapping, or error if not loaded.
///
/// Arguments
/// ---------
/// None
///
/// Returns
/// -------
/// RwLockReadGuard<HashMap<String, Vec<String>>>
///   Read guard for the gene2go map.
pub fn get_gene2go_or_error<'a>() -> PyResult<parking_lot::RwLockReadGuard<'a, HashMap<String, Vec<String>>>> {
    Ok(
        GENE2GO_CACHE
            .get()
            .ok_or_else(|| pyo3::exceptions::PyRuntimeError::new_err("Gene2GO mapping not loaded. Call go3.load_gene2go() first."))?
            .read()
    )
}


/// Get the PyGOTerm object for a given GO term ID.
///
/// Raises:
///     ValueError: If the GO term does not exist in the ontology.
#[pyfunction]
pub fn get_term_by_id(go_id: &str) -> PyResult<PyGOTerm> {
    let terms = get_terms_or_error()?;
    match terms.get(go_id) {
        Some(term) => Ok(PyGOTerm::from(term)),
        None => Err(PyValueError::new_err(format!(
            "GO term '{}' not found in ontology",
            go_id
        ))),
    }
}

/// Collect all ancestors of a GO term (recursively via is_a).
///
/// Arguments
/// ---------
/// go_id : str
///   GO term ID.
/// terms : dict
///   Map of GO terms.
///
/// Returns
/// -------
/// HashSet<String>
///   Set of ancestor GO term IDs.
pub fn collect_ancestors(go_id: &str, terms: &HashMap<String, GOTerm>) -> HashSet<String> {
    // Try to use the precomputed cache if available
    if let Some(lock) = crate::go_loader::ANCESTORS_CACHE.get() {
        let cache = lock.read();
        if let Some(ancestors) = cache.get(go_id) {
            return ancestors.clone();
        }
    }
    // Fallback: original computation
    let mut visited = HashSet::default();
    let mut stack = vec![go_id];
    while let Some(current) = stack.pop() {
        if visited.insert(current.to_string()) {
            if let Some(term) = terms.get(current) {
                for parent in &term.parents {
                    stack.push(parent);
                }
            }
        }
    }
//    visited.remove(go_id);
    visited
}

/// Returns the list of all ancestors in the ontology for the given GO Term.
///
/// Arguments
/// ---------
/// go_id : str
///   GO term ID.
///
/// Returns
/// -------
/// list of str
///   List of IDs of all the ancestors in the ontology.
#[pyfunction]
pub fn ancestors(go_id: &str) -> PyResult<Vec<String>> {
    let terms = get_terms_or_error()?;
    let visited = collect_ancestors(go_id, &terms);
    Ok(visited.into_iter().collect())
}

/// Returns the list of all the common ancestors in the ontology for the given GO Terms.
///
/// Arguments
/// ---------
/// go_id1 : str
///   GO term ID 1.
/// go_id2 : str
///   GO term ID 2.
///
/// Returns
/// -------
/// list of str
///   List of IDs of all the common ancestors in the ontology.
#[pyfunction]
pub fn common_ancestor(go_id1: &str, go_id2: &str) -> PyResult<Vec<String>> {
    let terms = get_terms_or_error()?;
    let set1 = collect_ancestors(go_id1, &terms);
    let set2 = collect_ancestors(go_id2, &terms);
    let mut common: Vec<String> = set1.intersection(&set2).map(|s| (*s).to_string()).collect();
    common.sort_unstable();
    Ok(common)
}

/// Returns the deepest common ancestor in the ontology for the given GO Terms.
///
/// Arguments
/// ---------
/// go_id1 : str
///   GO term ID 1.
/// go_id2 : str
///   GO term ID 2.
///
/// Returns
/// -------
/// Option<String>
///   ID of the deepest common ancestor in the ontology.
#[pyfunction]
pub fn deepest_common_ancestor(go_id1: &str, go_id2: &str) -> PyResult<Option<String>> {
    let terms = get_terms_or_error()?;

    if !terms.contains_key(go_id1) {
        return Err(PyValueError::new_err(format!(
            "GO term '{}' not found in ontology",
            go_id1
        )));
    }
    if !terms.contains_key(go_id2) {
        return Err(PyValueError::new_err(format!(
            "GO term '{}' not found in ontology",
            go_id2
        )));
    }

    let (id_a, id_b) = if go_id1 <= go_id2 {
        (go_id1, go_id2)
    } else {
        (go_id2, go_id1)
    };

    // Try to use the DCA cache if available
    if let Some(lock) = crate::go_loader::DCA_CACHE.get() {
        let cache = lock.write();
        if let Some(result) = cache.get(&(id_a.to_string(), id_b.to_string())) {
            return Ok(Some(result.clone()));
        }
    }

    let set1 = collect_ancestors(id_a, &terms);
    let set2 = collect_ancestors(id_b, &terms);
    let mut best = None;
    let mut max_depth = 0;
    for term_id in set1.intersection(&set2) {
        if let Some(term) = terms.get(term_id) {
            if let Some(depth) = term.depth {
                if depth >= max_depth {
                    max_depth = depth;
                    best = Some(term_id.to_string());
                }
            }
        }
    }

    // Store the result in the cache if available
    if let Some(lock) = crate::go_loader::DCA_CACHE.get() {
        let mut cache = lock.write();
        if let Some(ref dca) = best {
            cache.insert((id_a.to_string(), id_b.to_string()), dca.clone());
        }
    }

    Ok(best)
}