# Análisis del viroma arqueal

---

> Los virus que infectan arqueas, conocidos colectivamente como viroma arqueal, representan una de las ramas menos exploradas de la virosfera. 
> Durante décadas, el estudio de estos virus se ha centrado en ambientes extremos como fuentes hidrotermales, salares o ambientes anaerobios, donde se ha 
> observado una enorme diversidad morfológica, genómica y evolutiva. Sin embargo, el conocimiento sobre el viroma arqueal sigue fragmentado y disperso, 
> limitado por desafíos técnicos en su aislamiento, escasa representación en bases de datos virales y una nomenclatura taxonómica aún en desarrollo

---
## Objetivo:

---

Este proyecto tiene como objetivo realizar una recopilación sistemática y un análisis bibliométrico de la literatura científica relacionada con el viroma arqueal, haciendo énfasis en los tipos virales descritos, sus mecanismos de infección, estructuras genómicas y relaciones evolutivas con otros virus y hospedadores.


### Claves (Variables) de Pubmed

| Clave | Descripción |
| ------------ | ------------ |
| PMID | PubMed ID único del artículo |
| TI | Título del artículo |
| AB | Abstract (resumen) |
| AU | Autores (lista) |
| DFAU | Autores con nombre completo |
| AD | Dirección de los autores (afiliaciones) |
| DP | Fecha de publicación (año o año/mes/día) |
| TA | Título abreviado de la revista |
| JT | Nombre completo de la revista |
| PL | País de publicación |
| MH | Términos MeSH (Medical Subject Headings) |
| PT | Tipo de publicación |
| VI | Volumen de la revista |
| IP | Número (issue) de la revista |
| PG | Páginas |
| LID | DOI o identificador del artículo |
| EDAT | Fecha de entrada en PubMed |
| PHST | Fechas importantes (recibido, aceptado, publicado online) |
| LANG | Idioma |
| SO | Fuente completa (revista + año + volumen + páginas) |


In [5]:
from Bio import Medline
import pandas as pd
import matplotlib.pyplot as plt
import os

main_directory = os.getenv("VIRUS_DIR_PATH")
output_file = os.path.join(main_directory, "pubmed_out.txt")

#--> Leer el archivo .txt en formato MEDLINE -->

with open(output_file, 'r', encoding="utf-8") as handle:
    records = Medline.parse(handle)
    records = list(records)
print(len(records))
print(records[0].keys())




515
dict_keys(['PMID', 'OWN', 'STAT', 'LR', 'IS', 'DP', 'TI', 'PG', 'LID', 'AB', 'FAU', 'AU', 'AUID', 'AD', 'LA', 'PT', 'DEP', 'PL', 'TA', 'JT', 'JID', 'SB', 'OTO', 'OT', 'EDAT', 'MHDA', 'CRDT', 'PHST', 'AID', 'PST', 'SO'])


In [None]:
viral_df = pd.DataFrame(records)
viral_df = viral_df[["PMID", "TI", "AU", "DP", "JT", "AB"]]


print(viral_df.head())


         PMID                                                 TI  \
0    40981431  The infection cycle of the haloarchaeal virus ...   
1    40749557  Unravelling DNA viral communities involved in ...   
2    40721520                          Hunting archaeal viruses.   
3    40711890  Summary of taxonomy changes ratified by the In...   
4    40680112  Insights into the spool-like architecture and ...   
..        ...                                                ...   
510  10430570  Genetic requirements for the function of the a...   
511   9765495  His1, an archaeal virus of the Fuselloviridae ...   
512   9497317  Biochemical and phylogenetic characterization ...   
513   9044293  Characterization of Natronobacterium magadii p...   
514   8483447  SSV1-encoded site-specific recombination syste...   

                                                    AU           DP  \
0    [Schwarzer S, Backer LE, Nijland JG, Hayani Aj...  2025 Sep 22   
1              [Zhu K, Shi Z, Zhang Y, Zh