#TP Final Grupo Nº 2

Adriana Colmenares	acolmenares@fcnym.unlp.edu
Rafael Perez	rafaelperezctes@gmail.com
Olinca Ayala	olincayalan88@gmail.com
###@Created on Oct Wed 25 08:57:20 2023
###@author: Grupo Nº 2


### Introducción y Contexto Teórico
Los integrones son elementos genéticos importantes en bacterias, involucrados en la resistencia a antibióticos. Este estudio se enfoca en el uso de CRISPR/Cas9 para editar el gen de la integrasa en integrones de *Shewanella*. Se discutirán las implicaciones de esta edición en la función de recombinación del ADN de la integrasa y su impacto en la resistencia a antibióticos.

Referencias:
- Hall, R.M. Integrons and gene cassettes. Ann. N. Y. Acad. Sci. 2012, 1267, 71–78.
- Messier, N.; Roy, P.H. Integron integrases. J. Bacteriol. 2001, 183, 6699–6706.
- Centers for Disease Control and Prevention. Antibiotic resistance threats. 2023.
- Deng W et al. CASFISH: CRISPR/Cas9-mediated in situ labeling. Proc Natl Acad Sci U S A 112:11870–11875.
- Li, Q. et al. Engineering a CRISPR Interference System. Antimicrobial agents and chemotherapy, 64(3), e01789-19.


In [None]:

# Import necessary libraries for bioinformatics analysis
import Bio
from Bio import SeqIO
from Bio.Align.Applications import ClustalOmegaCommandline

# Load the dataset of integrase sequences from Shewanella
# Placeholder for actual dataset loading
dataset = 'path/to/dataset.fasta'

# Perform multiple sequence alignment
# Placeholder for alignment code
clustalomega_cline = ClustalOmegaCommandline(infile=dataset, outfile="aligned.fasta", verbose=True, auto=True)
stdout, stderr = clustalomega_cline()


In [None]:

# CRISPR Guide RNA Design
# Placeholder for CRISPR guide design code
# This section will contain code for designing CRISPR guides based on the conserved regions identified in the alignments.


Título: Modelado y Análisis Bioinformático en Python de la Edición de Integrones en Shewanella Mediante CRISPR/Cas9

1) Breve introducción: Los integrones son plataformas genéticas que se encuentran comúnmente en bacterias. Su función principal es la captura y la expresión de genes, los cuales estan especialmente asociados con la resistencia a antibióticos. Esta función esta mediada por el gen llamado “integrasa”, la cual es la responsable de la recombinación del ADN. La tecnología CRISPR ha demostrado ser una herramienta poderosa para la edición genética precisa. Este proyecto propone el uso de CRISPR para modificar el gen de la integrasa de los integrones encontrados en un dataset del género Shewanella.

2) Hipótesis de Trabajo y Resultados Esperados:
Hipótesis: Dado que la tecnología CRISPR ha demostrado ser eficaz para la edición genética precisa, se plantea que el uso de CRISPR/Cas9 específicamente dirigido al gen de la integrasa en integrones de bacterias del género Shewanella puede resultar en la interrupción o desactivación de la función de recombinación de ADN de la integrasa. Se hipotetiza que al modificar el gen de la integrasa, se reducirá la capacida
d de los integrones para capturar y expresar genes asociados con la resistencia a antibióticos en las bacterias de este género.Resultados esperados: Se espera demostrar la capacidad de la tecnología CRISPR/Cas9 para dirigirse con precisión al gen de la integrasa de los integrones encontrados en Shewanella, evidenciando la capacidad de editar este gen de manera específica. Asimismo, se espera observar una disminución en la capacidad de los integrones modificados para realizar la recombinación del ADN, demostrando así la influencia de la edición genética en la función de la integrasa, y se espera una reducción en la expresión de genes asociados con la resistencia a antibióticos en las bacterias de Shewanella portadoras de integrones editados.
3) Diseño Experimental y Metodología:
Se trabajará con un dataset de secuencias nucleótidicas de integrasas de integrón encontradas en Shewanella y se realizará un alineamiento múltiple para conocer las regiones conservadas.
En base a las regiones conservadas se evaluarán los posibles objetivos blanco.
Diseño de las guías.
Se cultivarán las bacterias de Shewanella que albergan integrones y se realizará la transformación con las células que albergan el sistema CRISPR/Cas9 diseñado para apuntar al gen de la integrasa.
Verificación de la edición mediante secuenciación, por lo cual es necesario el diseño de primers.
Se realizarán ensayos específicos para evaluar la capacidad de la integrasa para llevar a cabo la recombinación del ADN.
Se evaluará por qPCR (PCR cuantitativa en tiempo real) la expresión de gen de la integrasa y del gen de resistencia adyacente al gen (intI).
Se realizarán pruebas de sensibilidad a antibióticos a las células editadas y wild-type.

4) Citas Bibliográficas:
Hall, R.M. Integrons and gene cassettes: Hotspots of diversity in bacterial genomes. Ann. N. Y. Acad. Sci. 2012, 1267, 71–78.
Messier, N.; Roy, P.H. Integron integrases possess a unique additional domain necessary for activity. J. Bacteriol. 2001, 183, 6699–6706.
Centers for Disease Control and Prevention. 2023. Antibiotic resistance threats in the United States, 2023. CDC, Atlanta, Georgia.
Deng W, Shi X, Tjian R, Lionnet T, Singer RH. 2015. CASFISH: CRISPR/Cas9- mediated in situ labeling of genomic loci in fixed cells. Proc Natl Acad Sci U S A 112:11870 –11875.
Li, Q., Zhao, P., Li, L., Zhao, H., Shi, L., & Tian, P. (2020). Engineering a CRISPR Interference System To Repress a Class 1 Integron in Escherichia coli. Antimicrobial agents and chemotherapy, 64(3), e01789-19.




Los primers y las guías CRISPR son herramientas fundamentales en la biología molecular, pero sirven para propósitos diferentes:

1. **Diseño de Primers:**
   - Los primers son secuencias cortas de nucleótidos que proveen el punto de inicio para la PCR (Reacción en Cadena de la Polimerasa) o la secuenciación de ADN.
   - El diseño de primers es crucial para la amplificación específica de segmentos del ADN. Se buscan secuencias que sean complementarias al ADN molde para que la polimerasa pueda iniciar la síntesis.
   - La especificidad, la temperatura de anillamiento (annealing), la ausencia de estructuras secundarias y la complementariedad al ADN objetivo son factores críticos en el diseño de primers.

2. **Diseño de Guías CRISPR:**
   - Las guías CRISPR son secuencias de ARN que dirigen el sistema CRISPR-Cas9 a un lugar específico en el genoma para editar el ADN.
   - Las guías necesitan ser muy específicas para el sitio de interés para evitar cortes fuera del blanco (off-target effects), lo cual puede tener consecuencias no deseadas.
   - Para el diseño de guías, también es crucial considerar la presencia de la secuencia PAM (Protospacer Adjacent Motif), ya que es necesaria para que Cas9 reconozca y corte el ADN.

La conexión entre ambos es que, en algunos casos, puedes usar la información de secuenciación obtenida mediante PCR y primers para identificar las regiones genómicas en las que quieras que las guías CRISPR actúen. Además, el diseño de ambos debe ser altamente específico para la secuencia objetivo para evitar la amplificación o edición de regiones no deseadas.

En el contexto de un archivo `.ipynb` (Jupyter Notebook), que es un documento que combina código ejecutable con texto enriquecido, como ecuaciones, visualización y narrativa, puedes utilizar herramientas bioinformáticas para el diseño de ambos. Herramientas como `Primer3` para primers y diferentes aplicaciones bioinformáticas para el diseño de guías CRISPR se pueden integrar en tales documentos para automatizar y documentar el proceso de diseño.

En cuanto a tu proceso de diseño:

- **Para Primers**: Se discuten argumentos de secuencia (`seq_args`) y parámetros globales (`global_args`) para generar primers específicos. Estos argumentos afectan la selección de primers y su rendimiento en la PCR.
  
- **Para Guías CRISPR**: Se generan guías buscando secuencias que terminan con 'GG', típico del motivo PAM (NGG para Cas9). También se menciona la importancia de verificar la especificidad de la guía con herramientas bioinformáticas como BLAST, y herramientas especializadas como CRISPOR, Benchling o CHOPCHOP para minimizar efectos off-target.

El fragmento de código sobre la `score_guide` función parece ser un algoritmo para puntuar guías CRISPR basado en propiedades como la temperatura de fusión y la composición de bases, lo cual es importante para predecir la eficacia de la edición.

Finalmente, la mención de ViennaRNA y RNAfold se relaciona con el análisis de la estructura secundaria del ARN, un paso que puede ser relevante en el estudio del ARN guía CRISPR para prever su estabilidad y funcionamiento.

El diseño de primers está centrado en la amplificación de ADN para su análisis o secuenciación, el diseño de guías CRISPR está enfocado en la edición genómica. Aunque son distintos, ambos procesos requieren un entendimiento detallado de la genómica y pueden ser apoyados por herramientas bioinformáticas para optimizar su especificidad y eficiencia.

In [None]:
#@markdown Instalando, tome un mate y espere unos minutos. ;-)
%%capture

# Instalar librerías necesarias 1
!apt-get update -y
!pip install wget biopython pysam

# Importar BiopythonWarning y configurar para ignorar ciertas advertencias
import warnings
from Bio import BiopythonWarning
warnings.simplefilter('ignore', BiopythonWarning)

# Instalar conda a través de condacolab
!pip install -q condacolab
import condacolab
condacolab.install()

# Configurar conda para usar el canal conda-forge
!conda config --add channels conda-forge
!pip install requests


# Instalar librerías necesarias 2


# Instalar herramientas CRISPR relacionadas utilizando pip
!pip install crispr-bean pyfaidx vcfpy

# Instalar sgrna_designer directamente desde GitHub
!pip install git+https://github.com/gpp-rnd/sgrna_designer.git#egg=sgrna_designer

# Configurar conda para usar los canales predeterminados, bioconda y conda-forge
!conda config --add channels defaults
!conda config --add channels bioconda
!conda config --add channels conda-forge

# Instalar CRISPResso2 utilizando conda y actualizarlo con pip si es necesario
# Importar CRISPResso2 y mostrar sus métodos disponibles
!conda install CRISPResso2
!pip install CRISPResso2 --upgrade
import CRISPResso2
print(dir(CRISPResso2))
import CRISPResso2
!pip install CRISPResso2 --upgrade
print(CRISPResso2.__dict__)


# Instalar primer3-py para diseño de primers PCR
!pip install primer3-py

# Enlace a la documentación de Primer3 para referencia
# https://htmlpreview.github.io/?https://github.com/primer3-org/primer3/blob/v2.6.1/src/primer3_manual.htm


# Instalar ViennaRNA que incluye RNAfold
!apt-get install -y rnafold
# Agregar el repositorio de ViennaRNA a la lista de fuentes de apt
!add-apt-repository ppa:j-4/vienna-rna -y

# Actualizar la lista de paquetes
!apt-get update

# Instalar ViennaRNA
!apt-get install vienna-rna -y


# 1) Probamos CRISPResso2

In [None]:
# @title descargo secuencias HPV
HPVE1SampleN= {'HPV16E1': 'NC_001526.4', 'HPV18E1': 'NC_001357.1', 'HPV53E1A': 'NC_001593.1', 'HPV53E1B': 'NC_001593.1', 'HPV6BE1': 'NC_001355.1', 'HP54VE1': 'NC_001676.1', 'HPV61E1': 'NC_001694.1', 'HPV34E1': 'NC_001587.1', 'HPV5E1': 'NC_001531.1', 'HPV4E1': 'NC_001457.1'}
proteinas={"HPV16E1":"NP_041327.2", "HPV16E2":"NP_041328.1", "HPV16E7":"NP_041326.1", "HPV18E1":"NP_040312.1", "HPV18E2":"NP_040313.1", "HPV18E7":"NP_040311.1", "HPV45E1":"CAA52575.1", "HPV45E2":"CAA52576.1", "HPV45E7":"CAA52574.1", "HPV31E1":"AAA46952", "HPV31E2":"AAA46953.1", "HPV31E7":"AAA46951.1", "HPV33E1":"AAA46960.1", "HPV33E2":"AAA46961.1", "HPV33E7":"AAA46959.1", "HPV35HE1":"CAA52563.1", "HPV35HE2":"CAA52564.1", "HPV35HE7":"CAA52562.1", "HPV39E1":"AAA47052.1", "HPV39E2":"AAA47053.1", "HPV39E7":"AAA47051.1", "HPV52E1":"CAA52587.1", "HPV52E2":"CAA52588.1", "HPV52E7":"CAA52586.1", "HPV56E2":"CAA52598.1", "HPV56E7":"CAA52597.1", "HPV58E1":"BAA31847.1", "HPV58E2":"BAA31848.1", "HPV58E7":"BAA31846.1", "HPV59E1":"CAA54851", "HPV59E2":"CAA54852.1", "HPV59E7":"CAA54850.1", "HPV68AE1":"AAZ39493.1", "HPV68AE2":"AAZ39494.1", "HPV68AE7":"AAZ39492.1", "HPV68BE1":"CBY85069.1", "HPV68BE2":"CBY85070.1", "HPV68BE7":"CBY85068.1", "HPV73E1":"CAA63884.1", "HPV73E2":"CAA63885.1", "HPV73E7":"CAA63883.1", "HPV82E1":"BAA90737.1", "HPV82E2":"BAA90738.1", "HPV82E7":"BAA90736.1", "HPV23E1":"AAA79410.1", "HPV23E2":"AAA79411.1", "HPV23E7":"AAA79409.1", "HPV53E1A":"NP_597792.1","HPV53E1B":"NP_597793.1", "HPV53E2":"NP_041846.1", "HPV53E7":"NP_041845.1", "HPV66E1":"AAA79501.1", "HPV66E2":"AAA79502.1", "HPV66E7":"AAA79500.1", "HPV6BE1":"NP_040298.1", "HPV6BE2":"NP_040299.1", "HPV6BE7":"NP_040297.1","HPV11E1":"AAA46929.1", "HPV11E2":"AAA46930.1", "HPV11E7":"AAA46928.1", "HPV40E1":"CAA52569.1", "HPV40E2":"CAA52570.1", "HPV40E7":"CAA52568.1","HPV43E1":"CAF05785.1", "HPV43E2":"CAF05786.1", "HPV43E7":"CAF05784.1", "HPV44E1":"AAA79459.1", "HPV44E2":"AAA79460.1", "HPV44E7":"AAA79458.1", "HP54VE1":"NP_043290.1", "HPV54E2":"NP_043291.1", "HPV54E7":"NP_043289.1", "HPV61E1":"NP_043446.1", "HPV61E2":"NP_043447.1", "HPV61E7":"NP_043445.1", "HPV70E1":"AAC54852.1", "HPV70E2":"AAC54853.1", "HPV70E7":"AAC54851.1", "HPV72E1":"AHZ58190.1", "HPV72E2":"AHZ58191.1", "HPV72E7":"AHZ58194.1", "HPV81E1":"CAF05694.1", "HPV81E2":"CAF05695.1", "HPV81E7":"CAF05693.1", "HPV34E1":"NP_041809.1", "HPV34E2":"NP_041810.1", "HPV34E7":"NP_041808.1", "HPV57CE1":"BAF80482.1", "HPV57CE2":"BAF80483.1", "HPV57CE7":"BAF80481.1", "HPV83E1":"AAD38970.1", "HPV83E2":"AAD38971.1", "HPV83E7":"AAD38969.1", "HPV16L1":"NP_041332.2", "HPV16L2":"NP_041331.2", "HPV18L1":"NP_040317.1", "HPV18L2":"NP_040316.1", "HPV45L1":"CAA52578.1", "HPV45L2":"CAA52577.1", "HPV31L1":"AAA46956.1", "HPV31L2":"AAA46955.1", "HPV33L1":"AAA46964.1", "HPV33L2":"AAA46963.1", "HPV35HL1":"CAA52566.1", "HPV35HL2":"CAA52565.1", "HPV39L1":"AAA47056.1", "HPV39L2":"AAA47055.1", "HPV52L1":"CAA52590.1", "HPV52L2":"CAA52589.1", "HPV56L1":"CAA52600.1", "HPV56L2":"CAA52599.1", "HPV58L1":"BAA31851.1", "HPV58L2":"BAA31850.1", "HPV59L1":"CAA54856.1", "HPV59L2":"CAA54855.1", "HPV68AL1":"AAZ39498.1", "HPV68AL2":"AAZ39497.1", "HPV68BL1":"CBY85074.1", "HPV68BL2":"CBY85073.1", "HPV73L1":"CAA63887.1", "HPV73L2":"CAA63886.1", "HPV82L1":"BAA90742.1", "HPV82L2":"BAA90741.1", "HPV23L1":"AAA79414.1", "HPV23L2":"AAA79413.1", "HPV53L1":"NP_041848.1", "HPV53L2":"NP_041847.1", "HPV66L1":"AAA79505.1", "HPV66L2":"AAA79504.1", "HPV6BL1":"NP_040304.1", "HPV6BL2":"NP_040303.1", "HPV11L1":"AAA46935.1", "HPV11L2":"AAA46934.1", "HPV40L1":"CAA52572.1", "HPV40L2":"CAA52571.1","HPV42E1":"AAA47043.1", "HPV42E7":"AAA47042.1" ,"HPV42L1":"AAA47048.1", "HPV42L2":"AAA47047.1","HPV43L1":"CAF05790.1", "HPV43L2":"CAF05788.1", "HPV54L1":"NP_043294.1", "HPV54L2":"NP_043293.1", "HPV61L1":"NP_043450.1", "HPV61L2":"NP_043449.1", "HPV70L1":"AAC54857.1", "HPV70L2":"AAC54856.1", "HPV72L1":"AHZ58195.1", "HPV72L2":"AHZ58196.1", "HPV81L1":"CAF05698.1", "HPV81L2":"CAF05697.1","HPV34L1":"NP_041812.1", "HPV34L2":"NP_041811.1" ,"HPV57BL1":"AAC56600.1", "HPV57CL1":"BAF80486.1", "HPV57CL2":"BAF80485.1", "HPV83L1":"AAD38974.1", "HPV83L2":"AAD38973.1", "HPV2E1":"QLM04844.1", "HPV2E2":"QLM04841.1", "HPV2E7":"QLM04843.1", "HPV2L1":"QLM04846.1", "HPV2L2":"QLM04845.1", "HPV3E1":"CAA52471.1", "HPV3E2":"CAA52472.1", "HPV3L1":"CAA52474.1", "HPV3L2":"CAA52473.1","HPV5E1":"NP_041367.1", "HPV5E2":"NP_041368.1", "HPV5E7":"NP_041366.1", "HPV5L1":"NP_041372.1", "HPV5L2":"NP_041371.1", "HPV4E1":"NP_040891.1", "HPV4E2":"NP_040892.1", "HPV4E7":"NP_040890.1", "HPV4L1":"NP_040895.1", "HPV4L2":"NP_040894.1", "HPV7E1":"NP_041856.1", "HPV7E2":"NP_041857.1", "HPV7E7":"NP_041855.1", "HPV7L1":"NP_041859.1", "HPV7L2":"NP_041858.1", "HPV9E1":"NP_041863.1", "HPV9E2":"NP_041864.1", "HPV9E7":"NP_041862.1", "HPV9L1":"NP_041866.1", "HPV9L2":"NP_041865.1", "HPV10E1":"NP_041743.1", "HPV10E2":"NP_041744.1", "HPV10E7":"NP_041742.1", "HPV10L1":"NP_041746.1", "HPV10L2":"NP_041745.1", "HPV120E1":"CAA52498.1", "HPV12E2":"CAA52499.1", "HPV12E7":"CAA52497.1", "HPV12L1":"CAA52501.1", "HPV12L2":"CAA52500.1", "HPV13E1":"CAA44649.1", "HPV13E2":"CAA44650.1", "HPV13E7":"CAA44648.1", "HPV13L1":"CAA44654.1", "HPV13L2":"CAA44653.1", "HPV14BE1":"CAA52502.1", "HPV14BE2":"CAA52503.1", "HPV14BL1":"CAA52505.1", "HPV14BL2":"CAA52504.1", "HPV15E1":"CAA52508.1", "HPV15E2":"CAA52509.1", "HPV15E7":"CAA52507.1", "HPV15L1":"CAA52511.1", "HPV15L2":"CAA52510.1", "HPV17E1":"CAA52514.1", "HPV17E2":"CAA52515.1", "HPV17E7":"CAA52513.1", "HPV17L1":"CAA52517.1", "HPV17L2":"CAA52516.1", "HPV19E1":"CAA52520.1", "HPV19E2":"CAA52521.1", "HPV19E7":"CAA52519.1", "HPV19L1":"CAA52523.1", "HPV19L2":"CAA52522.1", "HPV20E1":"AAA79389.1", "HPV20E2":"AAA79390.1", "HPV20E7":"AAA79388.1", "HPV20L1":"AAA79393.1", "HPV20L2":"AAA79392.1", "HPV21E1":"AAA79396.1", "HPV21E2":"AAA79397.1", "HPV21E7":"AAA79395.1", "HPV21L1":"AAA79400.1", "HPV21L2":"AAA79399.1", "HPV22E1":"AAA79403.1", "HPV22E2":"AAA79404.1", "HPV22E7":"AAA79402.1", "HPV22L1":"AAA79407.1", "HPV22L2":"AAA79406.1", "HPV23E1":"AAA79410.1", "HPV23E2":"AAA79411.1", "HPV23E7":"AAA79409.1", "HPV23L1":"AAA79414.1", "HPV23L2":"AAA79413.1", "HPV24E1":"AAA79417.1", "HPV24E2":"AAA79418.1", "HPV24E7":"AAA79416.1", "HPV24L1":"AAA79421.1", "HPV24L2":"AAA79420.1", "HPV25E1":"CAA52526.1", "HPV25E2":"CAA52527.1", "HPV25E7":"CAA52525.1", "HPV25L1":"CAA52529.1", "HPV25L2":"CAA52528.1", "HPV27BE1":"BAE16265.1", "HPV27BE2":"BAE16266.1", "HPV27BE7":"BAE16264.1", "HPV27BL1":"BAE16269.1", "HPV27BL2":"BAE16268.1", "HPV28E1":"AAA79424.1", "HPV28E2":"AAA79425.1", "HPV28E7":"AAA79423.1", "HPV28L1":"AAA79428.1", "HPV28L2":"AAA79427.1", "HPV29E1":"AAA79431.1", "HPV29E2":"AAA79432.1", "HPV29E7":"AAA79430.1", "HPV29L1":"AAA79435.1", "HPV29L2":"AAA79434.1", "HPV30E1":"YP_009508156.1", "HPV30E2":"YP_009508157.1", "HPV30E7":"YP_009508155.1", "HPV30L1":"YP_009508159.1", "HPV30L2":"YP_009508158.1", "HPV32E1":"NP_041803.1", "HPV32E2":"NP_041804.1", "HPV32E7":"NP_041802.1", "HPV32L1":"NP_041806.1", "HPV32L2":"NP_041805.1", "HPV36E1":"AAA79438.1", "HPV36E2":"AAA79439.1", "HPV36E7":"AAA79437.1", "HPV36L1":"AAA79442.1", "HPV36L2":"AAA79442.1", "HPV37E1":"AAA79445.1", "HPV37E2":"AAA79446.1", "HPV37E7":"AAA79444.1", "HPV37L1":"AAA79449.1", "HPV37L2":"AAA79449.1", "HPV38E1":"AAA79452.1", "HPV38E2":"AAA79453.1", "HPV38E7":"AAA79451.1", "HPV38L1":"AAA79456.1", "HPV38L2":"AAA79455.1", "HPV41E1":"NP_040287.1", "HPV41E2":"NP_040289.1", "HPV41E7":"NP_040286.1", "HPV41L1":"NP_040294.1", "HPV41L2":"NP_040293.1", "HPV47E1":"AAA46978.1", "HPV47E2":"AAA46979.1", "HPV47E7":"AAA46977.1", "HPV47L1":"AAA46982.1", "HPV47L2":"AAA46981.1", "HPV48E1":"NP_043418.1", "HPV48E2":"NP_043419.1", "HPV48E7":"NP_043417.1", "HPV48L1":"NP_043422.1", "HPV48L2":"NP_043421.1", "HPV49E1":"NP_041834.1", "HPV49E2":"NP_041835.1", "HPV49E7":"NP_041833.1", "HPV49L1":"NP_041837.1", "HPV49L2":"NP_041836.1", "HPV50E1":"NP_043425.1", "HPV50E2":"NP_043426.1", "HPV50E7":"NP_043424.1", "HPV50L1":"NP_043429.1", "HPV50L2":"NP_043428.1", "HPV60E1":"NP_043439.1", "HPV60E2":"NP_043440.1", "HPV60E7":"NP_043438.1", "HPV60L1":"NP_043443.1", "HPV60L2":"NP_043442.1", "HPV62E1":"AAR32248.1", "HPV62E2":"AAR32249.1", "HPV62E7":"AAR32247.1", "HPV62L1":"AAR32252.1", "HPV62L2":"AAR32251.1", "HPV63E1":"NP_040898.1", "HPV63E2":"NP_040899.1", "HPV63E7":"NP_040897.1", "HPV63L1":"NP_040902.1", "HPV63L2":"NP_040901.1", "HPV65E1":"CAA50173.1", "HPV65E2":"CAA50174.1", "HPV65E7":"CAA50172.1", "HPV65L1":"CAA50177.1", "HPV65L2":"CAA50176.1", "HPV67E1":"BAA66111.1", "HPV67E2":"BAA66112.1", "HPV67E7":"BAA66110.1", "HPV67L1":"BAA28859.1", "HPV67L2":"BAA66115.1", "HPV69E1":"BAA90729.1", "HPV69E2":"BAA90730.1", "HPV69E7":"BAA90728.1", "HPV69L1":"BAA90734.1", "HPV69L2":"BAA90733.1", "HPV74E1":"AAO15457.1", "HPV74E2":"AAO15458.1", "HPV74E7":"AAO15456.1", "HPV74L1":"AAO15462.1", "HPV74L2":"AAO15461.1", "HPV75E1":"CAA75451.1", "HPV75E2":"CAA75452.1", "HPV75E7":"CAA75450.1", "HPV75L1":"CAA75454.1", "HPV75L2":"CAA75453.1", "HPV76E1":"CAA75458.1", "HPV76E2":"CAA75459.1", "HPV76E7":"CAA75457.1", "HPV76L1":"CAA75461.1", "HPV76L2":"CAA75460.1", "HPV77E1":"CAA75465.1", "HPV77E2":"CAA75466.1", "HPV77E7":"CAA75464.1", "HPV77L1":"CAA75468.1", "HPV77L2":"CAA75467.1"}

from Bio import Entrez, SeqIO

Entrez.email = "tu_correo_electronico@example.com"

archivos_fasta_descargados =[]

# Función para descargar y guardar en archivos FASTA
def DescargarNucleotidos(SampleN):
    for key, record_id in SampleN.items():
        print(record_id)
        handle = Entrez.efetch(db='nucleotide', id=record_id, rettype='gb')
        seqRecord = SeqIO.read(handle, format='genbank')
        handle.close()
        with open(f'{key}.fasta', 'w') as fasta_file:
            SeqIO.write(seqRecord, fasta_file, 'fasta')
            archivos_fasta_descargados.append(str(fasta_file.name))

# Llamar a la función para descargar
DescargarNucleotidos(HPVE1SampleN)
print(archivos_fasta_descargados)

NC_001526.4
NC_001357.1
NC_001593.1
NC_001593.1
NC_001355.1
NC_001676.1
NC_001694.1
NC_001587.1
NC_001531.1
NC_001457.1
['HPV16E1.fasta', 'HPV18E1.fasta', 'HPV53E1A.fasta', 'HPV53E1B.fasta', 'HPV6BE1.fasta', 'HP54VE1.fasta', 'HPV61E1.fasta', 'HPV34E1.fasta', 'HPV5E1.fasta', 'HPV4E1.fasta']


In [None]:
# @title descargo secuencias BRCA1
#Buscará IDs de secuencias para un gen dado en la base de datos NCBI.
#Obtendrá cada secuencia, la guardará en un archivo FASTA y agregará la secuencia a una lista
from Bio import Entrez, SeqIO

def buscar_secuencias_NCBI(gene_name, max_results=10):
    Entrez.email = "tu_email@example.com"  # Reemplaza con tu email
    handle = Entrez.esearch(db="nucleotide", term=gene_name, retmax=max_results)
    record = Entrez.read(handle)
    handle.close()
    return record["IdList"]

def obtener_y_guardar_secuencias(ids, gene_name):
    secuencias = []
    for i, id in enumerate(ids):
        handle = Entrez.efetch(db="nucleotide", id=id, rettype="fasta", retmode="text")
        record = SeqIO.read(handle, "fasta")
        handle.close()

        # Guardar la secuencia en un archivo FASTA
        filename = f"{gene_name}_{i}.fasta"
        with open(filename, "w") as output_handle:
            SeqIO.write(record, output_handle, "fasta")

        # Agregar la secuencia a la lista
        secuencias.append(record.seq)

    return secuencias

# Ejemplo de uso: Buscar, guardar y obtener secuencias de BRCA1
ids = buscar_secuencias_NCBI("BRCA1")
secuencias_brca1 = obtener_y_guardar_secuencias(ids, "BRCA1")

# secuencias_brca1 ahora contiene las secuencias de BRCA1 como strings


print(secuencias_brca1)


[Seq('CTTGACTCCACTCAGATCCATCCTGGGGACCTGAGCAGAAGAGGTTCTCGCCGC...AAA'), Seq('CTTGACTCCACTCAGATCCATCCTGGGGACCTGAGCAGAAGAGGTTCTCGCCGC...AAA'), Seq('CTTGACTCCACTCAGATCCATCCTGGGGACCTGAGCAGAAGAGGTTCTCGCCGC...AAA'), Seq('AAGCTGATTGGGTGTGGTCGCCGTGGCCGGACGCCGCTCGGGGGACGTGGGAGG...AAA'), Seq('CAGACGGTAGGAAACCTGCCTGGCGAGTTCAATGAAAGGCATATTAGGTTATCC...GCA'), Seq('GGGAACTCCGGCGTGACGTCACGAGACGGCCGCTGCCTCCGGGGCCGGGCGGGG...GCA'), Seq('ACTGGAAAGCTGTTTTTTCTATATTTCCTGATTGACTGCCTCCTCCCACACCCA...AAA'), Seq('CGTCGGGCGCCGCGATAGTGGCTGTGGCGGTAGCGACTGAGGCGGCAGTATGGA...AAA'), Seq('GAATTCATCTGTGTGGCGCTGCGGAGTGCAGCCTGGAGAGGGAGGAGTGGCTGT...GTG'), Seq('GCGCGCCCCGCTTTGTGTCCGTGGTCTCCCGCGCGGGACAGAGGGACCGGCCGG...AAA')]


In [None]:
#@title Ejemplos CRISPResso2 docs
# Esta línea define un título para la sección en el cuaderno Jupyter, pero no afecta la ejecución del código.

# Ejemplos de uso de CRISPResso2 con enlaces a documentación y herramientas en línea
# Comentarios que proporcionan enlaces a la documentación y herramientas en línea de CRISPResso2 para referencia adicional.

# Documentación de CRISPResso2 y ejemplos
# https://github.com/pinellolab/CRISPResso2/tree/master
# http://crispresso.pinellolab.org/help
# Enlaces a la documentación oficial y ejemplos de CRISPResso2, útiles para entender su uso y funcionalidades.

# Herramientas en línea para diseño CRISPR
# https://crispr.dbcls.jp/
# https://en.vectorbuilder.com/products-services/service/crispr-solutions.html
# Enlaces a herramientas en línea para el diseño de sistemas CRISPR, que pueden complementar el uso de CRISPResso2.

# Importar CRISPResso2
import CRISPResso2
# Esta línea importa la biblioteca CRISPResso2, que es necesaria para realizar los análisis de secuenciación CRISPR.

# Definir secuencia objetivo y archivo FASTA del genoma (ejemplo)
target_seq = "ATGCGGTTTTGG"
genome_fasta = "GCF_000005845.2_ASM584v2_genomic.fna"
# Estas líneas definen una secuencia objetivo para el análisis CRISPR y el archivo FASTA del genoma que se utilizará.

# Ejemplo 1: Uso de CRISPResso con archivos FASTQ para análisis NHEJ
!wget https://crispresso.pinellolab.partners.org/static/demo/nhej.r1.fastq.gz
!wget https://crispresso.pinellolab.partners.org/static/demo/nhej.r2.fastq.gz
!CRISPResso --fastq_r1 nhej.r1.fastq.gz --fastq_r2 nhej.r2.fastq.gz --amplicon_seq [AMP_SEQ] -n nhej
# Estas líneas descargan archivos FASTQ de muestra y los utilizan para ejecutar un análisis de reparación de roturas de doble cadena (NHEJ) usando CRISPResso.

# Ejemplo 2: Uso de CRISPResso con archivos FASTQ para análisis de alelos específicos
!wget https://crispresso.pinellolab.partners.org/static/demo/allele_specific.fastq.gz
!CRISPResso --fastq_r1 allele_specific.fastq.gz --amplicon_seq [AMP_SEQ] --amplicon_name P23H,WT --guide_seq [GUIDE_SEQ]
# Descarga otro conjunto de datos de secuenciación y realiza un análisis CRISPResso para identificar alelos específicos.

# Ejemplo 3: Uso de CRISPResso con archivos FASTQ para análisis de edición de base
!wget https://crispresso.pinellolab.partners.org/static/demo/base_editor.fastq.gz
!CRISPResso --fastq_r1 base_editor.fastq.gz --amplicon_seq [AMP_SEQ] --guide_seq [GUIDE_SEQ] --quantification_window_size 10 --quantification_window_center -10 --base_editor_output
# Descarga un tercer conjunto de datos y utiliza CRISPResso para analizar la edición de bases, una técnica específica de modificación de ADN.

!CRISPResso --help
#CRISPResso --fastq_r1 tus_datos.fastq.gz --amplicon_seq [SEC_AMPLICÓN] --guide_seq [SEC_GUÍA]


--2023-11-14 21:43:27--  https://crispresso.pinellolab.partners.org/static/demo/nhej.r1.fastq.gz
Resolving crispresso.pinellolab.partners.org (crispresso.pinellolab.partners.org)... 170.223.191.141
Connecting to crispresso.pinellolab.partners.org (crispresso.pinellolab.partners.org)|170.223.191.141|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://crispresso.pinellolab.org/static/demo/nhej.r1.fastq.gz [following]
--2023-11-14 21:43:28--  http://crispresso.pinellolab.org/static/demo/nhej.r1.fastq.gz
Resolving crispresso.pinellolab.org (crispresso.pinellolab.org)... 3.136.239.122
Connecting to crispresso.pinellolab.org (crispresso.pinellolab.org)|3.136.239.122|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1018084 (994K) [application/x-gzip]
Saving to: ‘nhej.r1.fastq.gz.1’


2023-11-14 21:43:29 (1.45 MB/s) - ‘nhej.r1.fastq.gz.1’ saved [1018084/1018084]

--2023-11-14 21:43:29--  https://crispresso.pinellolab.partner

In [None]:
from Bio.Seq import Seq
from Bio import SeqIO
from Bio.SeqUtils import MeltingTemp as mt
from Bio.SeqUtils import GC
# Ejemplo de secuencia de ADN
dna_sequence = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGA")
def design_guides(seq, guide_length=20):
    guides = []
    for i in range(len(seq) - guide_length + 1):
        guide = seq[i:i + guide_length]
        guides.append(guide)
    return guides

guides = design_guides(dna_sequence)
def evaluate_guide(guide_rna):
    gc_content = GC(guide_rna)
    tm = mt.Tm_NN(guide_rna)
    return gc_content, tm

for guide in guides:
    gc_content, tm = evaluate_guide(guide)
    print(f"Guía: {guide}, Contenido GC: {gc_content:.2f}%, Tm: {tm:.2f}°C")


In [None]:
#@title Ejemplos CRISPResso2 propios


# Secuencia objetivo
target_seq = "ATGCGGTTTTGG"

# Genoma de referencia
genome_fasta = "GCF_000005845.2_ASM584v2_genomic.fna"

!gdown '1wUi6Q_1un3Yuzac_iiMHVxoYncTSouJp'
!gunzip Homo_sapiens_assembly38.chr1.fasta.gz
# Cargamos el archivo del genoma de referencia.
reference_genome = "/content/Homo_sapiens_assembly38.chr1.fasta"
genome_fasta = genome_fasta

# Descargar genoma de referencia
#!wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.fna.gz
#!gunzip GCF_000005845.2_ASM584v2_genomic.fna.gz

# Diseñar 5 guías con CRISPResso2
#!CRISPResso  -t $target_seq -g $genome_fasta --design_guides 5

!pip show crispresso2
!CRISPResso2

#!CRISPResso -t $target_seq -g $genome_fasta -r1 "/content/nhej.r1.fastq.gz" -r2 "/content/nhej.r2.fastq.gz"

# Usar una guía diseñada para analizar un amplicón hipotético
!echo "ATGCGGTTTTGGCCAATTTGAGCAGACCTGA" > amplicon.txt
#!crispresso2 -r1 reads_R1.fastq.gz -r2 reads_R2.fastq.gz -a amplicon.txt -g GTTTATGCGGTTTTGG

import subprocess

# Ejecutar CRISPResso
command = "CRISPResso --fastq_r1 reads_R1.fastq --fastq_r2 reads_R2.fastq --amplicon_seq [AMP_SEQ] --guide_seq [GUIDE_SEQ]"
subprocess.run(command.split())
!CRISPResso --fastq_r1 reads_R1.fastq --fastq_r2 reads_R2.fastq --amplicon_seq [AMP_SEQ] --guide_seq [GUIDE_SEQ]

In [None]:
# Secuencia objetivo
target_seq = "ATGCGGTTTTGG"

# Genoma de referencia
genome_fasta = "GCF_000005845.2_ASM584v2_genomic.fna"

# Descargar y descomprimir el genoma de referencia
!gdown '1wUi6Q_1un3Yuzac_iiMHVxoYncTSouJp'
!gunzip Homo_sapiens_assembly38.chr1.fasta.gz
reference_genome = "/content/Homo_sapiens_assembly38.chr1.fasta"
genome_fasta = genome_fasta

# Comprobar instalación de CRISPResso2
!pip show CRISPResso

# Ejemplo 1: Análisis NHEJ
!wget https://crispresso.pinellolab.partners.org/static/demo/nhej.r1.fastq.gz
!wget https://crispresso.pinellolab.partners.org/static/demo/nhej.r2.fastq.gz
!CRISPResso --fastq_r1 nhej.r1.fastq.gz --fastq_r2 nhej.r2.fastq.gz --amplicon_seq AATGTCCCCCAATGGGAAGTTCATCTGGCACTGCCCACAGGTGAGGAGGTCATGATCCCCTTCTGGAGCTCCCAACGGGCCGTGGTCTGGTTCATCATCTGTAAGAATGGCTTCAAGAGGCTCGGCTGTGGTT -n nhej

# Ejemplo 2: Análisis de alelos específicos
!wget https://crispresso.pinellolab.partners.org/static/demo/allele_specific.fastq.gz
!CRISPResso --fastq_r1 allele_specific.fastq.gz --amplicon_seq [AMP_SEQ_2] --amplicon_name P23H,WT --guide_seq [GUIDE_SEQ_2]

# Ejemplo 3: Análisis de edición de base
!wget https://crispresso.pinellolab.partners.org/static/demo/base_editor.fastq.gz
!CRISPResso --fastq_r1 base_editor.fastq.gz --amplicon_seq [AMP_SEQ_3] --guide_seq [GUIDE_SEQ_3] --quantification_window_size 10 --quantification_window_center -10 --base_editor_output

# Recuerda reemplazar [AMP_SEQ_2], [GUIDE_SEQ_2], [AMP_SEQ_3], y [GUIDE_SEQ_3] con las secuencias específicas que estás utilizando.
# Ejemplo 1: Análisis NHEJ
!wget https://crispresso.pinellolab.partners.org/static/demo/nhej.r1.fastq.gz
!wget https://crispresso.pinellolab.partners.org/static/demo/nhej.r2.fastq.gz
!CRISPResso --fastq_r1 nhej.r1.fastq.gz --fastq_r2 nhej.r2.fastq.gz --amplicon_seq 'AATGTCCCCCAATGGGAAGTTCATCTGGCACTGCCCACAGGTGAGGAGGTCATGATCCCCTTCTGGAGCTCCCAACGGGCCGTGGTCTGGTTCATCATCTGTAAGAATGGCTTCAAGAGGCTCGGCTGTGGTT' -n nhej

# Ejemplo 2: Análisis de alelos específicos
!wget https://crispresso.pinellolab.partners.org/static/demo/allele_specific.fastq.gz
!CRISPResso --fastq_r1 allele_specific.fastq.gz --amplicon_seq "CGAGAGCCGCAGCCATGAACGGCACAGAGGGCCCCAATTTTTATGTGCCCTTCTCCAACGTCACAGGCGTGGTGCGGAGCCACTTCGAGCAGCCGCAGTACTACCTGGCGGAACCATGGCAGTTCTCCATGCTGGCAGCGTACATGTTCCTGCTCATCGTGCTGGG" --amplicon_name P23H,WT --guide_seq "GTGCGGAGCCACTTCGAGCAGC"

# Ejemplo 3: Análisis de edición de base
!wget https://crispresso.pinellolab.partners.org/static/demo/base_editor.fastq.gz
!CRISPResso --fastq_r1 base_editor.fastq.gz --amplicon_seq "GGCCCCAGTGGCTGCTCTGGGGGCCTCCTGAGTTTCTCATCTGTGCCCCTCCCTCCCTGGCCCAGGTGAAGGTGTGGTTCCAGAACCGGAGGACAAAGTACAAACGGCAGAAGCTGGAGGAGGAAGGGCCTGAGTCCGAGCAGAAGAAGAAGGGCTCCCATCACATCAACCGGTGGCGCATTGCCACGAAGCAGGCCAATGGGGAGGACATCGATGTCACCTCCAATGACTAGGGTGG" --guide_seq "GAGTCCGAGCAGAAGAAGAA" --quantification_window_size 10 --quantification_window_center -10 --base_editor_output


# 2) Probamos primer3

In [None]:
import primer3

# Calcular y mostrar el punto de fusión (Tm) para una secuencia de primer dada
primer_sequence = 'GTAAAACGACGGCCAGT'
calculated_tm = primer3.calc_tm(primer_sequence)
print(f"El Tm calculado para la secuencia del primer {primer_sequence} es: {calculated_tm} °C")

# Medir el tiempo de ejecución del cálculo del Tm para comparar la eficiencia
# Se utiliza el decorador %timeit para realizar múltiples mediciones y obtener un promedio
%timeit primer3.calc_tm(primer_sequence)

# Si existe un módulo de pruebas personalizado para comparar, incluirlo aquí
# De lo contrario, este bloque debería ser removido o reemplazado por el código correspondiente
# %timeit test.wrappers.calc_tm(primer_sequence)


In [None]:
# Ejemplo 1: Cálculo de Tm para una Secuencia de Primer: Este ejemplo muestra cómo calcular el punto de fusión (Tm) de una secuencia de primer.
import primer3

primer_sequence = 'GTAAAACGACGGCCAGT'
calculated_tm = primer3.calcTm(primer_sequence)
print(f"El Tm calculado para la secuencia del primer {primer_sequence} es: {calculated_tm} °C")


In [None]:
# Ejemplo 2: Diseño de Primer para una Secuencia Objetivo: Este ejemplo muestra cómo diseñar primers para una secuencia objetivo dada.

import primer3

def imprimir_resultados(resultados):
    for i in range(resultados['PRIMER_LEFT_NUM_RETURNED']):
        print(f"Primer izquierdo {i}: Secuencia {resultados['PRIMER_LEFT'][i]['SEQUENCE']}, TM {resultados['PRIMER_LEFT'][i]['TM']}, GC% {resultados['PRIMER_LEFT'][i]['GC_PERCENT']}")
        print(f"Primer derecho {i}: Secuencia {resultados['PRIMER_RIGHT'][i]['SEQUENCE']}, TM {resultados['PRIMER_RIGHT'][i]['TM']}, GC% {resultados['PRIMER_RIGHT'][i]['GC_PERCENT']}")
        print(f"Tamaño del producto: {resultados['PRIMER_PAIR'][i]['PRODUCT_SIZE']}")
        print("-----")

# Secuencia objetivo para el diseño de los primers
target_sequence = 'GGGCAATACAGGGTATGATACGGGTTTGCGCAATACAGGGTATGATACGGGTTTGCGCCTGCCTGCTGCGGTGTCGATCGTTACGGGTTTGCGCCTGCTGCGGTGTCGAT'

# Argumentos de diseño de primers
global_args = {
    'PRIMER_OPT_SIZE': 20,
    'PRIMER_PICK_INTERNAL_OLIGO': 1,
    'PRIMER_INTERNAL_MAX_SELF_END': 8,
    'PRIMER_MIN_SIZE': 18,
    'PRIMER_MAX_SIZE': 25,
    'PRIMER_OPT_TM': 60.0,
    'PRIMER_MIN_TM': 57.0,
    'PRIMER_MAX_TM': 63.0,
    'PRIMER_MIN_GC': 20.0,
    'PRIMER_MAX_GC': 80.0,
    'PRIMER_MAX_POLY_X': 100,
    'PRIMER_INTERNAL_MAX_POLY_X': 100,
    'PRIMER_SALT_MONOVALENT': 50.0,
    'PRIMER_DNA_CONC': 50.0,
    'PRIMER_MAX_NS_ACCEPTED': 0,
    'PRIMER_MAX_SELF_ANY': 12,
    'PRIMER_MAX_SELF_END': 8,
    'PRIMER_PAIR_MAX_COMPL_ANY': 12,
    'PRIMER_PAIR_MAX_COMPL_END': 8,
    'PRIMER_PRODUCT_SIZE_RANGE': [[75,150]]
}

seq_args = {
    'SEQUENCE_ID': 'test',
    'SEQUENCE_TEMPLATE': target_sequence,
    'SEQUENCE_INCLUDED_REGION': [0, len(target_sequence)]
}

# Diseño de primers
result = primer3.designPrimers(seq_args, global_args)

# Impresión de resultados
imprimir_resultados(result)


In [None]:
#Ejemplo 3: Análisis de Hairpin en una Secuencia de Primer: Este ejemplo muestra cómo analizar la formación de hairpin en una secuencia de primer.
primer_sequence = 'GTTAACGGGTTTGCGCCTG'
hairpin = primer3.calcHairpin(primer_sequence)
print(f"Análisis de hairpin para la secuencia {primer_sequence}:")
print(hairpin)


In [None]:
#Ejemplo 4: Cálculo de la Homodimerización de un Primer: Este ejemplo muestra cómo calcular la homodimerización potencial de una secuencia de primer.
primer_sequence = 'ACGCGGCTGATGCGCCTG'
homodimer = primer3.calcHomodimer(primer_sequence)
print(f"Análisis de homodimerización para la secuencia {primer_sequence}:")
print(homodimer)


Un primer (o primer de ADN) es un fragmento corto de ADN que se utiliza como punto de partida para la amplificación de una región específica de ADN mediante la técnica de la reacción en cadena de la polimerasa (PCR). En el diseño de primers, se busca seleccionar secuencias cortas de ADN que sean complementarias a regiones específicas de la secuencia objetivo.

El diseño de primers es necesario para llevar a cabo la amplificación selectiva de una región de interés en el ADN. Al diseñar primers específicos, se puede dirigir la amplificación hacia una región particular del genoma o secuencia de ADN. Esto es útil en diversas aplicaciones, como la clonación de genes, la detección de mutaciones genéticas, el análisis de expresión génica y la secuenciación de ADN, entre otros.

La función design_primers de la biblioteca primer3 se utiliza para automatizar el proceso de diseño de primers. Toma dos conjuntos de argumentos: seq_args y global_args.

seq_args contiene los argumentos específicos de la secuencia, como la secuencia objetivo de ADN, el tamaño óptimo, mínimo y máximo del primer, y el rango de tamaño esperado del producto amplificado.

global_args contiene los argumentos globales, como la fórmula de temperatura de fusión, las correcciones de sal, la temperatura de anillamiento y el límite mínimo de unión del primer.

Al proporcionar estos argumentos, la función design_primers utiliza algoritmos y criterios específicos para generar primers que cumplan con los requisitos establecidos. Los primers resultantes se devuelven como resultado de la función y se pueden utilizar para la amplificación selectiva de la región de interés.

Espero que esta explicación aclare tus dudas sobre qué son los primers y por qué es necesario diseñarlos. Si tienes más preguntas, no dudes en hacerlas.

---------------

La función design_primers de la biblioteca primer3 se utiliza para diseñar primers específicos para una secuencia de ADN dada. Toma dos argumentos: seq_args y global_args.

seq_args es un diccionario que contiene los argumentos específicos de la secuencia. En este caso, se utiliza la clave "SEQUENCE_TEMPLATE" para proporcionar la secuencia objetivo de ADN. También se especifican otros parámetros como el tamaño óptimo del primer ("PRIMER_OPT_SIZE"), el tamaño mínimo del primer ("PRIMER_MIN_SIZE"), el tamaño máximo del primer ("PRIMER_MAX_SIZE"), y el rango de tamaño esperado del producto ("PRIMER_PRODUCT_SIZE_RANGE").

global_args es otro diccionario que contiene los argumentos globales. Aquí se establecen parámetros como la fórmula de temperatura de fusión ("PRIMER_TM_FORMULA"), las correcciones de sal ("PRIMER_SALT_CORRECTIONS"), la temperatura de anillamiento ("PRIMER_ANNEALING_TEMP"), y el límite mínimo de unión del primer ("PRIMER_MIN_BOUND").

La función design_primers utiliza estos argumentos para generar los primers específicos para la secuencia de ADN dada. Los primers resultantes se almacenan en la variable primers.

guides = primer3.design_guides(sequence, target_region_start, target_region_end)

----------------------------------------------------------------------------

Cuando no se encuentran primers en Primer3, puede haber varias razones para ello. Aquí hay algunas posibles soluciones para solucionar este problema:

1. Verificar los parámetros de diseño: Asegúrate de que estás ingresando los parámetros correctos en Primer3. Revisa la longitud y la temperatura de fusión (Tm) de los primers, así como la secuencia objetivo. Asegúrate de que los parámetros sean adecuados para tu experimento [[2]](https://primer3.ut.ee/).

2. Ajustar los parámetros de búsqueda: Puedes ajustar los parámetros de búsqueda en Primer3 para aumentar las posibilidades de encontrar primers. Por ejemplo, puedes ampliar el rango de Tm o permitir una mayor cantidad de bases GC en los extremos de los primers. Sin embargo, debes tener en cuenta que ajustar demasiado los parámetros puede afectar la especificidad y eficiencia de la amplificación [[1]](https://friveroll.github.io/posts/dise%C3%B1o-de-primers-para-pcr/).

3. Modificar la secuencia objetivo: Si no encuentras primers para una secuencia específica, puedes intentar modificar la secuencia objetivo. Por ejemplo, puedes agregar o eliminar bases en la secuencia objetivo para aumentar las posibilidades de encontrar primers adecuados [[1]](https://friveroll.github.io/posts/dise%C3%B1o-de-primers-para-pcr/).

4. Utilizar otras herramientas de diseño de primers: Si Primer3 no está generando los resultados deseados, puedes probar otras herramientas de diseño de primers disponibles en línea. Hay varias opciones disponibles que pueden ofrecer diferentes algoritmos y enfoques para el diseño de primers [[2]](https://primer3.ut.ee/).

Recuerda que el diseño de primers puede ser un proceso complejo y depende de varios factores. Es posible que necesites experimentar con diferentes parámetros y herramientas para encontrar los primers adecuados para tu experimento.

---
Learn more:
1. [Diseño De Primers Para PCR | Felipe Riveroll Aguirre](https://friveroll.github.io/posts/dise%C3%B1o-de-primers-para-pcr/)
2. [Primer3 Input](https://primer3.ut.ee/)
3. [Polymerase Chain Reaction: Basic Protocol Plus Troubleshooting and Optimization Strategies | Protocol (Translated to Spanish)](https://www.jove.com/t/3998/polymerase-chain-reaction-basic-protocol-plus-troubleshooting?language=Spanish)



In [None]:
from Bio import SeqIO
import primer3
import re

# Define la secuencia objetivo de ADN a partir de un archivo FASTA
fasta_file = "/content/HPV16E1.fasta"
sequences = SeqIO.parse(fasta_file, "fasta")
target_sequence = str(next(sequences).seq)  # Obtiene solo la primera secuencia del archivo

# Verifica y limpia la secuencia objetivo
valid_chars = set("ACGTN")
target_sequence_cleaned = re.sub(f"[^{valid_chars}]", "", target_sequence)

# Verifica si la secuencia ha cambiado después de la limpieza
if target_sequence != target_sequence_cleaned:
    print("Se han eliminado caracteres no válidos de la secuencia objetivo.")

# Verifica si hay caracteres no válidos restantes
invalid_chars = set(target_sequence_cleaned) - valid_chars
if invalid_chars:
    print(f"Se encontraron caracteres no válidos en la secuencia objetivo: {', '.join(invalid_chars)}")

# Define los argumentos específicos de la secuencia para el diseño de primers
seq_args = {
    "SEQUENCE_TEMPLATE": target_sequence_cleaned,
    "PRIMER_OPT_SIZE": 18,  # Tamaño óptimo del primer
    "PRIMER_MIN_SIZE": 15,  # Tamaño mínimo del primer
    "PRIMER_MAX_SIZE": 21,  # Tamaño máximo del primer
    "PRIMER_PRODUCT_SIZE_RANGE": [[25, 50]]  # Rango de tamaño del producto del primer
}

# Define los argumentos globales para el diseño de primers
global_args = {
    "PRIMER_TM_FORMULA": 1,  # Fórmula de temperatura de fusión
    "PRIMER_SALT_CORRECTIONS": 1,  # Correcciones de sal
    "PRIMER_ANNEALING_TEMP": 50.0,  # Temperatura de anillamiento del primer
    "PRIMER_MIN_TM": 57.0,  # Temperatura de fusión mínima del primer
    "PRIMER_MAX_TM": 63.0,  # Temperatura de fusión máxima del primer
    "PRIMER_MIN_GC": 20.0,  # Contenido mínimo de GC
    "PRIMER_MAX_GC": 80.0,  # Contenido máximo de GC
    "PRIMER_MAX_POLY_X": 100,  # Máxima longitud de mononucleótidos repetidos
    "PRIMER_INTERNAL_MAX_SELF_ANY": 12,  # Máxima auto-complementariedad
    "PRIMER_INTERNAL_MAX_SELF_END": 12,  # Máxima auto-complementariedad en el extremo
}

# Diseña los primers y muestra los resultados
primers = primer3.design_primers(seq_args, global_args)
num_pairs = primers['PRIMER_PAIR_NUM_RETURNED']
for i in range(num_pairs):
    print(f"Par de primers {i}:")
    print(f"  Primer Izquierdo (Secuencia, Tm, %GC): {primers[f'PRIMER_LEFT_{i}_SEQUENCE']}, {primers[f'PRIMER_LEFT_{i}_TM']:.2f}, {primers[f'PRIMER_LEFT_{i}_GC_PERCENT']:.2f}")
    print(f"  Primer Derecho (Secuencia, Tm, %GC): {primers[f'PRIMER_RIGHT_{i}_SEQUENCE']}, {primers[f'PRIMER_RIGHT_{i}_TM']:.2f}, {primers[f'PRIMER_RIGHT_{i}_GC_PERCENT']:.2f}")
    print(f"  Tamaño del Producto: {primers[f'PRIMER_PAIR_{i}_PRODUCT_SIZE']}")
    print()


In [None]:
import primer3

# Calcular la temperatura de fusión de una secuencia
tm = primer3.calc_tm('GTAAAACGACGGCCAGT')
print(f"Temperatura de fusión: {tm}")

# Cargar la secuencia objetivo
target_sequence = "ATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTAATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGCGTACGTACGTACGTATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGA"

# Definir la longitud y otros parámetros para la guía RNA
guide_length = 20
pam_sequence = "ACG"  # Secuencia PAM para SpCas9

# Encontrar posibles sitios de guía RNA
guide_sites = []
for i in range(len(target_sequence) - guide_length + 1):
    guide = target_sequence[i:i+guide_length]
    if guide[-3:] == pam_sequence:
        guide_sites.append(guide)
        print(guide)


# Define los argumentos globales
global_args = {
    "PRIMER_TM_FORMULA": 1,  # Fórmula de temperatura de fusión
    "PRIMER_SALT_CORRECTIONS": 1,  # Correcciones de sal
    "PRIMER_ANNEALING_TEMP": 50.0,  # Temperatura de anillamiento
    "PRIMER_MIN_TM": 55.0,  # Temperatura mínima de fusión
    "PRIMER_MAX_TM": 65.0,  # Temperatura máxima de fusión
    "PRIMER_MIN_GC": 40.0,  # Contenido mínimo de GC
    "PRIMER_MAX_GC": 60.0,  # Contenido máximo de GC
    "PRIMER_MAX_POLY_X": 5,  # Número máximo de repeticiones consecutivas de una base
    "PRIMER_MAX_SELF_ANY_TH": 47.0,  # Estabilidad máxima de autoemparejamiento
    "PRIMER_MAX_SELF_END_TH": 47.0,  # Estabilidad máxima de autoemparejamiento en el extremo 3'
    "PRIMER_PAIR_MAX_COMPL_ANY_TH": 24.0,  # Complementariedad máxima permitida entre los primers
    "PRIMER_PAIR_MAX_COMPL_END_TH": 30.0,  # Complementariedad máxima permitida entre los extremos 3' de los primers
    "PRIMER_MAX_HAIRPIN_TH": 47.0,  # Estabilidad máxima de horquilla
    "PRIMER_INTERNAL_MAX_HAIRPIN_TH": 47.0,  # Estabilidad máxima de horquilla interna
    "PRIMER_MAX_END_STABILITY": 100.0,  # Estabilidad máxima de los extremos
    "PRIMER_MIN_LEFT_THREE_PRIME_DISTANCE": -1,  # Distancia mínima permitida entre el extremo 3' del primer izquierdo y el extremo 3' del producto
    "PRIMER_MIN_RIGHT_THREE_PRIME_DISTANCE": -1  # Distancia mínima permitida entre el extremo 3' del primer derecho y el extremo 3' del producto
}

print("guide_length: ",guide_length)

# Diseñar primers usando primer3
for guide in guide_sites:
    primer_sequence = guide #+ pam_sequence
    print(len(primer_sequence))
    primer = {
        'SEQUENCE_ID': 'Guide',
        'SEQUENCE_TEMPLATE': target_sequence,
        'SEQUENCE_PRIMER': primer_sequence,
        #'PRIMER_PRODUCT_SIZE_RANGE': [[guide_length, guide_length]],
        'PRIMER_PRODUCT_SIZE_RANGE': [[20, 100]],
        'PRIMER_MAX_SIZE': 20 # Ajustar el tamaño máximo del primer
        #"PRIMER_OPT_SIZE": guide_length,  # Tamaño óptimo del primer
        #"PRIMER_MIN_SIZE": 5,  # Tamaño mínimo del primer
    }
    primer_results = primer3.designPrimers(primer, {})

    # Verificar si se generaron primers
    if 'PRIMER_LEFT' in primer_results and primer_results['PRIMER_LEFT'] and 'PRIMER_RIGHT' in primer_results and primer_results['PRIMER_RIGHT']:
        # Imprimir las secuencias generadas de guía RNA
        for i in range(len(primer_results['PRIMER_LEFT'])):
            left_primer = primer_results['PRIMER_LEFT'][i]['SEQUENCE']
            right_primer = primer_results['PRIMER_RIGHT'][i]['SEQUENCE']
            print(f"Primer izquierdo: {left_primer}")
            print(f"Primer derecho: {right_primer}")
    else:
        print("No se generaron primers.")



In [None]:
import primer3

# Calcular la temperatura de fusión de una secuencia específica
primer_sequence = 'GTAAAACGACGGCCAGT'
tm = primer3.calc_tm(primer_sequence)
print(f"Temperatura de fusión de '{primer_sequence}': {tm} °C")

# Cargar la secuencia objetivo para buscar sitios de guía RNA
target_sequence = "ATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTAATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGCGTACGTACGTACGTATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGA"

# Definir la longitud de la guía RNA y la secuencia PAM para SpCas9
guide_length = 20
pam_sequence = "ACG"

# Encontrar y mostrar posibles sitios de guía RNA en la secuencia objetivo
guide_sites = []
for i in range(len(target_sequence) - guide_length + 1):
    guide = target_sequence[i:i+guide_length]
    if guide.endswith(pam_sequence):
        guide_sites.append(guide)
        print(f"Posible sitio de guía RNA: {guide}")

# Definir argumentos globales para el diseño de primers
global_args = {
    # Ajustes de la temperatura de fusión, contenido de GC, y estabilidad
    "PRIMER_TM_FORMULA": 1,
    "PRIMER_SALT_CORRECTIONS": 1,
    "PRIMER_ANNEALING_TEMP": 50.0,
    "PRIMER_MIN_TM": 55.0,
    "PRIMER_MAX_TM": 65.0,
    "PRIMER_MIN_GC": 40.0,
    "PRIMER_MAX_GC": 60.0,
    "PRIMER_MAX_POLY_X": 5,
    "PRIMER_MAX_SELF_ANY_TH": 47.0,
    "PRIMER_MAX_SELF_END_TH": 47.0,
    "PRIMER_PAIR_MAX_COMPL_ANY_TH": 24.0,
    "PRIMER_PAIR_MAX_COMPL_END_TH": 30.0,
    "PRIMER_MAX_HAIRPIN_TH": 47.0,
    "PRIMER_INTERNAL_MAX_HAIRPIN_TH": 47.0,
    "PRIMER_MAX_END_STABILITY": 100.0,
    "PRIMER_MIN_LEFT_THREE_PRIME_DISTANCE": -1,
    "PRIMER_MIN_RIGHT_THREE_PRIME_DISTANCE": -1
}

# Diseñar primers para cada sitio de guía RNA encontrado
for guide in guide_sites:
    primer = {
        'SEQUENCE_ID': 'Guide',
        'SEQUENCE_TEMPLATE': target_sequence,
        'SEQUENCE_PRIMER': guide,
        'PRIMER_PRODUCT_SIZE_RANGE': [[20, 100]],
        'PRIMER_MAX_SIZE': 20
    }
    primer_results = primer3.designPrimers(primer, global_args)

    # Verificar y mostrar los primers generados
    if 'PRIMER_LEFT' in primer_results and primer_results['PRIMER_LEFT'] and 'PRIMER_RIGHT' in primer_results and primer_results['PRIMER_RIGHT']:
        for i in range(len(primer_results['PRIMER_LEFT'])):
            left_primer = primer_results['PRIMER_LEFT'][i]['SEQUENCE']
            right_primer = primer_results['PRIMER_RIGHT'][i]['SEQUENCE']
            print(f"Primer izquierdo: {left_primer}, Primer derecho: {right_primer}")
    else:
        print("No se generaron primers para la guía:", guide)

print("Longitud de la guía RNA:", guide_length)


In [None]:
import primer3

def ajustar_parametros_y_disenar_primers(seq_template, seq_primer, max_attempts=20):
    # Parámetros iniciales más flexibles
    temp_anillamiento = 60.0
    min_tm = 50.0
    max_tm = 70.0
    min_gc = 30.0
    max_gc = 70.0
    min_size = 18
    max_size = 25  # Asegúrate de que este valor es menor o igual al límite inferior de PRIMER_PRODUCT_SIZE_RANGE

    for intento in range(max_attempts):
        global_args = {
            "PRIMER_TM_FORMULA": 1,
            "PRIMER_SALT_CORRECTIONS": 1,
            "PRIMER_ANNEALING_TEMP": temp_anillamiento,
            "PRIMER_MIN_TM": min_tm,
            "PRIMER_MAX_TM": max_tm,
            "PRIMER_MIN_GC": min_gc,
            "PRIMER_MAX_GC": max_gc,
            # Ajustes adicionales pueden ser añadidos aquí
        }

        primer = {
            'SEQUENCE_ID': 'Guide',
            'SEQUENCE_TEMPLATE': seq_template,
            'SEQUENCE_PRIMER': seq_primer,
            'PRIMER_PRODUCT_SIZE_RANGE': [[20, 100]],
            'PRIMER_OPT_SIZE': 20,
            'PRIMER_MIN_SIZE': min_size,
            'PRIMER_MAX_SIZE': max_size
        }

        primer_results = primer3.designPrimers(primer, global_args)
        if 'PRIMER_LEFT' in primer_results and primer_results['PRIMER_LEFT']:
            return primer_results

        # Ajustar los parámetros para el próximo intento
        temp_anillamiento -= 2
        min_tm -= 2
        max_tm += 2
        min_gc -= 5
        max_gc += 5
        min_size -= 1
        max_size -= 1 if max_size > 20 else 0  # Evitar que max_size sea demasiado pequeño

    return None

# Secuencia objetivo y guía RNA
target_sequence = "ATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTAATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGCGTACGTACGTACGTATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGA"
guide_rna = "GATCGATCGATCGACGTACG"

# Intentar diseñar primers
resultados = ajustar_parametros_y_disenar_primers(target_sequence, guide_rna)
if resultados:
    for i in range(len(resultados['PRIMER_LEFT'])):
        left_primer = resultados['PRIMER_LEFT'][i]['SEQUENCE']
        right_primer = resultados['PRIMER_RIGHT'][i]['SEQUENCE']
        print(f"Primer izquierdo: {left_primer}")
        print(f"Primer derecho: {right_primer}")
else:
    print("No se pudieron generar primers con los parámetros dados.")



In [None]:
#ste código intentará diferentes configuraciones de temperatura de anillamiento, temperatura de fusión mínima y máxima, y contenido de GC mínimo y máximo. Si después de varios intentos no se encuentran primers, se mostrará un mensaje indicando que no se pudieron generar con los parámetros dados. E
import primer3

def ajustar_parametros_y_disenar_primers(seq_template, seq_primer, max_attempts=10):
    # Parámetros iniciales
    temp_anillamiento = 50.0
    min_tm = 55.0
    max_tm = 65.0
    min_gc = 40.0
    max_gc = 60.0

    for intento in range(max_attempts):
        global_args = {
            "PRIMER_TM_FORMULA": 1,
            "PRIMER_SALT_CORRECTIONS": 1,
            "PRIMER_ANNEALING_TEMP": temp_anillamiento,
            "PRIMER_MIN_TM": min_tm,
            "PRIMER_MAX_TM": max_tm,
            "PRIMER_MIN_GC": min_gc,
            "PRIMER_MAX_GC": max_gc,
            # Otros parámetros globales pueden ser ajustados aquí según sea necesario
        }

        primer = {
            'SEQUENCE_ID': 'Guide',
            'SEQUENCE_TEMPLATE': seq_template,
            'SEQUENCE_PRIMER': seq_primer,
            'PRIMER_PRODUCT_SIZE_RANGE': [[20, 100]],
            'PRIMER_MAX_SIZE': 20
        }

        primer_results = primer3.designPrimers(primer, global_args)
        if 'PRIMER_LEFT' in primer_results and primer_results['PRIMER_LEFT']:
            return primer_results

        # Ajustar los parámetros para el próximo intento
        temp_anillamiento -= 2
        min_tm -= 1
        max_tm += 1
        min_gc -= 2
        max_gc += 2

    return None

# Secuencia objetivo y guía RNA
target_sequence = "ATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTAATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGCGTACGTACGTACGTATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGA"
guide_rna = "GATCGATCGATCGACGTACG"

# Intentar diseñar primers
resultados = ajustar_parametros_y_disenar_primers(target_sequence, guide_rna)
if resultados:
    for i in range(len(resultados['PRIMER_LEFT'])):
        left_primer = resultados['PRIMER_LEFT'][i]['SEQUENCE']
        right_primer = resultados['PRIMER_RIGHT'][i]['SEQUENCE']
        print(f"Primer izquierdo: {left_primer}")
        print(f"Primer derecho: {right_primer}")
else:
    print("No se pudieron generar primers con los parámetros dados.")


# 3) Probamos guias

In [None]:
# busco guia a mano v1
from Bio import SeqIO

# Definir la secuencia objetivo
target_sequence = "ATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGTACGT"

# Definir la longitud de la guía RNA y la secuencia PAM para SpCas9
guide_length = 20
pam_sequence = "ACG"  # PAM sequence for SpCas9

# Encontrar posibles sitios de guía RNA que coincidan con la secuencia PAM
guide_sites = [target_sequence[i:i+guide_length]
               for i in range(len(target_sequence) - guide_length + 1)
               if target_sequence[i:i+guide_length].endswith(pam_sequence)]

# Imprimir las secuencias de guía RNA identificadas
for guide in guide_sites:
    print(f"Guide RNA: {guide}")


In [None]:
# busco guia a mano v2

import re
from Bio.Seq import Seq
from Bio.SeqUtils import MeltingTemp as mt, GC

# Definir la secuencia objetivo
target_sequence = "ATCGATCGATCGATCGATCGACGTACGTACGTACGTACGTACGTACGTACGTACGT"

# Definir la longitud de la guía RNA y la secuencia PAM para SpCas9
guide_length = 20
pam_sequence = "ACG"  # PAM sequence for SpCas9

# Función para encontrar posibles sitios de guía RNA que coincidan con la secuencia PAM
def find_guide_sites(sequence, guide_length, pam_sequence):
    pam_pattern = f'[ATGC]{{{guide_length - 3}}}{pam_sequence}'
    return [(m.start(), m.group()) for m in re.finditer(pam_pattern, sequence)]

# Función para evaluar guías
def evaluate_guides(guide_sites):
    for pos, guide in guide_sites:
        seq = Seq(guide)
        tm = mt.Tm_NN(seq)  # Calcula la temperatura de fusión
        gc_content = GC(seq)  # Calcula el contenido de GC
        print(f"Posición: {pos}, Guide RNA: {guide}, Tm: {tm:.2f}, GC%: {gc_content:.2f}")

# Encontrar y evaluar guías
guide_sites = find_guide_sites(target_sequence, guide_length, pam_sequence)
evaluate_guides(guide_sites)


In [None]:
# Este código simula la edición genética en una secuencia de ADN y analiza los cambios resultantes
# en la secuencia de proteínas y la frecuencia de codones.

import Bio
from Bio import SeqIO
from Bio.Seq import Seq
import pandas as pd
import matplotlib.pyplot as plt

# Define una secuencia genética y selecciona una guía de ARN para edición CRISPR-Cas9
gen_seq = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG")
guide_rna = gen_seq[10:30].transcribe() + Seq("NGG")

# Verifica la especificidad de la guía de ARN
matches = gen_seq.count(guide_rna.back_transcribe())
print("La guía de ARN es específica" if matches == 1 else "La guía de ARN no es específica")

# Simula la edición genética y traduce a proteínas
new_seq = Seq("ATCG")
edited_gen_seq = gen_seq[:10] + new_seq + gen_seq[30:]
old_protein = gen_seq.translate()
new_protein = edited_gen_seq.translate()
print("Proteína antigua: ", old_protein)
print("Proteína nueva: ", new_protein)

# Cuenta y compara la frecuencia de codones antes y después de la edición
old_codons = [str(gen_seq[i:i+3]) for i in range(0, len(gen_seq), 3)]
new_codons = [str(edited_gen_seq[i:i+3]) for i in range(0, len(edited_gen_seq), 3)]
old_codon_counts = pd.Series(old_codons).value_counts()
new_codon_counts = pd.Series(new_codons).value_counts()

# Visualiza la comparación de la frecuencia de codones
plt.bar(old_codon_counts.index, old_codon_counts.values, alpha=0.5, label='Antes')
plt.bar(new_codon_counts.index, new_codon_counts.values, alpha=0.5, label='Después')
plt.xlabel('Codones')
plt.ylabel('Frecuencia')
plt.title('Frecuencia de Codones Antes y Después de la Edición Genética')
plt.legend()
plt.show()

# Calcula y muestra la diferencia en la frecuencia de codones
codon_difference = new_codon_counts.subtract(old_codon_counts, fill_value=0)
print("\nDiferencia en la frecuencia de codones después de la edición:")
print(codon_difference)

# Comparar la longitud de las proteínas antes y después de la edición
print(f"\nLongitud de la proteína antes de la edición: {len(old_protein)}")
print(f"Longitud de la proteína después de la edición: {len(new_protein)}")


In [None]:
import Bio
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
import pandas as pd

# Función para descargar la secuencia del gen desde NCBI
def download_seq(email, gen_id):
    Entrez.email = email
    handle = Entrez.efetch(db="nucleotide", id=gen_id, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    return record.seq

# Función para diseñar la guía de ARN
def design_guide_rna(seq):
    guide_rna = seq[10:30].transcribe() + Seq("NGG")
    return guide_rna

# Función para verificar la especificidad de la guía de ARN
def verify_specificity(gen_seq, guide_rna):
    matches = gen_seq.count(guide_rna.back_transcribe())
    return matches == 1

# Función para simular la edición de genes
def simulate_editing(gen_seq, new_seq):
    edited_gen_seq = gen_seq[:10] + new_seq + gen_seq[30:]
    return edited_gen_seq

# Función para analizar los resultados
def analyze_results(old_seq, new_seq):
    old_protein = old_seq.translate()
    new_protein = new_seq.translate()
    return old_protein, new_protein

# Empezamos el proyecto
gen_seq = download_seq("your_email@example.com", "NC_001526.4")  # Reemplaza esto con tu correo y el ID del gen
guide_rna = design_guide_rna(gen_seq)

if verify_specificity(gen_seq, guide_rna):
    print("La guía de ARN es específica")
else:
    print("La guía de ARN no es específica")

new_seq = Seq("ATCG")
edited_gen_seq = simulate_editing(gen_seq, new_seq)

old_protein, new_protein = analyze_results(gen_seq, edited_gen_seq)

print("Proteína antigua: ", old_protein)
print("Proteína nueva: ", new_protein)

In [None]:
# Importaciones necesarias
import matplotlib.pyplot as plt
import numpy as np
from Bio.Seq import Seq
from Bio.SeqUtils import GC

# Función para generar todas las posibles guías de ARN de 20 nt de longitud
def generate_guides(dna_seq):
    if not isinstance(dna_seq, Seq):
        raise ValueError("La secuencia de entrada debe ser un objeto Bio.Seq.Seq")
    guides = []
    for i in range(len(dna_seq) - 22):  # Cambiado a 22 para incluir el PAM
        seq = dna_seq[i:i+23]
        if seq[-2:] == 'GG':  # Buscamos secuencias que terminen en 'GG'
            guides.append(str(seq[:20]))  # Asegurarse de que la guía es una cadena
    return guides

# Función para simular edición de genes
def simulate_edit(dna_seq, guide):
    if guide not in dna_seq:
        raise ValueError("La guía no se encuentra en la secuencia de ADN proporcionada.")
    # Simulación de la edición de genes mediante la eliminación de la secuencia objetivo
    return dna_seq.replace(guide + 'NGG', '')  # Corregido para usar 'NGG'

# Función para visualizar los resultados
def plot_results(before, after):
    labels = ['Antes', 'Después']
    gc_contents = [GC(before), GC(after)]
    plt.bar(labels, gc_contents, color=['blue', 'orange'])
    plt.ylabel('Contenido de GC (%)')
    plt.title('Comparación de Contenido de GC antes y después de la Edición Genética')
    for i, gc_content in enumerate(gc_contents):
        plt.text(i, gc_content, f'{gc_content:.2f}%', ha='center')
    plt.ylim(0, 100)  # Asegurarse de que la escala es porcentual
    plt.show()

# Secuencia de ejemplo del gen de interés
dna_seq = Seq("ATGGCCATTGTAATGGGCCGCTGACGGGCCGCTGATTGTATTGTAATGGGCAATGGGCCGCTGAAAGGGTGAAGGGTGCCCGATAG")

# Generar todas las posibles guías de ARN
guides = generate_guides(dna_seq)
print(f'Generated {len(guides)} guides.')
for i in guides:
  print(i)
# Elegir una guía al azar para la edición si hay guías disponibles
if guides:
    chosen_guide = np.random.choice(guides)
    print(f'Chosen guide: {chosen_guide}')

    # Simular edición de genes
    edited_dna_seq = simulate_edit(dna_seq, chosen_guide)

    # Visualizar los resultados
    plot_results(dna_seq, edited_dna_seq)
else:
    print("No se generaron guías. Verifique la secuencia de ADN.")



In [None]:
import Bio
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
import pandas as pd

# Este código simula la edición genética utilizando la tecnología CRISPR-Cas9.
# Descarga una secuencia de gen desde NCBI, diseña una guía de ARN, verifica su especificidad,
# realiza una edición genética y analiza los cambios en la secuencia de proteínas.

# Función para descargar la secuencia del gen desde NCBI
def download_seq(email, gen_id):
    Entrez.email = email
    handle = Entrez.efetch(db="nucleotide", id=gen_id, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    handle.close()
    return record.seq

# Función para diseñar la guía de ARN para CRISPR-Cas9
def design_guide_rna(seq):
    # Selecciona una subsecuencia de 20 nucleótidos y añade la secuencia PAM (NGG)
    guide_rna = seq[10:30].transcribe() + Seq("NGG")
    return guide_rna

# Función para verificar la especificidad de la guía de ARN
def verify_specificity(gen_seq, guide_rna):
    # Cuenta cuántas veces la secuencia de la guía aparece en el gen
    matches = gen_seq.count(guide_rna.back_transcribe())
    return matches == 1

# Función para simular la edición de genes mediante CRISPR-Cas9
def simulate_editing(gen_seq, new_seq):
    # Reemplaza una sección del gen con una nueva secuencia
    edited_gen_seq = gen_seq[:10] + new_seq + gen_seq[30:]
    return edited_gen_seq

# Función para analizar los resultados de la edición
def analyze_results(old_seq, new_seq):
    # Traduce las secuencias de ADN a proteínas
    old_protein = old_seq.translate()
    new_protein = new_seq.translate()
    return old_protein, new_protein

# Descarga la secuencia del gen y diseña la guía de ARN
gen_seq = download_seq("your_email@example.com", "NC_001526.4")  # Cambia con tus datos
guide_rna = design_guide_rna(gen_seq)

# Verifica la especificidad de la guía y realiza la edición genética
if verify_specificity(gen_seq, guide_rna):
    print("La guía de ARN es específica")
else:
    print("La guía de ARN no es específica")

new_seq = Seq("ATCG")
edited_gen_seq = simulate_editing(gen_seq, new_seq)

# Analiza y muestra los resultados de la edición
old_protein, new_protein = analyze_results(gen_seq, edited_gen_seq)
print("Proteína antigua: ", old_protein)
print("Proteína nueva: ", new_protein)


In [None]:
import Bio
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
from Bio.SeqUtils import GC
import matplotlib.pyplot as plt
import pandas as pd

# Este código simula la edición genética utilizando CRISPR-Cas9 y visualiza las guías de ARN.

# Función para descargar la secuencia del gen desde NCBI
def download_seq(email, gen_id):
    Entrez.email = email
    handle = Entrez.efetch(db="nucleotide", id=gen_id, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    handle.close()
    return record.seq

# Función para diseñar la guía de ARN para CRISPR-Cas9
def design_guide_rna(seq, guide_length=20):
    # Asegúrate de que la guía diseñada esté dentro de la secuencia
    guide_rna = seq[10:30].transcribe() + Seq("NGG")
    return guide_rna

# Función mejorada para verificar la especificidad de la guía de ARN
def verify_specificity(gen_seq, guide_rna):
    # Contar cuántas veces aparece la guía en la secuencia
    match_count = gen_seq.count(guide_rna.back_transcribe())
    # Consideramos específica si hay exactamente 1 coincidencia
    return match_count == 1, match_count

# Función para simular la edición de genes
def simulate_editing(gen_seq, new_seq):
    edited_gen_seq = gen_seq[:10] + new_seq + gen_seq[30:]
    return edited_gen_seq

# Función para analizar los resultados
def analyze_results(old_seq, new_seq):
    old_protein = old_seq.translate()
    new_protein = new_seq.translate()
    return old_protein, new_protein

# Función para obtener y visualizar todas las guías de RNA potenciales
def visualize_guide_rnas(sequence, guide_length=20):
    plt.figure(figsize=(10, 6))
    for i in range(len(sequence) - guide_length + 1):
        guide_seq = sequence[i:i + guide_length]
        plt.plot(i, GC(Seq(guide_seq)), 'bo')  # 'bo' indica un marcador azul
    plt.xlabel('Posición en la Secuencia')
    plt.ylabel('Contenido de GC (%)')
    plt.title('Visualización de Guías de RNA Potenciales en la Secuencia Genética')
    plt.show()

# Descarga la secuencia del gen y diseña la guía de ARN
gen_seq = download_seq("your_email@example.com", "NC_001526.4")
guide_rna = design_guide_rna(gen_seq)

# Verifica la especificidad de la guía
print(guide_rna)
is_specific, match_count = verify_specificity(gen_seq, guide_rna)
print(f"La guía de ARN {'es' if is_specific else 'no es'} específica. Coincidencias encontradas: {match_count}")

# Visualizar todas las guías potenciales en la secuencia genética
visualize_guide_rnas(gen_seq)

# Simula la edición de genes y analiza los resultados
new_seq = Seq("ATCG")
edited_gen_seq = simulate_editing(gen_seq, new_seq)
old_protein, new_protein = analyze_results(gen_seq, edited_gen_seq)

print("Proteína antigua: ", old_protein)
print("Proteína nueva: ", new_protein)


In [None]:
#Descarga la secuencia de un gen desde NCBI.
#Genera todas las posibles guías de ARN para la edición CRISPR-Cas9.
#Verifica la especificidad de estas guías y selecciona una aleatoriamente.
#Simula la edición genética y analiza los resultados en términos de proteínas y codones.
#Muestra visualmente los cambios en los codones y en el contenido de GC antes y después de la edición genética.

import Bio
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
from Bio.SeqUtils import GC
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Descarga la secuencia de un gen desde NCBI
def download_seq(email, gen_id):
    Entrez.email = email
    handle = Entrez.efetch(db="nucleotide", id=gen_id, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    handle.close()
    return record.seq

# Genera todas las posibles guías de ARN de 20 nt de longitud
def generate_guides(dna_seq):
    guides = []
    for i in range(len(dna_seq) - 22):
        seq = dna_seq[i:i+23]
        if seq[-2:] == 'GG':  # Secuencia PAM para SpCas9
            guides.append(str(seq[:20]))
    return guides

# Verifica la especificidad de cada guía de ARN
def verify_specificity(gen_seq, guide_rna):
    matches = gen_seq.count(guide_rna)
    return matches == 1

# Simula la edición de genes mediante CRISPR-Cas9
def simulate_editing(gen_seq, new_seq):
    return gen_seq[:10] + new_seq + gen_seq[30:]

# Analiza las proteínas y los codones antes y después de la edición
def analyze_results(old_seq, new_seq):
    old_protein = old_seq.translate()
    new_protein = new_seq.translate()
    return old_protein, new_protein, count_codons(old_seq), count_codons(new_seq)

# Genera y cuenta los codones
def count_codons(seq):
    return pd.Series([str(seq[i:i+3]) for i in range(0, len(seq), 3)]).value_counts()

# Proceso principal
gen_seq = download_seq("your_email@example.com", "NC_001526.4")
guides = generate_guides(gen_seq)
specific_guides = [guide for guide in guides if verify_specificity(gen_seq, guide)]

if specific_guides:
    chosen_guide = np.random.choice(specific_guides)
    print(f"Guía de ARN elegida: {chosen_guide}")
else:
    print("No se encontraron guías específicas.")

new_seq = Seq("ATCG")
edited_gen_seq = simulate_editing(gen_seq, new_seq)
old_protein, new_protein, old_codon_counts, new_codon_counts = analyze_results(gen_seq, edited_gen_seq)

print("Proteína antigua: ", old_protein)
print("Proteína nueva: ", new_protein)
print("Codones antes de la edición: ", old_codon_counts)
print("Codones después de la edición: ", new_codon_counts)

# Visualización gráfica de los cambios
plt.figure(figsize=(10, 5))
plt.bar(old_codon_counts.index, old_codon_counts.values, alpha=0.5, label='Antes')
plt.bar(new_codon_counts.index, new_codon_counts.values, alpha=0.5, label='Después')
plt.xticks(rotation=90)
plt.ylabel('Frecuencia')
plt.title('Comparación de Codones Antes y Después de la Edición Genética')
plt.legend()
plt.tight_layout()
plt.show()

# Visualización del contenido de GC
gc_content_before = GC(gen_seq)
gc_content_after = GC(edited_gen_seq)
plt.figure()
plt.bar(["Antes", "Después"], [gc_content_before, gc_content_after], color=['blue', 'orange'])
plt.ylabel('Contenido de GC (%)')
plt.title('Contenido de GC Antes y Después de la Edición Genética')
plt.show()


In [None]:
# Este código descarga secuencias genéticas desde NCBI, genera guías de ARN para CRISPR-Cas9,
#y selecciona las mejores basadas en su contenido de GC, optimizando así la edición genética

import Bio
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
from Bio.SeqUtils import GC

# Descarga la secuencia de un gen desde NCBI
def download_seq(email, gen_id):
    Entrez.email = email
    handle = Entrez.efetch(db="nucleotide", id=gen_id, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    handle.close()
    return record.seq

# Genera guías de ARN de 20 nt para CRISPR-Cas9
def generate_guides(dna_seq):
    guides = []
    for i in range(len(dna_seq) - 22):
        seq = dna_seq[i:i+23]
        if seq[-2:] == 'GG':  # Secuencia PAM para SpCas9
            guide = str(seq[:20])
            guides.append(guide)
    return guides

# Evalúa la eficiencia de corte de las guías según contenido de GC
def score_guides_by_gc_content(guides):
    scored_guides = {}
    for guide in guides:
        gc_score = GC(Seq(guide))
        if 40 <= gc_score <= 60:  # Rango óptimo de contenido de GC
            scored_guides[guide] = gc_score
    return scored_guides

# Selecciona las 10 mejores guías según el contenido de GC
def select_best_guides_by_gc_score(scored_guides):
    sorted_guides = sorted(scored_guides.items(), key=lambda item: item[1], reverse=True)
    return sorted_guides[:10]

# Proceso principal
email = "your_email@example.com"  # Reemplaza con tu correo
gen_id = "NC_001526.4"  # Reemplaza con el ID del gen
gen_seq = download_seq(email, gen_id)

guides = generate_guides(gen_seq)
scored_guides = score_guides_by_gc_content(guides)
best_guides = select_best_guides_by_gc_score(scored_guides)

# Imprime información sobre las guías generadas y seleccionadas
print(f'Total guides generated: {len(guides)}')
print(f'Guides scored by GC content: {len(scored_guides)}')
print(f'Best guides selected by GC score: {len(best_guides)}')

for guide, score in best_guides:
    print(f'Guide: {guide}, GC Score: {score}')


Predicción de la eficiencia de corte: Utilizar un modelo predictivo simple basado en características conocidas que afectan la eficiencia de corte, como el contenido de GC, la presencia de poli-T, y la temperatura de fusión (Tm).

Especificidad de la guía: Verificar la especificidad de la guía contra una base de datos de secuencias genómicas para minimizar los cortes fuera del blanco.

Búsqueda de motivos: Buscar en la secuencia genómica la presencia de motivos específicos, como sitios de unión a factores de transcripción o regiones reguladoras, para evitar o dirigir la edición a estas áreas.

Integración con bases de datos externas: Conectar con bases de datos como ENSEMBL o UCSC Genome Browser para obtener información adicional sobre las regiones genómicas de interés.

Análisis de la estructura secundaria del ARN: Evaluar la estructura secundaria del ARN guía para predecir su accesibilidad y eficiencia de corte

In [None]:
import Bio
from Bio import SeqIO, Entrez
from Bio.Seq import Seq
from Bio.SeqUtils import GC, MeltingTemp as mt
import numpy as np
import requests

# Descarga secuencias genéticas desde NCBI
def download_seq(email, gen_id):
    Entrez.email = email
    handle = Entrez.efetch(db="nucleotide", id=gen_id, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    handle.close()
    return record.seq

# Genera guías de ARN para CRISPR-Cas9
def generate_guides(dna_seq):
    guides = []
    for i in range(len(dna_seq) - 22):
        seq = dna_seq[i:i+23]
        if seq[-2:] == 'GG':  # Secuencia PAM para SpCas9
            guide = str(seq[:20])
            guides.append(guide)
    return guides

# Evalúa eficiencia de corte y especificidad de las guías
def score_guides(guides, dna_seq):
    scored_guides = []
    for guide in guides:
        gc_content = GC(Seq(guide))
        tm = mt.Tm_NN(Seq(guide))
        poly_t = guide.count('TTTT')
        specificity = dna_seq.count(guide) == 1
        score = (gc_content / 100 * 40) + (tm / 85 * 60) - (poly_t * 5) + (specificity * 20)
        scored_guides.append((guide, score, gc_content, tm, specificity))
    return scored_guides

# Selecciona las 10 mejores guías según su puntuación
def select_best_guides(scored_guides):
    sorted_guides = sorted(scored_guides, key=lambda x: x[1], reverse=True)
    return sorted_guides[:10]

# Proceso principal
email = "your_email@example.com"  # Reemplaza con tu correo
gen_id = "NC_001526.4"  # Reemplaza con el ID del gen
gen_seq = download_seq(email, gen_id)

guides = generate_guides(gen_seq)
scored_guides = score_guides(guides, gen_seq)
best_guides = select_best_guides(scored_guides)

# Imprime información detallada sobre las guías generadas y seleccionadas
print(f'Total guides generated: {len(guides)}')
print(f'Guides scored: {len(scored_guides)}')
print(f'Best guides selected: {len(best_guides)}')

for guide, score, gc_content, tm, specificity in best_guides:
    print(f'Guide: {guide}, Score: {score}, GC%: {gc_content:.2f}, Tm: {tm:.2f}, Specificity: {"Yes" if specificity else "No"}')


In [None]:
# Este código evalúa guías de ARN para CRISPR-Cas9, considerando el contenido de GC,
# la presencia de secuencias poli-T, la temperatura de fusión (Tm), y la estabilidad de la estructura secundaria.

from Bio.SeqUtils import GC
from Bio.SeqUtils.MeltingTemp import Tm_NN

# Evalúa la presencia de secuencias poli-T en la guía de ARN
def has_polyt(sequence, threshold=4):
    return 'T' * threshold in sequence

# Calcula la temperatura de fusión de la guía de ARN
def calculate_tm(guide_rna):
    return Tm_NN(guide_rna)

# Estima la estabilidad de la estructura secundaria del ARN
def estimate_structure_stability(guide_rna):
    # Simplificación para el propósito educativo: se podría utilizar un algoritmo más complejo aquí.
    return "Estable" if "GGGG" not in guide_rna and "CCCC" not in guide_rna else "Inestable"

# Puntúa la guía de ARN basada en GC, poli-T, Tm, y estabilidad estructural
def score_guide(guide_rna):
    gc_content = GC(guide_rna)
    polyt_present = has_polyt(guide_rna)
    tm = calculate_tm(guide_rna)
    structure_stability = estimate_structure_stability(guide_rna)

    gc_weight = 0.6
    polyt_weight = -1.0 if polyt_present else 0
    tm_weight = 0.4
    stability_weight = 0.5 if structure_stability == "Estable" else -0.5

    normalized_gc = (gc_content - 50) / 50
    normalized_tm = (tm - 60) / 20

    score = (normalized_gc * gc_weight) + (normalized_tm * tm_weight) + polyt_weight + stability_weight
    return score, polyt_present, structure_stability

# Ejemplo de uso
guide_rna = "GGGCGACCCUGAUGGGCGACCCUGA"
score, polyt_present, structure_stability = score_guide(guide_rna)
print(f"Guía: {guide_rna}, Puntaje: {score:.2f}, Poli-T presente: {'Sí' if polyt_present else 'No'}, Estabilidad estructural: {structure_stability}")


Para verificar la especificidad de una guía CRISPR, es necesario buscar coincidencias de la secuencia de la guía en una base de datos genómica y asegurarse de que solo se dirige al sitio deseado. Esto se hace para minimizar los cortes fuera del blanco, que pueden llevar a efectos no deseados.

 especificidad de una guía CRISPR no depende del código que escribas, sino de la secuencia de la guía en sí y su presencia en el genoma o la base de datos contra la que la estás comparando. Si la guía que has elegido no es específica, significa que hay más de una coincidencia en el genoma para esa secuencia, lo que podría llevar a cortes fuera del blanco.

Para mejorar la especificidad de una guía CRISPR, puedes seguir estos pasos:

Diseño de la guía: Asegúrate de que la secuencia de la guía sea única dentro del genoma de interés. Esto generalmente implica seleccionar una secuencia que solo se encuentre en la región que deseas editar y no en otras partes del genoma.

Búsqueda de secuencias similares: Utiliza herramientas bioinformáticas para buscar en el genoma secuencias similares a tu guía. Herramientas como BLAST pueden ayudarte a encontrar secuencias que tengan una alta similitud con tu guía.

Permitir desajustes: Algunas herramientas permiten especificar un número de desajustes permitidos. Esto puede ayudarte a encontrar secuencias que sean lo suficientemente diferentes de tu guía como para no ser cortadas, pero lo suficientemente similares como para ser detectadas por la búsqueda.

Uso de herramientas especializadas: Existen herramientas especializadas en el diseño de guías CRISPR que tienen en cuenta la especificidad, como CRISPOR, Benchling, o CHOPCHOP. Estas herramientas utilizan algoritmos avanzados para evaluar la especificidad de las guías y pueden sugerir las más adecuadas.

Análisis de off-targets: Después de seleccionar una guía, puedes usar herramientas que predicen potenciales sitios fuera del blanco (off-targets) para esa guía en particular. Estas herramientas pueden ayudarte a estimar el riesgo de cortes no deseados.

Experimentación: Finalmente, la validación experimental es crucial. Las guías que parecen ser específicas en el análisis bioinformático deben ser probadas en el laboratorio para confirmar que no causan efectos fuera del blanco.



In [None]:
# Este código realiza una búsqueda detallada de guías de ARN en bases de datos genómicas,
# evaluando su especificidad, contenido de GC, temperatura de fusión y potenciales objetivos fuera de blanco.

from Bio import Entrez, SeqIO
from Bio.SeqUtils import GC, MeltingTemp as mt
import matplotlib.pyplot as plt

# Configura tu correo electrónico para uso de NCBI Entrez
Entrez.email = "your.email@example.com"

# Busca coincidencias de la guía en la base de datos genómica
def search_genomic_database(guide_rna, database="nucleotide", organism="Homo sapiens"):
    search_term = f"{guide_rna}[Sequence] AND {organism}[Organism]"
    handle = Entrez.esearch(db=database, term=search_term, retmax=10)
    record = Entrez.read(handle)
    handle.close()
    return record["IdList"]

# Verifica la especificidad de la guía
def check_guide_specificity(guide_rna, target_sequence_id):
    matches = search_genomic_database(guide_rna)
    return len(matches) == 1 and matches[0] == target_sequence_id

# Evalúa características adicionales de la guía de ARN
def evaluate_guide(guide_rna):
    gc_content = GC(guide_rna)
    tm = mt.Tm_NN(guide_rna)
    return gc_content, tm

# Visualiza los resultados
def plot_results(gc_content, tm):
    plt.bar(["GC Content", "Melting Temperature"], [gc_content, tm])
    plt.ylabel('Values')
    plt.title('Guide RNA Evaluation')
    plt.ylim(0, 100)
    plt.show()

# Proceso principal
guide_rna = "GGGCGACCCUGAUGGGCGACCCUGA"
target_sequence_id = "NC_000001"

is_specific = check_guide_specificity(guide_rna, target_sequence_id)
gc_content, tm = evaluate_guide(guide_rna)

print(f"La guía {'es' if is_specific else 'no es'} específica.")
print(f"Contenido de GC: {gc_content:.2f}%, Temperatura de fusión: {tm:.2f}°C")

# Visualizar resultados
plot_results(gc_content, tm)

# Buscar posibles objetivos fuera de blanco
off_target_ids = search_genomic_database(guide_rna, organism="Homo sapiens")
print("Potenciales objetivos fuera de blanco:", off_target_ids if off_target_ids else "Ninguno")


La búsqueda de motivos en una secuencia genómica es un proceso que implica identificar patrones de secuencia específicos que son significativos biológicamente, como los sitios de unión a factores de transcripción o regiones reguladoras. Para realizar esta tarea, se pueden utilizar expresiones regulares en Python, que permiten buscar patrones específicos dentro de una secuencia de ADN.

In [None]:
import re
from Bio.Seq import Seq

# Función para buscar motivos en una secuencia
def search_motifs(dna_seq, motif_pattern):
    """
    Busca un motivo dado en la secuencia de ADN.

    :param dna_seq: Secuencia de ADN (objeto Seq o cadena de texto)
    :param motif_pattern: Patrón del motivo a buscar (expresión regular)
    :return: Lista de tuplas con la posición de inicio y la secuencia del motivo encontrado
    """
    if not isinstance(dna_seq, Seq) and not isinstance(dna_seq, str):
        raise ValueError("La secuencia de entrada debe ser un objeto Bio.Seq.Seq o una cadena de texto")

    # Convertir la secuencia a una cadena si es un objeto Seq
    if isinstance(dna_seq, Seq):
        dna_seq = str(dna_seq)

    # Buscar todos los motivos que coincidan con el patrón en la secuencia
    matches = re.finditer(motif_pattern, dna_seq)

    # Crear una lista de tuplas con la posición de inicio y la secuencia del motivo
    motif_locations = [(match.start(), match.group()) for match in matches]

    return motif_locations

# Ejemplo de uso
dna_sequence = "ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG"
motif = "AATG"  # Este es un ejemplo de un motivo simple, reemplázalo con el patrón real que estás buscando

# Buscar el motivo en la secuencia
motif_locations = search_motifs(dna_sequence, motif)

# Imprimir los resultados
for location in motif_locations:
    print(f"Motivo encontrado en la posición {location[0]}: {location[1]}")


In [None]:
# Este código realiza una búsqueda avanzada de motivos en secuencias de ADN,
# identifica secuencias palindrómicas y visualiza las ubicaciones de los motivos encontrados.

import re
from Bio.Seq import Seq
import matplotlib.pyplot as plt

# Función para buscar motivos en una secuencia de ADN
def search_motifs(dna_seq, motif_pattern):
    # Verificar tipo de entrada
    if not isinstance(dna_seq, Seq) and not isinstance(dna_seq, str):
        raise ValueError("La secuencia de entrada debe ser un objeto Seq o una cadena de texto")

    # Convertir Seq a cadena si es necesario
    dna_seq = str(dna_seq) if isinstance(dna_seq, Seq) else dna_seq

    # Encontrar coincidencias con el patrón del motivo
    matches = re.finditer(motif_pattern, dna_seq)
    return [(match.start(), match.group()) for match in matches]

# Función para identificar secuencias palindrómicas
def find_palindromes(motif_locations):
    return [loc for loc in motif_locations if loc[1] == str(Seq(loc[1]).reverse_complement())]

# Visualizar ubicaciones de motivos
def plot_motif_locations(motif_locations, dna_length):
    positions = [loc[0] for loc in motif_locations]
    plt.scatter(positions, [1]*len(positions), marker='|')
    plt.xlim(0, dna_length)
    plt.ylim(0, 2)
    plt.title('Ubicaciones de Motivos en la Secuencia de ADN')
    plt.xlabel('Posición en la Secuencia')
    plt.yticks([])
    plt.show()

# Ejemplo de uso
dna_sequence = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGAATGCCCGATAATGAG")
motif_pattern = "AATG"  # Ejemplo de un motivo, reemplázalo con tu patrón

# Buscar motivos
motif_locations = search_motifs(dna_sequence, motif_pattern)

# Identificar palíndromos
palindromes = find_palindromes(motif_locations)

# Imprimir resultados y palíndromos
print(f"Motivos encontrados: {len(motif_locations)}")
for location in motif_locations:
    print(f"Motivo encontrado en la posición {location[0]}: {location[1]}")
print(f"Palíndromos encontrados: {len(palindromes)}")

# Visualizar ubicaciones de los motivos
plot_motif_locations(motif_locations, len(dna_sequence))


In [None]:
# Este código utiliza la API de ENSEMBL para obtener información de genes en una región genómica,
# realizando análisis detallados y visualizaciones de la distribución de genes.

import requests
import json
import matplotlib.pyplot as plt

# Función para obtener información de genes desde ENSEMBL
def get_ensembl_genes(species, chromosome, start, end, server="https://rest.ensembl.org"):
    # Construcción de la URL de solicitud
    ext = f"/overlap/region/{species}/{chromosome}:{start}-{end}?feature=gene;content-type=application/json"
    response = requests.get(server+ext, headers={"Content-Type": "application/json"})

    # Manejo de errores en la solicitud
    if not response.ok:
        response.raise_for_status()
        return None

    return response.json()

# Función para analizar y resumir la información de genes
def analyze_genes(genes_data):
    gene_count = len(genes_data)
    gene_lengths = [gene['end'] - gene['start'] for gene in genes_data]
    avg_length = sum(gene_lengths) / gene_count if gene_count else 0

    return gene_count, avg_length, gene_lengths

# Función para visualizar la distribución de longitudes de genes
def plot_gene_lengths(gene_lengths):
    plt.hist(gene_lengths, bins=20, color='blue', alpha=0.7)
    plt.title('Distribución de Longitudes de Genes')
    plt.xlabel('Longitud del Gen')
    plt.ylabel('Frecuencia')
    plt.show()

# Ejemplo de uso
species = "homo_sapiens"
chromosome = "13"
start = 32889611
end = 32973805

# Obtener información de genes
ensembl_genes = get_ensembl_genes(species, chromosome, start, end)

# Analizar y resumir la información de genes
gene_count, avg_length, gene_lengths = analyze_genes(ensembl_genes)
print(f"Total de genes encontrados: {gene_count}")
print(f"Longitud promedio de los genes: {avg_length:.2f} bp")

# Visualizar la distribución de longitudes de genes
plot_gene_lengths(gene_lengths)


In [None]:
# Este código utiliza la API de ENSEMBL para obtener información genética de una región específica,
# busca secuencias guía y motivos en la secuencia genómica, y analiza los genes en esa región.

import requests
import re
import json
import matplotlib.pyplot as plt

# Obtener secuencia genómica de una región específica
def get_genomic_sequence(species, chromosome, start, end, server="https://rest.ensembl.org"):
    ext = f"/sequence/region/{species}/{chromosome}:{start}-{end}?content-type=text/plain"
    response = requests.get(server+ext)

    if not response.ok:
        response.raise_for_status()
        return None

    return response.text

# Buscar secuencias guía o motivos en la secuencia genómica
def search_sequence(sequence, pattern):
    return [match for match in re.finditer(pattern, sequence)]

# Obtener información de genes desde ENSEMBL
def get_ensembl_genes(species, chromosome, start, end, server="https://rest.ensembl.org"):
    ext = f"/overlap/region/{species}/{chromosome}:{start}-{end}?feature=gene;content-type=application/json"
    response = requests.get(server+ext, headers={"Content-Type": "application/json"})

    if not response.ok:
        response.raise_for_status()
        return None

    return response.json()

# Analizar y visualizar la información de genes
def analyze_and_plot_genes(genes_data):
    gene_lengths = [gene['end'] - gene['start'] for gene in genes_data]
    plt.hist(gene_lengths, bins=20, color='blue', alpha=0.7)
    plt.title('Distribución de Longitudes de Genes')
    plt.xlabel('Longitud del Gen')
    plt.ylabel('Frecuencia')
    plt.show()

# Ejemplo de uso
species = "homo_sapiens"
chromosome = "13"
start = 32889611
end = 32973805

# Obtener la secuencia genómica
sequence = get_genomic_sequence(species, chromosome, start, end)

# Ejemplo educativo de una secuencia guía
guide_rna = "GGG"  # Secuencia guía de ejemplo simple
guide_matches = search_sequence(sequence, guide_rna)
print(f"Secuencia guía encontrada {len(guide_matches)} veces en la región genómica.")

# Ejemplo educativo de un motivo
motif = "ATG"  # Motivo de inicio de codificación genética, común en muchas secuencias
motif_matches = search_sequence(sequence, motif)
print(f"Motivo '{motif}' encontrado {len(motif_matches)} veces en la región genómica.")

# Obtener y analizar información de genes
genes_data = get_ensembl_genes(species, chromosome, start, end)
analyze_and_plot_genes(genes_data)


# 4) Pruebas estructura secuendias

El análisis de la estructura secundaria del ARN es un proceso complejo que generalmente requiere de herramientas especializadas como RNAfold, que forma parte del paquete ViennaRNA. Estas herramientas no están disponibles directamente en Python, pero puedes utilizar la interfaz de línea de comandos para ejecutarlas desde un script de Python.

In [None]:
#Este código proporciona un análisis completo de la secuencia de ARN,
#incluyendo el contenido de GC, la longitud, la estructura secundaria y la energía libre mínima.
import subprocess
from Bio.SeqUtils import GC
import matplotlib.pyplot as plt

def is_rnafold_available():
    """
    Verifica si RNAfold está instalado y accesible.
    """
    try:
        subprocess.run(['RNAfold', '--version'], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
        return True
    except FileNotFoundError:
        return False

def analyze_rna_sequence(rna_sequence):
    """
    Evalúa características básicas de una secuencia de ARN.
    """
    gc_content = GC(rna_sequence)
    sequence_length = len(rna_sequence)
    return gc_content, sequence_length

def analyze_rna_structure(rna_sequence):
    """
    Evalúa la estructura secundaria del ARN utilizando RNAfold.
    """
    process = subprocess.run(['RNAfold'], input=rna_sequence.encode(), stdout=subprocess.PIPE, stderr=subprocess.PIPE)
    output = process.stdout.decode()
    structure, energy = output.strip().split('\n')
    energy = energy.split(' (')[1].split(')')[0]
    return structure, energy

def plot_rna_features(gc_content, sequence_length, structure):
    """
    Genera visualizaciones de las características de la secuencia de ARN.
    """
    plt.figure(figsize=(12, 6))

    # Gráfico de barras para el contenido de GC y la longitud de la secuencia
    plt.subplot(1, 2, 1)
    plt.bar(['GC Content (%)', 'Sequence Length (nt)'], [gc_content, sequence_length], color=['blue', 'orange'])
    plt.ylabel('Value')

    # Gráfico de barras para la estructura secundaria del ARN
    plt.subplot(1, 2, 2)
    pairs = structure.count('(') + structure.count(')')
    unpaired = structure.count('.')
    plt.bar(['Pares de Bases', 'No Apareadas'], [pairs, unpaired], color=['green', 'red'])
    plt.ylabel('Cantidad')
    plt.title('Estructura Secundaria del ARN')

    plt.suptitle('RNA Sequence Analysis')
    plt.tight_layout()
    plt.show()

def analyze_and_plot_rna(rna_sequence):
    """
    Realiza un análisis completo de una secuencia de ARN.
    """
    gc_content, sequence_length = analyze_rna_sequence(rna_sequence)

    if is_rnafold_available():
        structure, energy = analyze_rna_structure(rna_sequence)
        print(f"Estructura secundaria: {structure}")
        print(f"Energía libre mínima: {energy} kcal/mol")
    else:
        print(f"RNAfold no está disponible. Continuando con el análisis básico.")
        structure = ""

    plot_rna_features(gc_content, sequence_length, structure)

# Ejemplo de uso
rna_sequence = "GGGAAACCCGGG"  # Reemplaza esto con tu secuencia de ARN
#rna_sequence = "GGGAAAUCCAGUACGAGUCUGA"  # Reemplaza esto con tu secuencia de ARN guía real

analyze_and_plot_rna(rna_sequence)


Mejora en la Selección de Genes Blanco:

Integrar análisis de expresión génica y estudios de asociación genómica (GWAS) para identificar nuevos biomarcadores potenciales, además de los ya conocidos como BRCA1, BRCA2 y HER2.
Optimización del Diseño de Guías CRISPR:

Incorporar una revisión y comparación más detallada con bases de datos genómicas, como Ensembl y NCBI, para mejorar la especificidad y reducir los off-targets.
Utilizar algoritmos de aprendizaje automático para predecir la eficiencia de las guías CRISPR, basándose en datos experimentales previos.
Ampliación en el Diseño de Primers:

Implementar una función que permita el diseño de primers para qPCR, lo cual es útil para validar la expresión génica post-edición CRISPR.
Mejorar la selección de primers para abarcar más variantes alélicas de los genes de interés.
Integración de Datos de Secuenciación de Nueva Generación:

Desarrollar un módulo para analizar datos de secuenciación de nueva generación (NGS), facilitando la identificación de ediciones CRISPR en un contexto más amplio.
Automatización y Visualización de Datos:

Crear una interfaz de usuario para facilitar la utilización del software por investigadores no especialistas en bioinformática.
Integrar herramientas de visualización para representar los sitios de edición CRISPR, las variantes genéticas, y los resultados de qPCR.
Documentación y Tutoriales:

Proporcionar una documentación detallada y tutoriales para cada paso del proceso, incluyendo ejemplos de uso y posibles problemas.