# GEN CFTR

In [18]:
from Bio import SeqIO

# Paths to the uploaded files
fasta_file_path = 'genes/CFTR/NM_000492.3.fasta'
genbank_file_path = 'genes/CFTR/NM_000492.3.gb'

# Parse the files to extract sequence information
fasta_seq = SeqIO.read(fasta_file_path, "fasta")
genbank_seq = SeqIO.read(genbank_file_path, "genbank")

# Extract relevant information
fasta_info = {
    "ID": fasta_seq.id,
    "Description": fasta_seq.description,
    "Sequence Length": len(fasta_seq.seq),
    "Composition": {
        "A": fasta_seq.seq.count("A"),
        "T": fasta_seq.seq.count("T"),
        "C": fasta_seq.seq.count("C"),
        "G": fasta_seq.seq.count("G")
    }
}

genbank_info = {
    "ID": genbank_seq.id,
    "Description": genbank_seq.description,
    "Sequence Length": len(genbank_seq.seq),
    "Composition": {
        "A": genbank_seq.seq.count("A"),
        "T": genbank_seq.seq.count("T"),
        "C": genbank_seq.seq.count("C"),
        "G": genbank_seq.seq.count("G")
    },
    "Annotations": genbank_seq.annotations,
    "Features": genbank_seq.features,
    "Origin": genbank_seq.seq    

}

#itera sobre los diccionarios para imprimir la informacion de genbank
print("\nFASTA:")
for key, value in fasta_info.items():
    print(key, ":", value)

print("\nAHORA EL FORMATO GENBANK:")
for key, value in genbank_info.items():
    print(key, ":", value)



FASTA:
ID : NM_000492.3
Description : NM_000492.3 Homo sapiens CF transmembrane conductance regulator (CFTR), mRNA
Sequence Length : 6132
Composition : {'A': 1887, 'T': 1731, 'C': 1182, 'G': 1332}

AHORA EL FORMATO GENBANK:
ID : NM_000492.3
Description : Homo sapiens CF transmembrane conductance regulator (CFTR), mRNA
Sequence Length : 6132
Composition : {'A': 1887, 'T': 1731, 'C': 1182, 'G': 1332}
Features : [SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(6132), strand=1), type='source', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(6132), strand=1), type='gene', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(185), strand=1), type='exon', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(66), ExactPosition(69), strand=1), type='misc_feature', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(132), ExactPosition(4575), strand=1), type='CDS', qualifiers=...), SeqFeature(SimpleLocation(ExactPosition(363), 

### Análisis de la Información de los Archivos FASTA y GenBank

La salida obtenida nos presenta información sobre una secuencia genética del gen **CFTR** (*Cystic Fibrosis Transmembrane Conductance Regulator*), clave en el estudio de enfermedades genéticas como la fibrosis quística. Este análisis se basa en dos formatos diferentes: FASTA y GenBank, ambos ampliamente utilizados en bioinformática.

#### Datos en Formato FASTA

El archivo FASTA proporciona una descripción básica y la composición de la secuencia. En este caso, la secuencia tiene el ID `NM_000492.3` y una longitud total de 6132 nucleótidos. Su descripción menciona que corresponde al mRNA del gen CFTR en humanos (*Homo sapiens*). En cuanto a su composición, está formada por:

- **Adenina (A)**: 1887 nucleótidos
- **Timina (T)**: 1731 nucleótidos
- **Citosina (C)**: 1182 nucleótidos
- **Guanina (G)**: 1332 nucleótidos

Este formato es útil para análisis rápidos, ya que resume la secuencia y su composición básica, sin profundizar en anotaciones u otras características. La secuencia proporcionada corresponde a un gen específico, el **CFTR**, relacionado con la fibrosis quística.

#### Datos en Formato GenBank

Por otro lado, el archivo GenBank incluye una mayor cantidad de información y anotaciones detalladas. Además de la descripción y composición ya mencionadas, se destacan los siguientes puntos:

- **Anotaciones generales**:
  - Tipo de molécula: mRNA
  - Topología: lineal
  - División de archivo: PRI (Primates)
  - Fecha: 27 de agosto de 2019
- **Accesiones y versión**: El archivo corresponde a la versión 3 de la secuencia (`NM_000492.3`), aunque incluye una nota indicando que fue reemplazada posteriormente por la versión 4.
- **Palabras clave**: Se destacan términos como *RefSeq* y *RefSeq Select*, que indican que esta secuencia ha sido revisada por el NCBI.
- **Fuente y taxonomía**: Se identifica como *Homo sapiens*, con una clasificación detallada que incluye hasta el nivel de especie.
- **Referencias bibliográficas**: Contiene múltiples referencias científicas relacionadas con el gen CFTR, lo que indica que esta secuencia es de gran relevancia en investigaciones.
- **Features (Características)**: El archivo GenBank proporciona un conjunto detallado de *features* que describen elementos importantes de la secuencia, como:
  - **source**: Describe el origen de la secuencia, que se extiende desde la posición 0 hasta la 6132, indicando que es una secuencia completa.
  - **gene**: Define la región del gen CFTR.
  - **exon**: Incluye múltiples exones que abarcan diferentes posiciones a lo largo de la secuencia, indicando las regiones que se transcriben y se mantienen tras el procesamiento del RNA.
  - **misc\_feature** y **CDS**: Se incluyen diversas *features* que destacan regiones de interés específicas, como sitios funcionales, dominios proteicos, y la región de codificación de la proteína (CDS).
  - **regulatory** y **polyA\_site**: Se mencionan sitios regulatorios y de poliadenilación que son importantes para la expresión y estabilidad del mRNA.

El archivo también incluye comentarios estructurados que describen detalles técnicos adicionales:

- **Estructura del Gen**: Incluye información sobre la combinación de exones del transcripto (`M28668.1 [ECO:0000332]`) y soporte basado en RNA-seq para los intrones, con ejemplos como `SAMEA1968540` y `SAMEA1968832` que respaldan todos los intrones observados (`[ECO:0000348]`).
- **Criterios de RefSeq**: Se menciona que los atributos de *RefSeq* están basados en un transcripto codificante de una sola proteína, lo cual indica que esta secuencia es una referencia importante y seleccionada cuidadosamente.

**Origen de la Secuencia (Origin)**: La sección *Origin* del archivo GenBank proporciona la secuencia de nucleótidos completa del gen CFTR, organizada en bloques de 60 bases para facilitar la lectura. Esta secuencia permite a los investigadores analizar en detalle cada región, identificar mutaciones específicas y entender la composición de la secuencia a nivel de bases.

Además, se proporciona un resumen funcional del gen CFTR, destacando su papel en la regulación del transporte de iones y su relación con mutaciones que causan fibrosis quística.

# PROTEINA 4INS

In [20]:
from Bio import SeqIO

# Path to the uploaded FASTA file
fasta_file_path = 'proteinas/4INS/4INS.fasta'
genpept_file_path = 'proteinas/4INS/4INS.gp'  # Asegúrate de tener el archivo en formato GenPept


# Parse the FASTA file to extract multiple sequences
fasta_sequences = list(SeqIO.parse(fasta_file_path, "fasta"))
genpept_sequences = list(SeqIO.parse(genpept_file_path, "genbank"))  # GenPept usa el mismo parser que GenBank

# Iterate over each sequence and extract relevant information
for seq_record in fasta_sequences:
    fasta_info = {
        "ID": seq_record.id,
        "Description": seq_record.description,
        "Sequence Length": len(seq_record.seq),
        "Composition": {
            "A": seq_record.seq.count("A"),
            "C": seq_record.seq.count("C"),
            "D": seq_record.seq.count("D"),
            "E": seq_record.seq.count("E"),
            "F": seq_record.seq.count("F"),
            "G": seq_record.seq.count("G"),
            "H": seq_record.seq.count("H"),
            "I": seq_record.seq.count("I"),
            "K": seq_record.seq.count("K"),
            "L": seq_record.seq.count("L"),
            "M": seq_record.seq.count("M"),
            "N": seq_record.seq.count("N"),
            "P": seq_record.seq.count("P"),
            "Q": seq_record.seq.count("Q"),
            "R": seq_record.seq.count("R"),
            "S": seq_record.seq.count("S"),
            "T": seq_record.seq.count("T"),
            "V": seq_record.seq.count("V"),
            "W": seq_record.seq.count("W"),
            "Y": seq_record.seq.count("Y")
        }
    }

    print("\nFASTA:")
    # Print the extracted information for each sequence
    print(f"Sequence ID: {fasta_info['ID']}")
    print(f"Description: {fasta_info['Description']}")
    print(f"Sequence Length: {fasta_info['Sequence Length']}")
    print("Composition:", fasta_info["Composition"])
    print("\n")

# Iterate over the GenPept sequences and extract relevant information
for seq_record in genpept_sequences:
    genpept_info = {
        "ID": seq_record.id,
        "Description": seq_record.description,
        "Sequence Length": len(seq_record.seq),
        "Amino Acid Composition": {
            "A": seq_record.seq.count("A"),
            "C": seq_record.seq.count("C"),
            "D": seq_record.seq.count("D"),
            "E": seq_record.seq.count("E"),
            "F": seq_record.seq.count("F"),
            "G": seq_record.seq.count("G"),
            "H": seq_record.seq.count("H"),
            "I": seq_record.seq.count("I"),
            "K": seq_record.seq.count("K"),
            "L": seq_record.seq.count("L"),
            "M": seq_record.seq.count("M"),
            "N": seq_record.seq.count("N"),
            "P": seq_record.seq.count("P"),
            "Q": seq_record.seq.count("Q"),
            "R": seq_record.seq.count("R"),
            "S": seq_record.seq.count("S"),
            "T": seq_record.seq.count("T"),
            "V": seq_record.seq.count("V"),
            "W": seq_record.seq.count("W"),
            "Y": seq_record.seq.count("Y"),
        },
        "Annotations": seq_record.annotations,
        "Features": seq_record.features,
        "Origin": seq_record.seq
    }

    print("\nAHORA EL FORMATO GENPEPT:")
    # Print the extracted information for each protein sequence
    print(f"Sequence ID: {genpept_info['ID']}")
    print(f"Description: {genpept_info['Description']}")
    print(f"Sequence Length: {genpept_info['Sequence Length']}")
    print("Amino Acid Composition:", genpept_info["Amino Acid Composition"])
    print("Annotations:", genpept_info["Annotations"])
    print("Features:", genpept_info["Features"])
    print("Orgin:", genpept_info["Origin"])
    print("\n")



FASTA:
Sequence ID: pdb|4INS|D
Description: pdb|4INS|D Chain D, INSULIN (CHAIN B)
Sequence Length: 30
Composition: {'A': 2, 'C': 2, 'D': 0, 'E': 2, 'F': 3, 'G': 3, 'H': 2, 'I': 0, 'K': 1, 'L': 4, 'M': 0, 'N': 1, 'P': 1, 'Q': 1, 'R': 1, 'S': 1, 'T': 1, 'V': 3, 'W': 0, 'Y': 2}



FASTA:
Sequence ID: pdb|4INS|C
Description: pdb|4INS|C Chain C, INSULIN (CHAIN A)
Sequence Length: 21
Composition: {'A': 0, 'C': 4, 'D': 0, 'E': 2, 'F': 0, 'G': 1, 'H': 0, 'I': 2, 'K': 0, 'L': 2, 'M': 0, 'N': 2, 'P': 0, 'Q': 2, 'R': 0, 'S': 2, 'T': 1, 'V': 1, 'W': 0, 'Y': 2}



FASTA:
Sequence ID: pdb|4INS|B
Description: pdb|4INS|B Chain B, INSULIN (CHAIN B)
Sequence Length: 30
Composition: {'A': 2, 'C': 2, 'D': 0, 'E': 2, 'F': 3, 'G': 3, 'H': 2, 'I': 0, 'K': 1, 'L': 4, 'M': 0, 'N': 1, 'P': 1, 'Q': 1, 'R': 1, 'S': 1, 'T': 1, 'V': 3, 'W': 0, 'Y': 2}



FASTA:
Sequence ID: pdb|4INS|A
Description: pdb|4INS|A Chain A, INSULIN (CHAIN A)
Sequence Length: 21
Composition: {'A': 0, 'C': 4, 'D': 0, 'E': 2, 'F': 0, 'G': 1

### Análisis de la Información de los Archivos FASTA y GenPept para la Proteína 4INS

La salida obtenida nos presenta información sobre la estructura proteica de la **insulina** derivada de **cerdo (Sus scrofa)**, con el identificador **4INS**. Este análisis se basa en dos formatos diferentes: **FASTA** y **GenPept**, ambos ampliamente utilizados en bioinformática.

#### Datos en Formato FASTA
El archivo FASTA proporciona una descripción básica y la composición de las cadenas proteicas de la insulina. En este caso, las secuencias corresponden a cuatro cadenas diferentes de la proteína insulina:

- **Cadena D (INSULIN, CHAIN B)**: 
  - **Secuencia de aminoácidos**: `FVNQHLCGSHLVEALYLVCGERGFFYTPKA`
  - **Longitud de la secuencia**: 30 aminoácidos
  - **Composición**: A: 2, C: 3, D: 0, E: 2, F: 3, G: 3, H: 1, I: 0, K: 1, L: 4, M: 0, N: 1, P: 1, Q: 1, R: 1, S: 1, T: 1, V: 3, W: 0, Y: 2

- **Cadena C (INSULIN, CHAIN A)**: 
  - **Secuencia de aminoácidos**: `GIVEQCCTSICSLYQLENYCN`
  - **Longitud de la secuencia**: 21 aminoácidos
  - **Composición**: A: 0, C: 4, D: 0, E: 2, F: 0, G: 1, H: 0, I: 2, K: 0, L: 2, M: 0, N: 2, P: 0, Q: 2, R: 0, S: 2, T: 1, V: 1, W: 0, Y: 2

- **Cadena B (INSULIN, CHAIN B)**: 
  - **Secuencia de aminoácidos**: `FVNQHLCGSHLVEALYLVCGERGFFYTPKA`
  - **Longitud de la secuencia**: 30 aminoácidos
  - **Composición**: A: 2, C: 3, D: 0, E: 2, F: 3, G: 3, H: 1, I: 0, K: 1, L: 4, M: 0, N: 1, P: 1, Q: 1, R: 1, S: 1, T: 1, V: 3, W: 0, Y: 2

- **Cadena A (INSULIN, CHAIN A)**: 
  - **Secuencia de aminoácidos**: `GIVEQCCTSICSLYQLENYCN`
  - **Longitud de la secuencia**: 21 aminoácidos
  - **Composición**: A: 0, C: 4, D: 0, E: 2, F: 0, G: 1, H: 0, I: 2, K: 0, L: 2, M: 0, N: 2, P: 0, Q: 2, R: 0, S: 2, T: 1, V: 1, W: 0, Y: 2

Este formato es útil para un análisis rápido de la secuencia de la proteína y su composición básica.

#### Datos en Formato GenPept
El archivo GenPept incluye una mayor cantidad de información y anotaciones detalladas de la estructura de la insulina. Se destacan los siguientes puntos para cada una de las cadenas:

- **Cadena D (INSULIN, CHAIN B)**:
  - **Secuencia de aminoácidos**: `FVNQHLCGSHLVEALYLVCGERGFFYTPKA`
  - **Longitud de la secuencia**: 30 aminoácidos
  - **Composición de aminoácidos**: A: 2, C: 3, D: 0, E: 2, F: 3, G: 3, H: 1, I: 0, K: 1, L: 4, M: 0, N: 1, P: 1, Q: 1, R: 1, S: 1, T: 1, V: 3, W: 0, Y: 2
  - **Anotaciones**: La cadena pertenece al organismo **Sus scrofa** (cerdo), con método experimental de **difracción de rayos X**. Se destaca que el origen de la secuencia es de **insulina de cerdo**, y se incluyen referencias sobre su estructura cristalina.

- **Cadena C (INSULIN, CHAIN A)**:
  - **Secuencia de aminoácidos**: `GIVEQCCTSICSLYQLENYCN`
  - **Longitud de la secuencia**: 21 aminoácidos
  - **Composición de aminoácidos**: A: 0, C: 4, D: 0, E: 2, F: 0, G: 1, H: 0, I: 2, K: 0, L: 2, M: 0, N: 2, P: 0, Q: 2, R: 0, S: 2, T: 1, V: 1, W: 0, Y: 2
  - **Anotaciones**: Similarmente, la cadena se deriva de **Sus scrofa** y cuenta con anotaciones detalladas sobre la estructura y referencias bibliográficas sobre su estudio.

- **Cadena B (INSULIN, CHAIN B)**:
  - **Secuencia de aminoácidos**: `FVNQHLCGSHLVEALYLVCGERGFFYTPKA`
  - **Longitud de la secuencia**: 30 aminoácidos
  - **Composición de aminoácidos**: A: 2, C: 3, D: 0, E: 2, F: 3, G: 3, H: 1, I: 0, K: 1, L: 4, M: 0, N: 1, P: 1, Q: 1, R: 1, S: 1, T: 1, V: 3, W: 0, Y: 2
  - **Anotaciones**: La información es similar a la cadena D, describiendo la estructura y referencias de la insulina.

- **Cadena A (INSULIN, CHAIN A)**:
  - **Secuencia de aminoácidos**: `GIVEQCCTSICSLYQLENYCN`
  - **Longitud de la secuencia**: 21 aminoácidos
  - **Composición de aminoácidos**: A: 0, C: 4, D: 0, E: 2, F: 0, G: 1, H: 0, I: 2, K: 0, L: 2, M: 0, N: 2, P: 0, Q: 2, R: 0, S: 2, T: 1, V: 1, W: 0, Y: 2
  - **Anotaciones**: Esta cadena también pertenece a **Sus scrofa** y proporciona detalles adicionales sobre la estructura proteica.

En el formato GenPept, las anotaciones incluyen información relevante sobre el origen de la proteína, las técnicas experimentales utilizadas para su determinación (como difracción de rayos X), así como referencias bibliográficas detalladas. Esto permite un análisis más profundo de la estructura y funcionalidad de la insulina en comparación con el archivo FASTA.

## Conclusión de ambos formatos:
FASTA es ideal para obtener una visión rápida de la secuencia de aminoácidos, mientras que GenPept nos brinda una visión detallada de la proteína o el gen, incluyendo contexto biológico y experimental. FASTA es rápido y directo; GenPept es completo y profundo. Ambos juntos nos permiten entender la insulina desde sus componentes básicos hasta su importancia biológica y estructural.
