In [None]:
from Bio import SeqIO

# Caminho para o arquivo FASTA
fasta_path = "../Data/ecoli.fasta"

# Lê a sequência do arquivo
record = SeqIO.read(fasta_path, "fasta")

# Informações básicas
print("🔬 Análise do Genoma de E. coli")
print("-" * 40)
print(f"ID: {record.id}")
print(f"Descrição: {record.description}")
print(f"Tamanho da sequência: {len(record.seq):,} bases")
print(f"Trecho inicial: {record.seq[:100]}...")

# Cálculo de GC%
gc_count = record.seq.count("G") + record.seq.count("C")
gc_percent = gc_count / len(record.seq) * 100
print(f"GC content: {gc_percent:.2f}%")


🔬 Análise do Genoma de E. coli
----------------------------------------
ID: NC_000913.3
Descrição: NC_000913.3 Escherichia coli str. K-12 substr. MG1655, complete genome
Tamanho da sequência: 4,641,652 bases
Trecho inicial: AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAAT...
GC content: 50.79%


In [9]:
from BCBio import GFF
from Bio import SeqIO

# Caminho para os arquivos
gff_file = "../Data/ecoli.gff"
fasta_file = "../Data/ecoli.fasta"

# Lê o genoma com anotações
with open(gff_file) as gff_handle, open(fasta_file) as fasta_handle:
    for record in GFF.parse(gff_handle, base_dict=SeqIO.to_dict(SeqIO.parse(fasta_handle, "fasta"))):
        print(f"Contig: {record.id}")
        print(f"Tamanho do contig: {len(record.seq)}")

        genes = [feature for feature in record.features if feature.type == "gene"]
        print(f"Número de genes anotados: {len(genes)}\n")

        for gene in genes[:5]:  # Mostra os 5 primeiros genes
            print(f"- Gene ID: {gene.qualifiers['ID'][0] if 'ID' in gene.qualifiers else 'Sem ID'}")
            print(f"  Localização: {gene.location}")
            print(f"  Informações extras: {gene.qualifiers}")
            print()


Contig: NC_000913.3
Tamanho do contig: 4641652
Número de genes anotados: 4494

- Gene ID: gene-b0001
  Localização: [189:255](+)
  Informações extras: {'ID': ['gene-b0001'], 'Dbxref': ['ASAP:ABE-0000006', 'ECOCYC:EG11277', 'GeneID:944742'], 'Name': ['thrL'], 'gbkey': ['Gene'], 'gene': ['thrL'], 'gene_biotype': ['protein_coding'], 'gene_synonym': ['ECK0001'], 'locus_tag': ['b0001'], 'source': ['RefSeq']}

- Gene ID: gene-b0002
  Localização: [336:2799](+)
  Informações extras: {'ID': ['gene-b0002'], 'Dbxref': ['ASAP:ABE-0000008', 'ECOCYC:EG10998', 'GeneID:945803'], 'Name': ['thrA'], 'gbkey': ['Gene'], 'gene': ['thrA'], 'gene_biotype': ['protein_coding'], 'gene_synonym': ['ECK0002', 'Hs', 'thrA1', 'thrA2', 'thrD'], 'locus_tag': ['b0002'], 'source': ['RefSeq']}

- Gene ID: gene-b0003
  Localização: [2800:3733](+)
  Informações extras: {'ID': ['gene-b0003'], 'Dbxref': ['ASAP:ABE-0000010', 'ECOCYC:EG10999', 'GeneID:947498'], 'Name': ['thrB'], 'gbkey': ['Gene'], 'gene': ['thrB'], 'gene_bioty