In [None]:
mkdir HOST
cd HOST

# Encontrar as entradas
find path/strain/genoma -iname *is.fna
find /mnt/dados/victor_baca/outputs/isescan/GBS95/incomplete_genomes -iname *is.fna

# copiar arquivos de um diretório para outro
cp arquivo_original.fna /path
cp /mnt/dados/victor_baca/outputs/isescan/GBS95/incomplete_genomes/GCA_020980155.1_ASM2098015v1_genomic.fna.is.fna /mnt/dados/victor_baca/outputs/Phylogenetic_analysis/CD-HIT_IS/Homo_sapiens

In [None]:
# Combinando os arquivos fasta de um só diretório e salvando em um só arquivo fasta
## No caso cada diretorio vai ter os arquivos fasta do passo anterior de cada cepa de um so hospedeiro 

cat *.is.fna > Homo_sapiens.fasta

In [None]:
# utilizar cd-hit para remover redundância dessas anotações

export PATH=$PATH::/mnt/dados/victor_baca/tools/cdhit
nohup cd-hit-est -i /mnt/dados/victor_baca/outputs/Phylogenetic_analysis/CD-HIT_IS/Homo_sapiens/Homo_sapiens.fasta -s 0.9 -g 1 -o Homo_sapiens.fa &

### -s 0.9 significa que as sequências devem ter 90% de identidade para serem consideradas redundantes
### -g 1 = Ativa o modo "acurado", que é mais lento, mas mais preciso

In [None]:
# Contagem dos ISs do arquivo .fa

#!/usr/bin/env python3
"""
Extrator e Contador de Elementos IS (Insertion Sequences) de arquivos FASTA
Autor: Assistente Claude
Uso: python3 is_extractor.py <arquivo_fasta> [arquivo_saida]
"""

import sys
import re
from collections import defaultdict, Counter
import argparse

def parse_fasta(filename):
    """
    Parse um arquivo FASTA e retorna um dicionário com sequências
    """
    sequences = {}
    current_header = None
    current_sequence = []
    
    try:
        with open(filename, 'r') as file:
            for line in file:
                line = line.strip()
                if line.startswith('>'):
                    # Se já temos uma sequência anterior, salva ela
                    if current_header:
                        sequences[current_header] = ''.join(current_sequence)
                    
                    current_header = line[1:]  # Remove o '>'
                    current_sequence = []
                else:
                    if line:  # Ignora linhas vazias
                        current_sequence.append(line)
            
            # Salva a última sequência
            if current_header:
                sequences[current_header] = ''.join(current_sequence)
                
    except FileNotFoundError:
        print(f"Erro: Arquivo '{filename}' não encontrado!")
        sys.exit(1)
    except Exception as e:
        print(f"Erro ao ler arquivo: {e}")
        sys.exit(1)
    
    return sequences

def extract_is_elements(sequences):
    """
    Extrai elementos IS das sequências baseado nos padrões do cabeçalho
    """
    is_elements = {}
    is_types = Counter()
    
    # Padrão para identificar elementos IS no cabeçalho
    # Busca por padrões como "IS21_259", "IS3_176", "ISL3_111", "IS30_241"
    is_pattern = re.compile(r'IS[A-Z]*\d*_\d+')
    
    for header, sequence in sequences.items():
        # Procura por padrões IS no cabeçalho
        is_matches = is_pattern.findall(header)
        
        if is_matches:
            for is_match in is_matches:
                # Extrai o tipo de IS (ex: IS21, IS3, ISL3, IS30)
                is_type_match = re.match(r'(IS[A-Z]*\d*)', is_match)
                if is_type_match:
                    is_type = is_type_match.group(1)
                    is_types[is_type] += 1
                    
                    # Armazena a sequência completa com informações adicionais
                    is_elements[is_match] = {
                        'header': header,
                        'sequence': sequence,
                        'type': is_type,
                        'length': len(sequence)
                    }
    
    return is_elements, is_types

def write_is_sequences(is_elements, output_file):
    """
    Escreve as sequências IS em um arquivo FASTA
    """
    try:
        with open(output_file, 'w') as file:
            for is_id, data in is_elements.items():
                file.write(f">{data['header']}\n")
                # Quebra a sequência em linhas de 80 caracteres
                sequence = data['sequence']
                for i in range(0, len(sequence), 80):
                    file.write(f"{sequence[i:i+80]}\n")
        print(f"Sequências IS salvas em: {output_file}")
    except Exception as e:
        print(f"Erro ao escrever arquivo de saída: {e}")

def print_statistics(is_elements, is_types):
    """
    Imprime estatísticas dos elementos IS encontrados
    """
    print("\n" + "="*60)
    print("RELATÓRIO DE ELEMENTOS IS ENCONTRADOS")
    print("="*60)
    
    print(f"\nTotal de elementos IS encontrados: {len(is_elements)}")
    
    if not is_elements:
        print("Nenhum elemento IS foi encontrado no arquivo.")
        return
    
    print(f"\nTipos de IS encontrados: {len(is_types)}")
    print("\nContagem por tipo de IS:")
    print("-" * 30)
    for is_type, count in sorted(is_types.items()):
        print(f"{is_type:<15}: {count:>5}")
    
    print(f"\nEstatísticas de comprimento:")
    print("-" * 30)
    lengths = [data['length'] for data in is_elements.values()]
    print(f"Comprimento mínimo: {min(lengths):,} bp")
    print(f"Comprimento máximo: {max(lengths):,} bp")
    print(f"Comprimento médio:  {sum(lengths)//len(lengths):,} bp")
    
    print(f"\nDetalhes dos elementos IS:")
    print("-" * 50)
    for is_id, data in sorted(is_elements.items()):
        print(f"{is_id:<15} | {data['type']:<10} | {data['length']:>6,} bp")

def main():
    parser = argparse.ArgumentParser(
        description='Extrai e conta elementos IS de arquivos FASTA',
        formatter_class=argparse.RawDescriptionHelpFormatter,
        epilog="""
Exemplos de uso:
  python3 is_extractor.py Homo_sapiens.fa
  python3 is_extractor.py Homo_sapiens.fa elementos_is.fasta
  python3 is_extractor.py input.fasta output.fasta
        """
    )
    
    parser.add_argument('input_file', help='Arquivo FASTA de entrada')
    parser.add_argument('output_file', nargs='?', 
                       help='Arquivo FASTA de saída (opcional)')
    parser.add_argument('--verbose', '-v', action='store_true',
                       help='Saída mais detalhada')
    
    args = parser.parse_args()
    
    # Define arquivo de saída padrão se não especificado
    if not args.output_file:
        base_name = args.input_file.rsplit('.', 1)[0]
        args.output_file = f"{base_name}_IS_elements.fasta"
    
    print(f"Processando arquivo: {args.input_file}")
    
    # Parse do arquivo FASTA
    sequences = parse_fasta(args.input_file)
    print(f"Total de sequências lidas: {len(sequences)}")
    
    # Extração dos elementos IS
    is_elements, is_types = extract_is_elements(sequences)
    
    # Saída das estatísticas
    print_statistics(is_elements, is_types)

if __name__ == "__main__":
    main()

# Ctrl+O e adicionar o nome do arquivo (is_extractor.py)
# Ctrl+X = para sair

# Utilizando o scritpt
python is_extractor.py Homo_sapiens_Bovine.fa

In [None]:
# unificar os fastas Fish_Homo_sapiens - Fish_Bovine - Homo_sapiens_Bovine
## copiar os fastas no diretorio correto

cp path/fasta /path/HOST_HOST

## combinar o fasta dos dois hospedeiros

cat *.fasta > Homo_sapiens_Bovine.fasta

## utilizar cd-hit para remover redundância dessas anotações

export PATH=$PATH::/mnt/dados/victor_baca/tools/cdhit
nohup cd-hit-est -i /mnt/dados/victor_baca/outputs/Phylogenetic_analysis/CD-HIT_IS/Homo_sapiens_Bovine/Homo_sapiens_Bovine.fasta -s 0.9 -g 1 -o Homo_sapiens_Bovine.fa &

### -s 0.9 significa que as sequências devem ter 90% de identidade para serem consideradas redundantes
### -g 1 = Ativa o modo "acurado", que é mais lento, mas mais preciso

## Utilizar o scritp anterior/acima para Contar a quantidade de ISs

In [None]:
# unificar os fasta dos 3 hospedeiros ou unificar os fastas de todas as cepas, ou seja, Fish_Homo_sapiens_Bovine

mkdir Fish_Homo_sapiens_Bovine

# Copiar os fastas dos hospedeiros nesse diretorio

cp /mnt/dados/victor_baca/outputs/Phylogenetic_analysis/CD-HIT_IS/Homo_sapiens/Homo_sapiens.fasta /mnt/dados/victor_baca/outputs/Phylogenetic_analysis/CD-HIT_IS/Fish_Homo_sapiens_Bovine

## combinar o fasta de todos os hospedeiros 

cat *.fasta > Fish_Homo_sapiens_Bovine.fasta

## utilizar cd-hit para remover redundância dessas anotações

export PATH=$PATH::/mnt/dados/victor_baca/tools/cdhit
nohup cd-hit-est -i /mnt/dados/victor_baca/outputs/Phylogenetic_analysis/CD-HIT_IS/Fish_Homo_sapiens_Bovine/Fish_Homo_sapiens_Bovine.fasta -s 0.9 -g 1 -o Fish_Homo_sapiens_Bovine.fa & 

## Utilizar o script anterior/acima para ver e Contar a quantidade de ISs 
