#### Tipos de algoritmos:

* Heurística: São algoritmos que trocam precisão por velocidade para encontrar uma solução aproximada para problemas complexos. Eles não garantem encontrar a solução ótima, mas são rápidos e frequentemente usados quando a solução exata seria muito demorada ou difícil de encontrar.

* Algoritmo de força bruta: Explora todas as possibilidades para encontrar a solução exata, geralmente lento.

* Algoritmo de programação dinâmica: Otimiza a resolução de problemas ao dividir em subproblemas, garantindo soluções exatas, mas com mais eficiência do que a força bruta.

* Algoritmo de aprendizado de máquina: Usa dados para "aprender" padrões, mas não se aplica diretamente ao contexto de velocidade versus precisão em soluções aproximadas.

* Algoritmo guloso: Faz escolhas locais ótimas na esperança de que levem a uma solução global ótima, mas isso não necessariamente implica troca de precisão por velocidade.

### Exemplo 16: Pr(Text, Profile)

Gerando uma sequência aleatória com base em uma matriz de perfil selecionando o i-ésimo nucleotídeo na sequência com a probabilidade correspondente a esse nucleotídeo na sequênciaeu-ésima coluna da matriz de perfil. 

A probabilidade de que uma matriz de perfil produza uma dada sequência é dada pelo produto de probabilidades de nucleotídeos individuais.

Para implementar uma função 'Pr(Text, Profile)':
* começamos definindo uma variável de “probabilidade” 'p' igual a 1. 
* percorremos os caracteres de 'Text' um de cada vez. 
* Na posição 'i' de 'Text', definimos p igual a p vezes o valor de Profile correspondente ao símbolo 'Text[i]' e à coluna 'i', que é apenas 'Profile[Text[i]][i]'

Pr(Text, Profile): Calcula a probabilidade de uma string de DNA (Text) de acordo com um perfil de probabilidades (Profile).

In [None]:
def Pr(Text, Profile):
    p = 1
    for i in range(len(Text)):
      for j in "ACGT":
        if Text[i] == j:
          p *= Profile[Text[i]][i]
    return p

Profile = {'A': [0.4, 0.3, 0.0, 0.1, 0.0, 0.9], 
           'C': [0.2, 0.3, 0.0, 0.4, 0.0, 0.1], 
           'G': [0.1, 0.3, 1.0, 0.1, 0.5, 0.0], 
           'T': [0.3, 0.1, 0.0, 0.4, 0.5, 0.0]
           } 
Text = 'AAGTTC' 

print(Pr(Text, Profile))

0.0024000000000000002


#### Probabilidade de Ocorrência

In [4]:
probability_of_occurrence = (0.25) ** 9 # probabilidade de cada nucl e k-mer
positions_in_single_string = 1000 - 9 + 1 # tamanho de cada str de DNA e k-mer
expected_occurrences_in_single_string = probability_of_occurrence * positions_in_single_string
expected_occurrences_in_500_strings = expected_occurrences_in_single_string * 500 # tamanho da janela

print(round(expected_occurrences_in_500_strings, 8))

1.89208984


### Exemplo 16.1: Pr_2(Text, Profile)

In [9]:
def Pr_2(Text, Profile):
    p = 1
    for i in range(len(Text)):
      for j in "ACGT":
        if Text[i] == j:
          p *= Profile[Text[i]][i]
    return p
  
Profile = {'A': [0.4, 0.3, 0.0, 0.1, 0.0, 0.9], 
           'C': [0.2, 0.3, 0.0, 0.4, 0.0, 0.1], 
           'G': [0.1, 0.3, 1.0, 0.1, 0.5, 0.0], 
           'T': [0.3, 0.1, 0.0, 0.4, 0.5, 0.0]
           } 
Text = 'GAGCTA'

print(Pr_2(Text, Profile))

0.0054


### Exemplo 19: Calculando entropia

In [32]:
import numpy as np
a = [0.2,0.2,0.6,0.2,0.1,0.7,0.9,0.1,0.9,0.1,0.9,0.1,0.1,0.4,0.5,0.1,0.1,0.8,0.1,0.2,0.7,0.3,0.4,0.3,0.6,0.4] #to simplipy the script, I ignore the all 0 and 1.
entropy = 0
for i in a:
    entropy += -i*(np.log2(i))
print(entropy)

9.916290005356972


### Entropy(Probab)

In [45]:
import math

def Profile(Motifs):
    # Initialize an empty list P to store the profile matrix
    Probab = []
    # Iterate over each position in the motifs
    for i in range(len(Motifs[0])):
        # Initialize the nucleotide count list for the current position
        Probab.append([])
        # Iterate over the nucleotides "A", "C", "G", "T"
        for j in ["A", "C", "G", "T"]:
            # Initialize the counter for the current nucleotide
            count = 0
            # Iterate over each sequence in the motifs
            for k in range(len(Motifs)):
                # If the nucleotide at the current position matches the current nucleotide type
                if Motifs[k][i] == j:
                    # Increment the counter
                    count += 1
            # Add the frequency of the current nucleotide at this position to the profile matrix
            Probab[i].append(count / len(Motifs))
    # print(Probab)
    # Return the constructed profile matrix
    return Probab

def Entropy(Probab):
    # Initialize a list H to store the entropy value for each probability
    Entropy_values = []
    # Iterate through each element in the probability distribution Probab
    for i in range(len(Probab)):
        # If the current element is not 0, calculate its corresponding entropy value and append it to Entropy_values
        if Probab[i] != 0:
            Entropy_values.append(-Probab[i] * math.log2(Probab[i]))
        # If the current element is 0, its corresponding entropy is 0; append this to Entropy_values
        elif Probab[i] == 0:
            Entropy_values.append(0)
    # Return the sum of all elements in Entropy_values, which represents the entropy of the probability distribution Probab
    # print(Entropy_values)
    Entropy_total = sum(Entropy_values)
    return Entropy_total

def EntropySum(Probab):
    """ Calculate the sum of entropy for a given probability distribution Probab.
    Parameters:
    Probab (list): A list containing probabilities of events, where the sum of these probabilities equals 1.
    Returns: float: The total sum of entropy for all events in Probab.
    Note: Entropy is an important concept in information theory that measures the uncertainty of information. 
    Here, we assume the function Entropy(x) is already defined to calculate the entropy of a single event.
    This function computes the total entropy of the entire probability distribution by passing each event's probability 
    in Probab to the Entropy function and summing up the results. """
    probab_total = 0
    for x in Probab:
        probab_total += Entropy(x)
    return probab_total

Motifs = [
    'TCGGGGGTTTTT',
    'CCGGTGACTTAC',
    'ACGGGGATTTTC',
    'TTGGGGACTTTT',
    'AAGGGGACTTCC',
    'TTGGGGACTTCC',
    'TCGGGGATTCAT',
    'TCGGGGATTCCT',
    'TAGGGGAACTAC',
    'TCGGGTATAACC'
]

print(EntropySum(Profile(Motifs)))

9.916290005356972
