# [Rosalind - Counting DNA Nucleotides](https://rosalind.info/problems/dna/)
Pedro, 2 de março de 2022

## Enunciado

A string is simply an ordered collection of symbols selected from some alphabet and formed into a word; the length of a string is the number of symbols that it contains.

An example of a length 21 DNA string (whose alphabet contains the symbols 'A', 'C', 'G', and 'T') is "ATGCTTCAGAAAGGTCTTACG."

**Given:** A DNA string s of length at most 1000 nt.

**Return:** Four integers (separated by spaces) counting the respective number of times that the symbols 'A', 'C', 'G', and 'T' occur in s.

### Sample Dataset
```AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC```
### Sample Output
```20 12 17 21```

## Resoluções

Buscando formas de resolver o problema, descobri alguns detalhes interessantes sobre `String`s, `Dict`s e funções em Julia, que demonstro abaixo. 

In [51]:
# Guarde a sequência de amostra numa variável.
sample_data = "AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"

"AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"

In [32]:
# Crie quatro variáveis, uma para guardar a quantidade de cada nucleotídeo.
a, c, g, t = 0, 0, 0, 0

# Para cada caractere (nucleotídeo), incremente em uma unidade a variável correspondente.
for nt in sample_data
    if nt == 'A' a+=1
    elseif nt == 'C' c+=1
    elseif nt == 'G' g+=1
    elseif nt == 'T' t+=1
    end
end

Curioso que, por padrão, as funções de impressão não separam os elementos com espaços, então teríamos que fazer algo como

In [33]:
println(join([a c g t], ' '))

20 12 17 21


para imprimir o resultado no formato de saída do enunciado. Procurando sobre, achei interessante a macro `@show` que mostra o valor e nome de cada variável.

In [34]:
@show a c g t

a = 20
c = 12
g = 17
t = 21


21

Para se adequar ao formato de saída do enunciado, pode-se usar também interpolação:

In [32]:
println("$a $c $g $t")

a = 20
c = 12
g = 17
t = 21
20 12 17 21


Para evitar o uso de múltiplas variáveis, um dicionário pode guardar a contagem:

In [25]:
# Nosso histograma agora será guardado em um dicionário.
hist = Dict('A'=>0, 'C'=>0, 'G'=>0, 'T'=>0)

for nt in sample_data
    hist[nt] += 1
end

println(hist)

Dict('A' => 20, 'G' => 17, 'T' => 21, 'C' => 12)


Caso queiramos que o dicionário tenha chaves dinâmicas, não preestabelecidas à princípio, podemos fazer da seguinte forma:

In [26]:
hist = Dict{Char, Int}()  # A tipagem aqui parece necessária, precisamos entender ainda o porquê.

for nt in sample_data
    # Se o dicionário ainda não contém a chave, inicialize-a.
    if nt ∉ hist.keys
        hist[nt] = 0
    end
    # Incremente a contagem.
    hist[nt]+=1
end

println(hist)

Dict('A' => 20, 'G' => 17, 'T' => 21, 'C' => 12)


Contudo, é possível fazer isso de forma mais elegante, com uso da função `get`.

In [29]:
hist = Dict{Char, Int}()

for nt in sample_data
    # get(hist, nt, 0) será
    #    hist[nt] se a chave nt existir em hist.
    #    Caso contrário, será 0.
    hist[nt] = get(hist, nt, 0) + 1
end

println(hist)

Dict('A' => 20, 'G' => 17, 'T' => 21, 'C' => 12)


A versão com o `!` já cria a nova chave com o default caso não a encontre.

In [31]:
hist = Dict{Char, Int}()

for nt in sample_data
    get!(hist, nt, 0)
    hist[nt] += 1
end

println(hist)

Dict('A' => 20, 'G' => 17, 'T' => 21, 'C' => 12)


Envelopando tudo em uma função:

In [43]:
function conte_nucleotideos(str)
    hist = Dict{Char, Int}()
    for nt in sample_data hist[nt] = get(hist, nt, 0) + 1 end
    return hist
end

function imprima_contagem(c) println(join([c['A'] c['C'] c['G'] c['T']], ' ')) end

imprima_contagem (generic function with 1 method)

As duas funções funcionam bem compostas:

In [45]:
contagem = conte_nucleotideos("CGACTAGCTAGTACGTGTGTGTGTGTACCCCGACGT")
imprima_contagem(contagem)

20 12 17 21


In [47]:
imprima_contagem(conte_nucleotideos("CGACTAGCTAGTACGTGTGTGTGTGTACCCCGACGT"))

20 12 17 21


Podemos fazer a composição com a notação em uma linha da Julia:

In [49]:
conte_imprima(c) = imprima_contagem(conte_nucleotideos(c))

conte_imprima (generic function with 1 method)

In [50]:
conte_imprima(sample_data)

20 12 17 21
