# _Strings_

## Definição literal, iteração e indexação

Na definição literal de _strings_ podemos usar 3 tipos diferentes de aspas: `"`, `'` ou `"""`, este último permite escrever uma _string_ com várias linhas.

In [None]:
a = "O Neo tomou o comprimido vermelho"

b ='What is the matrix?'

c ="There's no spoon"

d = """ Um pequeno texto que até
ocupa várias linhas

algumas das linhas estão em branco"""

As strings têm muitas funções
em comum com as listas:

- `len()`, `count()`, `in`, `not in`
- Indexação: `a[i]`
- Iteração: `for i in a:`

Porque as _strings_ comportam-se como **coleção ordenada de caracteres** (com a numeração a contar do zero):

### Funções `len()`, `.count()`, operador `in`.

In [None]:
c = "There's no spoon"

print(len(c))
print(c.count('s'))
print('z' in c)
print('r' in c)
print('ere' in c)

### Iteração e indexação.

In [None]:
frase = "There's no spoon"

for i, c in enumerate(frase):
    print(i, c)

In [None]:
frase = "There's no spoon"

print(frase[0], frase[11], frase[-1])

## Funções associadas a _strings_

Existem muitas funções associadas a _strings_

Consultar a documentação oficial em [docs.python.org](https://docs.python.org/3/library/stdtypes.html#string-methods)

![](images/docspython_strmethods.png)

**São cerca de 40!**

## Imutabilidade

As _strings_ são **imutáveis**.

Isto significa que (ao contrário das listas e dicionários) **não existem funções para modificar uma** _string_.

**Não existe**, por exemplo, `s.append('a')`.

**Todas as operações com** _strings_ **resultam numa** _string_ **nova**, à qual é, geralmente, atribuído um nome (mesmo que seja o mesmo nome da _string_ original)

In [None]:
palavra = 'pois'
print(palavra)

palavra = palavra.replace('p', 'd') # substitui caracteres por outros
print(palavra)

## Algumas funções úteis

### `.strip()`, `.startswith()`, `.upper()`, `.lower()`.

In [None]:
c = "    There's no spoon      "
print('original:', c)
print('tem', len(c), 'caracteres')

c_strip = c.strip()

print('c.strip():', c_strip)
print('tem', len(c_strip), 'caracteres')

In [None]:
c = "    There's no spoon      "

c_upper = c.upper()
print('c.upper():',c_upper)

c_lower = c.lower()
print('c.lower():',c_lower)

In [None]:
c = "    There's no spoon      "

c = c.strip().lower()

print(c)
if c.startswith('the'):
    print('começa por "the"')

## Funções `.split()` e `.join()`

In [None]:
a = "There's no spoon"

b = a.split()
c = a.split('e')
d = a.split("'")

print(b)
print(c)
print(d)

A função `.split()` **gera uma lista de partes**, encontrando um separador numa _string_.

O separador a encontrar é o argumento da função. 

Se não se usar um argumento, considera-se que as partes são separadas por espaços, tabs ou mudanças de linha (no inglês genericamente designados por _white space_)

A função `.join()` é uma espécie de inversa de `.split()`: transforma **uma lista** de _strings_ **numa única** _string_, interpondo um separador:

In [None]:
aas = ['Arg', 'Tyr', 'Gly', 'Asp']

print(" ".join(aas))
print("-".join(aas))
print("".join(aas))
print("+".join(aas))
print("-CONH-".join(aas))

**Problema: transformar** `AUGUUCAAGGAGUAAUGCCCCCGACUA` **em** `AUG-UUC-AAG-GAG-UAA-UGC-CCC-CGA-CUA`

In [None]:
s = "AUGUUCAAGGAGUAAUGCCCCCGACUA"
print(s)

codoes = []
for i in range(0, len(s), 3):
    # i é o início de cada codão (c)
    c = s[i] + s[i+1] + s[i+2]
    codoes.append(c)

print(codoes)

final = "-".join(codoes)
print(final)

Tem de haver uma maneira mais sucinta de de juntar vários caracteres consecutivos!

## "Slices" (em português: "fatias")

Os `[]` podem ser usados para um outro tipo de **indexação**: os _slices_.

A forma geral é `[início : fim(exclusivé) : passo]`. O `passo` é opcional.

In [None]:
a = "O Neo tomou o comprimido vermelho"

print(a[2:5])
print(a[0:5])
print(a[6:-1])
print(a[0:12:2])
print(a[ :5])
print(a[6: ])
print(a[ : ])

**Problema: transformar** `AUGUUCAAGGAGUAAUGCCCCCGACUA` **em** `AUG-UUC-AAG-GAG-UAA-UGC-CCC-CGA-CUA`

In [None]:
s = "AUGUUCAAGGAGUAAUGCCCCCGACUA"
print(s)

codoes = []
for i in range(0, len(s), 3):
    # i é o início de cada codão
    # aqui usamos um slice
    # em vez da soma de 3 posições consecutivas.
    c = s[i:i+3]
    codoes.append(c)

final = "-".join(codoes)
print(final)

Usando uma lista em compreensão como argumento da função `.join()` o programa pode ficar mais compacto:

In [None]:
s = "AUGTTCAAGGAGUAAUGCCCCCGACUA"
sf = "-".join([s[i:i+3] for i in range(0,len(s),3)])

print(s)
print(sf)

**Os** _slices_ **também funcionam com listas**

In [None]:
aas = ['Arg', 'Tyr', 'Gly', 'Asp']

s1 = aas[ :2]
s2 = aas[-2: ]
s3 = aas[ : :2]

print(s1)
print(s2)
print(s3)

**Os** _slices_ **produzem sempre novos objetos**

**No caso de uma lista**, podemos **atribuír valores a um** _slice_ **da lista**, mudando alguns elementos de uma só vez:

In [None]:
nums = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
print(nums)
nums[3:5] = [8, 9]
print(nums)

**Problema: Converter uma sequência com códigos de uma letra de aminoácidos para códigos de 3 letras, usando um dicionário para a conversão.**

Numa secção anterior, este problema foi resolvido anteriormente da seguinte forma:

In [None]:
trans = {'A': 'Ala', 'C': 'Cys', 'E': 'Glu', 'D': 'Asp', 'G': 'Gly', 'F': 'Phe', 'I': 'Ile', 'H': 'His', 'K': 'Lys', 'M': 'Met', 'L': 'Leu', 'N': 'Asn', 'Q': 'Gln', 'P': 'Pro', 'S': 'Ser', 'R': 'Arg', 'T': 'Thr', 'W': 'Trp', 'V': 'Val', 'Y': 'Tyr'}

# Problema: transformar s1 numa string
# com os códigos de 3 letras dos aa
s1 = 'ADKLITCWFHHWE'

s3 = ''
for aa in s1:
    s3 = s3 + trans[aa] + '-'

print(s1, 'é o mesmo que ', s3)

Podemos compactar o programa e melhorar o aspeto do resultado.

Por um lado, podemos usar uma lista em compreensão para gerar os códigos de 3 letras (em vez de uma _string_), por outro podemos usar a função `.join()` para apresenta-los separados por `-`.

In [None]:
trans = {'A': 'Ala', 'C': 'Cys', 'E': 'Glu', 'D': 'Asp', 'G': 'Gly', 'F': 'Phe', 'I': 'Ile', 'H': 'His', 'K': 'Lys', 'M': 'Met', 'L': 'Leu', 'N': 'Asn', 'Q': 'Gln', 'P': 'Pro', 'S': 'Ser', 'R': 'Arg', 'T': 'Thr', 'W': 'Trp', 'V': 'Val', 'Y': 'Tyr'}

s1 = 'ADKLITCWFHHWE'

s3 = '-'.join([trans[aa] for aa in s1])

print(s1, 'é o mesmo que', s3)

**Problema: calcular o complemento reverso de uma sequência**

In [None]:
a = "ATGGTTACCTAGTATTTAGGATTA"

c = ""
# este slice significa
# "do princípio até ao fim,
# mas em sentido contrário (passo -1)"
for b in a[ : :-1]: 
    if   b == 'A': c = c +'T'
    elif b == 'T': c = c +'A'
    elif b == 'G': c = c +'C'
    else:          c = c +'G'

print(a)
print(c)

**Será que podemos evitar tantos** `if...elif...elif...else`**?**

Sim, usando um dicionário para indicar as bases complementares.

**Problema: calcular o complemento reverso de uma sequência, mas separando os codões por "-".**

In [None]:
bcompl = {'A':'T', 'T':'A', 'C':'G', 'G':'C'}

a = "ATGGTTACCTAGTATTTAGGATTA"
c = ''.join([bcompl[b] for b in a[ : :-1]])

print("Seq:")
print('-'.join([a[i:i+3] for i in range(0,len(a),3)]))

print("\nComplemento reverso:")
print('-'.join([c[i:i+3] for i in range(0,len(c),3)]))