# _Strings_

## Definição literal, iteração e indexação

As _strings_ são um dos tipos de objetos mais usados na linguagem Python. É comum um programa lidar com texto, seja porque o objetivo do programa é precisamente o processamento de informação na forma textual, seja simplesmente para que os resultados de um programa sejam apresentados com pequenos textos destinados a descrever esses resultados.

Como vimos anteriormente, uma _string_ é uma coleção de caracteres.

Uma maneira de criarmos _strings_ num programa é defini-las literalmente, como um **texto entre aspas**.

Na definição literal de _strings_ **podemos usar 3 tipos diferentes de aspas**: `"`, `'` ou `"""`.

As _aspas triplas_ permitem definir literalmente uma _string_ com várias linhas.

In [1]:
a = "O Neo tomou o comprimido vermelho"

b ='What is the matrix?'

c ="There's no spoon"

d = """ Um pequeno texto que até
ocupa várias linhas

algumas das linhas estão em branco"""

### "Concatenação" de strings com o operador `+`.

O operador `+` serve para "juntar" várias _strings_, uma operação designada por _concatenação_.

In [2]:
c = "There's no spoon"
print('c = ', c)

c = c + ', really, ' + 'none' + '.'

print('c = ', c)

c =  There's no spoon
c =  There's no spoon, really, none.


As strings têm muitas funções
em comum com as listas:

- `len()`, `count()`, `in`, `not in`
- Indexação: `a[i]`
- Iteração: `for i in a:`

Isto acontece porque as _strings_ se comportam como uma **sequência de caracteres**, tal como uma lista é uma sequência de quaisquer objetos.

### Funções `len()`, `.count()`, operador `in`.

In [3]:
c = "There's no spoon"
print('c = ', c)
print('len(c) =', len(c))

print('c.count("s") = ', c.count('s'))

print('z' in c)
print('r' in c)
print('ere' in c)

c =  There's no spoon
len(c) = 16
c.count("s") =  2
False
True
True


### Iteração e indexação.

In [4]:
frase = "There's no spoon"

for i, c in enumerate(frase):
    print(i, c)

0 T
1 h
2 e
3 r
4 e
5 '
6 s
7  
8 n
9 o
10  
11 s
12 p
13 o
14 o
15 n


In [5]:
frase = "There's no spoon"

for i in range(-1, -len(frase)-1, -1):
    print(i, frase[i])

-1 n
-2 o
-3 o
-4 p
-5 s
-6  
-7 o
-8 n
-9  
-10 s
-11 '
-12 e
-13 r
-14 e
-15 h
-16 T


## Funções associadas a _strings_

Existem muitas funções associadas a _strings_

Consultar a documentação oficial em [docs.python.org](https://docs.python.org/3/library/stdtypes.html#string-methods)

![](images/docspython_strmethods.png)

**São cerca de 40!**

## Imutabilidade

As _strings_ são **imutáveis**.

Isto significa que (ao contrário das listas e dicionários) **não existem funções para modificar uma** _string_.

**Não existe**, por exemplo, `s.append('a')`.

**Todas as operações com** _strings_ **resultam numa** _string_ **nova**, à qual é, geralmente, atribuído um nome (mesmo que seja o mesmo nome da _string_ original)

Podemos, por isso, usar `s = s + 'a'`

## Algumas funções úteis

### Funções `.strip()`, `.startswith()`.

In [6]:
c = "    There's no spoon      "
print('c:')
print(c)

s = c.strip()
print('c.strip():')
print(s)

c:
    There's no spoon      
c.strip():
There's no spoon


In [7]:
c = "    There's no spoon      "

if s.strip().startswith('Th'):
    print('Começa por Th')

Começa por Th


### Funções  `.upper()`, `.lower()`.

In [8]:
c = "    There's no spoon      "

c_upper = c.upper()
print('c.upper():',c_upper)

c_lower = c.lower()
print('c.lower():',c_lower)

c.upper():     THERE'S NO SPOON      
c.lower():     there's no spoon      


### Função  `.replace()`.

In [9]:
palavra = 'pois'
print(palavra)

palavra = palavra.replace('p', 'd')
print(palavra)

pois
dois


## Funções `.split()` e `.join()`

In [10]:
a = "There's no spoon"

b = a.split()
c = a.split('e')
d = a.split("'")

print(b)
print(c)
print(d)

["There's", 'no', 'spoon']
['Th', 'r', "'s no spoon"]
['There', 's no spoon']


A função `.split()` **gera uma lista de partes**, encontrando um separador numa _string_.

O separador a encontrar é o argumento da função. 

Se não se usar um argumento, considera-se que as partes são separadas por espaços, tabs ou mudanças de linha (no inglês genericamente designados por _white space_)

A função `.join()` é uma espécie de inversa de `.split()`: transforma **uma lista** de _strings_ **numa única** _string_, interpondo um separador:

In [11]:
aas = ['Arg', 'Tyr', 'Gly', 'Asp']

print(" ".join(aas))
print("-".join(aas))
print("".join(aas))
print("+".join(aas))
print("-CONH-".join(aas))

Arg Tyr Gly Asp
Arg-Tyr-Gly-Asp
ArgTyrGlyAsp
Arg+Tyr+Gly+Asp
Arg-CONH-Tyr-CONH-Gly-CONH-Asp


**Problema: transformar** `AUGUUCAAGGAGUAAUGCCCCCGACUA` **em** `AUG-UUC-AAG-GAG-UAA-UGC-CCC-CGA-CUA`

In [12]:
s = "AUGUUCAAGGAGUAAUGCCCCCGACUA"
print(s)

codoes = []
for i in range(0, len(s), 3):
    # i é o início de cada codão (c)
    c = s[i] + s[i+1] + s[i+2]
    codoes.append(c)

print(codoes)

final = "-".join(codoes)
print(final)

AUGUUCAAGGAGUAAUGCCCCCGACUA
['AUG', 'UUC', 'AAG', 'GAG', 'UAA', 'UGC', 'CCC', 'CGA', 'CUA']
AUG-UUC-AAG-GAG-UAA-UGC-CCC-CGA-CUA


Tem de haver uma maneira mais sucinta de de juntar vários caracteres consecutivos!

## Função `.splitlines()`

In [13]:
d = """ Um pequeno texto que até
ocupa várias linhas

algumas das linhas estão em branco"""

print(d.splitlines())

[' Um pequeno texto que até', 'ocupa várias linhas', '', 'algumas das linhas estão em branco']


A função `.splitlines()` é praticamente equivalente a `.split('\n')`.

É muito interessante o facto de podermos usar funções de _strings_ em conjunção com listas em compreensão:

**Problema: num texto com várias linhas, obter numa lista as linhas que começam por uma vogal e têm menos de 20 caracteres**

In [14]:
txt = """ 
 Um pequeno texto que até
ocupa várias
linhas

mas haverá
Algumas em branco"""

a = [s.strip() for s in txt.splitlines()]
print(a)
a = [s for s in a if 0 < len(s) < 20]
print(a)
a = [s for s in a if s[0].lower() in 'aeiou']
print(a)

['', 'Um pequeno texto que até', 'ocupa várias', 'linhas', '', 'mas haverá', 'Algumas em branco']
['ocupa várias', 'linhas', 'mas haverá', 'Algumas em branco']
['ocupa várias', 'Algumas em branco']


## "Slices" (em português: "fatias")

Já vimos que podemos indexar listas e _strings_, usando [] e a posição do elemento.

Os `[]` podem ser usados para um outro tipo de indexação de listas ou _strings_: os **slices**.

Os _slices_ extraem uma parte de uma lista ou _string_ que podem ter mais de um elemento.

A forma geral é `[início : fim(exclusivé) : passo]`. O `passo` é opcional.

In [15]:
a = "O Neo tomou o comprimido vermelho"
#    012345678901234567890123456789012

print(a[2:5])
print(a[0:5])
print(a[6:-1])

Neo
O Neo
tomou o comprimido vermelh


In [16]:
a = "O Neo tomou o comprimido vermelho"
#    012345678901234567890123456789012

print(a[ :5])
print(a[6: ])
print(a[ : ])
print(a[0:12:2])

O Neo
tomou o comprimido vermelho
O Neo tomou o comprimido vermelho
ONotmu


**Problema: transformar** `AUGUUCAAGGAGUAAUGCCCCCGACUA` **em** `AUG-UUC-AAG-GAG-UAA-UGC-CCC-CGA-CUA`

In [17]:
s = "AUGUUCAAGGAGUAAUGCCCCCGACUA"
print(s)

codoes = []
for i in range(0, len(s), 3):
    # i é o início de cada codão
    # aqui usamos um slice
    # em vez da soma de 3 posições consecutivas.
    c = s[i:i+3]
    codoes.append(c)

final = "-".join(codoes)
print(final)

AUGUUCAAGGAGUAAUGCCCCCGACUA
AUG-UUC-AAG-GAG-UAA-UGC-CCC-CGA-CUA


Usando uma lista em compreensão como argumento da função `.join()` o programa pode ficar mais compacto:

In [18]:
s = "AUGTTCAAGGAGUAAUGCCCCCGACUA"
sf = "-".join([s[i:i+3] for i in range(0,len(s),3)])

print(s)
print(sf)

AUGTTCAAGGAGUAAUGCCCCCGACUA
AUG-TTC-AAG-GAG-UAA-UGC-CCC-CGA-CUA


**Os** _slices_ **também funcionam com listas**

In [19]:
aas = ['Arg', 'Tyr', 'Gly', 'Asp']

s1 = aas[ :2]
s2 = aas[-2: ]
s3 = aas[ : :2]

print(s1)
print(s2)
print(s3)

['Arg', 'Tyr']
['Gly', 'Asp']
['Arg', 'Gly']


**Os** _slices_ **produzem sempre novos objetos**

**No caso de uma lista**, podemos **atribuír valores a um** _slice_ **da lista**, mudando alguns elementos de uma só vez:

In [20]:
nums = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
print(nums)
nums[3:5] = [8, 9]
print(nums)

[1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
[1, 2, 2, 8, 9, 3, 4, 4, 4, 4]


**Problema: Converter uma sequência com códigos de uma letra de aminoácidos para códigos de 3 letras, usando um dicionário para a conversão.**

Numa secção anterior, este problema foi resolvido anteriormente da seguinte forma:

In [21]:
trans = {'A': 'Ala', 'C': 'Cys', 'E': 'Glu', 'D': 'Asp', 'G': 'Gly', 'F': 'Phe', 'I': 'Ile', 'H': 'His', 'K': 'Lys', 'M': 'Met', 'L': 'Leu', 'N': 'Asn', 'Q': 'Gln', 'P': 'Pro', 'S': 'Ser', 'R': 'Arg', 'T': 'Thr', 'W': 'Trp', 'V': 'Val', 'Y': 'Tyr'}

# Problema: transformar s1 numa string
# com os códigos de 3 letras dos aa
s1 = 'ADKLITCWFHHWE'

s3 = ''
for aa in s1:
    s3 = s3 + trans[aa] + '-'

print(s1, 'é o mesmo que ', s3)

ADKLITCWFHHWE é o mesmo que  Ala-Asp-Lys-Leu-Ile-Thr-Cys-Trp-Phe-His-His-Trp-Glu-


Podemos compactar o programa e melhorar o aspeto do resultado.

Por um lado, podemos usar uma lista em compreensão para gerar os códigos de 3 letras (em vez de uma _string_), por outro podemos usar a função `.join()` para apresenta-los separados por `-`.

In [22]:
trans = {'A': 'Ala', 'C': 'Cys', 'E': 'Glu', 'D': 'Asp', 'G': 'Gly', 'F': 'Phe', 'I': 'Ile', 'H': 'His', 'K': 'Lys', 'M': 'Met', 'L': 'Leu', 'N': 'Asn', 'Q': 'Gln', 'P': 'Pro', 'S': 'Ser', 'R': 'Arg', 'T': 'Thr', 'W': 'Trp', 'V': 'Val', 'Y': 'Tyr'}

s1 = 'ADKLITCWFHHWE'

s3 = '-'.join([trans[aa] for aa in s1])

print(s1, 'é o mesmo que', s3)

ADKLITCWFHHWE é o mesmo que Ala-Asp-Lys-Leu-Ile-Thr-Cys-Trp-Phe-His-His-Trp-Glu


**Problema: calcular o complemento reverso de uma sequência, mas separando os codões por "-".**

In [23]:
bcompl = {'A':'T', 'T':'A', 'C':'G', 'G':'C'}

a = "ATGGTTACCTAGTATTTAGGATTA"
c = ''.join([bcompl[b] for b in a[ : :-1]])

print("Seq:")
print('-'.join([a[i:i+3] for i in range(0,len(a),3)]))

print("\nComplemento reverso:")
print('-'.join([c[i:i+3] for i in range(0,len(c),3)]))

Seq:
ATG-GTT-ACC-TAG-TAT-TTA-GGA-TTA

Complemento reverso:
TAA-TCC-TAA-ATA-CTA-GGT-AAC-CAT
