# Manipulação de strings

Boa parte da bioinformática consiste na manipulação de informação representada em formato de texto, como no caso de sequências de DNA (compostas por 4 letras diferentes - ACGT). 

Assim sendo, saber como manipular dados do tipo ***string*** é geralmente muito importante em análises de bioinformática.

## strings - semelhanças com listas

Como já vimos de relance anteriormente, `strings` são, assim como listas, coleções de elementos (caracteres) indexados. Isso fica evidente ao usarmos um `for` loop em uma string:

In [15]:
frase = "Essa string é uma coleção de caracteres"

for letra in frase:
    print(letra) # Repare que os espaços também são indexados

E
s
s
a
 
s
t
r
i
n
g
 
é
 
u
m
a
 
c
o
l
e
ç
ã
o
 
d
e
 
c
a
r
a
c
t
e
r
e
s


Assim sendo, lista e string (e outras coleções) compartilham muitas similaridades. 

Podemos, por exemplo, usar a função `len()` para obter o tamanho de uma string ou fatiar a string, exatamente como vimos para as listas:

In [7]:
# Obtendo tamanho da string:
print(len(frase))

39


In [19]:
# Obtendo fatias da string:

print("Frase inteira:", frase[:]) # Não precisaria da notação de slicing

print("Índice 0:", frase[0])

print("Última posição:", frase[-1])

print("Índice 5 ao 25:", frase[5:25]) # Não inclui o caractere com index 25

print("Índice 5 ao fim da string:", frase[5:])

print("Índice 0 ao índice 25:", frase[:25]) # Não inclui o caractere com index 25

print("String reversa:", frase[::-1])

Frase inteira: Essa string é uma coleção de caracteres
Índice 0: E
Última posição: s
Índice 5 ao 25: string é uma coleção
Índice 5 ao fim da string: string é uma coleção de caracteres
Índice 0 ao índice 25: Essa string é uma coleção
String reversa: seretcarac ed oãçeloc amu é gnirts assE


Também podemos usar o operador `in` para checar se uma substring está presente em uma string:

In [20]:
print("string" in frase)

print("g é u" in frase)

print("ATACGTACGTA" in frase)

True
True
False


In [21]:
# Lembrando que o NOT inverte os valores booleanos retornados

print("string" not in frase)

print("ATACGTACGTA" not in frase)

False
True


## Métodos de strings

Vamos checar os métodos disponíveis para a classe `str` e abordar alguns dos mais importantes:

In [24]:
# Checando métodos disponíveis para a classe str

print(dir(frase))

['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isascii', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']


### `str.format()`

Já vimos ela várias vezes ao longo do curso. Basicamente, ela aceita múltiplos argumentos que são adicionados na string em posições com `{}`:

In [1]:
# Usando str.format() com múltiplos argumentos:

quantidade = 5
produto = "cebola"
preco = 3.50

pedido = "Eu quero comprar {} unidades do produto {} por {} reais."

print(pedido.format(quantidade, produto, preco))

Eu quero comprar 5 unidades do produto cebola por 3.5 reais.


Também é possível se adicionar os índices dos argumentos dentro das chaves ` {0}, {1}, etc...` para se especificar a ordem na qual os argumentos serão adicionados à string. Também é possível repetir um argumento múltiplas vezes usando essa sintaxe:

In [28]:
# Estabelecendo ordem e repetindo argumentos com str.format()

pedido = "Eu quero {3} unidades desse produto.\nNão {0}, não {1} e nem {2}.\nExatamente {3} unidades."

print(pedido.format(1, 4, 10, 2))

Eu quero 2 unidades desse produto.
Não 1, não 4 e nem 10.
Exatamente 2 unidades


#### Adendo: f-Strings

[f-Strings](https://realpython.com/python-f-strings/) são outra maneira, muitas vezes mais sucinta, de se formatar strings.

In [3]:
# Formatando com f-string

print(f"Eu quero comprar {quantidade} unidades do produto {produto} por {preco} reais.")

Eu quero comprar 5 unidades do produto cebola por 3.5 reais.


In [7]:
# f-strings, assim como o método format, podem receber qualquer expressão/variável, podendo também acomodar funções/métodos

print(f"4 vezes 5 é igual a {4*5}") # Sem função
print(f"4 vezes 5 é igual a {float(4*5)}") # Com função

4 vezes 5 é igual a 20
4 vezes 5 é igual a 20.0


## `str.strip()`

Remove espaço em branco (*whitespace* - espaços ou tabs) no começo e no fim de strings.

In [37]:
saudacao = "   Oi, pessoas!    "

print('"{}"'.format(saudacao)) # Com espaços em branco

print('"{}"'.format(saudacao.strip())) # Sem espaços em branco

"   Oi, pessoas!    "
"Oi, pessoas!"


Também há dois métodos mais específicos para se reitrar espaço em branco.

Se você quiser retirar o espaço em branco apenas da direita (fim da string), pode usar `str.rstrip()`.

Se você quiser retirar o espaço em branco apenas da esqueda (começo da string), pode usar `str.lstrip()`.

In [38]:
print('"{}"'.format(saudacao.rstrip())) # Retira espaço em branco do final

print('"{}"'.format(saudacao.lstrip())) # Retira espaço em branco do começo

"   Oi, pessoas!"
"Oi, pessoas!    "


## `str.upper()`, `str.lower()` e `str.capitalize()`

- **str.upper()** retorna a string convertida em maiúsculas
- **str.lower()** retorna a string convertida em minúsculas
- **str.capitalize()** retorna a string com a primeira letra maiúscula e as outras minusculas

In [47]:
# Criando string
palavra = "OLá!"
print("{} - normal".format(palavra))

# Convertendo para maiúscula
print("{} - maiúscula".format(palavra.upper()))

# Convertendo para minúscula
print("{} - minúscula".format(palavra.lower()))

# Capitalizando
print("{} - capitalizada".format(palavra.capitalize()))

OLá! - normal
OLÁ! - maiúscula
olá! - minúscula
Olá! - capitalizada


### `str.startswith()` e `str.endswith()`

Checam se uma string começa ou termina com uma substring (passada como parâmetro), respectivamente. Ambos os métodos retornam um valor booleano.

In [123]:
# starstswith

print("célula".startswith('c'))

print("mitose".startswith("mit"))

True
True


In [126]:
# endswith

print("célula".endswith("a"))

print("mitose".endswith('ose'))

True
True


### `str.replace()`

Como o nome diz, o método `str.replace()` substitui uma string por outra.

In [52]:
frase_errada = "O ribossomo gera energia para a célula"

print("{} - ERRADO".format(frase_errada))

frase_correta = frase_errada.replace("O ribossomo", "A mitocôndria")

print("{} - CORRETO".format(frase_correta))

O ribossomo gera energia para a célula - ERRADO
A mitocôndria gera energia para a célula - CORRETO


### `str.split()`

Separa a string em substrings. Retorna uma lista.

Sintaxe:
   
    str.split(separador, maxsplit)

- separador: Especifica o separador usado para partir a string. O padrão é usar *whitespace*.
- maxsplit: Quantas vezes a string deve ser partida ao se encontrar o separador. O padrão é dividir a string em todas as aparições do separador.

In [90]:
frase_gandalf = "Muitos que vivem merecem a morte. E alguns que morrem merecem viver. Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte. Pois mesmo os muitos sábios não conseguem ver os dois lados."

# Sem especificar separador
print(frase_gandalf.split())

['Muitos', 'que', 'vivem', 'merecem', 'a', 'morte.', 'E', 'alguns', 'que', 'morrem', 'merecem', 'viver.', 'Você', 'pode', 'dar-lhes', 'a', 'vida?', 'Então', 'não', 'seja', 'tão', 'ávido', 'para', 'julgar', 'e', 'condenar', 'alguém', 'a', 'morte.', 'Pois', 'mesmo', 'os', 'muitos', 'sábios', 'não', 'conseguem', 'ver', 'os', 'dois', 'lados.']


Usando o parâmetro `separador`:

In [68]:
# Especificando separador
print(frase_gandalf.split('.'))

['Muitos que vivem merecem a morte', ' E alguns que morrem merecem viver', ' Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte', ' Pois mesmo os muitos sábios não conseguem ver os dois lados', '']


In [70]:
# Imprimindo apenas terceira frase (índice 2)
print(frase_gandalf.split('.')[2])

# Imprimindo apenas quarta frase (índice 3)
print("\n" + frase_gandalf.split('.')[3]) # Concatenação de string

 Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte

 Pois mesmo os muitos sábios não conseguem ver os dois lados


Usando o parâmetro `maxsplit`:

In [77]:
# Separar só no primeiro ponto
um_split = frase_gandalf.split('.', 1)
print(um_split)
print(len(um_split))

# Separar só nos dois primeiros pontos
print()
dois_splits = frase_gandalf.split('.', 2)
print(dois_splits)
print(len(dois_splits))

['Muitos que vivem merecem a morte', ' E alguns que morrem merecem viver. Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte. Pois mesmo os muitos sábios não conseguem ver os dois lados.']
2

['Muitos que vivem merecem a morte', ' E alguns que morrem merecem viver', ' Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte. Pois mesmo os muitos sábios não conseguem ver os dois lados.']
3


Repare que `str.split()` checa a ocorrência do separador da **esquerda para a direita**. Ou seja, do começo para o fim da string.

Se por algum motivo quisermos começar a separar a string a partir do final (ou seja, da **direita para a esqueda**, podemos usar o método `str.rsplit()`.

Ambos os métodos possuem os mesmos parâmetros, então seus usos são basicamente idênticos.

In [82]:
# Separar só nos dois primeiros pontos
dois_split_prim = frase_gandalf.split('.', 2)
print(dois_split_prim)
print(len(dois_split_prim))

# Separar só nos dois últimos pontos
dois_split_ult = frase_gandalf.rsplit('.', 2)
print()
print(dois_split_ult) # No final, temos uma string vazia - retirada do último '.'
print(len(dois_split_ult))

['Muitos que vivem merecem a morte', ' E alguns que morrem merecem viver', ' Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte. Pois mesmo os muitos sábios não conseguem ver os dois lados.']
3

['Muitos que vivem merecem a morte. E alguns que morrem merecem viver. Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte', ' Pois mesmo os muitos sábios não conseguem ver os dois lados', '']
3


Isso é tudo sobre métodos da classe string. 

Note que **todos os métodos de strings retornam novos valores. Consequentemente, eles não mudam o valor original da string.**

### Caracteres "escapados"

Alguns caracteres com funções específicas em Python podem ser incorporados em strings ao se usar sua respectiva versão "escapada" (*escape character*).

Um *escape character* é uma contrabarra `\` seguida do caracter que se quer inserir.

Por exemplo, podemos querer adicionar aspas duplas dentro de uma string que já usa aspas duplas:

In [106]:
# Dará erro
frase = "Eu não acho que esse seu "remédio" vai funcionar"
print(frase)

SyntaxError: invalid syntax (<ipython-input-106-34e8a3fe28c6>, line 2)

In [107]:
# Se escaparmos as aspas duplas...
frase = "Eu não acho que esse seu \"remédio\" vai funcionar"
print(frase)

Eu não acho que esse seu "remédio" vai funcionar


In [113]:
# OBS: Apesar de ser escrito como \", o caractere escapado ainda conta como um único caractere
print("\"")
print(len("\""))

"
1


Claro que há outras formas de lidar com isso

Podemos, por exemplo, botar a string inteira dentro de aspas simples:

In [109]:
frase = 'Eu não acho que esse seu \"remédio\" vai funcionar'
print(frase)

Eu não acho que esse seu "remédio" vai funcionar


Então, a contrabarra é usada para escapar caracteres. Mas e se quisermos escapar a contrabarra? Bom, tem um caractere escapado pra isso tbm:

In [115]:
# Contrabarra sem escape
print("Essa é a contrabarra: \")

SyntaxError: EOL while scanning string literal (<ipython-input-115-f25581c85644>, line 2)

In [116]:
# Escapando contrabarra
print("Essa é a contrabarra: \\")

Essa é a contrabarra: \


Há vários outros caracteres escapados em Python, mas os mais importantes são o *newline* (`\n`) e o *tab* (`\t`):

- newline: Adiciona uma nova linha
- tab: Adiciona espaço em branco (tabulação)

In [117]:
# Usando newline para imprimir em multiplas linhas
print("Isso em uma linha\nIsso em outra\nIsso na última")

Isso em uma linha
Isso em outra
Isso na última


In [118]:
# Usando tab para separar valores
print("Produto\tvalor\nmaçã\t5.20\npêra\t4.70")

Produto	valor
maçã	5.20
pêra	4.70


Saber da existência dos caracteres escapados pode ser útil para lidar com situações dentro e fora do Python e lidar com caracteres especiais.

Ao se trabalhar com arquivos no terminal do linux, por exemplo, representar os **espaços** em nomes de arquivos como "\ " é uma forma de acessá-los. Também é possível colocar o nome com espaços cercados por aspas, para representar que é uma string única, não vários parâmetros distintos.

### Strings com múltiplas linhas ou linhas muito compridas

Para strings com mais de uma linha, além de usar o caractere newline`\n`, podemos escrever elas cercadas por conjuntos de três aspas (simples ou duplas), exatamente como quando escrevemos ***docstrings*** para funções:

In [119]:
# Multilinha usando o caractere 'newline'(\n)
multilinha = "Lorem ipsum dolor sit amet,\nconsectetur adipiscing elit,\nsed do eiusmod tempor incididunt\nut labore et dolore magna aliqua."
print(multilinha)

Lorem ipsum dolor sit amet,
consectetur adipiscing elit,
sed do eiusmod tempor incididunt
ut labore et dolore magna aliqua.


In [120]:
# Multilinha usando aspas simples
multilinha2 = """Lorem ipsum dolor sit amet,
consectetur adipiscing elit,
sed do eiusmod tempor incididunt
ut labore et dolore magna aliqua."""

print(multilinha2)

Lorem ipsum dolor sit amet,
consectetur adipiscing elit,
sed do eiusmod tempor incididunt
ut labore et dolore magna aliqua.


In [121]:
# Mesma string, apesar da sintaxe diferente
multilinha == multilinha2

True

Linhas muito longas podem dificultar a a leitura do código.

Podemos visualizar uma linha muito longa em múltiplas linhas de codigo adicionando uma contrabarra `\` no meio da string e começando uma nova linha.

In [99]:
linha_longa_inteira = "Muitos que vivem merecem a morte. E alguns que morrem merecem viver. Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte. Pois mesmo os muitos sábios não conseguem ver os dois lados."

linha_longa_legivel = "Muitos que vivem merecem a morte. \
E alguns que morrem merecem viver. \
Você pode dar-lhes a vida? \
Então não seja tão ávido para julgar e condenar alguém a morte. \
Pois mesmo os muitos sábios não conseguem ver os dois lados."

In [98]:
print(linha_longa_inteira)
print()
print(linha_longa_legivel)

Muitos que vivem merecem a morte. E alguns que morrem merecem viver. Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte. Pois mesmo os muitos sábios não conseguem ver os dois lados.

Muitos que vivem merecem a morte. E alguns que morrem merecem viver. Você pode dar-lhes a vida? Então não seja tão ávido para julgar e condenar alguém a morte. Pois mesmo os muitos sábios não conseguem ver os dois lados.


Perceba que a adição da contrabarra só alterou a forma que a linha é exibida no código, tornando-a mais legível.

O conteúdo da linha em si não foi alterado. Ou seja, tanto a variável `linha_longa_inteira` quanto `linha_longa_legivel` possuem exatamente o mesmo valor:

In [100]:
linha_longa_inteira == linha_longa_legivel

True

Isso é tudo sobre **manipulação de strings**. Em breve estaremos prontos para lidar com arquivos contendo informação biológica. Até a próxima aula!