# Tratamento de Strings
Neste notebook estudamos como acessar strings e suas substrings, utilizar métodos da classe string para modificar as strings, e realizar a formatação de strings. 

## Manipulação de Strings
Para compreender como manipular strings, é útil pensar nelas como cadeias onde cada caractere é numerado de acordo com sua posição, como na tabela a baixo. Assim, conseguimos entender o que cada indíce representa. Note que o primeiro caractere de uma string sempre vai ser indexado pelo inteiro 0. O indíce então se incrementa por 1 para cada caractere a direita. 

| Caractere       | O   | l  | a  |    | m  | u  | n  | d  | o  | !  |
|-----------------|-----|----|----|----|----|----|----|----|----|----|
| Indice          | 0   | 1  | 2  | 3  | 4  | 5  | 6  | 7  | 8  | 9  |
| Indice negativo | -10 | -9 | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 |

In [73]:
my_string = "Ola mundo!"

### Indexação
Para acessar um determinado caractere de uma string, podemos digitar o indíce entre o operador de indíce(`[]`) após o nome da váriavel, ou após a string.

In [74]:
print("Ola mundo!"[2])
print(my_string[-9])

a
l


### Tamanho de strings
Para determinar o numero de caracteres que uma string possui pode se usar a função `len()` do Python. Note que este valor sempre será o valor do ultimo indíce somado com um.

In [75]:
len(my_string)

10

### Fatiamento de strings
O **fatiamento** de strings (slicing em inglês) significa extrair apenas uma parte desejada da string. 

Podemos fazer isto definindo um intervalo de indíces em python com o operador de fatiamento, que funciona de forma similar a função `range()`.

O operador de fatiamento deve receber três parametros separados por `:` para definir um intervalo numérico entre o operador de indíce. O primeiro parametro é o indíce de início, o segundo é o indíce final e o terceiro é o valor de incremento do indíce. O valor padrão (quando não é informado) para o indíce de início e zero e para o incremento é 1. O indíce de parada é necessário sempre.

In [98]:
# Exemplo 1: Todos indices pares de 0 até 9
print(my_string[:10:2])
# Exemplo 2: Todos os indices entre 3 e 9
print(my_string[3:9])

Oamno
 mundo


### Concatenação de strings
A **concatenação** é a operação que une duas strings em uma só. Para realizar esta operação, podemos utilizar o operador de soma(`+`) onde um dos argumentos da soma é uma string. 

In [99]:
print(my_string + " Tudo bem?")

Ola mundo! Tudo bem?


### Replicação de strings
Também podemos realizar a **replicação** que repete a string N vezes, onde N é argument numérico passado. Se N for um valor menor ou igual a zero, é retornado a string vazia. Se N for um valor não inteiro é retornado um erro.

In [100]:
print(my_string * 2)

Ola mundo!Ola mundo!


### Sequências de escape
Uma **sequência de escape** representa um caractere cuja entrada não é trivial. Há sequências de escape para indicar quebras de linha, caracteres, ou até mesmo para representar a contra barra.

Abaixo temos o exemplo de algumas sequências de escapa e seu funcionamento.

In [101]:
# Sequência \n indica quebra de linha
print("12\n34")

12
34


In [102]:
# Sequência \t indica tab
print("12\t34")

12	34


In [103]:
# Sequência \\ indica contra barra
print("12\\34")

12\34


In [104]:
# Sequência \' indica aspas simples na string
print("12\'34")

12'34


### Operações de strings
A linguagem Python possui muitos métodos implementados para manipular strings. 

**Métodos** são funções específicas para uma classe (neste caso, o tipo de dado `string`). Dito isso, é intuítivo que os métodos de Strings não funcionam com classes diferente com tipos de dados numéricos.  

Os métodos de uma classe podem ser utilizado digitando um `.` após o nome da váriavel que contém a string, ou a propria string, e digitando o método e seus respectivos argumentos como se fosse uma função normal.
> Curiosidade: Para entender melhor sobre o que são métodos, recomendo que você futuramente realize uma leitura sobre paradigmas de programação, principalmente o orientado a objetos.

O primeiro exemplo que temos é o metódo `upper()` cujo objetivo é retornar a string com todos caracteres para seu equivalente maíusculo. Note que ao utilizar este método, o valor na váriavel `my_string` não é alterado para maiusculo. O método `lower()` pode ser utilizado da mesma forma para retornar a string com todos seus caracteres em minusculo. O método `title()` pode ser utilizado para transformar todos caracteres após um espaço em maiusculo

In [116]:
print(my_string.upper() + my_string.lower() + my_string.title())

OLA MUNDO!ola mundo!Ola Mundo!


O método `replace()` pode ser utilizado para encontrar as ocorrências do primeiro argumento do método na string e substituir estas ocorrências pelo segundo argumeno. Todas as ocorrências serão substituídas e a comparação é case sensitive. 

In [111]:
# Note que todas ocorrências do primeiro argumento são substituidas.
tchau = (my_string + " Ola").replace("Ola","Adeus")
print(tchau)

Adeus mundo! Adeus


O método `find()` pode ser utilizado para encontrar o indíce de inicio de uma substring, passada como parametro, dentro de uma string. A busca retorna o menor indíce de inicio da substring. A comparação também é case sensetive. Se a substring não for encontrada, então é retornada o valor -1.

In [115]:
pos_mundo = my_string.find("mundo!")
print(pos_mundo)
pos_Adeus = my_string.find("Adeus")
print(pos_Adeus)

4
-1


## Formatação de Strings
A **string de formatação** é um par de caracteres(`{}`) que indica que nesta posição da string um valor deve ser inserido. A utilização de formatação de strings permite ter um texto "padrão" para acompanhar e apresentar váriaveis e valores.  O valor a ser inserido na string é passado como um argumento após fechar a string e chamar o método `format()` para a própria string. Para *n* strings de formatação, *n* argumentos devem ser passados para o método `format()`. Os valores são inseridos na string an ordem que eles são informados.

In [5]:
stringA = "Eu gosto de {} e {}."
print(stringA)
stringA = stringA.format("comer","dormir")
print(stringA)

Eu gosto de {} e {}.
Eu gosto de comer e dormir.


Para inserir ou poder modificar em qual string de formatação a string da váriavel deve ser inserida, indíces podem ser utilizado para indentificar qual ordem seguir. O indíce é adotado pela ordem que os parametrôs são inseridos no método `format()`.

In [6]:
stringB = "Eu não gosto de: {2}; {1} e {0}."
stringB = stringB.format("A","B","C")
print(stringB)

Eu não gosto de: C; B e A.


Outra forma de organizar a ordem de inserção na string é através da atribuição de nomes para os valores. Um nome(seguindo os padrões de nomeação de váriaveis) pode ser definido para evitar confusões ou ter que manipular indíces.

In [7]:
stringC = "Origem: {orig} \t Destino:{dest}; \t Horário de bordo:{temp}"
stringC = stringC.format(dest="Salvador",temp="18:05", orig="Vitória")
print(stringC)

Origem: Vitória 	 Destino:Salvador; 	 Horário de bordo:18:05


Além disto, é possível informar o numero de caracteres que devem ser utilizado para realizar formatação. Esta formatação pode ser alinhar texto para esquerda, centralizado ou direita. Utilizamos o valor numérico entre os colchetes após o simbolo `:` pra informar a largura que a string deve possuir para formatação. O caractere logo após o simbolo `:` indica que pontos devem ser utilizados para preencher o espaço vazio. Após inserir o tamanho para formatação, utilizamos simbolos para indicar o alinhamento.

In [18]:
stringA = '{:.<25}'.format("Esquerda")
stringB = '{:.>25}'.format('Direita')
stringC = "{:.^25}".format("Centralizado")
print(stringA,"\n",stringB,"\n",stringC)

Esquerda................. 
 ..................Direita 
 ......Centralizado.......


> Observação: A documentação do Python possui uma especificação da mini-liguagem que pode ser utilizada para formatar strings ([link](https://docs.python.org/3.4/library/string.html#formatspec)). A documentação possui diversos exemplos sobre como especificar conversões entre bases numéricas, utilizar formatações numéricas pré-definidas similar a linguagem C, organizar alinhamento e muito mais. Recomendo a leitura para quando for trabalhar com projetos que envolvem processamentos mais complexos de strings. 