# Material de apoio - Strings

Este material visa compilar a maioria das funções em strings com códigos de exemplo para que seja mais fácil de encontrar o que você precisa. 

# Funções Built-In  para *strings*

Funções Built-in são funções do interpretador *python* que estão sempre disponíveis. Nem todas funcionam para *strings* portanto existem mais funções *built-in* do que mostrado aqui


Funções

1. [len()](#len())
2. [ascii()](#ascii())
3. bool()
4. bytearray()
5. bytes()
6. ord()
7. enumerate()
8. float()
9. hash()
10. id()
11. int()
12. map()
13. print()
14. slice()
15. type()

## <a id='len()'>len()</a>

Serve para determinar o tamanho de uma sequência, no caso específico de *strings* ela irá informar o número de caracteres na *string*, incluindo números, pontuação e espaços em branco

In [49]:
# função len()
curso = "Ctrl+Young - Módulo 1"
print(len(curso))

21


## <a id='ascii()'>ascii()</a>

Retorna a representação em *string* do objeto. Internamente ela chama a função **repr()** e antes de retornar a função ela pula os caracteres não *ascii* usando \x, \u ou \U

In [50]:
# função ascii()

s1 = "uma string apenas com caracteres ascii"
print(ascii(s1))
s2 = 'Uma string com vários caracteres não ascii: Paciência, àquela, não, vários'
print(ascii(s2))

'uma string apenas com caracteres ascii'
'Uma string com v\xe1rios caracteres n\xe3o ascii: Paci\xeancia, \xe0quela, n\xe3o, v\xe1rios'


## bool()

Retorna um valor booleano para o objeto. No caso de *strings* ela retorna **False** somente se a *string* for vazia.

**ATENÇÃO** - Espaços em branco contam como caractere, portanto definem uma *string* não vazia

In [7]:
# função bool()
string_vazia = ''
string_cheia = "Qualquer coisa"
string_espacos = '   '
string_none = "None"
string_False = "False"
string_True = "True"
string_0 = "0"
print(bool(string_vazia))
print(bool(string_cheia))
print(bool(string_espacos))
print(bool(string_none))
print(bool(string_False))
print(bool(string_True))
print(bool(string_0))

False
True
True
True
True
True
True


## bytearray()

Retorna uma sequência de *bytes*(números de 0 a 255), baseada na entrada. No caso de *strings* deve-se obrigatoriamente passar a codificação da mesma. Ou seja se ela está em modo *ascii*, *UTF-8* ou qualquer outro método de codificação.

OBS: um método de codificação é usado para determinar quais caracteres existem. Por exemplo, no *ascii* não existem acentuação ou c cedilha.

In [26]:
# função bytearray()

s_para_bytes = "teste"
barray = bytearray(s_para_bytes, "UTF-8")
for byte in barray:
    print(byte)
    
# Cada letra possui um bytecode específico. A letra "t" é igual a 116 e a letra é "101"

116
101
115
116
101


## bytes()

Retorna um objeto *bytes* que é uma sequência de de inteiros com valores entre 0 e 255.
A diferença entre **bytearray()** e **bytes()**  é que o primeiro é mutável e o segundo é imutável

In [30]:
# função bytes()

str_bytes = "teste"
str_bytes = bytes(str_bytes, "UTF-8")
for by in str_bytes:
    print(by)

116
101
115
116
101


## ord()

Recebe um único caractere e retorna o valor inteiro de seu código. É oposta a função **chr()**, que pega um valor inteiro e converte para um caractere

In [36]:
# função ord()

letra = "B"
letra2 = "b"
print(ord(letra)) # resultado é 66
print(ord(letra2)) # resultado é 98
print(chr(66))
print(chr(98))

66
98
B
b


## enumarate(seq, indice=0)

Recebe uma sequência e retorna uma sequência de tuplas para cada elemento da sequência original. Cada tupla é numerada de acordo com a posição do elemento na sequência. Se o índice não for indicado a numeração começa do 0

In [42]:
# função enumarate()

frase = "Existem muitas funções"
enum_frase = enumerate(frase)
enum_frase2 = enumerate(frase, 10)
print(enum_frase)
for elem in enum_frase:
    print(elem)

print("\nEnumarate começando do 10\n")
for elem in enum_frase2:
    print(elem)

<enumerate object at 0x000001E121E99828>
(0, 'E')
(1, 'x')
(2, 'i')
(3, 's')
(4, 't')
(5, 'e')
(6, 'm')
(7, ' ')
(8, 'm')
(9, 'u')
(10, 'i')
(11, 't')
(12, 'a')
(13, 's')
(14, ' ')
(15, 'f')
(16, 'u')
(17, 'n')
(18, 'ç')
(19, 'õ')
(20, 'e')
(21, 's')

Enumarate começando do 10

(10, 'E')
(11, 'x')
(12, 'i')
(13, 's')
(14, 't')
(15, 'e')
(16, 'm')
(17, ' ')
(18, 'm')
(19, 'u')
(20, 'i')
(21, 't')
(22, 'a')
(23, 's')
(24, ' ')
(25, 'f')
(26, 'u')
(27, 'n')
(28, 'ç')
(29, 'õ')
(30, 'e')
(31, 's')


## float()

Retorna um número do tipo ponto flutuante a partir de uma *string*

In [44]:
str_float = "4.532"
num_float = float(str_float)
print(num_float)
print(num_float + 32)

4.532
36.532


## hash()

Retorna um hash à partir da *string*. Um hash é uma função que produz um valor único (idealmente) para cada entrada. É muito utilizado para questôes de segurança. Uma pequena alteração no valor inserido leva a uma alteração enorme na saída.

In [46]:
# função hash()

str1 = "Teste" 
str2 = "teste" # Leve alteração trocando maiúscula por minúscula
str3 = "Teste " # Outra pequena alteração adicionando um espaço ao final da string
str4 = "Teste" # String exatamente igual a str1 -> saída será igual à str1
print(hash(str1))
print(hash(str2))
print(hash(str3))
print(hash(str4))

-4173131307510708419
6829650683376518794
-7250782231595587293
-4173131307510708419


## id()

Retorna uma identificação do objeto (nesse caso uma *string*). A identificação do objeto é única em todo o programa. Duas variáveis terão o mesmo **id()** apenas se elas apontam para o mesmo objeto

In [47]:
# função id()

str1 = "minha string!"
str2 = "outra string!"
str3 = str1 # apontam para o mesmo objeto
str4 = "minha string!" # string igual a str1 porém é outro objeto
print(id(str1))
print(id(str2))
print(id(str3)) # mesmo id() de str1
print(id(str4)) # id() diferente de str1 mesmo com strings iguais

2066447600176
2066447420592
2066447600176
2066447420400


## int()

Muito semelhante à função float(), porém retorna um número inteiro ao invés de um número ponto flutuante.

In [48]:
# função int()

string_num = "12352"
num = int(string_num)
print(num)
print(num-12351)

12352
1


## map()

Aplica uma função em cada elemento da sequência. No caso de *strings* ele irá aplicar uma função para cada caractere da *string*

In [62]:
# função map()

string = "12345"
string_map = map(int, string)
for elem in string_map:
    print(elem*2)

2
4
6
8
10


### Observação:

Em python não é comum utilizar a função **map()** atualmente. Existem opções melhores como o *list comprehension* por exemplo. Isso não faz parte do curso e é um tópico um pouco mais avançado, mas irei adicionar aqui para fins didáticos.

In [63]:
string = "12345"
list_string_int = [int(x) for x in string]   # a operação à direita é chamada de list comprehension
                                                 # Ela é uma lista pois possui os colchetes
                                                 # Você pode ler como: aplique a função int() em x
                                                 # para cada x na string
                                                 # Onde x é cada elemento da string -> "1","2","3","4" e "5"

for elem in list_string_int:
    print(elem*2)

2
4
6
8
10


## print()

Imprime na saída padrão o valor especificado

In [64]:
print("Uma string")
val_string = "Outra string"
print(val_string)

Uma string
Outra string


## slice()

Retorna um objeto *slice* que é uma lista de índices a serem aplicados em um objeto.
A função slice recebe 3 parâmetros:

**slice(início, fim, passo)**

Produz um resultado igual a *string* [inicio:fim:passo]

Desses o único obrigatório é **fim**

In [69]:
# função slice()

corte = slice(1,6,2) # objeto slice com índices 1, 3 e 5
corte2 = slice(None, None, 2) # índices 0,2,4,6,8,10,12,...
string = "Ctrl+Play"
print(string[corte]) # uso do objeto slice dentro do índice da string. 
print(string[1:6:2])

print(string[corte2])
print(string[::2])
# Com os índices 1, 3 e 5 ele irá imprimir os caracteres "t", "l" e "P"

tlP
tlP
Cr+ly
Cr+ly


## type()

Retorna o tipo do objeto. No caso quando usado em *strings* ele irá retornar avisando que é um objeto da classe *str*, ou seja uma *string*

In [70]:
string = "123a,b,c!@#"
inteiro = 12345
ponto_flutuante = 123.45
print(type(string))
print(type(inteiro))
print(type(ponto_flutuante))

<class 'str'>
<class 'int'>
<class 'float'>


# <a id="indice">Métodos de Strings<a>

1. [capitalize()](#capitalize())
2. [center()](#center())
3. [casefold()](#casefold())
4. [count()](#count())
5. [endswith()](#endswith())
6. [expandtabs()](#expandtabs())
7. [enconde()](#enconde())
8. [find()](#find())
9. [format()](#format())
10. [index()](#index())
11. [isalnum()](#isalnum())
12. [isalalpha()](#isalalpha())
13. [isdecimal()](#isdecimal())
14. [isdigit()](#isdigit())
15. [isidentifier()](#isidentifier())
16. [islower()](#islower())
17. [isnumeric()](#isnumeric())
18. [isprintable()](#isprintable())
19. [isspace()](#isspace())
20. [istitle()](#istitle())
21. [isupper()](#isupper())
22. [join()](#join())
23. [ljust()](#ljust())
24. [rjunt()](#rjunt())
25. [lower()](#lower())
26. [upper()](#upper())
27. [swapcase()](#swapcase())
29. [lstrip()](#lstrip())
30. [rstrip()](#rstrip())
31. [partition()](#partition())
32. [maketrans()](#maketrans())
33. [rpartition()](#rpartition())
34. [translate()](#translate())
35. [replace()](#replace())
36. [rfind()](#rfind())
37. [rindex()](#rindex())
38. [split()](#split())
39. [rsplit()](#rsplit())
40. [splitlines()](#splitlines())
41. [startswith()](#startswith())
42. [title()](#title())
43. [zfill()](#zfill())
44. [format_map()](#format_map())

## 1. <a id="capitalize()">capitalize()<a>
    
Retorna a string com a primeira letra em maiúsculo e todas as outras e minúsculo.

[Voltar](#indice)

In [3]:
string = "uma frAse Interessante"
print(string.capitalize())

Uma frase interessante


## 2. <a id="center()">center()<a>

O método [center()]() retorna uma string que é preenchida com o caractere informado.

Sintaxe: <br>
<code>string.center(largura, caractere_de_preenchimento=" ")</code>

[Voltar](#indice)

In [12]:
s_center = "Ir ao Centro"
print(s_center.center(20))
print(s_center.center(20, '0'))
print(s_center.center(20, '-'))

    Ir ao Centro    
0000Ir ao Centro0000
----Ir ao Centro----


## 3. <a id="casefold()">casefold()<a>

Método mais agressivo do que lower(). Converte valores para comparação em strings sem que sejam considerados maiúsculas, minúsculas e outras formas de escrita. 

Exemplo: a letra ß do alemão é equivalente a ss. Ela não seria convertido usando apenas lower() mas é convertida usando casefold()

[Voltar](#indice)



In [61]:
letra = "casa" 
igual = "caça"
print(letra==igual)
print(letra.lower()==igual)
print(letra.casefold()==igual)

False
False
False


## 4. <a id="count()">count()</a>

Retorna o número de ocorrências de uma substring em uma string. <br>
Possui dois parâmetros opcionais, *start* e *end* que delimitam o espaço de busca na string.

<code>string.count(substring, start= ..., end= ...)</code>
    
[Voltar](#indice)

In [16]:
str_count = "String original com várias palavras"
print(str_count.count("al"))

2


## 5. <a id="endswith()">endswith()</a>

Retorna *True* se a string termina com o sufixo especificado. Se não retorna *False*. <br>
Possui dois parâmetros opcionais, start e end que delimitam o espaço de busca na string.

<code>str.endswith(sufixo, começo= ..., fim=...)</code>

[Voltar](#indice)

In [22]:
str_end = "termina em"
print(str_end.endswith("em"))
print(str_end.endswith("em", 0, 8))

True
False


## 6. <a id="expandtabs()">expandtabs()</a>

Retorna uma cópia da string em que as tabulações "\t" são substituídas por espaço em branco até o próximo múltiplo do parâmetro informado.

<code>expandtabs(tabsize)</code>

[Voltar](#indice)

In [25]:
string_expand = "\tUma Strings\tFinal"
string_spaces = string_expand.expandtabs()
print(string_expand)
print(string_spaces)

#para conseguir ver o efeito do código seleciona cada caractere individualmente no resultado final

	Uma Strings	Final
        Uma Strings     Final


## 7. <a id="encode()">encode()</a>

Retorna uma versão codificada da string. <br>

Python guarda os caracteres em formato Unicode. Para melhor eficiência do código, esse padrão deve ser transformado em uma sequência de bits. Para isso, existem vários padrões de codificação, sendo os mais famosos o **ascii** e o **UTF-8**, em que este último é o utilizado por padrão em Python.

<code>string.encode(encoding="UTF-8", errors="strict")</code>

[Voltar](#indice)

In [31]:
string_unicode = "Código!"
print(string_unicode)

string_utf8 = string_unicode.encode() #por padrão o método utiliza UTF-8
print(string_utf8)


Código!
b'C\xc3\xb3digo!'


## 8. <a id="find()">find()</a>

Retorna o índice da primeira ocorrência encontrada na *string*. Caso não seja encontrado o valor retornado é -1

<code>str.find(substring, start=..., end=...)</code>

[Voltar](#indice)

In [33]:
string_find = "Podemos procurar praticamente qualquer coisa em uma string e retornar o seu índice"
print(string_find.find("quer"))

34


## 9. <a id="format()"> format() </a>

Formata a string para que a saída possua um visual mais agradável.

[Voltar](#indice)

Existem vários estilos de formatação para várias situações diferentes. Irei mostrar aqui apenas um tipo relacionado a números com casas depois da vírgula e com zeros na frente.

<code>string.format(p0,p1,p2,....k0=v0, k1=v1,...)
    onde p0, p1, p2 ... são parâmetros e k0, k1... são argumentos chave-valor</code>
    
    
Exemplo: "Meu nome é {0} e o número pi é igual a {1:5.2f}".format("Johnny", 3.141592)

Aqui 0 é o primeiro argumento dentro dos parênteses, posição 0 e valor igual a "Johnny". Ele não recebe nenhuma formatação<br>

Em {1:5.2f"} o 1 antes dos dois pontos representa o argumento na posição 1, ou seja, 3.141592. A operação 5.2f faz várias coisas. Primeiro a letra "f" indica que estamos tratando um número ponto flutuante. O valor antes do ponto - 10 - diz que o tamanho total do número será de 10 caracteres. Já o 2 depois de dois pontos, indica que haverá dois pontos após a vírgula.

Veja na prática

In [44]:
string_format = "Meu nome é {0} e o número pi é igual a {1:10.2f}"
print(string_format.format("Johnny", 3.141592))

Meu nome é Johnny e o número pi é igual a       3.14


Para mostrar uma outra forma de passar os argumentos, iremos utilizar agora valores chave-valor. Vamos usar praticamente o mesmo código.

A diferença no código a seguir é que temos um 0 antes do número 10, o que faz com que sejam colocados 0s à esquerda até que sejam preenchidas todas as posições.

Outra coisa importante é que agora passamos os argumentos como chave-valor, não importando mais a posição.

In [46]:
string_format = "Meu nome é {nome} e o número pi é igual a {numero:010.2f}"
print(string_format.format(numero=3.141592, nome="Johnny"))

Meu nome é Johnny e o número pi é igual a 0000003.14


## f-strings

Continuando falando sobre formatação, o python 3.6 surgiu com o conceito de *f-strings*. Isso permite uma facilidade bem maior ao fazer formatações, não dependendo mais do uso da função **format()**. A regibilidade ficou melhor e a produtividade também.


Para usar *f-strings* basta adicionar a letra "f" antes das aspas da string.

Veja abaixo usando o mesmo exemplo.

In [48]:
nome = "Johnny"
numero = 3.141592
string_format = f"Meu nome é {nome} e o número pi é igual a {numero:010.2f}"
print(string_format)

Meu nome é Johnny e o número pi é igual a 0000003.14


## 10. <a id="index()">index()</a>

Retorna o índice de uma *substring* dentro da *string* caso seja encontrado. Se a *substring* não for encontrada o método gera uma exceção

O método recebe o parâmetro ***substring*** que é uma *string* a ser encontrada na *string* original e mais dois parâmetros opcionais, ***start*** e ***end***, que delimitam o espaço de busca na *string*.

<code> string.index(substring, start=..., end=...) </code>

A única diferença desse método para o método **find()** é que **index()** gera uma exceção quando a *substring* não é encontrada e o método **find()** retorna o número **-1**

[Voltar](#indice)

In [62]:
string_index = "Podemos procurar praticamente qualquer coisa em uma string e retornar o seu índice"
print(string_index.index("quer"))

34


In [64]:
string_index_find = "Vamos ver a diferença do método find() e index() quando a substring não é localizada"

In [65]:
# find()

print(string_index_find.find("NÃO EXISTO NA STRING ORIGINAL"))

-1


In [66]:
# index()

print(string_index_find.index("NÃO EXISTO NA STRING ORIGINAL"))

ValueError: substring not found

## 11. <a id="isalnum()">isalnum()</a>

Retorna ***True*** caso todos os caracteres na *string* sejam alfanuméricos (letras ou números). Caso contrário retornar ***False***

<code>string.isalnum()</code>

[Voltar](#indice)

In [75]:
string_isalnum_1 = "todossomosalfanuméricos1234567890"
string_isalnum_2 = "Um espaço não é alfanumérico"
string_isalnum_3 = "áéíóúàèìòùçãõñâêîôû"
string_isalnum_4 = "Pontuação?Não!"
print(string_isalnum_1.isalnum())
print(string_isalnum_2.isalnum())
print(string_isalnum_3.isalnum())
print(string_isalnum_4.isalnum())

True
False
True
False


## 12. <a id="isalpha()">isalpha()</a>

Retorna ***True*** caso todos os caracteres na *string* sejam letras. Caso contrário retorna ***False***

<code>string.isalpha()</code>

[Voltar](#indice)

In [76]:
string_letras = 'Aquitudosãoletras'
string_com_espacos = 'Aqui temos espaços'
string_com_numeros = "Numero1"
print(string_letras.isalpha())
print(string_com_espacos.isalpha())
print(string_com_numeros.isalpha())

True
False
False


## 13. <a id="isdecimal()">isdecimal()</a>

Retorna ***True*** caso todos os caracteres na *string* sejam decimais. Caso contrário retorna ***False***

<code>string.isdecimal()</code>

[Voltar](#indice)