# Strings

Sequências ou cadeias de caracteres do sistema unicode limitada por aspas simples (''), duplas ("") ou triplas para textos que ocupam mais de uma linha ('''''').

São objetos imutáveis.

* Sintaxe: '...' ou "..." ou '''...'''
* Pode ser vazia: '' ou ""
* Letras minúsculas/maiúsculas: a-Z, A-Z
* Números: 0-9
* Variantes de letras/letras acentuadas: ç, à, ã, é, ê
* Caracteres especiais: !@#$%&*()/+-
* Comandos a partir do caractere de escape \: \n (quebra de linha), \\", \\', \t, \b

## Caractere de escape

O caractere de escape, \\, indica para o interpretador para interpretar o próximo caractere de modo diferente.

Por exemplo, o n no \n não vai ser lido como a letra n e sim como uma quebra de linha.

* \n: new line, quebra de linha
* \\" ou \\': dentro da *string* serão lidos como aspas
* \t: comando tab (adiciona alguns espaços)
* \b: comando backspace (apaga caractere anterior)
* \UXXXXXXXX: comando hexadecimal





In [None]:
# New line: \n

s = "O curso FIP10108 está sendo ministrado \nem modo de Ensino Remoto Emergencial."

print(s)

O curso FIP10108 está sendo ministrado 
em modo de Ensino Remoto Emergencial.


In [None]:
# Aspas dentro da string

# Alterna entre aspas simples/duplas: usar a que não está delimitando a string
# para ser interpretada como aspas
s = "O curso FIP10108 está sendo ministrado \nem modo de 'Ensino Remoto Emergencial'."

print(s)

print() 

# Caractere de escape: usar o caractere de escape para indicar que aquelas aspas
# não estão funcionando como delimitadoras da string; para usar as mesmas aspas
# tanto como delimitadora quanto como caractere
s = "O curso FIP10108 está sendo ministrado \nem modo de \"Ensino Remoto Emergencial\"."

print(s)

O curso FIP10108 está sendo ministrado 
em modo de 'Ensino Remoto Emergencial'.

O curso FIP10108 está sendo ministrado 
em modo de "Ensino Remoto Emergencial".


In [None]:
# Tabulador: \t

print("Elemento \tSímbolo \tQuantidade")
print("Hidrogênio \tH \t\t12.2")
print("Hélio \t\tHe \t\t20.21")

Elemento 	Símbolo 	Quantidade
Hidrogênio 	H 		12.2
Hélio 		He 		20.21


In [None]:
# Backspace: \b

print("01233367\b\b\b\b4567")

012333674567


In [None]:
# Caracteres especiais a partir do código hexadecimal:
# Tabela com alguns códigos no unicode: https://www.rapidtables.com/code/text/unicode-characters.html
# Obs: quando o código tiver '+', substitua-o por '000'

print(" \U0001F44D\n", "\U0001F61C\n", 6 * "\U0001F923","\n", "\u03B2")

 👍
 😜
 🤣🤣🤣🤣🤣🤣 
 β


## Operadores de strings

Os operadores + e * vão assumir operações referentes à manipulação de *strings* quando os operandos são *strings*.

* Operador de concatenação: +
* Operador de replicação: *
* Operador de inclusão: in (para saber se uma *string* está incluída em outra)

In [None]:
# Operador de concatenação +: string + string
print("abc" + "def")

print()

# Operador de replicação *: inteiro * string ou string * inteiro
print(6 * "\U0001F923")
print("\n", 60 * "=")
print(10 * " Relatório .... \n")
print(60 * "=")

abcdef

🤣🤣🤣🤣🤣🤣

 Relatório .... 
 Relatório .... 
 Relatório .... 
 Relatório .... 
 Relatório .... 
 Relatório .... 
 Relatório .... 
 Relatório .... 
 Relatório .... 
 Relatório .... 



In [None]:
# Operador de inclusão in:
print("ynt" in "Linguagem Python de Programação")

False


## Fatiamento de strings

É uma outra operação que se faz com *strings* para selecionar algum trecho dela.

In [None]:
s = "abcdefghijklm"
#    0         1
#    0123456789012

print(s[0])   # Operação de acesso ao elemento da sequência
print(s[3:7]) # Operação de fatiamento
print(s[:5])  # Quando os índices são omitidos, supõe-se que é do primeiro
print(s[6:])  # elemento ou até o último

print(s[2:10:2])  # O terceiro valor determina o passo do incremento, que se
                  # omitido, supõe-se que seja 1

print(s[::-1])   # É possível fatiar de trás pra frente utilizando o passo -1
print(s[5:2:-1]) # note que é necessário inverter os valores inicial e final

a
defg
abcde
ghijklm
cegi
mlkjihgfedcba
fed


## Métodos de strings

São funções que os objetos dessa classe (*strings*) terão acesso.

Executam algum tipo de operação envolvendo a *string*.

Não modifica a *string*, cria uma nova *string* com as modificações.

* Sintaxe: string.funcao()

### Métodos para operações letras minúsculas e maiúsculas

* **string.lower()**: gera uma nova *string* com todas as letras são minúsculas
* **string.upper()**: gera uma nova *string* com todas as letras são maiúsculas
* **string.captalize()**: gera uma nova *string* com a primeira letra em maiúsculo
* **string.title()**: gera uma nova *string* com as primeiras letras das palavras em maiúsculo
* **string.swapcase()**: gera uma nova *string* com as letras que eram minúsculas em maiúsculo e vice-versa

In [None]:
s = "progRamação EM lingUagEm pytHOn. \noi"

print("s = " + s)

print("s.lower()     : " + s.lower())      # Conversão para minúsculas
print("s.upper()     : " + s.upper())      # Conversão para maiúsculas
print("s.captalize() : " + s.capitalize()) # Primeira letra da string maiúscula
print("s.title()     : " + s.title())      # Primeira letra de palavras maiúscula
print("s.swapcase()  : " + s.swapcase())   # Inverte maiúsculas / minúsculas

print("s = " + s)  # Observe que a original não foi alterada

s = progRamação EM lingUagEm pytHOn. 
oi
s.lower()     : programação em linguagem python. 
oi
s.upper()     : PROGRAMAÇÃO EM LINGUAGEM PYTHON. 
OI
s.captalize() : Programação em linguagem python. 
oi
s.title()     : Programação Em Linguagem Python. 
Oi
s.swapcase()  : PROGrAMAÇÃO em LINGuAGeM PYThoN. 
OI
s = progRamação EM lingUagEm pytHOn. 
oi


### Métodos de particionamento

* **string.split(caractere separador)**: retorna uma lista contendo as sub-*strings* separadas a partir do caractere separador
* **string.split(caractere separador)**: retorna uma lista contendo as sub-*strings* separadas a partir do caractere separador
* **string.partition(caractere central)**: retorna uma tuple com três sub-*strings* separadas a partir do caractere central, sendo ele o elemento central da tuple
* **string.splitlines()**: retorna uma lista de sub-*strings* separadas por uma quebra de linha

In [None]:
# .split()

data = "20/10/2020"
print(data.split('/'))  # Separa a string em sub-strings formadas pelas sequências
                        # que estão ao lado do caractere separador '/'

print("/home/usuario/dir1/file.dat".split('/'))  # Note que o primeiro elemento é vazio

print("Mileva Maric".split(' '))  # Note que não precisa chamar o método a partir do identificador
print("Mileva Maric".split())     # Por default o espaço é usado como separador

['20', '10', '2020']
['', 'home', 'usuario', 'dir1', 'file.dat']
['Mileva', 'Maric']
['Mileva', 'Maric']


In [None]:
# .partition()

print('abcdefg'.partition('d'))
print('abcdefg'.partition('cde'))
print('abcdefg'.partition('a'))

print('00010010000021'.partition('1'))  # Note que apenas o primeiro caractere 1 é usado

('abc', 'd', 'efg')
('ab', 'cde', 'fg')
('', 'a', 'bcdefg')
('000', '1', '0010000021')


In [None]:
# .splitlines()

# Aspas triplas servem para strings que ocupam mais de uma linha
texto = '''Linha 1
Linha 2
Linha 3'''

print(texto)
print(texto.splitlines())

print()

texto2 = "Linha 1\nLinha 2\nLinha 3"
print(texto2)
print(texto2.splitlines())

Linha 1
Linha 2
Linha 3
['Linha 1', 'Linha 2', 'Linha 3']

Linha 1
Linha 2
Linha 3
['Linha 1', 'Linha 2', 'Linha 3']


### Métodos para justificação (posicionamento)

Métodos que posicionam *strings* em algum lugar de um bloco adicionando espaços em branco que completam o tamanho total inserido nos parêntesis.

Note que no tamanho total é preciso contabilizar o tamanho da *string* que será posicionada mais os espaços em branco que serão adicionados para posicioná-la.

* **string.center(tamanho total)**: centraliza a *string* em um bloco de tamanho total caracteres
* **string.ljust(tamanho total)**: posiciona a *string* à esquerda em um bloco de tamanho total caracteres
* **string.rjust(tamanho total)**: posiciona a *string* à direita em um bloco de tamanho total caracteres

In [None]:
# .center(), .ljust(), .rjust()

s = "Instituto de Física"
print("*" + s + '*')

# Centralizar a string s campo de 30 caracteres:
print("*" + s.center(30) + '*')
print("*" + s.center(20) + '*')  # Note que o tamanho total tem que levar em conta o tamanho da string

print("*" + s.ljust(30) + '*')  # Posiciona a string s à esquerda
print("*" + s.rjust(30) + '*')  # Posiciona a string s à direita

*Instituto de Física*
*     Instituto de Física      *
*Instituto de Física *
*Instituto de Física           *
*           Instituto de Física*


### Métodos para remoção de espaços (em branco)

Diferentemente do tópico anterior, este método remove espaços em brancos de *strings* que precedam e/ou antecedam caracteres (que não sejam o espaço).

* **string.strip()**: remove os espaços em branco à esquerda e à direita de caracteres em *strings*
* **string.lstrip()**: remove os espaços em branco à esquerda de caracteres em *strings*
* **string.rstrip()**: remove os espaços em branco à direita de caracteres em *strings*

In [None]:
# .strip(), .lstrip(), .rstrip()

s = "           Instituto de Física    "
print("*" + s + '*')

print("*" + s.strip() + '*')  # Remove os espaços em branco à esquerda e à direta
print("*" + s.lstrip() + '*')  # Remove os espaços em branco à esquerda
print("*" + s.rstrip() + '*')  # Remove os espaços em branco à direta

*           Instituto de Física    *
*Instituto de Física*
*Instituto de Física    *
*           Instituto de Física*


### Métodos para substituição de sub-strings

* **string.replace("substring a ser substituída", "string que vai substituir")**: troca uma sub-*string* de uma *string* por outra *string*

In [None]:
# .replace()

s = 'Linguagem QiMthon'
print(s.replace("QiM", "Py"))

s = "   Ins ti tu to      "
print(s.replace(" ", ""))

Linguagem Python
Instituto


### Métodos para concatenação de strings

* **string + string**: o operador de concatenação forma uma nova *string* a partir da junção das duas *strings* que são os operandos
* **"caractere de separação".join(string)**: atua de modo contrário ao método **.split**; junta *strings* de uma lista separando cada elemento pelo caractere de separação; além disso é uma forma mais geral do operador de concatenação + pois junta mais de duas *strings*

In [None]:
# +

print('abc' + 'def')

abcdef


In [None]:
# .join() atuando contrário ao .split()

day = ['20', '10', '2020']

print('/'.join(day))
print('-'.join(day))

20/10/2020
20-10-2020


In [None]:
# .join() para juntar duas strings
# É vantajoso de usar no lugar do operador + quando temos mais de duas strings

print("".join(['abc','def']))
print(" ".join(['Mileva','Maric']))
print("/".join(['', 'home', 'usuario', 'dir1', 'file.dat']))

abcdef
Mileva Maric
/home/usuario/dir1/file.dat


### Métodos para pesquisa em strings

Métodos para localizar sub-*strings* dentro de uma *string*.

* **string.count('sub-string a ser contada', a partir de qual elemento, até qual elemento)**: conta quantas vezes uma sub-*string* aparece dentro de uma *string* dentro do intervalo definido
* **string.find('sub-string a ser contada', a partir de qual elemento, até qual elemento)**: retorna o índice da primeira ocorrência da sub-*string* dentro de uma *string* dentro do intervalo definido (retorna -1 se não existe)
* **string.rfind('sub-string a ser contada', a partir de qual elemento, até qual elemento)**: retorna o índice da primeira ocorrência da sub-*string* dentro de uma *string* dentro do intervalo definido (retorna -1 se não existe)
* **string.index('sub-string a ser contada', a partir de qual elemento, até qual elemento)**: semelhante à **.find()** com a diferença que dá erro se não encontrar a sub-*string* (gera uma exceção)
* **string.rindex('sub-string a ser contada', a partir de qual elemento, até qual elemento)**: semelhante à **.rfind()** com a diferença que dá erro se não encontrar a sub-*string* (gera uma exceção)

In [None]:
# .count()

s = "abc abc abc xyz"

print(s.count('a'))
print(s.count('a', 2))
print(s.count('a', 2, 6))

print(s.count('abc'))

3
2
1
3


In [None]:
# .find(), .rfind()

s = "abc abc abc xyz"
#    0         1
#    01234567890

print(s.find("c"))
print(s.find("c", 2, 6))

print(s.rfind("c"))

print(s.find("w"))  # Retorna -1 se a sub-string não existe
print(s.rfind("w")) # Retorna -1 se a sub-string não existe

2
2
10
-1
-1


In [None]:
# .index(), .rfind()

s = "abc abc abc xyz"
#    0         1
#    01234567890

print(s.index("c"))
print(s.index("c", 2, 6))

print(s.rindex("c"))

print(s.index("w"))  # Gera uma exceção se a sub-string não existe

2
2
10


ValueError: ignored

### Métodos para testes

Retornam True ou False dependendo se o valor de estado corresponde a uma determinada condição ou não.

* **string.isdigit()**: retorna True se a *string* for um dígito de acordo com ASCII 
* **string.isdecimal()**: retorna True se a *string* for um decimal de acordo com Unicode
* **string.isnumeric()**: retorna True se a *string* for um numérico de acordo com Unicode
* **string.isalpha()**: retorna True se a *string* for uma letra
* **string.isalnum()**: retorna True se a *string* for um alfa-numérico
* **string.isspace()**: retorna True se a *string* conter apenas espaços
* **string.isprintable()**: retorna True se a *string* for um caractere visível

* **string.islower()**: retorna True se a *string* tiver todas as letras em minúsculo
* **string.isupper()**: retorna True se a *string* tiver todas as letras em maiúsculo
* **string.istitle()**: retorna True se a *string* tiver todas as primeiras letras das palavras maiúsculas e o resto minúscula

* **string.startswith('sub-string')**: retorna True se a *string* começa com a sub-*string*
* **string.endswith('sub-string')**: retorna True se a *string* termina com a sub-*string* 

* **string.isidentifier()**: retorna True se a *string* pode ser usada como identificador

In [None]:
# Para testar se os caracteres de uma string são dígitos/numéricos:

print('123'.isdigit())    # ASCII
print('123.4'.isdigit())  # Retorna False pq o ponto não é um dígito

print()

print('123'.isdecimal())    # Unicode
print('123.4'.isdecimal())
print('\U00002154'.isdecimal())

print()

print('\U00002154', '\U0001F923')
print('\U00002154'.isnumeric())    # Unicode
print('\U0001F923'.isnumeric())    # Emoji não é numérico

True
False

True
False
False

⅔ 🤣
True
False


In [None]:
# Para testar se os caracteres de uma string caracteres alfa-numéricos/espaços/visíveis:

print('abc'.isalpha())      # Se é uma letra
print('abc123'.isalpha())
print('abc 123'.isalpha())  # Nem o espaço nem os números são letras

print()

print('abc'.isalnum())      # Se é um caractere alfa-numérico
print('abc123'.isalnum())
print('abc 123'.isalnum())  # O espaço não é alfa-numérico

print()

print('         '.isspace())  # Se é um espaço
print('        x'.isspace())  # O x não é um espaço

print()

print('abc'.isprintable())         # Se é um caractere visível
print('abc \n def'.isprintable())  # O \n não é um caractere visível

True
False
False

True
True
False

True
False

True
False


In [None]:
# Para testar se os caracteres de uma string são maiúsculas/minúsculas:

print("abcd".islower())      # Se todas as letras são minúsculas
print('abcd EFG'.islower())
print('abcd  edf'.islower()) # Aceita espaços
print('ABCD EFG'.islower())
print('a123'.islower())      # Aceita mistura com letras

print()

print("abcd".isupper())      # Se todas as letras são maiúsculas
print('abcd EFG'.isupper())
print('ABCD EFG'.isupper())
print('123A'.isupper())

print()

print('Programação em Python'.istitle())  # Se cada primeira letra é maiúscula
print('Programação Em Python'.istitle())  # e o resto minúscula
print('Programação em PYThon'.istitle())

True
False
True
False
True

False
False
True
True

False
True
False


In [None]:
# Para testar se a string começa/termina com determinada sub-string:

print("Python".startswith("Py"))
print("Python".startswith("py"))    # É case-sensitive
print("   Python".startswith("Py")) # Lê os primeiros caracteres

print()

print("Python".endswith("on"))
print("Python".endswith("oon"))
print("Python ".endswith("on"))

True
False
False

True
False
False


In [None]:
# Para testar se a string pode ser usada como um identificador:

print('x'.isidentifier())
print('_abc'.isidentifier())
print('.abc'.isidentifier())
print('123x'.isidentifier())
print('print'.isidentifier())
print(''.isidentifier())

True
True
False
False
True
False


### Métodos para formatação e interpolação de strings

Interpolar significa inserir alguma coisa dentro de uma *string*.

* No estilo antigo, faz-se:


```
tuple_com_info = ("Maria", 25)
linha = "Nome: %s e idade: %i"
linha%tuple_com_info
```
% indica o ponto de inserção, seguido da classe do objeto a ser inserido (i: int, s: str, f: float).
Na hora da interpolação é preciso usar % seguido da tuple com os objetos a serem inseridos.

* No estilo moderno, usa-se o **.format()**:


```
linha = "Nome: {nome} e idade: {idade}"
linha.format(nome='Maria', idade=25)
```



In [None]:
# Para repetir um formato de texto:

print('O símbolo H corresponde ao elemento químico Hidrogênio.')
print('O símbolo He corresponde ao elemento químico Hélio.')

print()

# As partes do texto que vão variar, por exemplo, o H, He e Hidrogênio, Hélio
# são substituídas por % + uma identificação da classe do objeto (estilo antigo)
# O % indica o ponto de inserção, seguido da classe do objeto a ser inserido
# s: string; f: float; i: inteiro
linha = 'O símbolo %s corresponde ao elemento químico %s.'

print( linha%("H", "Hidrogênio") )  # Usa-se uma tupla e uma interpolação é realizada
print( linha%("He", "Hélio") )
print( linha%("C", "Carbono") )

print()

# Usando o .format() (estilo moderno):
linha = 'O símbolo {simb} corresponde ao elemento químico {nome}.'

print(linha.format(simb='H', nome="Hidrogênio"))
print(linha.format(simb='He', nome='Hélio'))
print(linha.format(simb='C', nome='Carbono'))

O símbolo H corresponde ao elemento químico Hidrogênio.
O símbolo He corresponde ao elemento químico Hélio.

O símbolo H corresponde ao elemento químico Hidrogênio.
O símbolo He corresponde ao elemento químico Hélio.
O símbolo C corresponde ao elemento químico Carbono.

O símbolo H corresponde ao elemento químico Hidrogênio.
O símbolo He corresponde ao elemento químico Hélio.
O símbolo C corresponde ao elemento químico Carbono.


In [4]:
# Para repetir um formato de texto:

tupleH = ("H", "Hidrogênio")
tupleHe = ("He", "Hélio")
tupleC = ("C", "Carbono")

linha = 'O símbolo %s corresponde ao elemento químico %s.'

print( linha%tupleH )  # Usa-se uma tupla e uma interpolação é realizada
print( linha%tupleHe )
print( linha%tupleH )

print()

# Usando o .format() (estilo moderno):
linha = 'O símbolo {simb} corresponde ao elemento químico {nome}.'

print(linha.format(simb='H', nome="Hidrogênio"))
print(linha.format(simb='He', nome='Hélio'))
print(linha.format(simb='C', nome='Carbono'))



O símbolo H corresponde ao elemento químico Hidrogênio.
O símbolo He corresponde ao elemento químico Hélio.
O símbolo H corresponde ao elemento químico Hidrogênio.

O símbolo H corresponde ao elemento químico Hidrogênio.
O símbolo He corresponde ao elemento químico Hélio.
O símbolo C corresponde ao elemento químico Carbono.


In [16]:
#@title format() com listas como argumento:

# Usando o .format() (estilo moderno):
linha = 'O símbolo {0} corresponde ao elemento químico {1}.'

# Se as chaves dos argumentos forem indicadas por 0, 1, 2...
# pode-se usar passar uma lista como argumento.
lista = ['B', 'Boro']
linha.format( *lista )



'O símbolo B corresponde ao elemento químico Boro.'