Strings
=======

In [None]:
# Três maneiras de definir uma string
a = "Python"
b = 'Python'
c = """Python""" # ou '''Python'''
print(a == b, b == c)

In [None]:
# O uso de aspas triplas permite definir uma string contendo newlines.
# Ela é muito usada para docstrings
long_string = """Esta é uma longa linha para mostrar como
as aspas triplas podem ser usadas em um programa.
Esta é uma segunda frase apenas com o intuito de alongar ainda mais
a string"""
print(long_string)
print()
print(long_string.encode("unicode_escape")) # Para mostrar a presença das newlines

In [None]:
# Uma outra forma de criar uma string é com seu construtor.  Observe o
# uso do operador + para concatenar strings
a = "a = " + str(1024)
b = "b = " + str(3.141592653)
c = "c = " + str(2 - 1j)
print(a)
print(b)
print(c)

In [None]:
# Podemos criar uma string também usando o operador *
a = "Python "*9
print(a)

In [None]:
# Em Python o tipo de dado equivalente a "char" em C é uma string de comprimento 1
print(ord("a"))
try:
    print(ord("ab"))
except TypeError:
    print("A função ord aceita apenas strings de comprimento 1, i.e., caracteres")

In [None]:
# Uma string vazia tem um valor lógico idêntico a False
print("" and True)  # Observe que a string vazia não é impressa por print()
print("Ok!" and True)

**Exercícios**

Transforme a string 
    "Introdução a Python"
em
    "\*\*\* Introdução a Python \*\*\*"

In [None]:
# Strings podem conter valores binários quaisquer com valor entre 0 e 0x10FFFF.
# Se o valor não corresponder a um caractere "printável" (32 < c < 126), deve-se
# usar o caractere "\" para introduzir significados diferentes.  Caracteres
# com "\" comuns são "\n" (newline), "\t" (tab), "\\" (o caractere "\"),
# "\"" (aspas duplas), "\'" (aspas simples), "\ooo" (byte em octal),
# "\xhh" (byte em hexadecimal), "\uhhhh" ou "\Uhhhhhhhh" (caractere unicode)
# Referência: file:///usr/share/doc/python3/html/reference/lexical_analysis.html#string-and-bytes-literals
a = "O \xf3rg\xe3o \xe9 uma pe\xe7a f\xe1cil que n\xf3s constru\xedmos"
b = "Primeira linha\t\"Ainda na primeira linha\"\nSegunda linha\t\\segunda linha\tsegunda linha"
c = "R = 220 \u2126"  # Símbolo para ohms
print(a)
print(b)
print(c)

In [None]:
# Python tem um tipo de string onde o caractere "\" não é tratado de forma especial
# Isto é muito usado para expressões regulares (veja a documentação do módulo re)
a = r"Agora é que eu \n quero ver\tNada feito\\"  # Note o "r" no início
print(a)

In [None]:
# Um outro tipo de string que não deve ser mais usada é a string unicode (u"***").
# Este tipo de string foi definido na versão 2 do Python onde string era uma string
# ascii apenas.  Em Python 3 o tipo string passou a ser unicode e a razão de ser
# da string unicode deixou de existir.  A notação é mantida por razões de 
# compatibilidade apenas.
a = u"Resistência é medida em \u2126!"
b = "Resistência é medida em \u2126!"
print(a)
print(a == b)

**Exercícios**

Defina e imprima strings com as 5 primeiras letras gregas, as 5 primeiras letras hebraicas, as 5 primeiras letras arábicas  e os 5 primeiro caracteres chineses (pesquise no google).

Strings binárias
=========

In [None]:
# Existe também uma string binária que só pode conter valores entre 0 e 255
a = "O órgão é uma peça fácil que nós construímos"  # string normal
b = b"O \xf3rg\xe3o \xe9 uma pe\xe7a f\xe1cil que n\xf3s constru\xedmos"  # string binária (note o "b" no início)
print(a)
print(b)

In [None]:
# Existem duas maneiras típicas onde criamos strings binárias. Uma é a codificação para unicode
a = "O órgão é uma peça fácil que nós construímos"
b = a.encode("utf8")
print(b)
print(b.decode("utf8"))
b = a.encode("latin1")  # codificações diferentes geram strings binárias diferentes
print(b)                # latin1 codifica para valores binários entre 0 e 255 apenas
print(b.decode("latin1"))
try:
    b = "ру́сский язы́к".encode("latin1")  # é um erro se a codificação não souber traduzir os caracteres
except UnicodeEncodeError:
    print("ERRO: a string contém caracteres que não podem ser codificadas em latin1")
b = "ру́сский язы́к".encode("utf8")  # já a utf8 consegue codificar a grande maioria das linguagens do mundo
print(b)

In [None]:
# A outra é a leitura de arquivos binários
f = open("strings.zip", "rb")
s = f.read(20)
print(s)

In [None]:
# Também podemos criar uma string binária diretamente
a = bytes(10)
b = bytes(range(10))
c = bytes.fromhex("E0c1d3 F120")
print(a)
print(b)
print(c)

In [None]:
# Uma outra maneira de criar strings binárias é pela conversão de um inteiro em seus bytes
x = 1000000000000000
s = x.to_bytes((x.bit_length() // 8) + 1, byteorder="little")
print(s)
print(int.from_bytes(s, byteorder="little"))

**Exercícios**

Crie uma string binária de comprimento 10 formada pelos números ímpares de 143 a 161 (incluindo os 2 extremos) de duas maneiras diferentes.

Converta via utf8 e imprima as strings com caracteres estrangeiros do exercício da seção anterior para strings binárias.  O conteúdo faz sentido para você?

Crie uma string binária representando o header de um pacote IP (ignore o checksum fazendo-o igual a 0).  Escolha valores apropriados para os vários campos.

Operações sobre strings, bytes e bytearrays
===

In [None]:
# Python tem uma função que permite determinar o comprimento de uma string ou bytes
a = "Introdução a Python"
print(len(a))  # Uma função, não um método

In [None]:
# Podemos testar se uma determinada substring está contida em uma string através do
# operador in, que retorna um valor booleano como resultado
print("Python" in "Introdução a Python")
a = "õ"
b = "Introdução a Python"
print(a in b)

In [None]:
# De forma similar, podemos testar se uma substring *não* está contida em uma string
# usando not in
print("Java" not in "Introdução a Python")

In [None]:
# Um método relacionado ao teste de inclusão é o método index(), que retorna o primeiro
# índice onde se pode encontrar a substring passada como argumento
a = "Introdução a Python"
print(a.index("n"))
print(a.index("ção"))

In [None]:
# O método index() aceita um ou dois argumentos a mais para definir a faixa de valores
# dos índices onde procurar
c = "o"
idx = a.index(c)
print(idx)
idx2 = a.index(c, idx+1)
print(idx2)

In [None]:
# Compare o último resultado acima com o próximo
idx2 = a[idx+1:].index(c)
print(idx2)

In [None]:
# Se o caractere não é achado, o método index lança um erro do tipo ValueError
try:
    print(a.index("n", 2, 14))
except ValueError as e:
    print("ERROR: ", e)

In [None]:
# Um outro método de strings é o método count(), que retorna a quantidade de vezes
# que a substring passada como argumento aparece na string
print(a.count("o"))
print(a.count("z"))
a = "Esta é uma introdução à linguagem Python oferecida pela Universidade Federal de Pernambuco"
print(a.count("de"))

In [None]:
# Por último, existem as funções min() e max() que retornam os valores mínimo e
# máximo que ocorrem na string.  Observe que Python usa os valores numéricos da
# representação unicode para determinar quem é menor ou maior, mas retorna os
# caracteres em si
print(min(a))
print(max(a))

In [None]:
# Deve-se observar que os métodos e funções acima se aplicam a outros tipos de dados
# que ainda iremos estudar e que tenham a característica de serem sequência de
# objetos.  min() e max() são provavelmente mais úteis para estes tipos de dados
# do que para strings

Operações exclusivas de strings, bytes e bytearrays
===

In [None]:
# Em python, strings e bytes tem uma grande variedade de métodos próprios bastante
# úteis para lidar com processamento de texto
# Referência: file:///usr/share/doc/python3/html/library/stdtypes.html#string-methods
a = "www.python.org"
print(a.endswith("org"))
print(a.endswith(("com", "gov", "net")))
print(a.startswith("www"))

In [None]:
# Centraliza a string dentro de uma linha de comprimento 30,
# circundando a string com "*"
b = a.center(30, "*")
print(a)  # Observe que a não é modificada
print(b)  # tente usar um comprimento pequeno, por exemplo, 5

In [None]:
# O método strip() elimina da string qualquer combinação dos caracteres em seu
# argumento. Nas linhas abaixo substitua strip() pelos métodos rstrip() e
# lstrip() para ver o que acontece
print(b.strip("*"))
print(b.strip("*") == a)
b = "+++++>>>> Introdução a Python <<<<-----"
print(b.strip("+->< "))

In [None]:
# Um método similar a index() mas que retorna -1 no caso da substring não ser
# encontrada na string é find()
a = "Esta é uma introdução à linguagem Python oferecida pela Universidade Federal de Pernambuco"
print(a.find("gua"))
print(a.find("língua"))

In [None]:
# Existe uma série de métodos para testar se os caracteres de uma string são de
# um determinado tipo
a = "123456"
b = "Argh!!!"
c = "Não.\nSim!"
print(a.isdigit())
print(a.isnumeric())
print(a.isdecimal())
print(b.isalpha())
print(b.islower())
print(b.isprintable())
print(c.isprintable())

In [None]:
# Por último, existem métodos para mudar o tamanho das letras
a = "Introdução a Python"
print(a.lower())
print(a.upper())
print(a.title())
print(a.swapcase())

**Exercícios**

Repita o exercício de transformar a string "Introdução a Python" em "\*\*\* Introdução a Python \*\*\*" (veja que há um espaço entre a string e os \*) usando o método center(), apenas (sem concatenação)

Transforme a string "\_\_\_\_\_Introdução a Python\_\_\_\_\_" (5 "\_" em cada lado) em "\*\*\* Introdução a Python \*\*\*"

**Exercícios**

Identifique se a string a = "vmnkwe5r \' \\ 354 a\tsd c.as\n{daLG{A c8Yuxb?:632 +-1njc we  w se%4312kl" tem o caractere " (aspas dupla), \n e ~.

Formatação de strings
====

In [None]:
# Strings tem um método, format(), para preencher partes especiais, delimitadas
# por {}, contidas nela.  O índice entre {} indica qual parâmetro do método format()
# usar (ó primeiro argumento tem índice 0)
a = "Bom dia, {1}!  Como anda a disciplina \"{0}\"?".format("Introdução a Python", "senhor")
print(a)
b = """\nCaro senhor {2},
\n\tEsta carta é para lhe informar que você acaba de {0} um {1}.
Solicitamos que o senhor se dirija para {3} para {4}.
\nObrigado.""".format("perder", "dedo do pé", "Antonio", "o hospital", "receber cuidados médicos")
print(b)
c = "\nGalactic day #{0}: There are {1} more days ahead of us.".format(105719, 3.141592653)
print(c)

In [None]:
# Além de índices numéricos, podemos usar também os nomes dos argumentos do método format(),
# se houver
b = """\nCaro senhor {nome},
\n\tEsta carta é para lhe informar que você acaba de {verbo} um {substantivo}.
Solicitamos que o senhor se dirija para {local} para {acao}.
\nObrigado.""".format(verbo="perder", substantivo="dedo do pé", nome="Antonio",
                        local="o hospital", acao="receber cuidados médicos")
print(b)

In [None]:
# Se a ordem dos placeholders {} na string for a mesma da ordem dos parâmetros
# do método format, os índices podem ser omitidos
c = "\nGalactic day #{}: There are {} more days ahead of us.".format(105719, 3.141592653)
print(c)

In [None]:
# Além do índice, o placeholder {} também pode conter um ou mais caracteres de formatação
# como em C.  Os caracteres devem vir após um ":"
# Mais informações em file:///usr/share/doc/python3/html/library/string.html#formatspec
a = "Nome: {:20s}   Altura: {:4.2f}".format("Antônio", 1.752741)
print(a)
a = "Nome: {:>20s}   Altura: {:4.2f}".format("Antônio", 1.752741)
print(a)

In [None]:
# Existe uma notação mais antiga para formatação de strings, chamada de expressão-%
# cujo uso é desestimulado mas que ainda é encontrado em código mais antigo.  Esta
# técnica é ainda mais parecida com a string de formatação de C
print("%d and %d" % (1, 2))
c = "\nGalactic day #%d: There are %f more days ahead of us." % (105719, 3.141592653)
print(c)

**Exercícios**

Crie strings para formatar uma data definida por `dia = 31`, `mes = 2` e `ano = 2017` nos formatos DD/MM/YYYY, DD/MM/YY, MM/DD/YYYY, YYYY/MM/DD

Acessando os caracteres de uma string
===

In [None]:
# Acessamos os caracteres de uma string como se fosse um vetor
a = "Python"
print(a[0], a[1], a[2], a[3])

In [None]:
# Entretanto, não podemos alterar a string associando um novo valor a uma posição
a = "Python"
try:
    a[1] = "o"
except TypeError as e:
    print(e)

# Se quiser alterá-la, é necessário copiá-la com a alteração
a = a[0] + "o" + a[2:]
print(a)

In [None]:
# Python permite indexar os caracteres com índices negativos
a = "Python"
print(a[-4], a[-3], a[-2], a[-1])

In [None]:
# Podemos visualizar os índices da seguinte forma:
#      P  y  t  h  o  n
#     ^  ^  ^  ^  ^  ^ 
#     0  1  2  3  4  5
#    -6 -5 -4 -3 -2 -1

In [None]:
# Usar um índice maior ou igual ao tamanho da string resulta em um erro
try:
    print(a[10])
except IndexError as e:
    print(e)
try:
    print(a[len(a)])
except IndexError:
    print("De novo???")
try:
    print(a[-len(a)-1])
except IndexError:
    print("Você não se cansa???")
print(a[len(a)-1])  # valor máximo do índice positivo
print(a[-len(a)])   # valor máximo (mínimo?) do índice negativo

In [None]:
# Uma característica poderosa de Python é a capacidade de gerar slices
a = "Python"
print(a[1:4])
print(a[0:len(a)])
print(a[0:2*len(a)])
print(a[-5:-1])   # Note os índices negativos
print(a[1:5:2])   # Um terceiro argumento para a slice define o passo
print(a[0:len(a):2])
print(a[4:1:-1])

In [None]:
# Se um ou os dois extremos são omitidos, Python substitui pelo valor 
# máximo ou mínimo permitido para a string
print(a[:4])
print(a[-4:])
print(a[:])
print(a[::-1])  # preste atenção neste caso

In [None]:
# Ao contrário de acessar elementos individuais, usar índices fora da faixa
# permitida [-len(s), len(s)-1] em uma slice não dá problema
# Tente identificar o que Python faz com estes valores fora da faixa
print(a[0:2*len(a)])
print(a[0:20:2])
print(a[-20:20])

**Exercícios**

Um tipo de cifra criptográfica muito simples consiste em se escrever nas linhas de uma matriz e ler suas colunas.  Cifre com este método usando uma matriz 6x4 a frase "Introdução à Cartografia" (use slices).

Implemente a cifra de Cesar (A->D, B->E, C->F, etc).  Use o método translate() (veja a [documentação](file:///usr/share/doc/python3/html/library/stdtypes.html#str.translate))

Dada uma palavra de pelo menos 2 letras, inverta as letras internas (exemplo: "python" -> "pohtyn")

Miscelânea
===

In [None]:
# Na biblioteca padrão de Python existe um módulo, string, que define algumas
# constantes e funções a mais que podem ser úteis para se trabalhar com strings
import string
print(string.ascii_letters)
print(string.ascii_lowercase)
print(string.printable)