In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
print('done')

done


# Revisitando Strings

## O modelo
Uma _string_ é coleção sequencial e ordenada de caracteres. Os caracteres que compõem uma _string_ são idenficados por um _índice_ que indica sua posição na sequência.

Os índices podem ser positivos (indicando a posição dos caracteres a partir do começo da _string_) ou negativos (indicando a posição dos caracteres a partir do fim da _string_), como mostra o diagrama abaixo.



\begin{array}{| c | c | c | c | c | c | c | c | c | c | }
 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10\\ \hline
 U & m & a &   & s & t & r & i & n & g & . \\ \hline
 -11 & -10 & -9 & -8 & -7 & -6 & -5 & -4 & -3 & -2 & -1   
\end{array}


_Strings_ são representadas entre aspas simples, duplas ou “triplas”. Nos dois primeiros casos, a _string_ deve ficar toda contida numa única linha; no terceiro, ela pode ocupar um número arbitrário de linhas.  

A _string_ nula ou vazia não contém caractere algum e é representada por '' ou "" (duas aspas simples ou duplas, sem nada no meio).

In [None]:
cadeia_a = ''
print(cadeia_a)  # não vai mostrar nada...
print(repr(cadeia_a))  # repr mostra as aspas delimitadoras

In [None]:
cadeia_b = 'Uma string.'
print(cadeia_b)

In [None]:
cadeia_c = "Outra string."
print(cadeia_c)

In [None]:
cadeia_d = '''Uma cadeia
com várias
linhas'''
print(cadeia_d)

## Os operadores + e *
O operador **+** concatena _strings_ enquanto o operador __\*__ repete (e ao mesmo tempo concatena) _strings_.

In [None]:
string_a = 'á-'
string_b = 'bl'

In [None]:
string_c = string_b + string_a
print(string_c)

In [None]:
string_d = 3 * string_c
print(string_d)

## Alguns métodos e funções para _strings_

### Conversão para maiúsculas e minúsculas

In [None]:
título = 'Laranja Madura na Beira da Estrada'

In [None]:
print(título.lower())

In [None]:
print(título.upper())

In [None]:
print(título.capitalize())

### Remoção de espaços à esquerda e à direita

In [None]:
título = '    Laranja Madura na Beira da Estrada   '

In [None]:
print(repr(título.lstrip()))

In [None]:
print(repr(título.rstrip()))

In [None]:
print(repr(título.strip()))

### Contagem e substituição de _substrings_

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()
print(título.count('ra'))

In [None]:
print(título.replace('ra', 'RA', 2))
print(título)

In [None]:
print(título.replace('ra', 'RA'))
print(título)

### Ajuste do comprimento da _string_

In [None]:
título = 'Laranja Madura na Beira da Estrada'

In [None]:
print(repr(título.ljust(50)))

In [None]:
print(repr(título.rjust(50)))

In [None]:
print(repr(título.center(50)))

### Localizar uma subcadeia

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()
print(len(título))

In [None]:
print(título.find('ra'))  ## acha primeira ocorrência do argumento a partir da esquerda

In [None]:
print(título.rfind('ra'))  ## acha primeira ocorrência do argumento a partir da direita  

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()

In [None]:
print(título.find('xx'))  ## find e rfind retornam -1 se a subcadeia não for encontrada
print(título.rfind('xx'))

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()

In [None]:
print(título.index('ra'))  ## o mesmo que find e rfind se a subcadeia for encontrada
print(título.rindex('ra'))

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()

In [None]:
print(título.index('xx'))  ## index e rindex causam um erro se a subcadeia não for encontrada

In [None]:
print(título.rindex('xx'))

### Formatação
Este é um método com muitos recursos que não podem ser completamente explorados aqui, mas os exemplos a seguir dão uma rápida ideia do que é possível fazer.

In [None]:
a = 10
b = 3
c = 7
print('a média de {}, {} e {} é {}'.format(a, b, c, (a + b + c) / 3))

Suponha que quiséssemos que a média fosse exibida com uma casa decimal.

In [None]:
print('a média de {}, {} e {} é {:.1f}'.format(a, b, c, (a + b + c) / 3))

O mesmo efeito pode ser conseguido colocando um *f* à frente da _string_ de formato e incluindo as expressões a serem exibidas nas chaves correspondentes.

In [None]:
print(f'a média de {a}, {b} e {c} é {(a + b + c) / 3:.1f}')

Uma _string_ de formatação pode ser manipulada como qualquer outra _string_ de Python.

In [None]:
mens_1 = f'A média de {a}, {b} e {c} é '
mens_2 = f'{(a + b + c) / 3:.1f}' 
print(mens_1 + mens_2)

### Comprimento
A função `len` retorna o número de caracteres na _string_ à qual ela é aplicada.

In [None]:
mascote = 'tamanduá'
print(mascote, len(mascote))

Note que os índices positivos válidos para uma _string_ $s$ são $0, 1, \dots \mathrm{len}\left(s\right)-1$, enquanto os negativos são $-1, -2, \dots -\mathrm{len}\left(s\right)$.

In [None]:
print(mascote)
print(mascote[0], mascote[len(mascote)-1], mascote[-1], mascote[-len(mascote)])

### Fatiamento (_slicing_)
_Slices_ (_fatias_) são subcadeias que podem ser extraídas pelo '_fatiador_', como no caso de listas.

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()
primeira = título[:7]
última = título[-7:]
print(repr(primeira), repr(última))

O fatiador não dá erro caso receba um índice inválido. Quando isso acontece, ele usa um índice razoável.

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()
sem_primeira = título[8:99]
sem_última = título[-99:-8]
print(repr(sem_primeira), repr(sem_última))

In [None]:
nums = '0123456789'
impares = nums[1::2]
pares = nums[::2]
inversa = nums[::-1]
print(repr(nums), repr(impares), repr(pares), repr(inversa))

### Comparação de cadeias
Os operadores de comparação podem ser usados normalmente.  
A comparação é lexicográfica e baseia-se no código de caracteres ASCII.

In [None]:
print("'menor' < 'maior'  é", 'menor' < 'maior')

In [None]:
print("'maior' < 'Maior'  é", 'maior' < 'Maior')

In [None]:
print("'maior' == 'Maior'  é", 'maior' == 'Maior')

In [None]:
print("'maior' != 'Maior'  é", 'maior' != 'Maior')

O código de um caractere na tabela ASCII é dado pela função `ord` e o caractere correspondente a um dado código é dado pela função `chr`.

In [None]:
print(f"{ord('M'):3} {ord('m'):3} {ord('a'):3} {ord('e'):3}")
print(f'{chr(77):>3} {chr(109):>3} {chr(97):>3} {chr(101):>3}')

## _Strings_ são imutáveis
Ao contrário do que acontece com listas, não é possível alterar o conteúdo de uma _string_.  
Qualquer tentativa nesse sentido causará um erro.  
Para conseguir uma variante da _string_ original é preciso criar uma cópia modificada.

In [None]:
título = 'Laranja madura na Beira da Estrada'
print(título[8])

In [None]:
título[8] = 'M'

In [None]:
título_corr = título[:8] + 'M' + título[9:]
print(título_corr)

## Percorrendo _strings_ com _for_

Python permite que você percorra uma *string* sem se preocupar com índices... 

In [None]:
texto = 'Uma string.'
for c in texto:
    print(c, end='-')
print()

In [None]:
texto = 'Uma string.'
for c in texto[::-1]:
    print(c, end='-')
print()

Mas você também pode usar índices se isso for absolutamente necessário...

In [None]:
texto = 'Uma string.'
for i in range(len(texto)):
    print(texto[i], end='-')
print()

In [None]:
texto = 'Uma string.'
for i in range(-1, -len(texto) - 1, -1):
    print(texto[i], end=' ')
print()

## Percorrendo _strings_ com _while_

In [None]:
texto = 'Uma string.'
i = 0
while i < len(texto):
    print(texto[i], end=' ')
    i += 1
print()

In [None]:
texto = 'Uma string.'
i = -1
while i >= -len(texto):
    print(texto[i], end=' ')
    i -= 1
print()

## Os operadores *in* e *not in*
Os operadores *in* e *not in* testam se uma _string_ é subcadeia de outra.

In [None]:
título = 'Laranja Madura na Beira da Estrada'.lower()
fruta = 'banana'

print("('banana' in título) é", fruta in título)

In [None]:
print("('banana' not in título) é", fruta not in título)

In [None]:
subs = 'na Beira'

print("('" + subs + "' in título) é", subs in título)
print("('" + subs + "' not in título) é", subs not in título)

In [None]:
subs = 'na beira'

print("('" + subs + "' in título) é", subs in título)
print("('" + subs + "' not in título) é", subs not in título)

## Exemplos

### Remover todas as vogais de uma linha de texto
Como uma _string_ não pode ser modificada, temos que criar uma “cópia” selecionando os caracteres que devem ser incluídos nela.

Um esboço de solução com alto nível de abstração poderia ser:

-   obter o texto original
-   gerar o resultado eliminando todas as vogais
-   exibir o resultado

In [3]:
# obter o texto original
texto = 'É difícil não esquecer dos detalhes.'
vogais = 'aáàãâeéêiíoóõôuú'
vogais += vogais.upper()

O *texto sem vogais* pode ser obtido de diversas maneiras. Vamos examinar três:

- Usando uma *list comprehension* 

In [7]:
#gerar o resultado eliminando todas as vogais
texto_sem_vogais = ''.join([c for c in texto if c not in vogais])
texto_sem_vogais

' dfcl n sqcr ds dtlhs.'

- Usando um comando *for*

In [13]:
#gerar o resultado eliminando todas as vogais
texto_sem_vogais = ''
for c in texto:
    if c not in vogais:
        texto_sem_vogais += c
texto_sem_vogais

' dfcl n sqcr ds dtlhs.'

- Usando um comando *while*

In [12]:
#gerar o resultado eliminando todas as vogais
texto_sem_vogais = ''
i = 0
while i < len(texto):
    if texto[i] not in vogais:
        texto_sem_vogais += texto[i]
    i += 1
texto_sem_vogais

' dfcl n sqcr ds dtlhs.'

In [None]:
# exibir o resultado
print(repr(texto))
print(repr(texto_sem_vogais))

### Remover de um texto todas as ocorrências de uma subcadeia dada
Remover de um texto todas as ocorrências de uma subcadeia dada.

Um esboço de solução com alto nível de abstração poderia ser:

-   ler o texto original e a subcadeia a ser removida
-   gerar o resultado eliminando todas as ocorrências da subcadeia do texto original
-   exibir o resultado

In [28]:
# ler o texto original e a subcadeia a ser removida
texto_original = 'Laranja Madura na Beira da Estrada'.lower()
print('texto original =', repr(texto_original))
subs = 'ra'
print('          subs =', repr(subs))

texto original = 'laranja madura na beira da estrada'
          subs = 'ra'


Há várias maneiras de *gerar o resultado eliminando todas as ocorrências da subcadeia do texto original*. Vamos examinar quatro delas:

- Usando *replace*  
  Esta é a maneira mais simples e direta

In [23]:
texto = texto_original.replace(subs, '')
texto

'lanja madu na bei da estda'

- Usando *count* e *find*  
  Neste caso usamos *count* para descobrir quantas vezes *subs* aparece em *texto*. Esse valor vai controlar um *for* que eliminará essas ocorrências uma a uma, usando *slices*.

In [19]:
num_subs = texto_original.count(subs)
num_subs

4

In [24]:
texto = texto_original
for i in range(num_subs):
    ini = texto.find(subs)
    texto = texto[:ini] + texto[ini+len(subs):]
texto

'lanja madu na bei da estda'

-   Usando apenas *find*  
    Neste caso não sabemos quantas vezes *subs* aparece em *texto* e, portanto, não podemos usar o *for*. A saída é substituí-lo por um *while* controlado pelo resultado do *find*. Lembre-se de que um *find* mal-sucedido retorna `-1` e é isso que nos permitirá controlar o *while*.

In [25]:
texto = texto_original
devo_continuar = True
while devo_continuar:
    ini = texto.find(subs)
    if ini == -1:
        devo_continuar = False
    else:
        texto = texto[:ini] + texto[ini+len(subs):]
texto

'lanja madu na bei da estda'

- Na raça, sem usar qualquer função “mais esperta”  
  Neste caso, só nos resta copiar o texto caractere a caractere, “saltando sobre” as possíveis ocorrências de *subs*.  
  Dessa forma nosso *step* será `1` enquanto não encontrarmos uma ocorrência de *subs* e `len(subs)` quando a encontrarmos.  
  Como *step* não será constante, implementaremos a iteração usando um *while* e não um *for*.

In [33]:
# gerar o resultado eliminando todas as ocorrências da subcadeia do texto original
texto = ''
i = 0
while i < len(texto_original) - len(subs):
    if texto_original[i: i+len(subs)] == subs:
        i += len(subs)
    else:
        texto += texto_original[i]
        i += 1
texto

'lanja madu na bei da est'

In [None]:
# exibir o resultado
print('resultado =', repr(resultado))

### Verificar se uma frase é palíndroma
Dada uma frase, verificar se ela é palíndroma, desconsiderando acentos, espaços e pontuação. Uma frase é palíndroma se ela puder ser lida igualmente nos dois sentidos.

Um esboço de solução com alto nível de abstração poderia ser:

-   ler a frase
-   eliminar caracteres a serem desconsiderados
-   verificar se é palíndroma
-   exibir o resultado da verificação

In [47]:
# ler a frase original
frase_ori = input('Digite uma frase: ')

In [48]:
import string

alfabeto = string.ascii_lowercase
com_acentos = 'áàãâéêíóõôúç'
sem_acentos = 'aaaaeeiooouc'

In [49]:
# criar frase modificada, 
# omitindo caracteres a serem desconsiderados

frase_mod = ''
for c in frase_ori.lower():
    if c in alfabeto:
        frase_mod += c
    elif c in com_acentos:
        frase_mod += sem_acentos[com_acentos.index(c)]

In [51]:
# verificar se a frase modificada é palíndroma

meio = len(frase_mod) // 2

metade_esq = frase_mod[:meio]
metade_dir = frase_mod[-meio:]
metade_dir_rev = metade_dir[::-1]

eh_palíndroma = (metade_esq == metade_dir_rev)
len(frase_mod), meio, metade_esq, metade_dir, metade_dir_rev, eh_palíndroma

(33, 16, 'socorrammesubino', 'onibusemmarrocos', 'socorrammesubino', True)

In [39]:
# exibir o resultado da verificação
if eh_palíndroma:
    print("'" + frase_ori + "'", 'é palíndroma.')
else:
    print("'" + frase_ori + "'", 'não é palíndroma.')

'Socorram-me, subi no ônibus em Marrocos!' é palíndroma.
