# Strings in Python

Como vimos durante o pré-work, `strings` nos permitem represetar textos dentro do Python como uma sequência de carácteres. Hoje vamos nos aprofundar em strings, vendo diferentes usos e aplicações.

## String Equivalence

In [None]:
nome_pintor = 'Mondrian'

In [None]:
print(nome_pintor)

In [None]:
nome_pintora = "Kahlo"

In [None]:
print(nome_pintora)

In [None]:
nome_pintor_2 = 'Mondrian '
print(nome_pintor)
print(nome_pintor_2)

In [None]:
print(nome_pintor == nome_pintor_2)

## Newline (\n) & other special characters
- `\n` line break
- `\t` tab
- `\` *escape character*

In [None]:
pintores_futuristas = "Marinetti\nBoccioni\nBalla"
print(pintores_futuristas)

In [None]:
pintores_futuristas

In [None]:
escada = '1o Degrau\n\t2o Degrau\n\t\t3o Degrau\n\t\t\t4o Degrau'
print(escada)

In [None]:
escada

In [None]:
duas_barras = '\\ e \\'
print(duas_barras)

In [None]:
duas_barras

## String concatenation



In [None]:
# Your code here
nm_comp_pintora = 'Frida ' + nome_pintora
print(nm_comp_pintora)

In [None]:
nm_pintores = nome_pintora + ' ' + nome_pintor
print(nm_pintores)

Cuidado com tipos não numéricos! Listas podem **conter strings**, mas são **listas**!

In [None]:
print(['Frida'] + nome_pintora)

In [None]:
print(['Frida'][0] + nome_pintora)

Números não são strings!

In [None]:
print(1 + nome_pintor)

In [None]:
print('1' + nome_pintor)

Alguns objetos podem ser convertidos em strings através da função `str()`

In [None]:
x = 1
print(str(x) + nome_pintor)

In [None]:
lista_y = []
for i in range(1, 10):
    y = str(i) + nome_pintor
    lista_y.append(y)

In [None]:
print(lista_y)

## String repetition

Podemos utilizar o `operador` multiplicação (`*`) para criar um string a partir de sua repetição.

In [None]:
print(3 * 'Olá! ')

In [None]:
print(3 * 'Olá!\n')

Podemos combinar esses dois operadores para simplificar a construção de strings complexos:

In [None]:
print('-' * 100 + '\n' + '\t' * 3 + 'O programa executou com sucesso!\n' + '-' * 100)

## Multiline strings

Além da declaração através de aspas simples ou duplas (`'` ou `"`) podemos utilizar a notação de 3 aspas simples (`'''`) para declarar strings de múltiplas linhas (sem precisar utilizar `\n`)

In [None]:
pintores_futuristas = "Marinetti\nBoccioni\nBalla"
print(pintores_futuristas)

In [None]:
pintores_futuristas_2 = '''Marinetti
Boccioni
Balla'''
print(pintores_futuristas_2)

In [None]:
pintores_futuristas == pintores_futuristas_2

In [None]:
pintores_futuristas_3 = '''
Marinetti
Boccioni
Balla
'''
print(pintores_futuristas_3)

In [None]:
pintores_futuristas == pintores_futuristas_3

In [None]:
query = '''
    SELECT
        *
    FROM
        tabela
'''
print(query)

# Concatenating string lists

Podemos concatenar os strings em uma lista (ou outro iterável qualquer) de strings utilizando o método `.join()` - tomando cuidado para lembrar que este método é um método de strings!

In [None]:
nomes = ['Pedro', 'Teche', 'de Lima']
print(nomes)

In [None]:
' '.join(nomes)

In [None]:
espaco = ' '
nome_completo = espaco.join(nomes)
print(nome_completo)

In [None]:
print(type(nomes))
print(type(nome_completo))

In [None]:
print(' '.join(nomes))

O string pelo qual chamamos o método é o **separador** e pode ser qualquer caracter (ou sequência de carácteres).

In [None]:
'@'.join(nomes)

In [None]:
print('\n'.join(nomes))

In [None]:
print('\t'.join(nomes))

In [None]:
print('Qualquercoisa'.join(nomes))

## Um exemplo concreto
Como vimos na aula passada, dicionários nos possibilitam guardar informações de uma forma estruturada. Muitas vezes, no entanto, precisamos alterar a estrutura dessa informação: para enviar à um cliente, uma API ou mesmo um algoritmo de ML. Vamos utilizar um pouco do que aprendemos até agora para transformar uma lista de dicionários complexos em uma lista de dicionários simples.

In [None]:
cadastro_clientes = [{'nome' : 'José Antonio', 'endereco' : {'rua' : 'Al. dos Flamboyans', 'numero' : 1637, 'cidade' : 'Pirassununga', 'UF' : 'SP'}},
                     {'nome' : 'Antonio Francisco', 'endereco' : {'rua' : 'Rua das Acacias', 'numero' : 1765, 'cidade' : 'Piracicaba', 'UF' : 'SP'}},
                     {'nome' : 'Francisco João', 'endereco' : {'rua' : 'Rua dos Jequitibas', 'numero' : 455, 'cidade' : 'Belo Horizonte', 'UF' : 'MG'}},
                     {'nome' : 'João Carlos', 'endereco' : {'rua' : 'Rua dos Jequitibas', 'numero' : 1826, 'cidade' : 'Belém', 'UF' : 'PA'}}]

In [None]:
print(cadastro_clientes[0])

In [None]:
lista_clientes = []
for cadastro in cadastro_clientes:
    dict_cliente = dict()
    dict_cliente['nome'] = cadastro['nome']
    dict_cliente['endereco'] = f"{cadastro['endereco']['rua']} {str(cadastro['endereco']['numero'])} {cadastro['endereco']['cidade']}-{cadastro['endereco']['UF']}"
    lista_clientes.append(dict_cliente)
print(lista_clientes)

## String `len`
Como vimos na aula passada, a função `len()` calcula o número de elementos em um iterável. Como strings são iteráveis, podemos calcular o comprimento de um string utilizando essa mesma função!

In [None]:
print(len('Pedro'))

In [None]:
print(len('Pedro' + ' Teche'))

In [None]:
print(len('Pedro\n'))

In [None]:
print(len('''Pedro
'''))

## String slicing
Assim como a função `len()`, **slices** também podem ser utilizados em strings! A notação é igual a que aprendemos com lista mas cada elemento de um string é um dos carácteres que o compõe.

In [None]:
print('Adriano'[1:])

In [None]:
nome = 'Adriano'
print(nome[:1] + nome[1:])

In [None]:
print(nome[-3:])

In [None]:
print(nome[:-3])

In [None]:
print(nome[:-3] + nome[-3:])

In [None]:
print(nome[4])

In [None]:
print(nome[14])

## String splitting
Além de converter listas em strings, podemos converter strings em listas de strings. Para tanto utilizamos o método `.split()`.

Este método recebe como argumento o separador que utilizaremos para dividir o string em múltiplos strings.

In [None]:
nome_completo = 'Pedro Teche de Lima'
nome_completo.split(' ')

Além disso, podemos passar um segundo argumento especificando o número máximo de quebras que podemos fazer:

In [None]:
'Pedro Teche de Lima 123 de Arroba'.split(' ', 2)

In [None]:
print('''Pedro
Teche
de Lima'''.split('\n'))

Uma outra forma de quebrar strings é transformando-os em listas através da função `list()`: ela transformará um string em uma lista de carácteres!

In [None]:
list('abcdd   as\nc')

Por fim, se não passarmos nenhum argumento para o método `.split()` ele dividirá o string a partir dos espaços em branco, equivalente à `.split(" ")`

In [None]:
nome_completo.split()

## Other String Methods

Além dos métodos `.join()` e `.split()`, strings possuem outros métodos que nos ajudam a formata-los e altera-los.

### Change character capitalization
Métodos para alterar a forma das letras - uma etapa crítica quando queremos comparar strings, já que `"A" != "a"`!!!

In [None]:
nome_errado = 'pEDRO tECHE DE lIMA'

`.capitalize()` converte a primeira letra em maiúscula e o restante em minúscula.

In [None]:
print(nome_errado.capitalize())

`.upper()` converte todas em maiúsculas.

In [None]:
print(nome_errado.upper())

`.lower()` converte todas em minúsculas.

In [None]:
print(nome_errado.lower())

`.title()` converte a primeira letra de cada palavra (primeira letra e toda letra que segue um espaço) em maiúsculas e o restante em minúsculas.

In [None]:
print(nome_errado.title())

### Cleaning spaces

Além da limpeza de letras maiúsculas, muitas vezes precisamos tratar os espaços em branco presentes em um string. Para isso utilizaremos os métodos `.strip()`, `.lstrip()` e `.rstrip()`.

In [None]:
# Your code here
'     Pedro Teche de Lima           '.strip()

O método `.strip()` só limpa espaços no começo e fim do string:

In [None]:
'     Pedro          Teche         de Lima           '.strip()

In [None]:
' '.join('     Pedro          Teche         de Lima           '.split())

In [None]:
'     Pedro Teche de Lima           '.rstrip()

In [None]:
'     Pedro Teche de Lima           '.lstrip()

### Checking ends and begginings

Podemos verificar se um string começa/termina com um outro string através dos métodos `.startswith()` e `.endswith()`

In [None]:
# Your code here
'Frida Kahlo'.startswith('Ped')

In [None]:
'Frida Kahlo'.startswith('fri')

In [None]:
'Frida Kahlo'.startswith('Fri')

Podemos construir um encadeamento de funções (nosso primeiro pipeline!) para tratar automaticamente algumas das mazelas presentes em strings antes de avaliar uma condição booleana:

In [None]:
nome = '     Frida Kahlo   '
frida_strip = nome.strip()
frida_strip_lower = frida_strip.lower()
frida_starts = frida_strip_lower.startswith('fri')
print(frida_starts)

In [None]:
frida_ends = frida_strip_lower.endswith('kahlo')
print(frida_ends)

#### Application I
Recebemos um arquivo com diversas colunas. Queremos contruir uma lista apenas com o nome de apenas algumas colunas desejadas.

In [None]:
# Escolher apenas as colunas da T1
colunas = ['T1_id', ' t1_nome', '    T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
           'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 't1_num', 't1_cep', 'T1_cidade', 'T1_uf',
           'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']

In [None]:
colunas_t1 = []
for coluna in colunas:
    if coluna.lower().strip().startswith('t1'):
        colunas_t1.append(coluna)
print(colunas_t1)

### `in` Operator

Além dos métodos `.startswith()` e `.endswith()` podemos utilizar o operador `in` para verificar se um substring ocorre em qualquer trecho de outro string.

In [None]:
'a' in 'abc'

In [None]:
'ab' in 'abc'

In [None]:
'ba' in 'abc'

#### Application II
Novamente temos uma lista de nomes de coluna que precisamos filtrar a partir da presença de sub-strings no nome. Desta vez utilizaremos o operador `in`.

In [None]:
colunas = ['T1_id', 'T1_nome', 'T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
           'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
           'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']

In [None]:
colunas_vl_qt = []
for coluna in colunas:
    if 'vl_' in coluna and 'T1' in coluna:
        colunas_vl_qt.append(coluna)
        
print(colunas_vl_qt)

### Changing strings

Por fim temos o método `.replace("DE", "PARA")` que nos permite substituir todas a as ocorrências do sub-string `"DE"` pelo sub-string `"PARA"` em um string. **CUIDADO** o método `.replace()` não altera o string original (strings são imutáveis!) - se quisermos guardar o resultado devemos utilizar uma variável.

In [None]:
lista_compras = '''Pão
Queijo
Tomate'''

print(lista_compras.replace('Tomate', 'Presunto'))

In [None]:
novas_compras = lista_compras.replace('Queijo', 'Presunto').replace('Tomate', 'Salame')
print(novas_compras)

In [None]:
print(novas_compras.replace('\n', '-'))

## Challenge

Vamos utilizar o que aprendemos até agora para tratar uma (a última!) lista de colunas. Precisamos criar uma nova lista que contenha todas as colunas da tabela **T1** além de todas as colunas de **valor** (reconhecidas pelo substring `vl_`). Além disso precisamos limpar os nomes, guardando apenas strings sem espaços em branco e sem letras maiúsculas.

In [None]:
colunas_erradas = ['T1_id ', ' T1_nome', '  T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                   'T5_vl_custo ', 'T1_tipo_frete ', ' T1_rua ', 'T1_num'  , 'T1_cep ', 'T1_cidade ', 'T1_uf  ',
                   'T1_vl_frete ', '  T2_tp_promo', ' T3_vl_promo', 'T4_vl_sv       ', 'T5_qt_doado  ']