# Aula IV - Strings no Python

Como vimos durante o pré-work, `strngs` nos permitem represetar textos dentro do Python como uma sequência de carácteres. Hoje vamos nos aprofundar em strings, vendo diferentes usos e aplicações.

## String Equivalence

In [1]:
nome_pintor = 'Mondrian'

In [2]:
print(nome_pintor)

Mondrian


In [3]:
nome_pintora = "Kahlo"

In [4]:
print(nome_pintora)

Kahlo


In [5]:
nome_pintor_2 = 'Mondrian '
print(nome_pintor)
print(nome_pintor_2)

Mondrian
Mondrian 


In [6]:
print(nome_pintor == nome_pintor_2)

False


## Newline (\n) & other special characters
- `\n` line break
- `\t` tab
- `\` *escape character*

In [7]:
pintores_futuristas = "Marinetti\nBoccioni\nBalla"
print(pintores_futuristas)

Marinetti
Boccioni
Balla


In [8]:
pintores_futuristas

'Marinetti\nBoccioni\nBalla'

In [9]:
escada = '1o Degrau\n\t2o Degrau\n\t\t3o Degrau\n\t\t\t4o Degrau'
print(escada)

1o Degrau
	2o Degrau
		3o Degrau
			4o Degrau


In [10]:
escada

'1o Degrau\n\t2o Degrau\n\t\t3o Degrau\n\t\t\t4o Degrau'

In [11]:
duas_barras = '\\ e \\'
print(duas_barras)

\ e \


In [12]:
duas_barras

'\\ e \\'

## String concatenation



In [13]:
# Your code here
nm_comp_pintora = 'Frida ' + nome_pintora
print(nm_comp_pintora)

Frida Kahlo


In [14]:
nm_pintores = nome_pintora + ' ' + nome_pintor
print(nm_pintores)

Kahlo Mondrian


Cuidado com tipos não numéricos! Listas podem **conter strings**, mas são **listas**!

In [20]:
print(['Frida '] + nome_pintora)

TypeError: can only concatenate list (not "str") to list

In [19]:
print(['Frida '][0] + nome_pintora)

Frida Kahlo


Números não são strings!

In [21]:
print(1 + nome_pintor)

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [22]:
print('1' + nome_pintor)

1Mondrian


Alguns objetos podem ser convertidos em strings através da função `str()`

In [23]:
x = 1
print(str(x) + nome_pintor)

1Mondrian


In [24]:
lista_y = []
for i in range(1, 10):
    y = str(i) + nome_pintor
    lista_y.append(y)

In [26]:
print(lista_y)

['1Mondrian', '2Mondrian', '3Mondrian', '4Mondrian', '5Mondrian', '6Mondrian', '7Mondrian', '8Mondrian', '9Mondrian']


## String repetition

Podemos utilizar o `operador` multiplicação (`*`) para criar um string a partir de sua repetição.

In [27]:
print(3 * 'Olá! ')

Olá! Olá! Olá! 


In [28]:
print(3 * 'Olá!\n')

Olá!
Olá!
Olá!



Podemos combinar esses dois operadores para simplificar a construção de strings complexos:

In [33]:
print('-' * 100 + '\n' + '\t' * 4 + 'El programa corrió con éxito!\n' + '-' * 100)

----------------------------------------------------------------------------------------------------
				El programa corrió con éxito!
----------------------------------------------------------------------------------------------------


## Multiline strings

Além da declaração através de aspas simples ou duplas (`'` ou `"`) podemos utilizar a notação de 3 aspas simples (`'''`) para declarar strings de múltiplas linhas (sem precisar utilizar `\n`)

In [34]:
pintores_futuristas = "Marinetti\nBoccioni\nBalla"
print(pintores_futuristas)

Marinetti
Boccioni
Balla


In [35]:
pintores_futuristas_2 = '''Marinetti
Boccioni
Balla'''
print(pintores_futuristas_2)

Marinetti
Boccioni
Balla


In [36]:
pintores_futuristas == pintores_futuristas_2

True

In [37]:
pintores_futuristas_3 = '''
Marinetti
Boccioni
Balla
'''
print(pintores_futuristas_3)


Marinetti
Boccioni
Balla



In [38]:
pintores_futuristas == pintores_futuristas_3

False

In [39]:
query = '''
    SELECT
        *
    FROM
        tabela
'''
print(query)


    SELECT
        *
    FROM
        tabela



# Concatenating string lists

Podemos concatenar os strings em uma lista (ou outro iterável qualquer) de strings utilizando o método `.join()` - tomando cuidado para lembrar que este método é um método de strings!

In [45]:
nomes = ['Emiliano', 'Balcazar', 'Dot']
print(nomes)

['Emiliano', 'Balcazar', 'Dot']


In [46]:
' '.join(nomes)

'Emiliano Balcazar Dot'

In [47]:
espaco = ' '
nome_completo = espaco.join(nomes)
print(nome_completo)

Emiliano Balcazar Dot


In [48]:
print(type(nomes))
print(type(nome_completo))

<class 'list'>
<class 'str'>


In [49]:
print(' '.join(nomes))

Emiliano Balcazar Dot


In [50]:
ws = ' '
ws.join(nomes)

'Emiliano Balcazar Dot'

O string pelo qual chamamos o método é o **separador** e pode ser qualquer caracter (ou sequência de carácteres).

In [51]:
'@'.join(nomes)

'Emiliano@Balcazar@Dot'

In [52]:
print('\n'.join(nomes))

Emiliano
Balcazar
Dot


In [53]:
print('\t'.join(nomes))

Emiliano	Balcazar	Dot


In [54]:
print('Qualquercoisa'.join(nomes))

EmilianoQualquercoisaBalcazarQualquercoisaDot


## Um exemplo concreto
Como vimos na aula passada, dicionários nos possibilitam guardar informações de uma forma estruturada. Muitas vezes, no entanto, precisamos alterar a estrutura dessa informação: para enviar à um cliente, uma API ou mesmo um algoritmo de ML. Vamos utilizar um pouco do que aprendemos até agora para transformar uma lista de dicionários complexos em uma lista de dicionários simples.

In [55]:
cadastro_clientes = [{'nome' : 'José Antonio', 'endereco' : {'rua' : 'Al. dos Flamboyans', 'numero' : 1637, 'cidade' : 'Pirassununga', 'UF' : 'SP'}},
                     {'nome' : 'Antonio Francisco', 'endereco' : {'rua' : 'Rua das Acacias', 'numero' : 1765, 'cidade' : 'Piracicaba', 'UF' : 'SP'}},
                     {'nome' : 'Francisco João', 'endereco' : {'rua' : 'Rua dos Jequitibas', 'numero' : 455, 'cidade' : 'Belo Horizonte', 'UF' : 'MG'}},
                     {'nome' : 'João Carlos', 'endereco' : {'rua' : 'Rua dos Jequitibas', 'numero' : 1826, 'cidade' : 'Belém', 'UF' : 'PA'}}]

In [56]:
print(cadastro_clientes[0])

{'nome': 'José Antonio', 'endereco': {'rua': 'Al. dos Flamboyans', 'numero': 1637, 'cidade': 'Pirassununga', 'UF': 'SP'}}


In [59]:
lista_clientes = []
for cadastro in cadastro_clientes:
    dict_cliente = dict()
    dict_cliente['nome'] = cadastro['nome']
    dict_cliente['endereco'] = f"{cadastro['endereco']['rua']} {cadastro['endereco']['numero']} {cadastro['endereco']['cidade']}-{cadastro['endereco']['UF']}"
    lista_clientes.append(dict_cliente)
print(lista_clientes)

[{'nome': 'José Antonio', 'endereco': 'Al. dos Flamboyans 1637 Pirassununga-SP'}, {'nome': 'Antonio Francisco', 'endereco': 'Rua das Acacias 1765 Piracicaba-SP'}, {'nome': 'Francisco João', 'endereco': 'Rua dos Jequitibas 455 Belo Horizonte-MG'}, {'nome': 'João Carlos', 'endereco': 'Rua dos Jequitibas 1826 Belém-PA'}]


In [60]:
lista_clientes[0]

{'nome': 'José Antonio', 'endereco': 'Al. dos Flamboyans 1637 Pirassununga-SP'}

## String `len`
Como vimos na aula passada, a função `len()` calcula o número de elementos em um iterável. Como strings são iteráveis, podemos calcular o comprimento de um string utilizando essa mesma função!

In [61]:
print(len('Pedro'))

5


In [62]:
print(len('Pedro' + ' Teche'))

11


In [63]:
print(len('Pedro\n'))

6


In [64]:
print(len('''Pedro
'''))

6


## String slicing
Assim como a função `len()`, **slices** também podem ser utilizados em strings! A notação é igual a que aprendemos com lista mas cada elemento de um string é um dos carácteres que o compõe.

In [72]:
print('Emiliano'[1:])

miliano


In [73]:
nome = 'Emiliano'
print(nome[:1] + nome[1:])

Emiliano


In [74]:
print(nome[-4:])

iano


In [75]:
print(nome[:-3])

Emili


In [76]:
print(nome[:-3] + nome[-3:])

Emiliano


In [77]:
print(nome[4])

i


In [78]:
print(nome[14])

IndexError: string index out of range

## String splitting
Além de converter listas em strings, podemos converter strings em listas de strings. Para tanto utilizamos o método `.split()`.

Este método recebe como argumento o separador que utilizaremos para dividir o string em múltiplos strings.

In [79]:
nome_completo = 'Pedro Teche de Lima'
nome_completo.split(' ')

['Pedro', 'Teche', 'de', 'Lima']

Além disso, podemos passar um segundo argumento especificando o número máximo de quebras que podemos fazer:

In [88]:
'Pedro Teche de Lima'.split(' ', 2)

['Pedro', 'Teche', 'de Lima']

In [89]:
print('''Pedro
Teche
de Lima'''.split('\n'))

['Pedro', 'Teche', 'de Lima']


In [92]:
wrong_list = 'Emiliano Balcazar     Dot'.split(' ')
good_list = [w for w in wrong_list if len(w)>0]
good_list

['Emiliano', 'Balcazar', 'Dot']

In [94]:
nome_completo.split()

['Pedro', 'Teche', 'de', 'Lima']

Uma outra forma de quebrar strings é transformando-os em listas através da função `list()`: ela transformará um string em uma lista de carácteres!

In [95]:
list('abcdd   as\nc')

['a', 'b', 'c', 'd', 'd', ' ', ' ', ' ', 'a', 's', '\n', 'c']

Por fim, se não passarmos nenhum argumento para o método `.split()` ele dividirá o string a partir dos espaços em branco, equivalente à `.split(" ")`

In [98]:
nome_completo = 'Emiliano Balcazar Dot'

In [99]:
nome_completo.split()

['Emiliano', 'Balcazar', 'Dot']

## Other String Methods

Além dos métodos `.join()` e `.split()`, strings possuem outros métodos que nos ajudam a formata-los e altera-los.

### Change character capitalization
Métodos para alterar a forma das letras - uma etapa crítica quando queremos comparar strings, já que `"A" != "a"`!!!

In [100]:
nome_errado = 'pEDRO tECHE DE lIMA'

`.capitalize()` converte a primeira letra em maiúscula e o restante em minúscula.

In [101]:
print(nome_errado.capitalize())

Pedro teche de lima


`.upper()` converte todas em maiúsculas.

In [102]:
print(nome_errado.upper())

PEDRO TECHE DE LIMA


`.lower()` converte todas em minúsculas.

In [103]:
print(nome_errado.lower())

pedro teche de lima


`.title()` converte a primeira letra de cada palavra (primeira letra e toda letra que segue um espaço) em maiúsculas e o restante em minúsculas.

In [104]:
print(nome_errado.title())

Pedro Teche De Lima


In [116]:
name_list = ['Emiliano', 'Balzazar', 'Dot', 1, 2, [1,2,'mexico']]

In [117]:
[name.upper() for name in name_list if type(name)==str]

['EMILIANO', 'BALZAZAR', 'DOT']

### Cleaning spaces

Além da limpeza de letras maiúsculas, muitas vezes precisamos tratar os espaços em branco presentes em um string. Para isso utilizaremos os métodos `.strip()`, `.lstrip()` e `.rstrip()`.

In [118]:
# Your code here
'     Pedro Teche de Lima           '.strip()

'Pedro Teche de Lima'

O método `.strip()` só limpa espaços no começo e fim do string:

In [119]:
'     Pedro          Teche         de Lima           '.strip()

'Pedro          Teche         de Lima'

In [120]:
' '.join('     Pedro          Teche         de Lima           '.split())

'Pedro Teche de Lima'

In [121]:
'     Pedro Teche de Lima           '.rstrip()

'     Pedro Teche de Lima'

In [122]:
'     Pedro Teche de Lima           '.lstrip()

'Pedro Teche de Lima           '

### Checking ends and begginings

Podemos verificar se um string começa/termina com um outro string através dos métodos `.startswith()` e `.endswith()`

In [123]:
# Your code here
'Frida Kahlo'.startswith('Ped')

False

In [124]:
'Frida Kahlo'.startswith('fri')

False

In [125]:
'Frida Kahlo'.startswith('Fri')

True

Podemos construir um encadeamento de funções (nosso primeiro pipeline!) para tratar automaticamente algumas das mazelas presentes em strings antes de avaliar uma condição booleana:

In [126]:
nome = '     Frida Kahlo   '
frida_strip = nome.strip()
frida_strip_lower = frida_strip.lower()
frida_starts = frida_strip_lower.startswith('fri')
print(frida_starts)

True


In [127]:
frida_ends = frida_strip_lower.endswith('kahlo')
print(frida_ends)

True


#### Application I
Recebemos um arquivo com diversas colunas. Queremos contruir uma lista apenas com o nome de apenas algumas colunas desejadas.

In [132]:
# Escolher apenas as colunas da T1
colunas = ['T1_id', ' t1_nome', '    T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
           'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 't1_num', 't1_cep', 'T1_cidade', 'T1_uf',
           'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']

In [134]:
colunas_t1 = []
for coluna in colunas:
    if coluna.lower().strip().startswith('t1'):
        colunas_t1.append(coluna)
print(colunas_t1)

['T1_id', ' t1_nome', '    T1_id_fatura', 't1_cd_sku', 'T1_tipo_frete', 'T1_rua', 't1_num', 't1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete']


In [139]:
columnas = [coluna for coluna in colunas if coluna.lower().strip().startswith('t1')]
print(columnas)

['T1_id', ' t1_nome', '    T1_id_fatura', 't1_cd_sku', 'T1_tipo_frete', 'T1_rua', 't1_num', 't1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete']


### `in` Operator

Além dos métodos `.startswith()` e `.endswith()` podemos utilizar o operador `in` para verificar se um substring ocorre em qualquer trecho de outro string.

In [135]:
'a' in 'abc'

True

In [136]:
'ab' in 'abc'

True

In [137]:
'ba' in 'abc'

False

#### Application II
Novamente temos uma lista de nomes de coluna que precisamos filtrar a partir da presença de sub-strings no nome. Desta vez utilizaremos o operador `in`.

In [140]:
colunas = ['T1_id', 'T1_nome', 'T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
           'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
           'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']

In [141]:
colunas_vl_qt = []
for coluna in colunas:
    if 'vl_' in coluna and 'T1' in coluna:
        colunas_vl_qt.append(coluna)
        
print(colunas_vl_qt)

['T1_vl_frete']


In [146]:
columnas = [coluna for coluna in colunas if 'vl_' in coluna and 'T1' in coluna]
columnas

['T1_vl_frete']

### Changing strings

Por fim temos o método `.replace("DE", "PARA")` que nos permite substituir todas a as ocorrências do sub-string `"DE"` pelo sub-string `"PARA"` em um string. **CUIDADO** o método `.replace()` não altera o string original (strings são imutáveis!) - se quisermos guardar o resultado devemos utilizar uma variável.

In [147]:
lista_compras = '''Pão
Queijo
Tomate'''

print(lista_compras.replace('Tomate', 'Presunto'))

Pão
Queijo
Presunto


In [148]:
novas_compras = lista_compras.replace('Queijo', 'Presunto').replace('Tomate', 'Salame')
print(novas_compras)

Pão
Presunto
Salame


In [157]:
print(novas_compras.replace('\n', '-'))

Pão-Presunto-Salame


## Challenge

Vamos utilizar o que aprendemos até agora para tratar uma (a última!) lista de colunas. Precisamos criar uma nova lista que contenha todas as colunas da tabela **T1** além de todas as colunas de **valor** (reconhecidas pelo substring `vl_`). Além disso precisamos limpar os nomes, guardando apenas strings sem espaços em branco e sem letras maiúsculas.

In [None]:
colunas_erradas = ['T1_id ', ' T1_nome', '  T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                   'T5_vl_custo ', 'T1_tipo_frete ', ' T1_rua ', 'T1_num'  , 'T1_cep ', 'T1_cidade ', 'T1_uf  ',
                   'T1_vl_frete ', '  T2_tp_promo', ' T3_vl_promo', 'T4_vl_sv       ', 'T5_qt_doado  ']