# Aula IV - Strings no Python

Como vimos durante o pré-work, `strngs` nos permitem represetar textos dentro do Python como uma sequência de carácteres. Hoje vamos nos aprofundar em strings, vendo diferentes usos e aplicações.

## Equivalência de strings

Strings são sequencias de carácteres - devemos tomar cuidado quando avaliamos a igualdade entre dois strings pois algumas alteração podem ser invísiveis na função print.

In [1]:
nome_pintor = 'Mondrian'

In [2]:
print(nome_pintor)

Mondrian


In [3]:
nome_pintora = "Kahlo"

In [4]:
print(nome_pintora)

Kahlo


In [5]:
nome_pintor_2 = 'Mondrian '
print(nome_pintor)
print(nome_pintor_2)

Mondrian
Mondrian 


In [6]:
print(nome_pintor == nome_pintor_2)

False


## O newline (\n) e outros carácteres especiais
- `\n` é a representação da quebra de linha (enter)
- `\t` é a representação do TAB
- `\` é o caráter para "escaparmos" um caráter (' e a propria \ por exemplo)

In [7]:
pintores_futuristas = "Marinetti\nBoccioni\nBalla"
print(pintores_futuristas)

Marinetti
Boccioni
Balla


In [9]:
pintores_futuristas

'Marinetti\nBoccioni\nBalla'

In [3]:
escada = '1o Degrau\n\t2o Degrau\n\t\t3o Degrau\n\t\t\t4o Degrau'
print(escada)

1o Degrau
	2o Degrau
		3o Degrau
			4o Degrau


In [4]:
escada

'1o Degrau\n\t2o Degrau\n\t\t3o Degrau\n\t\t\t4o Degrau'

In [2]:
duas_barras = '\\ e \\'
print(duas_barras)

\ e \


In [None]:
duas_barras

## Concatenação de Strings
Podemos utilizar o `operador` soma (`+`) para concatenar strings - tomando o cuidado para que os dois objetos *somados* sejam strings de fato!


In [14]:
# Your code here
nm_comp_pintora = 'Frida ' + nome_pintora
print(nm_comp_pintora)

Frida Kahlo


In [15]:
nm_pintores = nome_pintora + ' ' + nome_pintor
print(nm_pintores)

Kahlo Mondrian


Cuidado com tipos não numéricos! Listas podem **conter strings**, mas são **listas**!

In [16]:
print(['Frida'] + nome_pintora)

TypeError: can only concatenate list (not "str") to list

In [17]:
print(['Frida'][0] + nome_pintora)

FridaKahlo


Números não são strings!

In [18]:
print(1 + nome_pintor)

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [19]:
print('1' + nome_pintor)

1Mondrian


Alguns objetos podem ser convertidos em strings através da função `str()`

In [20]:
x = 1
print(str(x) + nome_pintor)

1Mondrian


In [23]:
lista_y = []
for i in range(1, 10):
    y = str(i) + nome_pintor
    lista_y.append(y)

In [24]:
print(lista_y)

['1Mondrian', '2Mondrian', '3Mondrian', '4Mondrian', '5Mondrian', '6Mondrian', '7Mondrian', '8Mondrian', '9Mondrian']


## Repetição de Strings

Podemos utilizar o `operador` multiplicação (`*`) para criar um string a partir de sua repetição.

In [25]:
print(3 * 'Olá! ')

Olá! Olá! Olá! 


In [26]:
print(3 * 'Olá!\n')

Olá!
Olá!
Olá!



Podemos combinar esses dois operadores para simplificar a construção de strings complexos:

In [5]:
print('-' * 100 + '\n' + '\t' * 3 + 'O programa executou com sucesso!\n' + '-' * 100)

----------------------------------------------------------------------------------------------------
			O programa executou com sucesso!
----------------------------------------------------------------------------------------------------


## Multiline strings

Além da declaração através de aspas simples ou duplas (`'` ou `"`) podemos utilizar a notação de 3 aspas simples (`'''`) para declarar strings de múltiplas linhas (sem precisar utilizar `\n`)

In [9]:
pintores_futuristas = "Marinetti\nBoccioni\nBalla"
print(pintores_futuristas)

Marinetti
Boccioni
Balla


In [10]:
pintores_futuristas_2 = '''Marinetti
Boccioni
Balla'''
print(pintores_futuristas_2)

Marinetti
Boccioni
Balla


In [11]:
pintores_futuristas == pintores_futuristas_2

True

In [12]:
pintores_futuristas_3 = '''
Marinetti
Boccioni
Balla
'''
print(pintores_futuristas_3)


Marinetti
Boccioni
Balla



In [35]:
pintores_futuristas == pintores_futuristas_3

False

In [36]:
query = '''
    SELECT
        *
    FROM
        tabela
'''
print(query)

# Concatenação de listas de strings

Podemos concatenar os strings em uma lista (ou outro iterável qualquer) de strings utilizando o método `.join()` - tomando cuidado para lembrar que este método é um método de strings!

In [14]:
nomes = ['Pedro', 'Teche', 'de Lima']
print(nomes)

['Pedro', 'Teche', 'de Lima']


In [15]:
' '.join(nomes)

'Pedro Teche de Lima'

In [39]:
espaco = ' '
nome_completo = espaco.join(nomes)
print(nome_completo)

Pedro Teche de Lima


In [40]:
print(type(nomes))
print(type(nome_completo))

<class 'list'>
<class 'str'>


In [41]:
print(' '.join(nomes))

Pedro Teche de Lima


O string pelo qual chamamos o método é o **separador** e pode ser qualquer caracter (ou sequência de carácteres).

In [16]:
'@'.join(nomes)

'Pedro@Teche@de Lima'

In [17]:
print('\n'.join(nomes))

Pedro
Teche
de Lima


In [18]:
print('\t'.join(nomes))

Pedro	Teche	de Lima


In [19]:
print('Qualquercoisa'.join(nomes))

PedroQualquercoisaTecheQualquercoisade Lima


## Um exemplo concreto
Como vimos na aula passada, dicionários nos possibilitam guardar informações de uma forma estruturada. Muitas vezes, no entanto, precisamos alterar a estrutura dessa informação: para enviar à um cliente, uma API ou mesmo um algoritmo de ML. Vamos utilizar um pouco do que aprendemos até agora para transformar uma lista de dicionários complexos em uma lista de dicionários simples.

In [20]:
cadastro_clientes = [{'nome' : 'José Antonio', 'endereco' : {'rua' : 'Al. dos Flamboyans', 'numero' : 1637, 'cidade' : 'Pirassununga', 'UF' : 'SP'}},
                     {'nome' : 'Antonio Francisco', 'endereco' : {'rua' : 'Rua das Acacias', 'numero' : 1765, 'cidade' : 'Piracicaba', 'UF' : 'SP'}},
                     {'nome' : 'Francisco João', 'endereco' : {'rua' : 'Rua dos Jequitibas', 'numero' : 455, 'cidade' : 'Belo Horizonte', 'UF' : 'MG'}},
                     {'nome' : 'João Carlos', 'endereco' : {'rua' : 'Rua dos Jequitibas', 'numero' : 1826, 'cidade' : 'Belém', 'UF' : 'PA'}}]

In [21]:
print(cadastro_clientes[0])

{'nome': 'José Antonio', 'endereco': {'rua': 'Al. dos Flamboyans', 'numero': 1637, 'cidade': 'Pirassununga', 'UF': 'SP'}}


In [55]:
lista_clientes = []
for cadastro in cadastro_clientes:
    dict_cliente = dict()
    dict_cliente['nome'] = cadastro['nome']
    dict_cliente['endereco'] = f"{cadastro['endereco']['rua']} {str(cadastro['endereco']['numero'])} {cadastro['endereco']['cidade']}-{cadastro['endereco']['UF']}"
    lista_clientes.append(dict_cliente)
print(lista_clientes)

[{'nome': 'José Antonio', 'endereco': 'Al. dos Flamboyans 1637 Pirassununga-SP'}, {'nome': 'Antonio Francisco', 'endereco': 'Rua das Acacias 1765 Piracicaba-SP'}, {'nome': 'Francisco João', 'endereco': 'Rua dos Jequitibas 455 Belo Horizonte-MG'}, {'nome': 'João Carlos', 'endereco': 'Rua dos Jequitibas 1826 Belém-PA'}]


## Comprimento de um string
Como vimos na aula passada, a função `len()` calcula o número de elementos em um iterável. Como strings são iteráveis, podemos calcular o comprimento de um string utilizando essa mesma função!

In [67]:
print(len('Pedro'))

5


In [68]:
print(len('Pedro' + ' Teche'))

11


In [69]:
print(len('Pedro\n'))

6


In [70]:
print(len('''Pedro
'''))

6


## String slicing
Assim como a função `len()`, **slices** também podem ser utilizados em strings! A notação é igual a que aprendemos com lista mas cada elemento de um string é um dos carácteres que o compõe.

In [22]:
print('Adriano'[1:])

driano


In [23]:
nome = 'Adriano'
print(nome[:1] + nome[1:])

Adriano


In [75]:
print(nome[-3:])

ano


In [24]:
print(nome[:-3])

Adri


In [25]:
print(nome[:-3] + nome[-3:])

Adriano


In [26]:
print(nome[4])

a


In [27]:
print(nome[14])

IndexError: string index out of range

## Quebrando um string
Além de converter listas em strings, podemos converter strings em listas de strings. Para tanto utilizamos o método `.split()`.

Este método recebe como argumento o separador que utilizaremos para dividir o string em múltiplos strings.

In [28]:
nome_completo = 'Pedro Teche de Lima'
nome_completo.split(' ')

['Pedro', 'Teche', 'de', 'Lima']

Além disso, podemos passar um segundo argumento especificando o número máximo de quebras que podemos fazer:

In [30]:
'Pedro Teche de Lima 123 de Arroba'.split(' ', 2)

['Pedro', 'Teche', 'de Lima 123 de Arroba']

In [86]:
print('''Pedro
Teche
de Lima'''.split('\n'))

['Pedro', 'Teche', 'de Lima']


Uma outra forma de quebrar strings é transformando-os em listas através da função `list()`: ela transformará um string em uma lista de carácteres!

In [88]:
list('abcdd   as\nc')

['a', 'b', 'c', 'd', 'd', ' ', ' ', ' ', 'a', 's', '\n', 'c']

Por fim, se não passarmos nenhum argumento para o método `.split()` ele dividirá o string a partir dos espaços em branco, equivalente à `.split(" ")`

In [89]:
nome_completo.split()

['Pedro', 'Teche', 'de', 'Lima']

## Outros métodos de strings

Além dos métodos `.join()` e `.split()`, strings possuem outros métodos que nos ajudam a formata-los e altera-los.

### Maiusculização
Métodos para alterar a forma das letras - uma etapa crítica quando queremos comparar strings, já que `"A" != "a"`!!!

In [34]:
nome_errado = 'pEDRO tECHE DE lIMA'

`.capitalize()` converte a primeira letra em maiúscula e o restante em minúscula.

In [35]:
print(nome_errado.capitalize())

Pedro teche de lima


`.upper()` converte todas em maiúsculas.

In [92]:
print(nome_errado.upper())

PEDRO TECHE DE LIMA


`.lower()` converte todas em minúsculas.

In [93]:
print(nome_errado.lower())

pedro teche de lima


`.title()` converte a primeira letra de cada palavra (primeira letra e toda letra que segue um espaço) em maiúsculas e o restante em minúsculas.

In [94]:
print(nome_errado.title())

Pedro Teche De Lima


### Limpeza de Espaços

Além da limpeza de letras maiúsculas, muitas vezes precisamos tratar os espaços em branco presentes em um string. Para isso utilizaremos os métodos `.strip()`, `.lstrip()` e `.rstrip()`.

In [36]:
# Your code here
'     Pedro Teche de Lima           '.strip()

'Pedro Teche de Lima'

O método `.strip()` só limpa espaços no começo e fim do string:

In [39]:
'     Pedro          Teche         de Lima           '.strip()

'Pedro          Teche         de Lima'

In [38]:
' '.join('     Pedro          Teche         de Lima           '.split())

'Pedro Teche de Lima'

In [99]:
'     Pedro Teche de Lima           '.rstrip()

'     Pedro Teche de Lima'

In [100]:
'     Pedro Teche de Lima           '.lstrip()

'Pedro Teche de Lima           '

### Booleanos para começo e fim

Podemos verificar se um string começa/termina com um outro string através dos métodos `.startswith()` e `.endswith()`

In [101]:
# Your code here
'Frida Kahlo'.startswith('Ped')

False

In [102]:
'Frida Kahlo'.startswith('fri')

False

In [103]:
'Frida Kahlo'.startswith('Fri')

True

Podemos construir um encadeamento de funções (nosso primeiro pipeline!) para tratar automaticamente algumas das mazelas presentes em strings antes de avaliar uma condição booleana:

In [40]:
nome = '     Frida Kahlo   '
frida_strip = nome.strip()
frida_strip_lower = frida_strip.lower()
frida_starts = frida_strip_lower.startswith('fri')
print(frida_starts)

True


In [41]:
frida_ends = frida_strip_lower.endswith('kahlo')
print(frida_ends)

True


#### Exemplo Prático I
Recebemos um arquivo com diversas colunas. Queremos contruir uma lista apenas com o nome de apenas algumas colunas desejadas.

In [133]:
# Escolher apenas as colunas da T1
colunas = ['T1_id', ' t1_nome', '    T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
           'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 't1_num', 't1_cep', 'T1_cidade', 'T1_uf',
           'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']

In [136]:
colunas_t1 = []
for coluna in colunas:
    if coluna.lower().strip().startswith('t1'):
        colunas_t1.append(coluna)
print(colunas_t1)

['T1_id', ' t1_nome', '    T1_id_fatura', 't1_cd_sku', 'T1_tipo_frete', 'T1_rua', 't1_num', 't1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete']


### Operador `in`

Além dos métodos `.startswith()` e `.endswith()` podemos utilizar o operador `in` para verificar se um substring ocorre em qualquer trecho de outro string.

In [42]:
'a' in 'abc'

True

In [43]:
'ab' in 'abc'

True

In [44]:
'ba' in 'abc'

False

#### Exemplo Prático II
Novamente temos uma lista de nomes de coluna que precisamos filtrar a partir da presença de sub-strings no nome. Desta vez utilizaremos o operador `in`.

In [45]:
colunas = ['T1_id', 'T1_nome', 'T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
           'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
           'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']

In [46]:
colunas_vl_qt = []
for coluna in colunas:
    if 'vl_' in coluna and 'T1' in coluna:
        colunas_vl_qt.append(coluna)
        
print(colunas_vl_qt)

['T1_vl_frete']


### Alterando strings

Por fim temos o método `.replace("DE", "PARA")` que nos permite substituir todas a as ocorrências do sub-string `"DE"` pelo sub-string `"PARA"` em um string. **CUIDADO** o método `.replace()` não altera o string original (strings são imutáveis!) - se quisermos guardar o resultado devemos utilizar uma variável.

In [47]:
lista_compras = '''Pão
Queijo
Tomate'''

print(lista_compras.replace('Tomate', 'Presunto'))

Pão
Queijo
Presunto


In [162]:
novas_compras = lista_compras.replace('Queijo', 'Presunto').replace('Tomate', 'Salame')
print(novas_compras)

Pão
Presunto
Salame


In [163]:
print(novas_compras.replace('\n', '-'))

Pão-Presunto-Salame


## Desafio

Vamos utilizar o que aprendemos até agora para tratar uma (a última!) lista de colunas. Precisamos criar uma nova lista que contenha todas as colunas da tabela **T1** além de todas as colunas de **valor** (reconhecidas pelo substring `vl_`). Além disso precisamos limpar os nomes, guardando apenas strings sem espaços em branco e sem letras maiúsculas.

In [49]:
colunas_erradas = ['T1_id ', ' T1_nome', '  T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                   'T5_vl_custo ', 'T1_tipo_frete ', ' T1_rua ', 'T1_num'  , 'T1_cep ', 'T1_cidade ', 'T1_uf  ',
                   'T1_vl_frete ', '  T2_tp_promo', ' T3_vl_promo', 'T4_vl_sv       ', 'T5_qt_doado  ']

# REGular EXpression - INTRO TO REGEX
REGEX funcionam a partir do conceito de **padrões**: vamos utilizar os métodos para buscar ou alterar padrões em um string. Inicialmente esses **padrões** serão apenas strings - no entanto, mais a frente, veremos que podemos utilizar padrões *coringa*, permitindo buscas mais flexíveis.

In [53]:
# Importe a biblioteca!!
import re

1. `re.search`: Retorna o primeiro resultado do padrão no string;
2. `re.findall`: Retorna todas as instâncias do padrão no string através de uma lista;
3. `re.split`: Equivalente ao método `.split()`;
4. `re.sub`: Substitui um padrão por outro em um string.

Visualizando REGEXs: https://regexper.com/

## Função .findall()
A função `.findall()` busca todas as ocorrências de um padrão em um string, retornando cada *match* em uma lista.

In [54]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros.'
pattern = 'vizinho'

re.findall(pattern, text)

['vizinho']

In [55]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros.'
pattern = 'viz'

re.findall(pattern, text)

['viz']

In [56]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern_2 = 'VIZINHO'

re.findall(pattern_2, text)

[]

In [57]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern_3 = 'e'

re.findall(pattern_3, text)

['e', 'e', 'e', 'e']

### Exemplo Prático III
Vamos utilizar REGEX para abordar o problema das colunas. Desta vez vamos extrair o nome de todas as colunas que pertençam a tabela T1 (`T1_`)

In [58]:
# Extrair todas as colunas da T1
lista_colunas = ['T1_id', 'T1_nome', 'T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                 'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
                 'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']


In [173]:
re.findall('T1_', ' '.join(lista_colunas))

['T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_']

In [174]:
lista_t1 = []
for coluna in lista_colunas:
    pattern = 'T1_'
    if re.findall(pattern, coluna):
        lista_t1.append(coluna)
        
print(lista_t1)

['T1_id', 'T1_nome', 'T1_id_fatura', 'T1_cd_sku', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete']


## Padrões Complexos
A busca por padrões simples não é muito útil: resultados muito semelhatens podem ser alcançados utilizando apenas os métodos nativos de strings. O grande ganho ao utilizar REGEX é a utilização de padrões complexos.

### Operador '|'
O padrão **CONJUNTOS** nos permite encontrar **grupos de carácteres** e é construído através da notação `'[]'`. Por exemplo, o padrão `'[Aa]ula'` econtrará tanto a palavra `'Aula'` quanto a palavra `'aula'`. O **CONJUNTO** opera como um carácter: o REGEX irá buscar todos os carácteres dentro do conjunto, no exemplo acima *A* e *a*, na posição especifica do padrão (no exemplo, no primeiro caractér).

### Conjuntos
O padrão **CONJUNTOS** nos permite encontrar **grupos de carácteres** e é construído através da notação `'[]'`. Por exemplo, o padrão `'[Aa]ula'` econtrará tanto a palavra `'Aula'` quanto a palavra `'aula'`. O **CONJUNTO** opera como um carácter: o REGEX irá buscar todos os carácteres dentro do conjunto, no exemplo acima *A* e *a*, na posição especifica do padrão (no exemplo, no primeiro caractér).

In [59]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = '[Mm][Ee][Uu]'

re.findall(pattern, text)

['Meu']

In [60]:
text = 'Meu mEU MeUDEOS'
pattern = '[Mm][Ee][Uu]'

re.findall(pattern, text)

['Meu', 'mEU', 'MeU']

In [61]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = '[Pp]ata'

re.findall(pattern, text)

['Pata', 'pata']

In [185]:
text = 'Patas pata pAta fAta fAca'
pattern = '[pPasdfaaPPpa2][Aa][ct]a'

re.findall(pattern, text)

['Pata', 'pata', 'pAta', 'fAta', 'fAca']

Além de utilizar **CONJUNTOS** podemos utilizar o operador `'|'` para encadear padrões (por exemplo, `'[Oo]deio|[Rr]egex'`), retornando todas as ocorrências tanto do primeiro quanto do segundo padrão (no exemplo acima, tanto os strings `Odeio` e `odeio` quanto os strings `Regex` e `regex`).

In [62]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = '[Pp]ata|cachorro'
re.findall(pattern, text)

['Pata', 'cachorro', 'pata']

#### Conjuntos na prática
Vamos voltar ao exemplo da lista de colunas, mas desta vez os nomes das tabelas podem vir tanto como maiúsculas (T1) quanto minúsculas (t1). Precisamos encontrar todas as colunas das tabelas T1 (t1) e T2 (t2). Quando os padrões que buscamos ficam mais complexos, fica clara a vantagem na utilização de um REGEX vs os métodos básicos de strings.

In [189]:
# Extrair todas as colunas da T1 ou da T2
lista_colunas = ['T1_id', 't1_nome', 'T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                 'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
                 'T1_vl_frete', 't2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']


In [192]:
lista_colunas_T1T2 = []
for coluna in lista_colunas:
    if re.findall('[Tt][12]', coluna):
        lista_colunas_T1T2.append(coluna)
print(lista_colunas_T1T2)

['T1_id', 't1_nome', 'T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete', 't2_tp_promo']


## Função .sub()

Além de encontrar padrões, podemos realizar a substituição de padrões através da função `sub("PADRÃO_DE", "STRING_PARA", "STRING_ORIGINAL")` com argumentos:

- **PADRÃO_DE**: o padrão que vamos buscar;
- **STRING_PARA**: o string pelo qual vamos substituir todo padrão encontrado;
- **STRING_ORIGINAL**: o string no qual vamos fazer as substituições.

In [217]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = '[Pp]ata'
nova_pattern = 'Pedro'
print(re.sub(pattern, nova_pattern, text))

Meu vizinho, o Sr. Pedro, tem 5 cachorros e cada um tem 4 Pedros.


## Conjuntos Especiais

Range

1. [a-z]: Qualquer letra minúsculas;
1. [A-Z]: Qualquer letra maiúsculas;
1. [0-9]: Qualquer digito entre 0 e 9;
1. [A-Za-z]: Todas as letras;
1. [À-ž]: Todos os diacriticos.

In [63]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = r'[A-Za-z][A-Za-z][A-Za-z]'
re.findall(pattern, text)

['Meu', 'viz', 'inh', 'Pat', 'tem', 'cac', 'hor', 'ros', 'cad', 'tem', 'pat']

In [68]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cães e cada um tem 4 patas.'
pattern = 'c[A-Za-zÀ-ž]es'

re.findall(pattern, text)

['cães']

. `^` is equivalent to NOT

In [69]:
pattern = '[^A-Za-z0-9À-ž]'

re.findall(pattern, text)

[' ',
 ',',
 ' ',
 ' ',
 '.',
 ' ',
 ',',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 '.']

## Meta-Carácteres 

Characters that don't mean what they are.

1. `\w`: Qualquer carácter alfa-numérico;
3. `\d`: Qualquer número;
7. `.` : Qualquer carácter exceto o newline - `\n`.

In [70]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = r'\d' # equivalente à '\\d'

print(re.findall(pattern, text))

['5', '4']


In [71]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'\d' # equivalente à '\\d'

print(re.findall(pattern, text))

['5', '0', '4']


In [72]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'\w' # equivalente à '\\w'

print(re.findall(pattern, text))

['M', 'e', 'u', 'v', 'i', 'z', 'i', 'n', 'h', 'o', 'o', 'S', 'r', 'P', 'a', 't', 'a', 't', 'e', 'm', '5', '0', 'c', 'a', 'c', 'h', 'o', 'r', 'r', 'o', 's', 'e', 'c', 'a', 'd', 'a', 'u', 'm', 't', 'e', 'm', '4', 'p', 'a', 't', 'a', 's']


In [73]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'.'

print(re.findall(pattern, text))

['M', 'e', 'u', ' ', 'v', 'i', 'z', 'i', 'n', 'h', 'o', ',', ' ', 'o', ' ', 'S', 'r', '.', ' ', 'P', 'a', 't', 'a', ',', ' ', 't', 'e', 'm', ' ', '5', '0', ' ', 'c', 'a', 'c', 'h', 'o', 'r', 'r', 'o', 's', ' ', 'e', ' ', 'c', 'a', 'd', 'a', ' ', 'u', 'm', ' ', 't', 'e', 'm', ' ', '4', ' ', 'p', 'a', 't', 'a', 's', '.']


## Quantificadores
1. `*`: 0 ou mais;
2. `?`: 0 ou 1;
3. `+`: Pelo menos 1;

In [81]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'[A-Za-z]*'

re.findall(pattern, text)

['Meu',
 '',
 'vizinho',
 '',
 '',
 'o',
 '',
 'Sr',
 '',
 '',
 'Pata',
 '',
 '',
 'tem',
 '',
 '',
 '',
 '',
 'cachorros',
 '',
 'e',
 '',
 'cada',
 '',
 'um',
 '',
 'tem',
 '',
 '',
 '',
 'patas',
 '',
 '']

In [74]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'[A-z0-9]+'

re.findall(pattern, text)

['Meu',
 'vizinho',
 'o',
 'Sr',
 'Pata',
 'tem',
 '50',
 'cachorros',
 'e',
 'cada',
 'um',
 'tem',
 '4',
 'patas']

In [76]:
text = 'Meu vizinho, o Sr. Pata, tem 5,5 cachorros e cada um tem 4 patas.'
pattern = r'[0-9]+'

re.findall(pattern, text)

['5', '5', '4']

#### Desafio
Como podemos encontrar todos os números, incluindo decimais?