# Capítulo 02 - Strings and Text
Página 37

## 2.2 Splitting Strings on Any Multiple Delimiters

### Problem

Precisamos dividir uma string em campos, mas os delimitadores (e o espaçamento ao redor deles) não são consistentes em toda a string.

### Solution

O método <i>split()</i> é feito para casos simples e não suporta múltiplos delimitadores ou considera possíveis espaços em branco ao redor dos delimitadores. Para o caso que precisamos de mais flexibilidade, usamos o método <i>re.split()</i>:

In [1]:
line = 'asdf fjdk; afed, fjek,asdf, foo'

In [3]:
# verificando o resultado ao usar o split()
line.split(sep=' ')

['asdf', 'fjdk;', 'afed,', 'fjek,asdf,', 'foo']

In [8]:
# utilizando o re.split()
import re

re.split(pattern=r'[;,\s]\s*', string=line) 

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

Com o re.split(), podemos especificar múltiplos padrões no separador. No exemplo acima, os separadores são a vírgula, o ponto e vírgula ou espaços em branco. 

- \s* orresponde a zero ou mais espaços em branco que podem seguir os caracteres delimitadores

- \s significa qualquer espaço em branco, incluindo espaço, tabulação e nova linha

- O prefixo r antes da string (como em r'[;,\s]\s*') indica que ela é uma string raw (bruta), ou seja, uma raw string literal em Python. Em uma raw string, barras invertidas (\) são tratadas literalmente e não são interpretadas como caracteres de escape. Sem o r, o Python trataria \s como uma sequência de escape (se houvesse alguma válida), o que poderia causar problemas em expressões regulares.

Se os parênteses forem utilizados, então os caracteres que deram match também serão incluídos:

In [10]:
fields = re.split(pattern=r'(;|,|\s)s*', string=line)
fields

['asdf',
 ' ',
 'fjdk',
 ';',
 '',
 ' ',
 'afed',
 ',',
 '',
 ' ',
 'fjek',
 ',',
 'asdf',
 ',',
 '',
 ' ',
 'foo']

Extrair os caracteres que deram match pode ser útil em algumas situações. Por exemplo, talvez você precise dos caracteres divididos mais tarde para reformatar uma string de saída:

In [11]:
values = fields[::2]
values

['asdf', 'fjdk', '', 'afed', '', 'fjek', 'asdf', '', 'foo']

In [13]:
delimiters = fields[1::2] + ['']
delimiters

[' ', ';', ' ', ',', ' ', ',', ',', ' ', '']

In [18]:
# Verificando como o zip funciona
print(list(zip(values, delimiters)))

[('asdf', ' '), ('fjdk', ';'), ('', ' '), ('afed', ','), ('', ' '), ('fjek', ','), ('asdf', ','), ('', ' '), ('foo', '')]


In [24]:
# Reformulando a string usando os mesmos delimitadores
''.join(v + d for v, d in zip(values, delimiters))

'asdf fjdk; afed, fjek,asdf, foo'