# Capítulo 02 - Strings and Text
Página 37

## 2.1 Splitting Strings on Any Multiple Delimiters

### Problem

Precisamos dividir uma string em campos, mas os delimitadores (e o espaçamento ao redor deles) não são consistentes em toda a string.

### Solution

O método <i>split()</i> é feito para casos simples e não suporta múltiplos delimitadores ou considera possíveis espaços em branco ao redor dos delimitadores. Para o caso que precisamos de mais flexibilidade, usamos o método <i>re.split()</i>:

In [2]:
line = 'asdf fjdk; afed, fjek,asdf, foo'

In [4]:
# verificando o resultado ao usar o split()
line.split(sep=' ')

['asdf', 'fjdk;', 'afed,', 'fjek,asdf,', 'foo']

In [5]:
# utilizando o re.split()
import re

re.split(pattern=r'[;,\s]\s*', string=line) 

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

Com o re.split(), podemos especificar múltiplos padrões no separador. No exemplo acima, os separadores são a vírgula, o ponto e vírgula ou espaços em branco. 

- \s* corresponde a zero ou mais espaços em branco que podem seguir os caracteres delimitadores

- \s significa qualquer espaço em branco, incluindo espaço, tabulação e nova linha

- O prefixo r antes da string (como em r'[;,\s]\s*') indica que ela é uma string raw (bruta), ou seja, uma raw string literal em Python. Em uma raw string, barras invertidas (\) são tratadas literalmente e não são interpretadas como caracteres de escape. Sem o r, o Python trataria \s como uma sequência de escape (se houvesse alguma válida), o que poderia causar problemas em expressões regulares.

Se os parênteses forem utilizados, então os caracteres que deram match também serão incluídos:

In [6]:
fields = re.split(pattern=r'(;|,|\s)s*', string=line)
fields

['asdf',
 ' ',
 'fjdk',
 ';',
 '',
 ' ',
 'afed',
 ',',
 '',
 ' ',
 'fjek',
 ',',
 'asdf',
 ',',
 '',
 ' ',
 'foo']

Extrair os caracteres que deram match pode ser útil em algumas situações. Por exemplo, talvez você precise dos caracteres divididos mais tarde para reformatar uma string de saída:

In [7]:
values = fields[::2]
values

['asdf', 'fjdk', '', 'afed', '', 'fjek', 'asdf', '', 'foo']

In [8]:
delimiters = fields[1::2] + ['']
delimiters

[' ', ';', ' ', ',', ' ', ',', ',', ' ', '']

In [9]:
# Verificando como o zip funciona
print(list(zip(values, delimiters)))

[('asdf', ' '), ('fjdk', ';'), ('', ' '), ('afed', ','), ('', ' '), ('fjek', ','), ('asdf', ','), ('', ' '), ('foo', '')]


In [10]:
# Reformulando a string usando os mesmos delimitadores
''.join(v + d for v, d in zip(values, delimiters))

'asdf fjdk; afed, fjek,asdf, foo'

## 2.2 Matching Text at The Start or End of a String

Página 38

### Problem

Precisamos verificar o início ou fim de uma string para especificar padrões de texto, como extensão de arquivos, esquemas de URL e assim por diante. Para isso, podemos usar dois métodos de string:

* str.startswith()

* str.endswith()

In [12]:
filename = 'spam.txt'

filename.endswith('.txt')

True

In [14]:
filename.startswith('file:')

False

In [16]:
url = 'http://www.python.org'

url.startswith('http:')

True

In [18]:
import os

filenames = os.listdir()
filenames

['exercicio-ciencia-de-dados.ipynb',
 'exercicios-strings-02.ipynb',
 'exercicios-video-hashtag-treinamentos.ipynb',
 'join.ipynb',
 'python-cook-book.ipynb',
 'Texto.txt',
 'video-hashtag-treinamento.ipynb']

In [21]:
# retorna todos os arquivos que terminam com a extensão .txt
[name for name in filenames if name.endswith('.txt')]

['Texto.txt']

In [22]:
# retorna todos os arquivos que terminam com a extensão .ipynb
[name for name in filenames if name.endswith('.ipynb')]

['exercicio-ciencia-de-dados.ipynb',
 'exercicios-strings-02.ipynb',
 'exercicios-video-hashtag-treinamentos.ipynb',
 'join.ipynb',
 'python-cook-book.ipynb',
 'video-hashtag-treinamento.ipynb']

In [26]:
from urllib.request import urlopen

def read_data(name):
    if name.startswith(('http:', 'https:', 'ftp:')):
        return urlopen(name).read()
    else:
        with open(name) as f:
            return f.read()

In [29]:
read_data('https://translate.google.com.br/?sl=en&tl=pt&text=hi&op=translate')

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

O argumento do método startswith() deve ser uma string ou tupla de string:

In [None]:
# sem transformar para tuple
choices = ['http:', 'ftp:']
url = 'http://www.python.org'

url.startswith(choices)

TypeError: startswith first arg must be str or a tuple of str, not list

In [34]:
# transformando para tupla
choices = ['http:', 'ftp:']
url = 'http://www.python.org'

url.startswith(tuple(choices))

True

## 2.3 Matching Strings Using Shell Wildcard Patterns

Problem

Queremos dar match em textos usando os mesmos padrões que são comunmente utilizados ao se trabalhar com Unix shells (*.py, Dat[0-9]*.csv, etc.). Podemos usar dois módulos:

* fnmatch()

* fnmatchcase()

In [1]:
from fnmatch import fnmatch, fnmatchcase

In [2]:
fnmatch('foo.txt', '*.txt')

True

In [6]:
fnmatch('foo.txt', '?oo.txt')

True

In [12]:
fnmatch('Dat45.csv', 'Dat[0-9]*')

True

In [None]:
names = []