# Capítulo 2

### Strings e textos

##### 2.2 - Fazer correspondência de texto no inicio ou fim de uma string

In [1]:
# Maneira simples de verificar o inicio ou o fim de uma string]
# str.startswith() str.endswith()

file = 'spam.txt'
url = 'http://www.python.org.br'
print(file.startswith('s'))
print(file.endswith('.txt'))

print(url.startswith('http'))
print(url.endswith('.org.br'))
print(url.endswith('.ca'))

True
True
True
True
False


In [2]:
import os 
filenames = os.listdir('.')

print(filenames)

['__init__.py', 'somefile.txt', 'somefile.txt~', 'test.py', '.ipynb_checkpoints', 'capitulo1-estruturas_ de_dados_e_algoritmos.ipynb', 'capitulo2-string_e_texto.ipynb']


In [3]:
names = [name for name in filenames if name.endswith('txt')]
print(names)

['somefile.txt']


###### Busca por vários tipos de arquivos

In [4]:
print(any(name.endswith('ipynb') for name in filenames))

True


In [5]:
from urllib.request import urlopen

def read_data(name):
    if name.startswith(('http', 'https', 'ftp')):
        return urlopen(name).read()
    else:
        with open(name) as f:
            return f.read()

In [6]:
choices = ['http', 'ftp']
url = 'http://www.python.org'
print(url.startswith(choices))

TypeError: startswith first arg must be str or a tuple of str, not list

In [7]:
choices = ['http', 'ftp']
url = 'http://www.python.org'
print(url.startswith(tuple(choices)))

True


Também podemos pesquisar por meio de "FATIAS" EX.: file[-4:], porem é menos elegante


##### 2.3 Fazer corrspondências de strings utilizando padrões de curinga do shell

* *.py, Dat[0-9]*.csv 

$$e^x=\sum_{i=0}^\infty \frac{1}{i!}x^i$$

Não é nada, só por que eu posso!

In [8]:
# O modulo fnmtach disponibiliza recusos para esse uso

from fnmatch import fnmatch, fnmatchcase

In [9]:
print(fnmatch('foo.txt', '*.txt'))
print(fnmatch('foo.txt', '?00.txt'))
print(fnmatch('foo.txt', '?oo.txt'))


True
False
True


In [10]:
names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']

pprint([name for name in names if fnmatch(name, 'Dat*.csv')])

NameError: name 'pprint' is not defined

<font color=red>Fnmatch NÃO é case sensitive. Caso for necessário o uso de case sensitive, utilize fnmatchcase    
    
</font>


*** 




In [11]:
print(fnmatchcase('foo.txt', '*.TXT'))

False


In [12]:
addresses = [
    '5412 N CLARK ST',
    '1060 W ADDISON ST',
    '1039 W GRANVILLE AVE',
    '2122 N CLARK ST',
    '4802 N BROADWAY'
]

In [13]:
from fnmatch import fnmatchcase
print([addr for addr in addresses if fnmatchcase(addr, '* ST' )])

['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST']


##### 2.4 Matching e pesquisa de padrões de texto

In [14]:
text = 'yeah, but no, but yeah, but no, but yeah'

# Match exato
print(text == 'yeah')

# Correspondência no início ou no final
print(text.startswith('yeah'))
print(text.endswith('no'))

# Procurar pela localização da primeira ocorrência
text.find('no')



False
True
False


10

In [15]:
text1 = '11/27/2012'
text2 = 'Nov 27, 2012'

import re

# Correspondência simples: \d+ significa corresponder a um ou mais dígitos

if re.match(r'\d+/\d+/\d+', text1):
    print('yes')
else:
    print('no')
    
if re.match(r'\d+/\d+/\d+', text2):
    print('yes')
else:
    print('no')

    

yes
no


- Pré-compilar o padrão para reutiliza-lo 
***

In [16]:
datepat = re.compile(r'\d+/\d+/\d+')

In [17]:
if datepat.match(text1):
    print('É nós !!!')
else:
    print('Não deu !!!')

É nós !!!


In [18]:
if datepat.match(text2):
    print('É nós !!!')
else:
    print('Não deu !!!')

Não deu !!!


- Pesquisando em toda a ocorrência de um padrão
***

In [19]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
datepat.findall(text)

['11/27/2012', '3/13/2013']

In [20]:
# criando grupo de padão
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')

In [21]:
m = datepat.match('11/27/2012')
print(m)


<_sre.SRE_Match object; span=(0, 10), match='11/27/2012'>


In [22]:
print('m.group(0) ==>', m.group(0))
print('m.group(1) ==>', m.group(1))
print('m.group(2) ==>', m.group(2))
print('m.group(3) ==>', m.group(3))
print('m.groups() ==>', m.groups())

m.group(0) ==> 11/27/2012
m.group(1) ==> 11
m.group(2) ==> 27
m.group(3) ==> 2012
m.groups() ==> ('11', '27', '2012')


In [23]:
# Olha a Tupla ae gente...
month, day, year = m.groups() # lindo isso...

print(month, 'month')
print(year, 'year')
print(day, 'day')


11 month
2012 year
27 day


In [24]:
print(datepat.findall(text))

[('11', '27', '2012'), ('3', '13', '2013')]


In [25]:
for month, day, year in datepat.findall(text):
    print('{}-{}-{}'.format(day, month, year))

27-11-2012
13-3-2013


In [26]:
# findall sempre retorna uma lista. Para encontrar um match iteravelemente, usamos o finditer
for m in datepat.findall(text):
    print(m)

('11', '27', '2012')
('3', '13', '2013')


In [27]:
for i in datepat.finditer(text):
    print(i.groups())
    print(i.group(2), i.group(1), i.group(3))  

('11', '27', '2012')
27 11 2012
('3', '13', '2013')
13 3 2013


***
- O método match() verifica somente inicio da string podendo trazer informoções indesejadas. Para um matching mas apurado, inclua o marcador '$' no final da expressão.
***


In [28]:
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')

In [29]:
datepat.match('11/27/2012abcdef')

<_sre.SRE_Match object; span=(0, 10), match='11/27/2012'>

In [30]:
datepat = re.compile(r'(\d+)/(\d+)/(\d+)$')

In [31]:
print(datepat.match('11/27/2012abcdef'))

None


In [32]:
datepat.match('11/27/2012')

<_sre.SRE_Match object; span=(0, 10), match='11/27/2012'>

In [33]:
print(re.findall(r'(\d+)/(\d+)/(\d+)', text))

[('11', '27', '2012'), ('3', '13', '2013')]


***
##### 2.5 Pesquisar e substituir textos
***


In [34]:
text = 'yeah, but no, but yeah, but no, but yeah'

print(text.replace('yeah', 'yep'))

# Lembrando que Strings são imutaveis. O replace acima devolve uma nova String
print(text)


yep, but no, but yep, but no, but yep
yeah, but no, but yeah, but no, but yeah


In [35]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'

import re
print(re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text))
print(re.sub(r'(\d+)/(\d+)/(\d+)', r'\2-\1-\3', text))# versão BR



Today is 2012-11-27. PyCon starts 2013-3-13.
Today is 27-11-2012. PyCon starts 13-3-2013.


In [36]:
# Também podemos usar a pre-compilação

datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
datepat.sub(r'\3-\1-\2', text)


'Today is 2012-11-27. PyCon starts 2013-3-13.'

In [37]:
# Para substituição mais complicadas
from calendar import month_abbr

In [38]:
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2), mon_name, m.group(3))

In [39]:
datepat.sub(change_date, text)

'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'

##### 2.6. Pesquisar e substituir textos sem diferenciar letras minúsculas de maiúsculas

In [40]:
text = 'UPPER PYTHON, lower python, Mixed Python'

In [41]:
print(re.findall('python', text, flags=re.IGNORECASE))
print(re.sub('python', 'snake', text, flags=re.IGNORECASE))

['PYTHON', 'python', 'Python']
UPPER snake, lower snake, Mixed snake


In [42]:
# Não é isso que queremos né ?!?!? Queremos que retorne um string que respeite a case original
def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace

In [43]:
re.sub('python', matchcase('snake'),text, flags=re.IGNORECASE)

'UPPER SNAKE, lower snake, Mixed Snake'

##### 2.7. Especificar uma expressão regular para obter a correspondência mais curta possível

In [44]:
str_pat = re.compile(r'\"(.*)\"')
text1 = 'Computer says "no."'
str_pat.findall(text1)

['no.']

In [45]:
text2 = 'Computer says "no." Phone says "yes."'
str_pat.findall(text2)

['no." Phone says "yes.']

In [46]:
# Usamos o modificador '?'
str_pat = re.compile(r'\"(.*?)\"')
str_pat.findall(text2)

['no.', 'yes.']

##### 2.9. Normalizando texto Unicode para gerar uma representação padrão


In [47]:
s1 = 'Spicy Jalape\u00f1o'
s2 = 'Spicy Jalapen\u0303o'
print(s1)
print(s2)

Spicy Jalapeño
Spicy Jalapeño


In [48]:
s1 == s2

False

In [49]:
print(len(s1))
print(len(s2))

14
15


In [50]:
# Normalizando o texto
import unicodedata

t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)

print(t1 == t2)
print(ascii(t1))

True
'Spicy Jalape\xf1o'


In [51]:
t3 = unicodedata.normalize('NFD', s1)# padrão diferente
t4 = unicodedata.normalize('NFD', s2)

print(t3 == t4)
print(ascii(t3))

True
'Spicy Jalapen\u0303o'


##### 2.11. Remover caracteres indesejados de strings

In [52]:
# strip() para remove carateres no inicio ou/e no fim de uma string

# Remoção de espaços em branco
s = '        hello world     \n'
print(s.strip())
print(s.lstrip())
print(s.rstrip())

hello world
hello world     

        hello world


In [53]:
# Remoção de caracteres
t = '---------hello============'
print(t.lstrip('-'))
print(t.strip('-='))

hello


In [54]:
# A remoção não se aplica a nenhum texto que esteja no meio de uma string

s = '    hello         world      \n'
print(s.strip())


hello         world


In [55]:
# Para resolver utilizamos o replace

print(s.replace(' ', ''))
import re 
print(re.sub('\s+', ' ', s))

helloworld

 hello world 


##### 2.12. Sanitizar e limpar textos

In [56]:
s = 'pýtĥöñ\fis\tawesome\r\n'
print(s)

pýtĥöñis	awesome



In [57]:
remap = {
    ord('\t') : ' ',
    ord('\f') : ' ',
    ord('\r') : None,    
}

a = s. translate(remap)

print(a)

pýtĥöñ is awesome



In [58]:
# Remove os caracteres de  combinação
import unicodedata
import sys

cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) 
                         if unicodedata.combining(chr(c)))

b = unicodedata.normalize('NFD', a)
print(b)

print(b.translate(cmb_chrs))


pýtĥöñ is awesome

python is awesome



In [80]:
digitmap = {c: ord('0') + unicodedata.digit(chr(c))
           for c in range(sys.maxunicode)
           if unicodedata.category(chr(c)) == 'Nd'}

len(digitmap)

580

In [81]:
x = '\u0661\u0662\u0663'

x.translate(digitmap)

'123'

In [106]:
a = 'pýtĥöñção is awesome\n'

b = unicodedata.normalize('NFD', a)
print('ANTES DO ENCODE/DECODE ==>', b)
c = b.encode('ascii', 'ignore').decode('ascii')
print(c)


ANTES DO ENCODE/DECODE ==> pýtĥöñção is awesome

pythoncao is awesome



###### 2.13. Alinhando srings de texto

In [3]:
text = "Hello World"
text.ljust(20)

'Hello World         '

In [4]:
text.rjust(20)

'         Hello World'

In [5]:
text.center(20)

'    Hello World     '

In [7]:
# Todos esses métodos  aceitam um caracter opcional para preencher

text.center(20, '#')

'####Hello World#####'

In [8]:
text.ljust(20, '*')

'Hello World*********'

In [9]:
# Usando a função format() <,>, ^
format(text, '*>20')



'*********Hello World'

In [13]:
format(text, '#^20')

'####Hello World#####'

In [18]:
# format() é somente para string

x = 1.2345
print(format(x, '%>10'))

%%%%1.2345


In [21]:
format(x, '^10.3f')

'  1.234   '

###### 2.14. Combinar e concatenar strings

In [23]:
parts = ['Is', 'Chicago', 'Not', 'Chicago?']

print(' '.join(parts))

Is Chicago Not Chicago?


In [24]:
print(', '.join(parts))

Is, Chicago, Not, Chicago?


In [25]:
data = ['ACME', 4,91, 55]

', '.join(str(d) for d in data)

'ACME, 4, 91, 55'

##### 2.15. Interpolar variáveis em strings

In [29]:
s = '{name} has {n} messages'
s

'{name} has {n} messages'

In [30]:
s.format(name='Guido', n=47)

'Guido has 47 messages'

In [31]:
# Ainda tem mais coisas nesse capitulo, tal como Tolken, mas achei um especifico. Vamos deixa pra um outro momento.