# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 10 - Processamento de Linguagem Natural</font>

****** Este Jupyter Notebook foi atualizado para a versão 3.6.1. da Linguagem Python em 05/07/2017 ******

## Boas Práticas

## Use Listas, Sets e Dicionários

Listas, conjuntos (sets) e dicionários são muito otimizados para processamento de texto e formam o núcleo da linguagem Python. Use-os!

In [1]:
colors = ['verde', 'amarelo', 'azul', 'verde']

In [2]:
set(colors)

{'amarelo', 'azul', 'verde'}

In [3]:
lista1 = ['matemática', 'química', 1998, 2015]

In [4]:
lista1

['matemática', 'química', 1998, 2015]

In [5]:
dict1 = {'Nome': 'Zara', 'Idade': 28, 'Classe': 'Terceira'}

In [6]:
dict1

{'Classe': 'Terceira', 'Idade': 28, 'Nome': 'Zara'}

## Unicode

Fundamentalmente, os computadores lidam com números. Gravam letras e outros caracteres na memória designando um número para cada um deles. Antes de o Unicode ser inventado, havia centenas de sistemas diferentes de codificação . Nenhum destes sistemas de codificação, no entanto, poderia conter caracteres suficientes: por exemplo, a União Européia por si só requer vários sistemas de codificação diferentes para cobrir todas a línguas. Mesmo para uma única língua como o inglês não havia sistema de codificação adequado para todas as letras, pontuação e símbolos técnicos em uso corrente.

Estes sistemas de codificação são também conflitantes entre si. Em outras palavras, dois codificadores podem usar o mesmo número para dois caracteres diferentes ou usar números diferentes para o mesmo caracter. Qualquer computador em particular (especialmente os servidores) precisam suportar muitos codificadores diferentes; ainda assim toda as vezes que se passam dados entre codificadores ou plataformas diferentes, estes dados sempre correm o risco de serem corrompidos.

O Unicode fornece um único número para cada caracter, não importa a plataforma, não importa o programa, não importa a língua. O Padrão Unicode tem sido adotado por líderes do setor de informática tais como a Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys e muitos outros. O Unicode é necessário para padrões modernos tais como o XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc. e é a maneira oficial de implementar o ISO/IEC 10646. É suportado por muitos sistemas operacionais, todos os browsers modernos e muitos outros produtos. O surgimento do Padrão Unicode Standard e a disponibilidade de instrumentos para suportá-lo está entre as tendências recentes mais significativas das tecnológicas mundiais de software.

In [7]:
a = 'maça'
print (len(a))

4


In [8]:
print(a)

maça


In [9]:
b = u'maça'
print (len(b))

4


In [10]:
print(b)

maça


In [11]:
a == b

True

Descobrir a codificação de texto é tarefa do desenvolvedor, não da linguagem Python! É o seu trabalho!

In [12]:
a = u'maça'.encode('latin1')

In [13]:
print(a)

b'ma\xe7a'


In [14]:
!pip install chardet



In [15]:
# Algumas bibliotecas podem ajudar, mas lembre-se: encontrar a codificação correta é uma ciência heurística!
import chardet
chardet.detect(a)

{'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}

In [16]:
print (a.decode(chardet.detect(a)['encoding']))

maça


## List Comprehension

List Comprehensions são muito otimizadas. Use-as para filtrar dados!

In [17]:
palavras = ['morango', 'kiwi', 'abacaxi', 'pera', 'banana', 'laranja', 'abacaxi', 'abacate']

In [18]:
# Join, sort e set em uma mesma operação
print ('Frutas: ' + ', '.join(sorted(set(palavras))))

Frutas: abacate, abacaxi, banana, kiwi, laranja, morango, pera


In [19]:
# Utilize o operador in, ao invés de um loop (with == ...)
'abacaxi' in palavras

True

In [20]:
# Listas de frequência
freqlist = dict()
for word in palavras:
    freqlist[word] = freqlist.get(word, 0) + 1
print (freqlist)

{'morango': 1, 'kiwi': 1, 'abacaxi': 2, 'pera': 1, 'banana': 1, 'laranja': 1, 'abacate': 1}


In [21]:
# Ordenação por frequência
from operator import itemgetter
', '.join([word for word, freq in sorted(freqlist.items(), key = itemgetter(1), reverse = True)])

'abacaxi, morango, kiwi, pera, banana, laranja, abacate'

In [22]:
# Slicing é fundamental no processamento de texto
text = 'E ele disse: "texto em quotes" e continou...'
text[text.find('"')+1:text.rfind('"')]

'texto em quotes'

## Outras Estruturas de Dados

In [23]:
# Counter
from collections import Counter
Counter(palavras)

Counter({'abacate': 1,
         'abacaxi': 2,
         'banana': 1,
         'kiwi': 1,
         'laranja': 1,
         'morango': 1,
         'pera': 1})

In [24]:
# O pacote blist é uma substituição drop-in para as listas Python que fornece melhor performance quando é necessário 
# modificar grandes listas de dados
!pip install blist

Collecting blist
  Downloading blist-1.3.6.tar.gz (122kB)
[K    100% |████████████████████████████████| 122kB 2.1MB/s ta 0:00:01
[?25hBuilding wheels for collected packages: blist
  Running setup.py bdist_wheel for blist ... [?25ldone
[?25h  Stored in directory: /Users/dmpm/Library/Caches/pip/wheels/f7/44/71/5364f587fda12a46ab7d92594d5a547b271a91b706b3584e88
Successfully built blist
Installing collected packages: blist
Successfully installed blist-1.3.6


In [25]:
from blist import blist
blist(palavras)

blist(['morango', 'kiwi', 'abacaxi', 'pera', 'banana', 'laranja', 'abacaxi', 'abacate'])

In [26]:
# O pacote Marisa-trie pode consumir de 50 a 100x menos memória que um dicionário padrão em Python.
# Esse pacote fornece ainda busca por prefixo
!pip install marisa_trie

Collecting marisa_trie
  Downloading marisa_trie-0.7.4-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl (351kB)
[K    100% |████████████████████████████████| 358kB 1.5MB/s eta 0:00:01
[?25hInstalling collected packages: marisa-trie
Successfully installed marisa-trie-0.7.4


In [27]:
import marisa_trie
trie = marisa_trie.Trie(palavras)
trie.items()

[('abacaxi', 5),
 ('abacate', 6),
 ('banana', 0),
 ('kiwi', 1),
 ('laranja', 2),
 ('morango', 3),
 ('pera', 4)]

In [28]:
'abacate' in trie

True

In [29]:
trie.keys('aba')

['abacaxi', 'abacate']

## Expressões Regulares

https://docs.python.org/3/howto/regex.html

In [30]:
import re

Python oferece duas operações primitivas diferentes baseadas em expressões regulares: match verifica uma correspondência apenas no início da seqüência de caracteres, enquanto search verifica uma correspondência em qualquer parte da seqüência de caracteres.

In [31]:
line = "Cats are smarter than dogs"

matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)

if matchObj:
   print ("matchObj.group() : ", matchObj.group())
   print ("matchObj.group(1) : ", matchObj.group(1))
   print ("matchObj.group(2) : ", matchObj.group(2))
else:
   print ("No match!!")

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter


In [32]:
# re.I - case-insensitive match
# re.M - match no final de uma linha (e não apenas o final da sequência) 
line = "Cats are smarter than dogs";

matchObj = re.match(r'dogs', line, re.M|re.I)

if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

searchObj = re.search( r'dogs', line, re.M|re.I)
if searchObj:
   print ("search --> searchObj.group() : ", searchObj.group())
else:
   print ("Nothing found!!")

No match!!
search --> searchObj.group() :  dogs


In [33]:
# Search e Replace
phone = "2004-959-559 # This is Phone Number"

# Remove os comentários da frase (começando com #)
num = re.sub(r'#.*$', "", phone)
print ("Phone Num : ", num)

# Remove tudo que não for dígito
num = re.sub(r'\D', "", phone)    
print ("Phone Num : ", num)

Phone Num :  2004-959-559 
Phone Num :  2004959559


In [34]:
# Retorna todos os padrões encontrados em uma string
re.findall(r'\d+',u'(16) 3456-4567')

['16', '3456', '4567']

In [35]:
prog = re.search(r'(\d)+',u'(16) 3456-4567')
if prog:
    print (prog.group(0))

16


In [36]:
# Muito utilizado em tokenization
re.findall(r'\w+',u'uma palavra ou outra')

['uma', 'palavra', 'ou', 'outra']

In [37]:
# Utilize a flag unicode
re.findall(r'\w+',u'maça é uma fruta')

['maça', 'é', 'uma', 'fruta']

In [38]:
# Utilize a flag unicode
re.findall(r'\w+',u'maça é uma fruta', flags = re.UNICODE+re.IGNORECASE)

['maça', 'é', 'uma', 'fruta']

### Fim

### Obrigado - Data Science Academy - <a href=http://facebook.com/dsacademy>facebook.com/dsacademybr</a>