# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 12 - Processamento de Linguagem Natural</font>

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.7.6


## Boas Práticas

## Use Listas, Dicionários e Sets

Listas, conjuntos (sets) e dicionários são estruturas de dados otimizadas para processamento de texto e formam o núcleo de armazenamento e processamento de dados da linguagem Python. Use-as!

### Listas

In [2]:
# Listas são objetos ordenados em Python
animais = ['cavalo', 'cachorro', 'gato', 'zebra']

In [3]:
# Tipo do objeto
type(animais)

list

In [4]:
# Lista de strings
animais

['cavalo', 'cachorro', 'gato', 'zebra']

In [5]:
# Acesso ao elemento pelo índice
animais[2]

'gato'

In [6]:
# Listas podem ter elementos de diferentes tipos
cursos_dsa = ['Matemática', 'Deep Learning', 1678, 9872, True]

In [7]:
# Lista de elementos com diferentes tipos
cursos_dsa

['Matemática', 'Deep Learning', 1678, 9872, True]

In [8]:
cursos_dsa[3]

9872

### Dicionários

In [9]:
# Dicionários são estruturas de dados que armazenam chave e valor
dict1 = {'Nome': 'Bob', 'Idade': 39, 'Curso': 'Formação Cientista de Dados DSA'}

In [10]:
# Tipo do objeto
type(dict1)

dict

In [11]:
# Dicionário
dict1

{'Nome': 'Bob', 'Idade': 39, 'Curso': 'Formação Cientista de Dados DSA'}

In [12]:
# Retorna todos os itens
dict1.items()

dict_items([('Nome', 'Bob'), ('Idade', 39), ('Curso', 'Formação Cientista de Dados DSA')])

In [13]:
# Retorna apenas os valores
dict1.values()

dict_values(['Bob', 39, 'Formação Cientista de Dados DSA'])

### Sets

In [14]:
# Sets são listas não ordenadas que podem ser modificadas
conjunto1 = {1, 2, 3}
print(conjunto1)

{1, 2, 3}


In [15]:
# Tipo do objeto
type(conjunto1)

set

In [16]:
# Podemos usar a função set() para criar um objeto desse tipo. Set armazena apenas valores únicos.
conjunto2 = set([1,2,3,2])
print(conjunto2)

{1, 2, 3}


In [17]:
# Objetos set armazenam dados de qualquer tipo
conjunto3 = {1.0, "Bob", (1, 2, 3)}
print(conjunto3)

{1.0, 'Bob', (1, 2, 3)}


In [18]:
# Podemos converter outros objetos para set

# Set vazio
print(set())

# String
print(set('Python'))

# Tupla
print(set(('a', 'e', 'i', 'o', 'u')))

# Lista
print(set(['a', 'e', 'i', 'o', 'u']))

# Range
print(set(range(5)))

set()
{'t', 'h', 'P', 'y', 'o', 'n'}
{'i', 'e', 'u', 'a', 'o'}
{'i', 'e', 'u', 'a', 'o'}
{0, 1, 2, 3, 4}


In [19]:
# E podemos fazer união ou interseção entre sets
A = set(('a', 'e', 'i', 'o', 'u'))
B = set(['a', 2, 'z', 'o', (9,8)])

print('União:', A.union(B))
print('Interseção:', A.intersection(B))

União: {2, 'z', 'i', (9, 8), 'e', 'u', 'a', 'o'}
Interseção: {'a', 'o'}


## Unicode e Encoding

Fundamentalmente, os computadores lidam com números. Gravam letras e outros caracteres na memória designando um número para cada um deles. Antes de o Unicode ser inventado, havia centenas de sistemas diferentes de codificação . Nenhum destes sistemas de codificação, no entanto, poderia conter caracteres suficientes: por exemplo, a União Européia por si só requer vários sistemas de codificação diferentes para cobrir todas a línguas. Mesmo para uma única língua como o inglês não havia sistema de codificação adequado para todas as letras, pontuação e símbolos técnicos em uso corrente.

Estes sistemas de codificação são também conflitantes entre si. Em outras palavras, dois codificadores podem usar o mesmo número para dois caracteres diferentes ou usar números diferentes para o mesmo caracter. Qualquer computador em particular (especialmente os servidores) precisam suportar muitos codificadores diferentes; ainda assim toda as vezes que se passam dados entre codificadores ou plataformas diferentes, estes dados sempre correm o risco de serem corrompidos.

O Unicode fornece um único número para cada caracter, não importa a plataforma, não importa o programa, não importa a língua. O Padrão Unicode tem sido adotado por líderes do setor de informática tais como a Apple, HP, IBM, Microsoft, Oracle, SAP, Sun, Sybase, Unisys e muitos outros. O Unicode é necessário para padrões modernos tais como o XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML, etc. e é a maneira oficial de implementar o ISO/IEC 10646. É suportado por muitos sistemas operacionais, todos os browsers modernos e muitos outros produtos. O surgimento do Padrão Unicode Standard e a disponibilidade de instrumentos para suportá-lo está entre as tendências recentes mais significativas das tecnológicas mundiais de software.

Textos Unicode podem ser codificados de várias formas diferentes — internamente, .NET e Java usam UTF-16; Python 3 escolhe entre ASCII, UTF-8, UTF-16 e UTF-32 dependendo dos caracteres que estão no texto que você está processando.

Ainda assim, UTF-8 é a codificação mais popular para arquivos texto (como arquivos-fonte Python).

**O Que é Codificação (Encoding) de Caracteres?**

De forma simples, é uma maneira de traduzir caracteres (como letras, pontuação, símbolos, espaços em branco e caracteres de controle) em números inteiros e, finalmente, em bits. Cada caractere pode ser codificado para uma sequência única de bits. 

**E Unicode?**

O Unicode não é uma codificação (encoding) por si mesmo. Em vez disso, o Unicode é implementado por diferentes codificações de caracteres, o Unicode contém praticamente todos os caracteres que você pode imaginar, incluindo também outros não "imprimíveis". 

Unicode é um padrão de codificação abstrato, não uma codificação. É aí que o UTF-8 e outros esquemas de codificação entram em cena. O padrão Unicode (um mapa de caracteres) define várias codificações diferentes de seu conjunto de caracteres único.

UTF-8 e seus primos menos utilizados, UTF-16 e UTF-32, são formatos de codificação para representar caracteres Unicode como dados binários de um ou mais bytes por caractere. 

- O código-fonte do Python 3 é assumido como UTF-8 por padrão. 

- Todo o texto (str) é Unicode por padrão. O texto Unicode codificado é representado como dados binários (bytes). O tipo str pode conter qualquer caractere Unicode literal, como "Δv / Δt", todos os quais serão armazenados como Unicode.

In [20]:
a = 'maça'
print(a)

maça


In [21]:
import sys

In [22]:
sys.getdefaultencoding()

'utf-8'

In [23]:
import locale

In [24]:
locale.getpreferredencoding()  # Em geral no Windows o padrão é 'cp1252'

'UTF-8'

In [25]:
#import os
#os.environ["PYTHONIOENCODING"] = ""

In [26]:
#!env | grep PYTHONIOENCODING

In [27]:
a = 'maça'
print (len(a))

4


In [28]:
print(a)

maça


In [29]:
b = u'maça'
print (len(b))

4


In [30]:
print(b)

maça


In [31]:
a == b

True

In [32]:
type(a)

str

In [33]:
type(b)

str

In [34]:
isinstance(a, str)

True

In [35]:
isinstance(b, str)

True

In [36]:
"Hello there!".encode("ascii")

b'Hello there!'

In [37]:
"Hello there... ☃!".encode("ascii")

UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 15: ordinal not in range(128)

In [38]:
a.decode('ascii')

AttributeError: 'str' object has no attribute 'decode'

In [39]:
b.decode('ascii')

AttributeError: 'str' object has no attribute 'decode'

In [40]:
a = a.encode('ISO-8859-1')

In [41]:
print(a)

b'ma\xe7a'


Descobrir a codificação de texto é tarefa do desenvolvedor, não da linguagem Python! É o seu trabalho!

In [42]:
!pip install -q chardet

In [43]:
# Algumas bibliotecas podem ajudar, mas lembre-se: encontrar a codificação correta é uma ciência heurística!
import chardet

In [44]:
chardet.detect(a)

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}

In [45]:
a.decode('ISO-8859-1')

'maça'

In [46]:
print (a.decode(chardet.detect(a)['encoding']))

maça


In [47]:
nome = 'José'
print(nome)

José


In [48]:
chardet.detect(nome)

TypeError: Expected object of type bytes or bytearray, got: <class 'str'>

In [None]:
nome_enc = nome.encode('ISO-8859-1')

In [None]:
print(nome_enc)

In [None]:
nome_dec = nome_enc.decode('ISO-8859-1')

In [49]:
print(nome_dec)

NameError: name 'nome_dec' is not defined

In [50]:
len(nome_dec.encode("utf-8"))

NameError: name 'nome_dec' is not defined

In [51]:
len(nome_dec.encode("utf-16"))

NameError: name 'nome_dec' is not defined

## List Comprehension

List Comprehensions são muito otimizadas. Use-as para filtrar dados!

**Calcule os quadrados dos números de 1 a 10.**

In [52]:
# Sem list comprehension

# Lista vazia para armazenar os resultados
quadrados_sem_lc = []

# Loop pelo range de números
for i in range(1,11):
    quadrados_sem_lc.append(i * i)

print(quadrados_sem_lc)

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


In [53]:
# Com list comprehension
quadrados_com_lc = [i * i for i in range(1,11)]
print(quadrados_com_lc)

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


**Imprima somente as vogais da frase abaixo usando LC.**

In [54]:
# Frase
frase = 'o meteoro veio em direção à terra'

In [55]:
# List Comprehension
vogais = [i for i in frase if i in 'aeiou']
print(vogais)

['o', 'e', 'e', 'o', 'o', 'e', 'i', 'o', 'e', 'i', 'e', 'o', 'e', 'a']


**Imprima o quadrado de cada número de 1 a 10 e imprima o número.**

In [56]:
# Nesse caso usamos Dict Comprehension
quadrados_dc = {i: i * i for i in range(1,11)}
print(quadrados_dc)

{1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81, 10: 100}


**Transforme a matriz abaixo em um vetor usando List Comprehension.**

In [57]:
# Matriz
matrix = [[0, 0, 0], [1, 1, 1], [2, 2, 2]]
print(matrix)

[[0, 0, 0], [1, 1, 1], [2, 2, 2]]


In [58]:
# Vetor
vector = [num for linha in matrix for num in linha]
print(vector)

[0, 0, 0, 1, 1, 1, 2, 2, 2]


In [59]:
# Cria uma matriz 3x4 com List Comprehensions aninhadas
matrix = [[item for item in range(4)] for item in range(3)]
print(matrix)

[[0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3]]


**Concatene a palavra codigo com cada item da lista abaixo.**

In [60]:
# Lista
cols = ['_A','_B','_C']
palavra = 'codigo'

In [61]:
# Concatenação
codigos = [palavra + x for x in cols]
print(codigos)

['codigo_A', 'codigo_B', 'codigo_C']


## Outras Estruturas de Dados e Pacotes

In [62]:
!pip install -q spacy

In [63]:
import spacy

In [64]:
# https://spacy.io/usage/models
!python -m spacy download pt_core_news_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')


In [65]:
nlp = spacy.load('pt_core_news_sm')

In [66]:
texto = ('Estudando Processamento de Linguagem Natural no Curso de Machine Learning da DSA')

In [67]:
tokens = nlp(texto)

In [68]:
print ([token.text for token in tokens])

['Estudando', 'Processamento', 'de', 'Linguagem', 'Natural', 'no', 'Curso', 'de', 'Machine', 'Learning', 'da', 'DSA']


In [69]:
frases = ('O futebol atrai pessoas de todas as idades' 
          ' Eu visitei a Europa ' 
          ' Prefiro uma bela macarronada ' 
          ' Acho que vou gostar de PLN ')

In [70]:
about_doc = nlp(frases)

In [71]:
sentences = list(about_doc.sents)

In [72]:
len(sentences)

5

In [73]:
for sentence in sentences:
    print (sentence)

O futebol atrai pessoas de todas as idades
Eu visitei a Europa  
Prefiro
uma bela macarronada  
Acho que vou gostar de PLN


In [74]:
for token in about_doc:
    print (token, token.idx)

O 0
futebol 2
atrai 10
pessoas 16
de 24
todas 27
as 33
idades 36
Eu 43
visitei 46
a 54
Europa 56
  63
Prefiro 64
uma 72
bela 76
macarronada 81
  93
Acho 94
que 99
vou 103
gostar 107
de 114
PLN 117


## Expressões Regulares

https://docs.python.org/3/howto/regex.html

https://www.w3schools.com/python/python_regex.asp

In [75]:
import re

Python oferece duas operações primitivas diferentes baseadas em expressões regulares: match verifica uma correspondência apenas no início da sequência de caracteres, enquanto search verifica uma correspondência em qualquer parte da sequência de caracteres. Temos ainda diversas outras funções de busca de padrões.

In [76]:
# Verificamos se a frase começa com expressão alfa-numérica

# "^": Esta expressão corresponde ao início de uma sequência
# "w+": Esta expressão corresponde ao caractere alfanumérico na string

texto1 = "AC56 é o código mais comum na lista de voos."
reg1 = re.findall("^\w+", texto1)
print(reg1)

['AC56']


In [77]:
# Usamos \s para fazer a divisão de uma frase por espaços
print((re.split('\s', texto1)))

['AC56', 'é', 'o', 'código', 'mais', 'comum', 'na', 'lista', 'de', 'voos.']


In [78]:
# Lista de voos internacionais
voos = ["AC56 Londres", "JK56 Paris", "AC921 Filadélfia"]

# Buscamos os códigos dos voos 
for voo in voos:
    
    resultado = re.match("(^\w+)", voo)
    
    if resultado is not None:
        print(resultado.groups())

('AC56',)
('JK56',)
('AC921',)


In [79]:
# Busca de padrões

# Lista de padrões
palavras = ['Inverno', 'Londres', 'Barcelona']

# Texto
texto = "AC56 é o código mais comum na lista de voos de Londres para Paris no Inverno."

# Busca
for palavra in palavras:
    print('\nPesquisando por "%s" no texto ->' % (palavra), end = ' ')
    if re.search(palavra, texto):
        print('Encontrei o padrão no texto!')
else:
    print('Desculpe, não encontrei', palavra, 'no texto.')


Pesquisando por "Inverno" no texto -> Encontrei o padrão no texto!

Pesquisando por "Londres" no texto -> Encontrei o padrão no texto!

Pesquisando por "Barcelona" no texto -> Desculpe, não encontrei Barcelona no texto.


In [80]:
# Busca pelo padrão de e-mail no texto

# Lista de e-mails
lista = 'bob@gmail.com, maria@hotmail.com, zicoyahoomail.com'

# E-mails encontrados
emails = re.findall('[\w\.-]+@[\w\.-]+', lista)

# Retorna os e-mails encontrados
for email in emails:
    print('\nE-mail encontrado na lista: ', email)


E-mail encontrado na lista:  bob@gmail.com

E-mail encontrado na lista:  maria@hotmail.com


### Fim