### Vamos ver alguns assuntos de NLP como:
1. Expressões regulares
2. Tokenização

#### As expressões regulares são códigos que identificam strings específica em um texto. Por exemplo: somente números, somentes palavras, somente palavras que começam com letra maiúscula, entre outros.

#### Alguns padrões de exemplos para expressões regulares são:
![image.png](attachment:image.png)

### Existem algumas funções em que podemos usar expressões regulares. Essas funções podem separar palavras em uma frase, ou encontrar palavras de um determinado padrão. Algumas funções são:
![image.png](attachment:image.png)

In [1]:
string = "Let's write RegEx!  Won't that be fun?  I sure think so.  Can you find 4 sentences?  Or perhaps, all 19 words?"

### Usando a função re.split() para separar palavras em uma determinado padrão:

In [2]:
import re

In [3]:
# Expressão regular em que encontra ".", "?" e "!" para sinalizar final de frase
sentence_endings = r"[.?!]"
print(re.split(sentence_endings, string))

["Let's write RegEx", "  Won't that be fun", '  I sure think so', '  Can you find 4 sentences', '  Or perhaps, all 19 words', '']


In [4]:
# /s é de espaço em branco, o "+" para encontrar um ou mais espaços em branco
spaces = r"\s+"
print(re.split(spaces, string))

["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?']


### Usando a função re.findall() podemos encontrar palavras com um padrão específico

In [5]:
# [A-Z] para começar com letras maiúsculas e \w+ para o restante da palavra
capitalized_words = r"[A-Z]\w+"
print(re.findall(capitalized_words, string))

['Let', 'RegEx', 'Won', 'Can', 'Or']


In [6]:
# \d+ para um ou mais dígitos
digits = r"\d+"
print(re.findall(digits, string))

['4', '19']


## Tokenização é o processo de separar todas as palavras de um texto ou de palavras específicas. Geralmente é o primeiro passo em uma tarefa de NLP, pois será como faremos as análises de palavras, similaridade e uso de modelos de machine learning 

### Existem algumas funções que fazem a tokenização de um texto. Para separar em frases normalmente se usa a função sent_tokenize() e para tokenizar palavras de uma frase específica usamos word_tokenize(). Também podemos tokenizar usando uma expressão regular usando a função regexp_tokenize(). Todas as funções são da biblioteca nltk.

In [7]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\alber\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [8]:
from nltk.tokenize import word_tokenize, sent_tokenize, regexp_tokenize

In [9]:
string='''
SCENE 1: [wind] [clop clop clop] 
KING ARTHUR: Whoa there!  [clop clop clop] 
SOLDIER #1: Halt!  Who goes there?
ARTHUR: It is I, Arthur, son of Uther Pendragon, from the castle of Camelot.  King of the Britons, defeator of the Saxons, sovereign of all England!
SOLDIER #1: Pull the other one!
'''

In [10]:
sentences = sent_tokenize(string)
sentences

['\nSCENE 1: [wind] [clop clop clop] \nKING ARTHUR: Whoa there!',
 '[clop clop clop] \nSOLDIER #1: Halt!',
 'Who goes there?',
 'ARTHUR: It is I, Arthur, son of Uther Pendragon, from the castle of Camelot.',
 'King of the Britons, defeator of the Saxons, sovereign of all England!',
 'SOLDIER #1: Pull the other one!']

In [11]:
word_tokenize(sentences[-1])

['SOLDIER', '#', '1', ':', 'Pull', 'the', 'other', 'one', '!']

### Algumas formas de fazer uma expressão regular mais complicada é usando o "|", que significa "ou".
### Usamos [ ] para definir caracteres específicas e usamos ( ) para um grupo de caracteres.

In [12]:
# Expressão regular que pega um ou mais dígitos ou uma ou mais letras
match_digits_and_words = ('(\d+|\w+)')
re.findall(match_digits_and_words, 'He has 11 cats.')

['He', 'has', '11', 'cats']

In [13]:
german_text = "Wann gehen wir Pizza essen? 🍕 Und fährst du mit Über? 🚕"

In [14]:
# Tokenize and print all words in german_text
all_words = word_tokenize(german_text)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[A-Z|Ü]\w+"
print(regexp_tokenize(german_text, capital_words))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(regexp_tokenize(german_text, emoji))

['Wann', 'gehen', 'wir', 'Pizza', 'essen', '?', '🍕', 'Und', 'fährst', 'du', 'mit', 'Über', '?', '🚕']
['Wann', 'Pizza', 'Und', 'Über']
['🍕', '🚕']


### Mais algumas opções de expressões regulares:
![image.png](attachment:image.png)

### Existem dois funções úteis quando trabalhamos com texto, que é a re.match() e a re.search(). São muito parecidas, elas tentam encontrar algum padrão e retornam uma parte do texto que segue esse padrão. A diferença é que a re.match só procura se o padrão estiver no começo do texto e a re.search procura em todo o texto. 

In [15]:
re.match('abc', 'abcde')

<re.Match object; span=(0, 3), match='abc'>

In [16]:
re.search('abc', 'abcde')

<re.Match object; span=(0, 3), match='abc'>

In [17]:
re.match('cd', 'abcde')

In [18]:
re.search('cd', 'abcde')

<re.Match object; span=(2, 4), match='cd'>

In [19]:
my_str = 'match lowercase spaces nums like 12, but no commas'
re.match('[a-z0-9 ]+', my_str)

<re.Match object; span=(0, 35), match='match lowercase spaces nums like 12'>

In [20]:
re.search('[a-z0-9 ]+', my_str)

<re.Match object; span=(0, 35), match='match lowercase spaces nums like 12'>