<a href="https://colab.research.google.com/github/lima-breno/natural_language_processing/blob/main/tratamento_basico_solucao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tratamento básico de string

**Objetivo**: realizar operações básicas com objetos do tipo string

Referência: Capitulo 3 do livro *Natural Language Processing with Python*

## Declaração de variável tipo string

In [None]:
texto = "exemplo de texto"
texto

'exemplo de texto'

In [None]:
texto = 'exemplo de texto'
texto

'exemplo de texto'

In [None]:
type(texto)

str

In [None]:
texto = 'this isn\'t flying, this is falling with style'
texto

"this isn't flying, this is falling with style"

In [None]:
texto = 'this isn't flying, this is falling with style'
texto

SyntaxError: unterminated string literal (detected at line 1) (<ipython-input-5-af26c8c3c596>, line 1)

In [None]:
texto = "Exemplo de texto quebrado "\
        "em duas linhas"
texto

'Exemplo de texto quebrado em duas linhas'

In [None]:
texto = """Exemplo de texto quebrado
em duas linhas"""
print(texto)

Exemplo de texto quebrado
em duas linhas


## Operações com string

In [None]:
texto = 'Exemplo de texto'
texto + texto

'Exemplo de textoExemplo de texto'

In [None]:
texto * 3

'Exemplo de textoExemplo de textoExemplo de texto'

In [None]:
texto[0]

'E'

In [None]:
texto[-1]

'o'

In [None]:
texto[2:8]

'emplo '

In [None]:
texto.find('e')

2

In [None]:
texto.rfind('e')

12

In [None]:
texto.split()

['Exemplo', 'de', 'texto']

In [None]:
texto.split(' ')

['Exemplo', 'de', 'texto']

In [None]:
texto = "Exemplo de    texto"
print(texto.split(' '))
' '.join(texto.split())

['Exemplo', 'de', '', '', '', 'texto']


'Exemplo de texto'

In [None]:
texto.lower()

'exemplo de    texto'

In [None]:
texto.upper()

'EXEMPLO DE    TEXTO'

In [None]:
texto = 'exemplo de texto'
texto.title()

'Exemplo De Texto'

In [None]:
texto = 'exemplo de texto '
texto.strip()

'exemplo de texto'

In [None]:
texto.replace('exemplo', 'exemplo de')

'exemplo de de texto '

In [None]:
texto.startswith('exemplo')

True

In [None]:
texto.endswith('exemplo')

False

In [None]:
' '.join(['exemplo', 'de', 'texto'])

'exemplo de texto'

In [None]:
texto = 'exemplo de texto com format: {}'
string_esp = 'Gabriel'
texto.format(string_esp)

'exemplo de texto com format: Gabriel'

In [None]:
texto_especifico = 'exemplo'
texto = f'exemplo de texto com format: {texto_especifico}'
texto

'exemplo de texto com format: exemplo'

## Expressão regular

**O que são Expressões Regulares?**

Expressões regulares (regex) são sequências de caracteres que formam um padrão de pesquisa. Elas são usadas para correspondência de padrões em strings, permitindo encontrar, substituir ou manipular substrings de maneira eficiente.

**Como Usar Expressões Regulares?**

Em Python, o módulo `re` fornece funções para trabalhar com expressões regulares. Aqui estão algumas das funções mais comuns:

* `re.search()`: Pesquisa um padrão dentro de uma string.
* `re.match()`: Verifica se o padrão corresponde ao início da string.
* `re.findall()`: Encontra todas as ocorrências do padrão na string.
* `re.sub()`: Substitui todas as ocorrências do padrão por uma nova string.

In [None]:
import re
import nltk

In [None]:
nltk.download('words')

[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [None]:
wordlist = []
for w in nltk.corpus.words.words('en'):
  if w.islower():
    wordlist.append(w)

In [None]:
wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()]
wordlist[:10]

['a',
 'aa',
 'aal',
 'aalii',
 'aam',
 'aardvark',
 'aardwolf',
 'aba',
 'abac',
 'abaca']

In [None]:
[w for w in wordlist if re.search('ed$', w)]

['abaissed',
 'abandoned',
 'abased',
 'abashed',
 'abatised',
 'abed',
 'aborted',
 'abridged',
 'abscessed',
 'absconded',
 'absorbed',
 'abstracted',
 'abstricted',
 'accelerated',
 'accepted',
 'accidented',
 'accoladed',
 'accolated',
 'accomplished',
 'accosted',
 'accredited',
 'accursed',
 'accused',
 'accustomed',
 'acetated',
 'acheweed',
 'aciculated',
 'aciliated',
 'acknowledged',
 'acorned',
 'acquainted',
 'acquired',
 'acquisited',
 'acred',
 'aculeated',
 'addebted',
 'added',
 'addicted',
 'addlebrained',
 'addleheaded',
 'addlepated',
 'addorsed',
 'adempted',
 'adfected',
 'adjoined',
 'admired',
 'admitted',
 'adnexed',
 'adopted',
 'adossed',
 'adreamed',
 'adscripted',
 'aduncated',
 'advanced',
 'advised',
 'aeried',
 'aethered',
 'afeared',
 'affected',
 'affectioned',
 'affined',
 'afflicted',
 'affricated',
 'affrighted',
 'affronted',
 'aforenamed',
 'afterfeed',
 'aftershafted',
 'afterthoughted',
 'afterwitted',
 'agazed',
 'aged',
 'agglomerated',
 'aggri

No exemplo acima, a lista wordlist contém várias palavras. A expressão regular `ed$` é usada para encontrar todas as palavras que terminam com "ed". A função re.search pesquisa o padrão em cada palavra da lista, e a compreensão de lista retorna uma nova lista contendo apenas as palavras que correspondem ao padrão.

* `ed$`: Esta expressão regular corresponde a qualquer string que termine com "ed".
    * `ed`: Literalmente corresponde aos caracteres "ed".
    * `$`: Indica o final da string.

In [None]:
[w for w in wordlist if re.search('^..j..t..$', w)]

['abjectly',
 'adjuster',
 'dejected',
 'dejectly',
 'injector',
 'majestic',
 'objectee',
 'objector',
 'rejecter',
 'rejector',
 'unjilted',
 'unjolted',
 'unjustly']

No exemplo acima, a lista wordlist contém várias palavras. A expressão regular `^..j..t..$` é usada para encontrar todas as palavras que têm exatamente 8 caracteres, onde o terceiro caractere é 'j' e o sexto caractere é 't'.

* `^..j..t..$`: Esta expressão regular corresponde a qualquer string que tenha exatamente 8 caracteres, onde o terceiro caractere é 'j' e o sexto caractere é 't'.
    * `^`: Indica o início da string.
    * `..`: Corresponde a qualquer dois caracteres.
    * `j`: Corresponde ao caractere 'j'.
    * `..`: Corresponde a qualquer dois caracteres.
    * `t`: Corresponde ao caractere 't'.
    * `..`: Corresponde a qualquer dois caracteres.
    * `$`: Indica o final da string.

| Operador | Comportamento|
| ----- | ----|
| `.`| Corresponde a qualquer caractere|
| `^abc` |Corresponde ao padrão abc no início de uma string|
| `abc$	`|Corresponde ao padrão abc no final de uma string|
| `[abc]`	| Corresponde a um dos caracteres do conjunto|
| `[A-Z0-9]`|	Corresponde a um dos caracteres do intervalo|
|`ed\|ing\|s`|	Corresponde a uma das strings especificadas (disjunção)|
| `*`	|Zero ou mais do item anterior, por exemplo, a*, [a-z]* (também conhecido como Fecho de Kleene)|
|`+`	|Um ou mais do item anterior, por exemplo, a+, [a-z]+|
|`?`	|Zero ou um do item anterior (ou seja, opcional), por exemplo, a?, [a-z]?|
|`{n}`	| Exatamente n repetições, onde n é um inteiro não negativo|
| `{n,}` |Pelo menos n repetições|
| `{,n}` |No máximo n repetições|
| `{m,n}` |Pelo menos m e no máximo n repetições|
|`a(b\|c)+` |Parênteses que indicam o escopo dos operadores|

**Regex que Começam com \ e Suas Funções**
1. `\d`:

Descrição: Corresponde a qualquer dígito (0-9).

Exemplo: `\d` corresponde a "1" em "123".

2. `\D`:

Descrição: Corresponde a qualquer caractere que não seja um dígito.

Exemplo: `\D` corresponde a "a" em "a1b2".

3. `\w`:

Descrição: Corresponde a qualquer caractere alfanumérico (letras e números) e sublinhado (_).

Exemplo: `\w` corresponde a "a" em "abc_123".

4. `\W`:

Descrição: Corresponde a qualquer caractere que não seja alfanumérico.

Exemplo: `\W` corresponde a "!" em "abc!123".

5. `\s`:

Descrição: Corresponde a qualquer caractere de espaço em branco (espaço, tabulação, nova linha).

Exemplo: \s corresponde ao espaço em "a b".

6. `\S`:

Descrição: Corresponde a qualquer caractere que não seja um espaço em branco.

Exemplo: `\S` corresponde a "a" em "a b".

7. `\b`:

Descrição: Corresponde a uma borda de palavra (início ou fim de uma palavra).

Exemplo: `\bword\b` corresponde a "word" em "word boundary".

8. \t:

Descrição: Corresponde a um caractere de tabulação.

Exemplo: `\t` corresponde à tabulação em "a\tb".

9. `\n`:

Descrição: Corresponde a um caractere de nova linha.

Exemplo: `\n` corresponde à nova linha em "a\nb".

In [None]:
nltk.download('nps_chat')

[nltk_data] Downloading package nps_chat to /root/nltk_data...
[nltk_data]   Unzipping corpora/nps_chat.zip.


True

In [None]:
chat_words = sorted(set(w for w in nltk.corpus.nps_chat.words()))

In [None]:
[w for w in chat_words if re.search('^m+i+n+e+$', w)]

['miiiiiiiiiiiiinnnnnnnnnnneeeeeeeeee',
 'miiiiiinnnnnnnnnneeeeeeee',
 'mine',
 'mmmmmmmmiiiiiiiiinnnnnnnnneeeeeeee']

In [None]:
[w for w in chat_words if re.search('^[ha]+$', w)]

['a',
 'aaaaaaaaaaaaaaaaa',
 'aaahhhh',
 'ah',
 'ahah',
 'ahahah',
 'ahh',
 'ahhahahaha',
 'ahhh',
 'ahhhh',
 'ahhhhhh',
 'ahhhhhhhhhhhhhh',
 'h',
 'ha',
 'haaa',
 'hah',
 'haha',
 'hahaaa',
 'hahah',
 'hahaha',
 'hahahaa',
 'hahahah',
 'hahahaha',
 'hahahahaaa',
 'hahahahahaha',
 'hahahahahahaha',
 'hahahahahahahahahahahahahahahaha',
 'hahahhahah',
 'hahhahahaha']

In [None]:
word = 'Supercalifragilisticexpialidocious'
re.findall(r'[aeiou]', word)

['u',
 'e',
 'a',
 'i',
 'a',
 'i',
 'i',
 'i',
 'e',
 'i',
 'a',
 'i',
 'o',
 'i',
 'o',
 'u']

### Exercicios

1. Identificando palavras simples: Crie uma expressão regular que encontre todas as palavras "cachorro" em um texto.

Exemplo de texto: "Meu cachorro gosta de brincar com outros cachorros no parque."

2. Encontrando números: Escreva uma regex para identificar todos os números em um texto.

Exemplo de texto: "Ela tem 3 gatos, 2 cachorros e 1 peixe."

3. Localizando e-mails simples: Crie uma regex para identificar endereços de e-mail que contenham letras e números, mas sem caracteres especiais.

Exemplo de texto: "Contate-me em exemplo123@email.com ou exemplo@email.com."

In [None]:
texto = "Meu cachorro gosta de brincar com outros Cachorros no parque acachorro."
resultado = re.findall(r'cachorro', texto, re.IGNORECASE)
print(resultado)

['cachorro', 'Cachorro', 'cachorro']


In [None]:
texto = "Meu cachorro gosta de brincar com outros Cachorros no parque acachorro."
resultado = re.findall(r'\bcachorro', texto, re.IGNORECASE)
print(resultado)

['cachorro', 'Cachorro']


In [None]:
texto = "Meu cachorro gosta de brincar com outros Cachorros no parque acachorro."
resultado = re.findall(r'\bcachorro\b', texto, re.IGNORECASE)
print(resultado)

['cachorro']


In [None]:
texto = "Meu cachorro gosta de brincar com outros Cachorros no parque acachorro."
resultado = re.findall(r'\b[Cc]achorro', texto)
print(resultado)

['cachorro', 'Cachorro']


In [None]:
texto = "Ela tem 3 gatos, 2 cachorros e 1 peixe."
resultado = re.findall(r'\d+', texto)
print(resultado)  # Saída: ['3', '2', '1']

['3', '2', '1']


In [None]:
texto = "Contate-me em exemplo123@email.com ou exemplo@email.com."
resultado = re.findall(r'\b\w+@\w+\.\w+\b', texto)
print(resultado)  # Saída: ['exemplo123@email.com', 'exemplo@email.com']

['exemplo123@email.com', 'exemplo@email.com']


4. Buscando palavras específicas: Crie uma regex que encontre todas as palavras que comecem com a letra "a" (maiúscula ou minúscula).

Exemplo de texto: "Alice adora animais e aventuras."

5. Encontrando datas: Escreva uma regex para localizar datas no formato "DD/MM/AAAA".

Exemplo de texto: "O evento será em 15/08/2022, mas pode ser adiado para 20/08/2022."

6. Localizando CEPs brasileiros: Escreva uma regex que localize CEPs no formato brasileiro "XXXXX-XXX" ou "XXXXXXXX".

Exemplo de texto: "Os CEPs podem ser 12345-678 ou 98765432."

7. Validando números de telefone: Crie uma regex para encontrar números de telefone no formato (XX) XXXX-XXXX ou (XX) XXXXX-XXXX.

Exemplo de texto: "Você pode me ligar em (31) 98765-4321 ou (31) 3456-7890."

In [None]:
texto = "Alice adora animais e aventuras."
resultado = re.findall(r'\ba\w*', texto, re.IGNORECASE)
print(resultado)  # Saída: ['Alice', 'adora', 'animais', 'aventuras']

['Alice', 'adora', 'animais', 'aventuras']


In [None]:
texto = "Alice adora animais e aventuras."
resultado = re.findall(r'\b[Aa]\w*', texto)
print(resultado)  # Saída: ['Alice', 'adora', 'animais', 'aventuras']

['Alice', 'adora', 'animais', 'aventuras']


In [None]:
texto = "O evento será em 15/08/2022, mas pode ser adiado para 20/08/2022."
resultado = re.findall(r'\d{2}/\d{2}/\d{4}', texto)
print(resultado)  # Saída: ['15/08/2022', '20/08/2022']

['20/08/2022']


In [None]:
texto = "Os CEPs podem ser 12345-678 ou 98765432."
resultado = re.findall(r'\d{5}-\d{3}', texto)
print(resultado)  # Saída: ['12345-678', '98765432']

['12345-678']


In [None]:
texto = "Os CEPs podem ser 12345-678 ou 98765432."
resultado = re.findall(r'\d{8}', texto)
print(resultado)  # Saída: ['12345-678', '98765432']

['98765432']


In [None]:
texto = "Os CEPs podem ser 12345-678 ou 98765432."
resultado = re.findall(r'\d{5}-?\d{3}', texto)
print(resultado)  # Saída: ['12345-678', '98765432']

['12345-678', '98765432']


In [None]:
texto = "Você pode me ligar em (31) 98765-4321 ou (31) 3456-7890."
resultado = re.findall(r'\(\d{2}\) \d{4,5}-\d{4}', texto)
print(resultado)  # Saída: ['(31) 98765-4321', '(31) 3456-7890']

['(31) 98765-4321', '(31) 3456-7890']


8. Validando e-mails complexos: Escreva uma regex que valide e-mails mais complexos, incluindo caracteres especiais antes do "@" e domínios variados.

Exemplo de texto: "Você pode me contatar em contato.email+extra@empresa.co.uk ou support@empresa.com.br."

9. Localizando URLs: Escreva uma regex que encontre URLs em um texto, incluindo o protocolo (http, https) e domínios variados.

Exemplo de texto: "Acesse https://www.exemplo.com para mais informações ou http://sub.exemplo.net para suporte."


In [None]:
texto = "Você pode me contatar em contato.email+extra@empresa.co.uk ou support@empresa.com.br support@empresa.com."
resultado = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b', texto)
print(resultado)  # Saída: ['contato.email+extra@empresa.co.uk', 'support@empresa.com.br']

['contato.email+extra@empresa.co.uk', 'support@empresa.com.br', 'support@empresa.com']


In [None]:
texto = "Acesse https://www.exemplo.com para mais informações ou http://sub.exemplo.net para suporte https://www.exemplo.com.br."
resultado = re.findall(r'https?://[A-Za-z0-9.-]+\.[A-Za-z]{2,}', texto)
print(resultado)  # Saída: ['https://www.exemplo.com', 'http://sub.exemplo.net'

['https://www.exemplo.com', 'http://sub.exemplo.net', 'https://www.exemplo.com.br']
