# Atividade 2

## Regex

Python possui uma biblioteca própria para operações envolvendo expressões regulares. Você pode consultar a [documentação da biblioteca neste link](https://docs.python.org/3/library/re.html) e [alguns exemplos de uso aqui](https://docs.python.org/3/howto/regex.html).

Um ótimo local para validar o funcionamento das regras online é através da plataforma [regex101.com](https://regex101.com/). Está plataforma permite compilação de regras e inclusive testando seu funcionamento em python.

Vamos utilizar o texto abaixo como exemplo para as operações futuras:

In [5]:
import re

texto = 'abacaxi, abacate, abajur, abacaxi, ameixa, banana, abobrinha, 10/04/2019 10/04/19 10/4/19 3-4-2019'

#### Exemplos

Dado o texto acima, vamos pensar numa regra para identificar todas as palavras iniciadas em "aba".

O método `compile` permite compilar regras visando performance na busca por padrões.

In [2]:
regex = re.compile(r'aba[\w]*')

In [6]:
print(regex.match(texto)) # Determine if the RE matches at the beginning of the string.
print(regex.search(texto)) # Scan through a string, looking for any location where this RE matches.
print(regex.findall(texto)) # Find all substrings where the RE matches, and returns them as a list.
print(regex.finditer(texto)) # Find all substrings where the RE matches, and returns them as an iterator.

<re.Match object; span=(0, 7), match='abacaxi'>
<re.Match object; span=(0, 7), match='abacaxi'>
['abacaxi', 'abacate', 'abajur', 'abacaxi']
<callable_iterator object at 0x7f94e116a8d0>


Observe que nos dois primeiros casos, o resultado que tivemos foi um objeto do tipo `SRE_Match`. Este tipo de objeto nos permite acesso a 4 importantes informações sobre o achado, são elas:

1. `group()`: Retorna qual é a string resultante do achado;
2. `start()`: Retorna qual é a posição inicial do achado no documento;
3. `end()`  : Retorna qual é a posição final do achado no documento;
4. `span()` : Retorna uma tupla no formato `(pos_inicial, pos_final)` do achado no documento.

In [7]:
result = regex.match(texto)
print(f'group(): {result.group()}')
print(f'start(): {result.start()}')
print(f'end()  : {result.end()}')
print(f'span() : {result.span()}')

group(): abacaxi
start(): 0
end()  : 7
span() : (0, 7)


O terceiro resultado volta uma lista de strings contendo os achados no documento e o quarto nos retornou um objeto do tipo `iterator`. Este objeto é uma lista de achados (objetos do tipo `SRE_Match`), o que nos permite realizar encontrar todos os valores.

In [8]:
for achado in regex.finditer(texto):
    print(f'Termo encontrado foi "{achado.group()}". Sua posição inicial é {achado.start()} e final {achado.end()}.')

Termo encontrado foi "abacaxi". Sua posição inicial é 0 e final 7.
Termo encontrado foi "abacate". Sua posição inicial é 9 e final 16.
Termo encontrado foi "abajur". Sua posição inicial é 18 e final 24.
Termo encontrado foi "abacaxi". Sua posição inicial é 26 e final 33.


Veja que temos 4 tipos de formatação diferentes para datas em nossa string de exemplo, vamos ver uma forma de identificar todas elas com apenas uma regra:

In [9]:
data_regex = re.compile(r'\d{1,2}[\/-]?\d{1,2}[\/-]?\d{2,4}')

In [10]:
for achado in data_regex.finditer(texto):
    print(f'Termo encontrado foi "{achado.group()}". Sua posição inicial é {achado.start()} e final {achado.end()}.')

Termo encontrado foi "10/04/2019". Sua posição inicial é 62 e final 72.
Termo encontrado foi "10/04/19". Sua posição inicial é 73 e final 81.
Termo encontrado foi "10/4/19". Sua posição inicial é 82 e final 89.
Termo encontrado foi "3-4-2019". Sua posição inicial é 90 e final 98.


Uma das operações permitidas pela biblioteca `re` é a de substituição de achados através do método `sub(string_sub, texto)`, vejamos um exemplo trocando todos os achados de data por "!!":

In [None]:
data_regex.sub('!!', texto)

In [None]:
import pandas as pd

In [None]:
ex_data = pd.read_excel('https://raw.githubusercontent.com/pgiaeinstein/nlp/master/exemplo_prox_aula.xlsx')
dt_coronaria = pd.read_excel('https://raw.githubusercontent.com/pgiaeinstein/nlp/master/data_coronaria.xlsx')

## Desafio - Extração de Entidades

Vamos automatizar a anotação dos laudos através de um processo chamado _weak labeling_, isso é, vamos utilizar de expressões regulares para identificar todos os nomes de vaso encontrados nos documentos. Nosso objetivo final com os laudos de angiotomografia de coronária é conseguir identificar os termos que caracterizam informações importantes dos vasos descritos no documento.

O que esperamos de resultado é algo como o demonstrado abaixo:

In [None]:
ex_data.head(20)

Veja que temos o conteúdo dos laudos relacionando a cada palavra uma classe específica. As palavras sem classe definida recebem o valor `O`.

Nosso objetivo inicial é encontrar todas as entidades textuais (palavras) onde consigo identificá-las como vasos.

Um amigo radiologista analisou o problema e fez uma relação dos possíveis vasos presentes nos documentos, são eles:

* descendente anterior
* coronaria direita
* coronaria esquerda
* circunflexa
* primeiro ramo marginal
* segundo ramo marginal
* terceiro ramo marginal
* primeiro ramo diagonal
* segundo ramo diagonal
* terceiro ramo diagonal
* ventricular posterior
* arteria diagonalis
* descendente posterior

Vamos salvar o dado processado em um banco de dados NoSQL orientado a documentos respeitando a seguinte estrutura:

```
{
    "texto" : string com o texto do documento,
    "entidades" : Lista com objetos do tipo entidade
}
```

Veja a estrutura dos objetos do tipo entidade:

```
{
    "palavra" : string com o achado textual da regra,
    "classe" : string com a classe do achado,
    "pos_inicial" : inteiro com o valor inicial do achado em relação ao documento,
    "pos_final" : inteiro com o valor inicial do achado em relação ao documento
}
```

Considere que todos os achados pertencem a classe `vaso`.

In [None]:
documentos = dt_coronaria.loc[:9, ['texto']].values

In [None]:
"(descendente anterior|descendente posterior|coronaria (esquerda|direita)|circunflexa|ventricular posterior|arteria diagonalis|((primeiro|segundo|terceiro|quarto)(\se\s|\s))+(ramos?)?\s?(diagon(al|ais)?|margin(al|ais)?)?)"

Separamos 10 documentos do nosso corpus, realize o processamento na lista `documentos`.