# Instalação das dependências


Instalação da biblioteca Spacy e download do modelo em português.

In [31]:
!pip install spacy==3.1.2
!python -m spacy download pt_core_news_md



Traceback (most recent call last):
  File "C:\Users\lucas\anaconda3\lib\site-packages\urllib3\connection.py", line 169, in _new_conn
    conn = connection.create_connection(
  File "C:\Users\lucas\anaconda3\lib\site-packages\urllib3\util\connection.py", line 73, in create_connection
    for res in socket.getaddrinfo(host, port, family, socket.SOCK_STREAM):
  File "C:\Users\lucas\anaconda3\lib\socket.py", line 918, in getaddrinfo
    for res in _socket.getaddrinfo(host, port, family, type, proto, flags):
socket.gaierror: [Errno 11001] getaddrinfo failed

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Users\lucas\anaconda3\lib\site-packages\urllib3\connectionpool.py", line 699, in urlopen
    httplib_response = self._make_request(
  File "C:\Users\lucas\anaconda3\lib\site-packages\urllib3\connectionpool.py", line 382, in _make_request
    self._validate_conn(conn)
  File "C:\Users\lucas\anaconda3\lib\site-packages\urllib

# Biblioteca Spacy

Importação da biblioteca Spacy e carregamento do modelo em português.

In [32]:
import spacy
nlp = spacy.load('pt_core_news_md')

Função **triple_extraction** que extrai o sujeito, o verbo e o objeto da frase retornando uma tupla com os resultado ou None para aqueles que não forem encontrados.

Para encontrar o **sujeito da sentença**, é analisado no nível sintático as seguintes etiquetas:

- **csubj:** Um sujeito oracional, ou seja, o próprio sujeito é uma oração;

- **nsubj:** Um sujeito nominal, ou seja, um nominal que é o sujeito sintático e o proto-agente de uma oração;

- **nsubjpass:** Um sujeito nominal passivo, ou seja, um sintagma nominal de uma oração passiva;

- **csubjpass:**  Um sujeito passivo oracional, ou seja, um sujeito sintático oracional de uma oração passiva.

Para encontrar o **verbo da sentença**, é analisado o nível morfossintático e o nível sintático as seguintes etiquetas:

- **VERB:** Verbo da sentença.

- **cop:** Uma cópula é a relação entre o complemento de um verbo copular e os verbos 'ser' e 'estar'.

Para encontrar o **objeto da sentença**, é analisado no nível sintático as seguintes etiquetas:

- **obj:** Objeto direto da sentença.

- **iobj:** Objeto indireto da sentença.

In [33]:
def triple_extraction(doc):
  data_suject = None
  data_verb = None
  data_object = None
  
  for token in doc:
    if ((token.dep_ == 'csubj' or token.dep_ == 'nsubj' or token.dep_ == 'nsubjpass' or token.dep_ == 'csubjpass') and data_suject is None):
      data_suject = token.text
    
    if (token.pos_ == 'VERB' or token.dep_ == 'cop') and data_verb is None:
      data_verb = token.text
    
    elif (token.dep_ == 'obj' or token.dep_ == 'iobj') and data_object is None:
      data_object = token.text

  return (data_suject, data_verb, data_object)

Função **display_sentence** que renderiza uma árvore de análise de dependência.

In [34]:
def display_sentence(doc):
  return spacy.displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})


Função principal **extract** que faz a extrasão da sentença e imprime o resultado da extração.

In [35]:
def extract(sentence):
  doc = nlp(sentence)

  display_sentence(doc)

  print(triple_extraction(doc))

# Extração das sentenças

## Sentença 1

*É um povo apaixonado, o povo basco.*

Etiquetas do nível sintático da árvore de análise de dependência:

- **cop:** Uma cópula é a relação entre o complemento de um verbo copular e os verbos 'ser' e 'estar'.

- **det:** O determinante de relação é válido entre um substantivo e seu determinante.

- **acl:** Modificador oracional do substantivo.

- **conj:** Um conjunto é a relação entre dois elementos conectados por uma conjunção coordenadora, como e, ou, mas etc.

- **amod:** Modificador adverbial do substantivo.

Etiquetas do nível morfossintático da árvore de análise de dependência:

- **AUX:** Verbo auxiliar.

- **DET:** Determinante.

- **NOUN:** Substantivo.

- **VERB:** Verbo.

- **ADJ:** Adjetivo.

In [36]:
extract('É um povo apaixonado, o povo basco.')

(None, 'É', None)


 ## Sentença 2
 
*Londres cancela queima de fogos do Ano Novo pelo segundo ano consecutivo devido à pandemia*

Etiquetas do nível sintático da árvore de análise de dependência:

- **nsubj:** Um sujeito nominal, ou seja, um nominal que é o sujeito sintático e o proto-agente de uma oração;

- **obj:** Objeto transitivo direto;

- **nmod:** Modificador nominal;

- **case:** A relação case é usada para qualquer elemento de marcação de caso que é tratado como uma palavra sintática separada (incluindo preposições, pós-posições e marcadores de caso de clíticos);

- **advmod:** Modificador adverbial;

- **flat:name:** É usado para nomes próprios constituídos de múltiplos elementos nominais.

Etiquetas do nível morfossintático da árvore de análise de dependência:

- **PROPN:** Nome próprio;

- **VERB:** Verbo;

- **NOUN:** Substantivo;

- **ADP:** Adposições.

In [37]:
extract('Londres cancela queima de fogos do Ano Novo pelo segundo ano consecutivo devido à pandemia')

('Londres', 'cancela', 'queima')


## Sentença 3

*Itaipu atinge marca de 50 milhões de MWh gerados em 2021*

Etiquetas do nível sintático da árvore de análise de dependência:

- **nsubj:** Um sujeito nominal, ou seja, um nominal que é o sujeito sintático e o proto-agente de uma oração;

- **obj:** Objeto transitivo direto;

- **nmod:** Modificador nominal;

- **case:** A relação case é usada para qualquer elemento de marcação de caso que é tratado como uma palavra sintática separada (incluindo preposições, pós-posições e marcadores de caso de clíticos);

- **flat:** É usado para nomes próprios constituídos de múltiplos elementos nominais;

- **acl:**: Modificador oracional do substantivo.

Etiquetas do nível morfossintático da árvore de análise de dependência:

- **PROPN:** Nome próprio;

- **VERB:** Verbo;

- **NOUN:** Substantivo;

- **ADP:** Adposições;

- **NUM:** Numeral.

In [38]:
extract('Itaipu atinge marca de 50 milhões de MWh gerados em 2021')

('Itaipu', 'atinge', 'marca')
