# Processamento de Linguagem Natural - Faculdade Descomplica
# Aula 13 - Pipelines de Linguagem Natural e Processamento em Lote

Prof. Elvis de Souza

# Carregando bibliotecas

In [None]:
! pip3 install spacy
! python3 -m spacy download pt_core_news_sm
! pip3 install wikipedia

In [None]:
import spacy
import wikipedia
import json

wikipedia.set_lang("pt")
nlp = spacy.load("pt_core_news_sm")

# Carregando texto

In [None]:
texto = wikipedia.page("PLN")

In [None]:
texto

In [None]:
texto.content

# Processando texto com spaCy e explorando funções

In [None]:
doc = nlp(texto.content)

In [None]:
type(doc)

In [None]:
doc[0]

In [None]:
len(doc)

In [None]:
print(doc.to_json())

In [None]:
print(json.dumps(doc.to_json(), indent=4, ensure_ascii=False))

In [None]:
doc[0].pos_

In [None]:
doc[0].dep_

In [None]:
doc[0].head

In [None]:
(doc[0].text, doc[0].pos_ + "/" + doc[0].dep_, doc[0].head)

# Criando funções que irão compor o pipeline

In [None]:
def extrair_sintaxe(doc):
    saida = []
    for token in doc:
        saida.append((token.text, token.pos_ + "/" + token.dep_, token.head.text))
    return saida

In [None]:
extrair_sintaxe(doc)

In [None]:
def extrair_sujeitos(doc):
    saida = []
    for token in doc:
        if token.dep_ == "nsubj":
            saida.append((token.text, token.head.text))
    return saida

In [None]:
extrair_sujeitos(doc)

# Definição do pipeline

In [None]:
def pipeline(texto, nlp):
    doc = nlp(texto)
    saida = doc.to_json()
    saida['sintaxe'] = extrair_sintaxe(doc)
    saida['sujeitos'] = extrair_sujeitos(doc)
    return saida

In [None]:
pipeline("Processamento de Linguagem Natural é uma subárea da inteligência artificial.", nlp)

# Vídeo 4: Desenvolvimento de um pipeline completo de PLN em Python

In [None]:
import os
import uuid
import datetime

# Criando pastas e arquivo de log

In [None]:
if not os.path.isdir("raw_texts"):
    os.mkdir("raw_texts")

if not os.path.isdir("processed_texts"):
    os.mkdir("processed_texts")

log_file = open("log.txt", "a")

# Extraindo documentos

In [None]:
paginas = []
for letra in "abcdefghijklmnopqrstuvwxyz":
    paginas.extend(wikipedia.search(letra, results=5))

In [None]:
len(paginas)

In [None]:
paginas

In [None]:
uuid.uuid4()

In [None]:
import tqdm
# ATENÇÃO: Demora 2 minutos.
for pagina in tqdm.tqdm(paginas):
    try:
        texto = wikipedia.page(pagina).content
    except wikipedia.DisambiguationError:
        log_file.write(f"[{str(datetime.datetime.now())}] DisambiguationError: {pagina}\n")
    except wikipedia.PageError:
        log_file.write(f"[{str(datetime.datetime.now())}] PageError: {pagina}\n")
    else:
        with open(f"raw_texts/{uuid.uuid4()}.txt", "w") as f:
            f.write(texto)
        log_file.write(f"[{str(datetime.datetime.now())}] OK: {pagina}\n")

In [None]:
len(os.listdir("raw_texts"))

# Transformando documentos e armazenando

In [None]:
import json

nlp = spacy.load("pt_core_news_sm")

for arquivo in tqdm.tqdm(os.listdir("raw_texts")):
    with open("raw_texts/" + arquivo) as f:
        texto = f.read()

    processado = pipeline(texto, nlp)

    timestamp = str(datetime.datetime.now())
    processado['timestamp'] = timestamp
    log_file.write(f"[{str(datetime.datetime.now())}] Pipeline: {arquivo}\n")

    with open("processed_texts/" + arquivo + ".json", "w") as f:
        json.dump(processado, f)

    os.remove("raw_texts/" + arquivo)

In [None]:
log_file.close()