<a href="https://colab.research.google.com/github/fabio-weydson/sandbox-datascience/blob/main/CE_1_4_Agrupamento%20de%20Noticias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estudo de caso 1.4: Agrupamento espectral - Agrupamento de notícias

---
<br>

Este estudo de caso considera um banco de dados de artigos da imprensa, sobre diferentes temas, e usa _agrupamento espectral_ para agrupá-los de acordo com a frequência de determinadas palavras. Este notebook fornece o código para gerar o banco de dados.

Este estudo de caso usa a biblioteca [`mitie`](https://github.com/mit-nlp/MITIE), desenvolvida no MIT. Todas as etapas para instalar a biblioteca e o modelo NER usados ​​neste estudo de caso podem ser encontradas na documentação online.

<br>

---

Configuração do notebook:

* Primeiramente, baixe a biblioteca MITIE a partir do seu repositório de GitHub, instale-a no ambiente de execução e baixe seus principais modelos de *NLP*, dentre eles o modelo `NER` que usaremos neste estudo de caso.

* Depois, instale o restante das bibliotecas necessárias e o modelo `NER` em uma variável de forma que possamos usá-lo no estudo.

In [None]:
!pip3 install git+https://github.com/mit-nlp/MITIE.git
!wget https://github.com/mit-nlp/MITIE/releases/download/v0.4/MITIE-models-v0.2.tar.bz2
!tar jxf MITIE-models-v0.2.tar.bz2

print('MITIE instalado com sucesso e modelos baixados!')

Collecting git+https://github.com/mit-nlp/MITIE.git
  Cloning https://github.com/mit-nlp/MITIE.git to /tmp/pip-req-build-juquf_qo
  Running command git clone -q https://github.com/mit-nlp/MITIE.git /tmp/pip-req-build-juquf_qo
Building wheels for collected packages: mitie
  Building wheel for mitie (setup.py) ... [?25l[?25hdone
  Created wheel for mitie: filename=mitie-0.7.0-cp37-none-any.whl size=418688 sha256=b3e37f7e00af5cf039de01fc74d67258d7a4b871904f0da871e6787e7df7dce1
  Stored in directory: /tmp/pip-ephem-wheel-cache-s5czsaz7/wheels/b4/c1/21/8e7e7e14cf3211bf5c73aad0b1d76d1186fbf681f4b9ef6c06
Successfully built mitie
Installing collected packages: mitie
Successfully installed mitie-0.7.0
--2021-06-01 10:45:51--  https://github.com/mit-nlp/MITIE/releases/download/v0.4/MITIE-models-v0.2.tar.bz2
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://g

In [None]:
import requests
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time
import csv

#ML
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import cluster

#Bibliotecas de web scraping
from bs4 import BeautifulSoup

#NLP
from mitie import *
print('Bibliotecas importadas com sucesso!\n')
print("Carregando o modelo NER...")
ner = named_entity_extractor('MITIE-models/english/ner_model.dat')
print("\nEtiquetas de saída do modelo NER:", ner.get_possible_ner_tags())

# Geração do banco de dados (Web Scraping)

Neste exemplo, foram compilados artigos de 8 temas diferentes do jornal britânico __The Guardian__. A seguir, temos as etapas para criar o banco de dados:

1. Obter o código fonte do site principal do The Guardian e armazenar os links das seções (temas) de interesse.
2. Iterar a lista de links e obter a informação de 10 artigos por seção (título e conteúdo).
3. Salvar os artigos, títulos e temas em arquivos `.txt`.

In [None]:
UK_news_url = 'https://www.theguardian.com/uk'
#Baixando os links dos diferentes temas
html_data = requests.get(UK_news_url).text
soup = BeautifulSoup(html_data, 'html.parser')
url_topics = [el.find('a')['href'] for el in soup.find_all(class_ = 'subnav__item')[1:9]]
topics = [el.text.strip('\n').replace(' ','_') for el in soup.find_all(class_ = 'subnav-link')[1:9]]
for i in range(len(topics)):
    print('Topic {}: {} ({})'.format(i+1,topics[i],url_topics[i]))


In [None]:
def save_to_txt(filename, content):
    '''
    Creates a new .txt file with as specific name in the Data directory
    '''
    with open(r"Data/{}.txt".format(filename), "w") as f:
        print(content, file=f)

#Cria-se um diretório onde serão salvos os artigos
os.mkdir('Data/')


article_titles = []
article_contents = []
article_topics = []
articles_per_topic = 10
n = 1
for topic, url_topic in list(zip(topics,url_topics)):
    #Getting the first 15
    soup = BeautifulSoup(requests.get(url_topic).text, 'html.parser')
    url_articles = [el.find('a')['href'] for el in soup.find_all(class_ = 'fc-item__content')]
    print('\n{}:'.format(topic))
    i = 0
    while article_topics.count(topic) < articles_per_topic:
        soup = BeautifulSoup(requests.get(url_articles[i]).text, 'html.parser')
        try:
            title = soup.find(class_ = 'content__headline').text.strip('\n')
            content = ' '.join([el.text for el in soup.find(class_ = 'content__article-body from-content-api js-article__body').find_all('p')])
            i += 1
            if i == len(url_articles):
                print('Only {} articles found in \"{}"'.format(article_topics.count(topic),topic))
                break
            if title not in article_titles:
                article_titles += [title]
                article_contents += [content]
                article_topics += [topic]
                save_to_txt('title-{}'.format(n),title)
                save_to_txt('article-{}'.format(n),content)
                save_to_txt('topic-{}'.format(n),topic)
                print('{}'.format(title))
                n += 1
                if round(len(article_titles)/10) == len(article_titles)/10:
                    print('Article count: {}'.format(len(article_titles)))
        except:
            i += 1
            if i == len(url_articles):
                print('Only {} articles found in \"{}"'.format(article_topics.count(topic),topic))
                break
            pass
        
                
df = pd.DataFrame({'topic':article_topics,'title':article_titles,'content':article_contents})

NameError: ignored

# Importação do banco de dados

Após salvar o banco de dados na pasta desejada, podemos usar o código do estudo de caso para importar a informação.

In [None]:
#número total de artigos a serem processados
N = df.shape[0]
#para armazenar os temas, títulos e conteúdos das notícias:
topics_array = []
titles_array = []
corpus = []
for i in range(1, N+1):
    #obtenha o conteúdo do artigo.
    with open('Data/article-' + str(i) + '.txt', 'r') as myfile:
        d1=myfile.read().replace('\n', '')
        d1 = d1.lower()
        corpus.append(d1)
    #obtenha o tema original do artigo.
    with open('Data/topic-' + str(i) + '.txt', 'r') as myfile:
        to1=myfile.read().replace('\n', '')
        to1 = to1.lower()
        topics_array.append(to1)
    #obtenha o título do artigo.
    with open('Data/title-' + str(i) + '.txt', 'r') as myfile:
        ti1=myfile.read().replace('\n', '')
        ti1 = ti1.lower()
        titles_array.append(ti1)

# Geração de atributos

Para gerar os atributos de cada instância (artigo):

1. Vinculamos todo o corpus de texto do artigo para determinar todas as palavras únicas que são usadas no conjunto de dados.
2. Procuramos o subconjunto das entidades do modelo NER encontrado entre as palavras únicas que são usadas no conjunto de dados (determinado na etapa 1).

In [None]:
#vetor de subconjunto de entidades
entity_text_array = [] 
for i in range(1, N+1):
    #carregue o arquivo de texto con o conteúdo do artigo e converta-o em uma lista de palavras
    tokens = tokenize(load_entire_file(('Data/article-' + str(i) + '.txt')))
    #extraia todas as entidades conhecidas do modelo ner mencionado neste artigo
    entities = ner.extract_entities(tokens)
    #extraia as palavras de entidades reais adicione-as ao vetor
    for e in entities: 
        range_array = e[0]
        tag = e[1]
        score = e[2]
        score_text = "{:0.3f}".format(score)
        entity_text = " ".join(tokens[j].decode("utf-8") for j in range_array) 
        entity_text_array.append(entity_text.lower())
#elimine as entidades duplicadas que foram detectadas
#entity_text_array = np.unique(entity_text_array)
entity_text_array = list(set(entity_text_array))

Agora que temos a lista de todas as entidades utilizadas no banco de dados, podemos representar cada artigo como um vetor que contém a pontuação de [TF-IDF](https://en.wikipedia.org/wiki/Tf–idf) para cada entidade armazenada no `entity_text_array`. Esta tarefa pode ser realizada facilmente com a biblioteca [scikit-learn](http://scikit-learn.org/stable/) de Python

In [None]:
vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word',
                       stop_words='english', vocabulary=entity_text_array)
corpus_tf_idf = vect.fit_transform(corpus)

Agora que temos os artigos representados por seus atributos (pontuações de TF-IDF), podemos fazer o agrupamento espectral deles usando novamente a biblioteca `scikit-learn`

In [None]:
#Altere n_clusters para o número de grupos desejados  
n_clusters = 8
#Agrupamento espectral 
spectral = cluster.SpectralClustering(n_clusters= n_clusters, 
                                      eigen_solver='arpack', 
                                      affinity="nearest_neighbors", 
                                      n_neighbors = 10)
spectral.fit(corpus_tf_idf)

Por fim, as linhas de código a seguir permitem ver o resultado no seguinte formato (uma linha por artigo):

<br>

__no. artigo, tema, grupo, título__

In [None]:
if hasattr(spectral, 'labels_'):
    cluster_assignments = spectral.labels_.astype(np.int)
    for i in range(0, len(cluster_assignments)):
        print(i, topics_array[i], cluster_assignments [i], titles_array[i])

In [None]:
df['predictions'] = cluster_assignments
predictions_df = pd.get_dummies(df, columns=['predictions']).drop(['title','content'],axis=1).groupby(['topic']).sum()
predictions_df

Como podemos ver, o algoritmo nem sempre classifica os artigos de acordo com as seções de onde foram obtidos. Você pode se aprofundar nos parâmetros do modelo para melhorar esses resultados ou procurar uma explicação para entender os critérios pelos quais o algoritmo está agrupando os artigos.