### Avaliação Sprint 3
### Extrair o texto de 10 artigos jornalísticos

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
from pymongo import MongoClient
from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import cross_val_predict
from sklearn.decomposition import TruncatedSVD
from sklearn.manifold import TSNE
from wordcloud import WordCloud, STOPWORDS
from os import path
from PIL import Image
from time import time
from spacy import displacy
import pymongo
import spacy
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import plotly.express as px
import os

### Importe SPACY

In [None]:
#!python -m spacy download pt_core_news_sm
nlp = spacy.load("pt_core_news_sm")

### Lendo o conteúdo das url

In [None]:
url = open('/content/sample_data/noticias.txt','r')

### Recebe os dados da resposta da url
### Separa Títulos e Paragrafos
### Soup para colegar dados Scrapping

In [None]:
lista = []
titulos = []
links = []

for noticia in url:

    links.append(noticia)
    response = urlopen(noticia)

    html = response.read().decode('utf-8')
    soup = BeautifulSoup(html, 'html.parser')

    conteudo_titulo = soup.find('h1', class_="c-content-head__title").getText()
    titulos.append(conteudo_titulo)

    conteudo_paragrafo = soup.find('div', class_="c-news__body")
    infos = conteudo_paragrafo.findAll('p')
    lista.append(infos)

### Títulos

In [None]:
converte_titulos = []

for titulo in titulos:
  converte_titulos.append(titulo.strip())

In [None]:
converte_titulos

In [None]:
converte_paragrafos = []

for titulo in lista:
  converte_paragrafos.append(titulo)

In [None]:
converte_paragrafos

### Gerando Wordcloud Tratados

In [None]:
len(converte_paragrafos)

In [None]:
converte_paragrafos[1]

In [None]:
converte_paragrafos[2]

In [None]:
for i in range(len(converte_paragrafos)):
    interando = converte_paragrafos[i]
    paragrafos_npl = nlp(str(interando))

    tokens = [token for token in paragrafos_npl if not token.is_stop and token.is_punct != True]
    todas_palavras_tweets = ' '.join([str(item) for item in tokens])
    todas_palavras_tweets = todas_palavras_tweets.replace('< p >','').replace('</p >','')
    logo = np.array(Image.open(path.join("/content/sample_data/logo.jpg")))

    stopwords = set(STOPWORDS)
    stopwords.add("said")

    nuvem_palavras_tweets = WordCloud(width=1000, height=600, mask=logo,
                            max_font_size=110, collocations=False, contour_color='gray',contour_width=3,background_color='white').generate(todas_palavras_tweets)

    nuvem_palavras_tweets.generate(todas_palavras_tweets)

    plt.figure(figsize=(20,10))
    plt.imshow(nuvem_palavras_tweets, interpolation='bilinear')
    plt.axis("off")
    print(converte_titulos[i])
    print(links[i])
 
    plt.show()
    print('\n')

### Paragrafos

In [None]:
paragrafos = []
for i in lista:
    paragrafos += i

In [None]:
paragrafos

### Criando DataFrame

In [None]:
df = pd.DataFrame(paragrafos)
df = df.rename(columns={0: 'Paragrafo'})
df.head()

### Conectando ao servidor
### Conectando ao banco
### Criando coleção


In [None]:
#!pip install dnspython

In [None]:
cliente = pymongo.MongoClient("mongodb+srv://admin:admin@cluster0.rrlac.mongodb.net/myFirstDatabase?retryWrites=true&w=majority")
banco = cliente['Noticias']  # buscando o nome do banco
gravando = banco["paragrafos"]  # buscando a tebale do banco

### Transformando em uma to disc para grava no Mongo

In [None]:
dados = df.to_dict('list')
valor = ((dados))

In [None]:
if not gravando.find_one(valor):       
  gravando_banco = gravando.insert_one(valor)
  print(f"Gravado com sucesso: - {valor}")
else:
    print(f'Já Existe')

### Retornando todos os dados pelo Paragrafo


In [None]:
for x in gravando.find({},{ "_id": 0, "Paragrafo": 1}):
      retorno_do_banco = x
retorno_do_banco

### Criando novo Dataset com base do dados vindo do mongodb


# Treinando Notícias

In [None]:
pd.set_option('display.max_column',None)
pd.set_option('display.max_rows',None)
pd.set_option('display.max_seq_items',None)
pd.set_option('display.max_colwidth', 500)
pd.set_option('expand_frame_repr', True)

dataset = pd.DataFrame(retorno_do_banco)
dataset.head()

In [None]:
doc = nlp(str(dataset))

### Entidades

In [None]:
doc.ents

### Tratando texto para minúsculo.

In [None]:
def trata_textos(doc):
    tokens_validos = []
    for token in doc:
        e_valido = not token.is_stop and token.is_alpha
        if e_valido:
            tokens_validos.append(token.text)

    if len(tokens_validos) > 2:
        return  " ".join(tokens_validos)

trata_textos(doc)

In [None]:
textos_para_tratamento = (titulos.lower() for titulos in dataset["Paragrafo"])

In [None]:
t0 = time()
textos_tratados = [trata_textos(doc) for doc in nlp.pipe(textos_para_tratamento,
                                                        batch_size = 1000,
                                                        n_process = -1)]
tf = time() - t0
tf

### Texto tratados

In [None]:
titulos_tratados = pd.DataFrame({"Tratados": textos_tratados})

In [None]:
titulos_tratados.head()

In [None]:
tratado_nlp = nlp(str(textos_tratados))

In [None]:
tratado_nlp

### Frase mais longa

In [None]:
alienSentLengths = [len(sent) for sent in tratado_nlp.sents]
maiorFrase = [sent for sent in tratado_nlp.sents if len(sent) == max(alienSentLengths)]
print(maiorFrase[0])

### Gráficos

In [None]:
pd.Series([word.i for word in tratado_nlp if word.text == 'dias']).hist(figsize=(12,6))

In [None]:
pd.Series([word.i for word in tratado_nlp if word.text == 'hélio']).hist(figsize=(12,6))

In [None]:
def getIndices(w):
  hist, bins = np.histogram(pd.Series([word.i for word in tratado_nlp if word.text == w]), bins=50)
  return hist

### Se quisermos analisar a proximidade das palavras que escolhemos.

In [None]:
wordList = ['dias', 'hélio','veículos']
characterList = ['alemanha', 'brasil','partido']
wordIndices = [getIndices(w) for w in wordList]

In [None]:
wordsDF = pd.DataFrame(wordIndices, index=wordList).T
wordsDF.plot(subplots=True, figsize=(14,8))

In [None]:
wordsDF.corr().style.background_gradient(cmap='coolwarm').set_precision(2)

In [None]:
def narrativeTime(w, text):
  return np.histogram(pd.Series([word.i for word in text 
           if word.lemma_ == w]), 50)[0]

def wordCorrelation(wordlist, text):
  df = pd.DataFrame([narrativeTime(w, text)
                 for w in wordlist], index=wordlist)
  return df.T.corr().style.background_gradient(cmap='coolwarm')

### Aqui analisamos a proximidade de algumas palavras

In [None]:
wordCorrelation(['alemanha', 'ocidental', 'polícia', 'federal'], 
                tratado_nlp)

### Busca de entidades

In [None]:
set([w.label_ for w in tratado_nlp.ents])

### Mostrando a frase onde aparece nome de pessoas PER

In [None]:
entSents = [ent.sent for ent in tratado_nlp.ents if ent.label_ == 'PER']
entSents[2:4]

### Destacando a entidade na última frase da lista acima

In [None]:
spacy.displacy.render(entSents[3], style='ent', jupyter=True)

### Análise sintática

In [None]:
print([w for w in tratado_nlp if w.pos_ == 'NOUN'][:50])

## Parsing de Dependências

In [None]:
frase10 = [token for token in tratado_nlp.sents][4]
frase10

In [None]:
spacy.displacy.render(frase10,style='dep',jupyter=True,options={'distance': 140})

### Navegação na árvore de dependências

In [None]:
raiz = frase10.root
raiz

In [None]:
filhos = raiz.children
list(filhos)

In [None]:
filho = list(raiz.children)[2]
filho

### Word Embeddings (Word Vectors)

In [None]:
vetores = [word for word in tratado_nlp if word.pos_.startswith('N')][9:16]
vetores

### Agora, vamos pegar os vetores e seus textos

In [None]:
word_vector = [word.vector for word in vetores]
word_string = [word.string.strip() for word in vetores]

### Observando o vetor, vemos que cada palavra possui um vetor de 96 posições:

In [None]:
word_vector[0].shape

### Olhando apenas o primeiro vetor, vemos sua representação numérica:

In [None]:
word_vector[0]

In [None]:
word_string[0]

### Transformado para um par ordenado, temos nosso exemplo agora representado assim:

In [None]:
lsa = TruncatedSVD(n_components=2)
lsaOut = lsa.fit_transform(word_vector)

In [None]:
lsaOut

In [None]:
xs, ys = lsaOut[:,0], lsaOut[:,1]
for i in range(len(xs)): 
    plt.scatter(xs[i], ys[i])
    plt.annotate(word_string[i], (xs[i], ys[i]))

In [None]:
xs[0], ys[0], word_string[0]

### Gráfico das nóticias

In [None]:
d = path.dirname(file) if "file" in locals() else os.getcwd()

todas_palavras_tratados = ' '.join([texto for texto in titulos_tratados['Tratados']])
logo = np.array(Image.open(path.join("/content/sample_data/logo.jpg")))
stopwords = set(STOPWORDS)
stopwords.add("said")

nuvem_palavras_tratados = WordCloud(width=1000, height=600, mask=logo,
                        max_font_size=110, collocations=False, contour_color='gray',contour_width=3,background_color='white').generate(todas_palavras_tratados)

nuvem_palavras_tratados.generate(todas_palavras_tratados)


plt.figure(figsize=(20,10))
plt.imshow(nuvem_palavras_tratados, interpolation='bilinear')
plt.axis("off")
plt.show()


### Gráfico de intents Notícias

In [None]:
# transforma em vetor de frases
texts_noticia = [sent for sent in tratado_nlp.sents]
texts_noticia_10 = texts_noticia[15:20]
vectors = []
# codifica as palavras das frases em vetores de word embeddings
for text in texts_noticia_10:
  vectors.append(np.mean([word.vector for word in texts_noticia_10], axis=0))
M = np.stack(vectors, axis=0)
sampled_idxs_noticia = np.random.choice(range(len(texts_noticia_10)), len(texts_noticia_10), replace=False)
texts_vec_noticia = np.array([str(t) for t in texts_noticia_10])[sampled_idxs_noticia]

In [None]:
model = TSNE(n_components=2, random_state=0, metric='cosine')
X = model.fit_transform(M[sampled_idxs_noticia]) 

In [None]:
fig = px.scatter(text=texts_vec_noticia,x=X[:, 0], y=X[:, 1],range_x=[-100,350])
fig.update_traces(textposition='top center')
fig.update_layout(title='Representação de entents')
fig.show()

# Treinando Tweets

In [None]:
pd.set_option('display.max_column',None)
pd.set_option('display.max_rows',None)
pd.set_option('display.max_seq_items',None)
pd.set_option('display.max_colwidth', 500)
pd.set_option('expand_frame_repr', True)

df = pd.read_csv('/content/sample_data/Tweets_Mg.csv', encoding='utf-8')
df.head()

### Usando um DataFrame

In [None]:
df_total = pd.DataFrame(df)

###Criando Tweets e Classes

In [None]:
tweets = df['Text'][:6000]
tweets_df = pd.DataFrame(tweets)

classes = df['Classificacao'][:6000]
classes_df = pd.DataFrame(classes)


### Convertendo para NLP

In [None]:
tweets_nlp = nlp(str(tweets))
classes_nlp = nlp(str(classes))


In [None]:
tweets_nlp.ents

In [None]:
classes_nlp.ents

In [None]:
print("Tweets",len(tweets_nlp),"palavras, Classes", len(classes_nlp),"palavras.")

In [None]:
print("Tweets Sents",len(list(tweets_nlp.sents)),"palavras, Classes Sents", len(list(classes_nlp.sents)),"palavras.")

In [None]:
def trata_textos(doc):
    tokens_validos = []
    for token in doc:
        e_valido = not token.is_stop and token.is_alpha
        if e_valido:
            tokens_validos.append(token.text)

    if len(tokens_validos) > 2:
        return  " ".join(tokens_validos)


In [None]:
textos_para_tratamento_tweets = (titulos.lower() for titulos in tweets)

In [None]:
tweets_tratado = trata_textos(tweets_nlp)
classes_nlp_tratado = trata_textos(classes_nlp)

In [None]:
t0 = time()
textos_tratados_tweets= [trata_textos(doc) for doc in nlp.pipe(textos_para_tratamento_tweets,
                                                        batch_size = 1000,
                                                        n_process = -1)]
tf = time() - t0
tf

In [None]:
titulos_tratados_tweets = pd.DataFrame({"Testo_Tweets": textos_tratados_tweets})

### Tweets Tratados e Retirando NAN

In [None]:
titulos_tratados_tweets = titulos_tratados_tweets.dropna()
titulos_tratados_tweets.head()

### Tweets não Tratados

In [None]:
tweets.head()

### Gráfico de palavra ao longo da narrativa

In [None]:
tweets_nlp = nlp(str(textos_tratados_tweets))

### 

In [None]:
pd.Series([word.i for word in tweets_nlp if word.text == 'governador']).hist(figsize=(12,6))

### Gráfico Negativo

In [None]:
pd.Series([word.i for word in classes_nlp if word.text == 'Negativo']).hist(figsize=(12,6))

### Gráfico Neutro

In [None]:
pd.Series([word.i for word in classes_nlp if word.text == 'Neutro']).hist(figsize=(12,6))

### Gráfico Positivo

In [None]:
pd.Series([word.i for word in classes_nlp if word.text == 'Positivo']).hist(figsize=(12,6))

In [None]:
def getIndices(w):
  hist, bins = np.histogram(pd.Series([word.i for word in tweets_nlp if word.text == w]), bins=50)
  return hist

In [None]:
wordList = ['catedral', 'valadares','governador','aluno','prefeitura','processo']
characterList = ['questionar ', 'aumento ','prefeito ','forminga','morte','casos']
wordIndices = [getIndices(w) for w in wordList]

In [None]:
wordsDF = pd.DataFrame(wordIndices, index=wordList).T
wordsDF.plot(subplots=True, figsize=(14,14))

In [None]:
wordsDF = pd.DataFrame(wordIndices, index=characterList).T
wordsDF.plot(subplots=True, figsize=(14,14))

### Aproximidades das palavras

In [None]:
wordsDF.corr().style.background_gradient(cmap='coolwarm').set_precision(2)

In [None]:
def narrativeTime(w, text):
  return np.histogram(pd.Series([word.i for word in text 
           if word.lemma_ == w]), 50)[0]

In [None]:
def wordCorrelation(wordlist, text):
  df = pd.DataFrame([narrativeTime(w, text)
                 for w in wordlist], index=wordlist)
  return df.T.corr().style.background_gradient(cmap='coolwarm')

### Aproximidades das palavras

In [None]:
wordCorrelation(['catedral', 'valadares','governador','aluno','prefeitura','processo'], 
                tweets_nlp)

### Entidades nomeadas

In [None]:
set([w.label_ for w in tweets_nlp.ents])

### Mostrando frases onde há nomes de pessoas

In [None]:
entSents = [ent.sent for ent in tweets_nlp.ents if ent.label_ == 'PER']
entSents[1:4]

### Destacando a entidade

In [None]:
spacy.displacy.render(entSents[1:4], style='ent', jupyter=True)

In [None]:
print([w for w in tweets_nlp if w.pos_ == 'NOUN'][:10])

### Parsing de Dependências

In [None]:
frase10 = [token for token in tweets_nlp.sents][18]
frase10

### Relações prováveis entre as palavras:

In [None]:
spacy.displacy.render(frase10,style='dep',jupyter=True,options={'distance': 140})


### Navegação pela árvore

In [None]:
raiz = frase10.root
raiz

In [None]:
filhos = raiz.children
list(filhos)

In [None]:
filho = list(raiz.children)[2]
filho

### Vamos analisar os vetores de palavras Tweets


In [None]:
vetores_tweets = [word for word in tweets_nlp if word.pos_.startswith('N')][6:16]
vetores_tweets

### Vetor com 131100606 ... nº posições:

In [None]:
vetores_tweets[0].shape

In [None]:
tweets_vector = [word.vector for word in vetores_tweets]
tweets_string = [word.string.strip() for word in vetores_tweets]

In [None]:
tweets_vector[0].shape

In [None]:
tweets_vector[0]

In [None]:
lsa = TruncatedSVD(n_components=2)
lsaOut = lsa.fit_transform(tweets_vector)

### Transformado para um par ordenado

In [None]:
lsaOut

### Plotar algumas palavras

In [None]:
xs, ys = lsaOut[:,0], lsaOut[:,1]
for i in range(len(xs)): 
    plt.scatter(xs[i], ys[i])
    plt.annotate(tweets_string[i], (xs[i], ys[i]))


In [None]:
lsaOut

In [None]:
xs[0], ys[0], tweets_string[0]

### Nuvem de palavras Twwets

In [None]:
d = path.dirname(file) if "file" in locals() else os.getcwd()

todas_palavras_tweets = ' '.join([texto for texto in titulos_tratados_tweets['Testo_Tweets']])
logo = np.array(Image.open(path.join("/content/sample_data/logo.jpg")))

stopwords = set(STOPWORDS)
stopwords.add("said")

nuvem_palavras_tweets = WordCloud(width=1000, height=600, mask=logo,
                        max_font_size=110, collocations=False, contour_color='gray',contour_width=3,background_color='white').generate(todas_palavras_tweets)

nuvem_palavras_tweets.generate(todas_palavras_tweets)

plt.figure(figsize=(20,10))
plt.imshow(nuvem_palavras_tweets, interpolation='bilinear')
plt.axis("off")
plt.show()


### Puxa as entidades e apenas armazenas os itens unicos

In [None]:
lista_entstreino = []
for token in tweets_nlp.ents:
  if token.orth_ not in lista_entstreino:
    lista_entstreino.append(token.orth_)

In [None]:
lista_ents_treino = nlp(str(lista_entstreino))

### Analisando Intents

In [None]:
# transforma em vetor de frases
texts = [sent for sent in tweets_nlp.sents]
texts_10 = texts[30:38]
vectors = []
# codifica as palavras das frases em vetores de word embeddings
for text in texts_10:
  vectors.append(np.mean([word.vector for word in texts_10], axis=0))
M = np.stack(vectors, axis=0)
sampled_idxs = np.random.choice(range(len(texts_10)), len(texts_10), replace=False)
texts_vec = np.array([str(t) for t in texts_10])[sampled_idxs]

In [None]:
model = TSNE(n_components=2, random_state=0, metric='cosine')
X = model.fit_transform(M[sampled_idxs]) 

### Gráfico de intents Tweets

In [None]:
fig = px.scatter(text=texts_vec,x=X[:, 0], y=X[:, 1],range_x=[-100,350])
fig.update_traces(textposition='top center')
fig.update_layout(title='Representação de entidades')
fig.show()

### Treino Tweets


In [None]:
tweets_valor = df['Text'].values
classes_valor = df['Classificacao'].values

### Construindo o modelo

In [None]:
vectorizer = CountVectorizer(analyzer = "word")
freq_tweets = vectorizer.fit_transform(tweets_valor)

SEED = 42
np.random.seed(SEED)

modelo = MultinomialNB()
modelo.fit(freq_tweets, classes_valor)

### Testando modelo

In [None]:
tweets_valor = titulos_tratados.Tratados
freq_testes = vectorizer.transform(tweets_valor)
sentimento_tratado = modelo.predict(freq_testes)

In [None]:
titulos_tratados.insert(1,'Sentimentos',sentimento_tratado)

### Usando a classificação do Tweets para treinar o Noticias

In [None]:
titulos_tratados

### Transformando em uma to disc para grava no Mongo

In [None]:
dicionario = titulos_tratados.to_dict('list')
tweets_noticias = ((dicionario))

### Gravando Tratados e Sentimento no Mongo

In [None]:
tweets_noticias_valor = tweets_noticias

if not gravando.find_one(tweets_noticias_valor):       
  gravando_banco = gravando.insert_one(tweets_noticias_valor)
  print(f"Gravado com sucesso!")
else:
    print(f'Já Existe')

### Avaliando modelo

In [None]:
resultados = cross_val_predict(modelo, freq_tweets, classes_valor, cv = 10)
resultados

### Acuracia

In [None]:
metrics.accuracy_score(classes_valor, resultados)

### Medidas de validação

In [None]:
sentimentos = ["Positivo", "Negativo", "Neutro"]
print(metrics.classification_report(classes_valor, resultados, sentimentos))

### Matriz de confusão

In [None]:
print(pd.crosstab(classes_valor, resultados, rownames = ["Real"], colnames=["Predito"], margins=True))