# PGC - Coleta de Dados e Criação da Base de Dados

In [1]:
import re
import cv2
import time
import spacy

import igraph as ig
import pandas as pd
import matplotlib.pyplot as plt

from wordcloud import WordCloud
from matplotlib.colors import ListedColormap

regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ0-9]+"

Abrindo o corpus e armazenando o conteúdo completo em *content* e as linhas em *paragraphs*.

In [2]:
fileName = "corpus-textos-DC-01-10.txt"

document = open(fileName,'r', encoding='utf-8')
content  = document.read()

document = open(fileName,'r', encoding='utf-8')
paragraphs = document.readlines()

words = re.findall(regex, content)

print (f"Quantidade de palavras: {len(words)}") 

Quantidade de palavras: 115525


Removendo parágrafos em branco. Esses parágrafos foram adicionados ao *corpus* apenas para que ficasse mais fácil de ler.

In [3]:
for paragraph in paragraphs:
    if paragraph == "\n":
        paragraphs.remove(paragraph)

In [4]:
print(f"Quantidade de parágrafos de conteúdo: {len(paragraphs)}")

Quantidade de parágrafos de conteúdo: 2224


Quantas palavras diferentes estão presentes no *corpus*? Quantas vezes cada uma dessas palavras aparece no *corpus*?

In [5]:
frequencies = dict([])
for w in words:
    w = w.lower()
    if w not in frequencies:
        frequencies[w] = 0
    frequencies[w] += 1
print (f"Tamanho do vocabulário: {len(frequencies)}")

Tamanho do vocabulário: 14932


In [6]:
fs = sorted(frequencies, key=frequencies.get, reverse=True)
print("Freq\t -\t Palavra")
for i in range(0,20):
    print (f"{frequencies[fs[i]]}\t -\t {fs[i]}")

Freq	 -	 Palavra
5600	 -	 de
3571	 -	 a
3533	 -	 e
3095	 -	 que
2864	 -	 o
1803	 -	 em
1586	 -	 da
1568	 -	 do
1448	 -	 é
1417	 -	 um
1284	 -	 para
1161	 -	 com
1151	 -	 uma
983	 -	 os
882	 -	 por
880	 -	 no
869	 -	 como
842	 -	 não
824	 -	 na
738	 -	 se


Quantidade e frequência das palavras após a remoção de *stopwords*.

In [7]:
stopwordsPTfile = open("stopwords-pt.txt",'r', encoding='utf-8')
stopwords = set([]) 
for s in stopwordsPTfile.readlines():
    stopwords.add(s.strip().lower())
    
frequencies = dict([])
for w in words:
    w = w.lower()
    if w not in stopwords:
        if w not in frequencies:
            frequencies[w] = 0
        frequencies[w] += 1
        
print (f"Tamanho do vocabulário (sem stopwords): {len(frequencies)}")

Tamanho do vocabulário (sem stopwords): 14607


In [8]:
fs = sorted(frequencies, key=frequencies.get, reverse=True)
print("Freq\t -\t Palavra")
for i in range(0,20):
    print (f"{frequencies[fs[i]]}\t -\t {fs[i]}")

Freq	 -	 Palavra
239	 -	 ciência
231	 -	 água
155	 -	 ---
142	 -	 tempo
125	 -	 exemplo
125	 -	 luz
115	 -	 vida
114	 -	 mundo
112	 -	 história
105	 -	 pesquisa
104	 -	 química
103	 -	 cientistas
95	 -	 animais
93	 -	 brasil
90	 -	 terra
87	 -	 física
86	 -	 estudos
86	 -	 moléculas
84	 -	 vírus
80	 -	 científica


In [9]:
textos_por_palavra = []
palavras = []

for word in words:
    if(word != "---"):
        palavras.append(word)
    else:
        textos_por_palavra.append(palavras)
        palavras = []

In [10]:
textos_por_paragrafo = []
paragrafos = []

for paragraph in paragraphs:
    if(paragraph != "---\n"):
        paragrafos.append(paragraph[:-1])
    else:
        textos_por_paragrafo.append(paragrafos)
        paragrafos = []

In [11]:
i = 154

Texto *i* como um vetor de palavras.

In [12]:
print(textos_por_palavra[i])

['Qual', 'a', 'diferença', 'entre', 'rinite', 'e', 'sinusite', 'acessibilidade', 'Ilustração', 'de', 'um', 'homem', 'espirrando', 'em', 'um', 'lenço', 'Existem', 'duas', 'ites', 'que', 'acometem', 'nossas', 'vias', 'aéreas', 'no', 'inverno', 'e', 'no', 'período', 'de', 'ar', 'seco', 'são', 'elas', 'sinusite', 'e', 'rinite', 'Estas', 'duas', 'inflamações', 'podem', 'se', 'manifestar', 'sempre', 'que', 'a', 'pessoa', 'tiver', 'contato', 'com', 'algum', 'patógeno', 'ou', 'com', 'substâncias', 'alergênicas', 'Elas', 'podem', 'ocorrer', 'juntas', 'ou', 'isoladamente', 'e', 'em', 'muitos', 'casos', 'a', 'rinite', 'pode', 'acarretar', 'a', 'sinusite', 'Mas', 'afinal', 'você', 'sabe', 'diferenciar', 'as', 'duas', 'A', 'rinite', 'é', 'uma', 'inflamação', 'que', 'acomete', 'as', 'mucosas', 'do', 'nariz', 'e', 'essa', 'inflamação', 'ocorre', 'por', 'conta', 'de', 'infecções', 'virais', 'ou', 'de', 'alergias', 'A', 'rinite', 'alérgica', 'é', 'mais', 'comum', 'e', 'é', 'provocada', 'por', 'partícul

Texto *i* como um vetor de *strings* em que cada *string* é um parágrafo do texto.

In [13]:
print(textos_por_paragrafo[i])

['Qual a diferença entre rinite e sinusite?', '#acessibilidade Ilustração de um homem espirrando em um lenço.', 'Existem duas “ites” que acometem nossas vias aéreas no inverno e no período de ar seco, são elas: sinusite e rinite. Estas duas inflamações podem se manifestar sempre que a pessoa tiver contato com algum patógeno ou com substâncias alergênicas. Elas podem ocorrer juntas ou isoladamente, e em muitos casos a rinite pode acarretar a sinusite. Mas, afinal, você sabe diferenciar as duas?', 'A rinite é uma inflamação que acomete as mucosas do nariz, e essa inflamação ocorre por conta de infecções virais ou de alergias. A rinite alérgica é mais comum e é provocada por partículas estranhas ao nosso corpo como pelos de animais e poeira. Os sintomas geralmente são coceira no nariz, coriza, obstrução nasal, espirro, dor de cabeça e nos olhos. Os tratamentos envolvem antialérgicos, vacinas contra alergias e corticoides.', 'Já a sinusite é uma inflamação nas mucosas dos seios da face, qu

## Criação dos atributos

Criação dos atributos tamanho do título, média de caracteres nos parágrafos, número de palavras e número de parágrafos.

In [14]:
tamanhoTitulo = []
for i in range (len(textos_por_paragrafo)):
    tamanhoTitulo.append(len(textos_por_paragrafo[i][0]))

print("Tamanho do título:\n",tamanhoTitulo)

Tamanho do título:
 [40, 22, 65, 20, 56, 32, 36, 52, 31, 71, 46, 21, 37, 29, 37, 39, 54, 24, 14, 25, 24, 40, 23, 40, 70, 45, 32, 22, 36, 33, 25, 26, 52, 63, 36, 45, 51, 18, 34, 11, 74, 35, 20, 22, 15, 64, 23, 40, 37, 42, 52, 78, 48, 23, 71, 7, 28, 27, 44, 7, 27, 26, 29, 46, 57, 42, 53, 40, 29, 52, 45, 68, 45, 74, 54, 33, 36, 56, 45, 69, 25, 32, 27, 51, 36, 46, 42, 27, 66, 43, 42, 78, 60, 38, 22, 61, 38, 25, 91, 37, 52, 65, 49, 31, 68, 61, 37, 31, 55, 30, 34, 43, 21, 26, 37, 22, 51, 59, 71, 40, 57, 30, 34, 48, 51, 39, 34, 19, 20, 62, 40, 40, 83, 76, 48, 20, 29, 43, 49, 43, 66, 36, 42, 74, 70, 36, 48, 46, 35, 63, 17, 30, 38, 42, 41]


In [15]:
mediaParagrafos = []
#tamanhoParagrafos = []
aux = []
#maior = 0
#txtMaior = 0
#parMaior = 0

for i in range (len(textos_por_paragrafo)):
    for j in range (1,len(textos_por_paragrafo[i])-1):
        aux.append(len(textos_por_paragrafo[i][j]))
        
        #if len(textos_por_paragrafo[i][j]) > maior:
        #    maior = len(textos_por_paragrafo[i][j])
        #    
        #    txtMaior = i
        #    parMaior = j
    
    mediaParagrafos.append(round(sum(aux)/len(aux)))
    #tamanhoParagrafos.append(aux)
    aux = []

#print("Maior parágrafo tem",len(textos_por_paragrafo[txtMaior][parMaior]),
#      "caracteres\nTexto:",textos_por_paragrafo[txtMaior][0],
#      "\nParágrafo:\n\t",textos_por_paragrafo[txtMaior][parMaior])

print("Média de parágrafos:\n", mediaParagrafos)

Média de parágrafos:
 [308, 204, 180, 514, 340, 332, 472, 384, 478, 378, 265, 337, 440, 530, 342, 335, 464, 219, 518, 313, 563, 247, 301, 539, 584, 355, 451, 249, 506, 419, 387, 436, 212, 304, 612, 570, 482, 476, 562, 589, 294, 353, 316, 443, 571, 496, 555, 421, 474, 504, 184, 434, 240, 484, 358, 636, 290, 388, 240, 218, 242, 466, 476, 547, 406, 358, 599, 302, 545, 300, 540, 655, 608, 559, 567, 423, 472, 303, 391, 356, 532, 424, 398, 368, 672, 428, 425, 395, 432, 183, 645, 267, 460, 324, 309, 788, 602, 684, 294, 274, 430, 246, 460, 435, 685, 426, 460, 431, 321, 293, 342, 689, 408, 416, 171, 615, 460, 234, 809, 377, 976, 313, 477, 571, 316, 350, 392, 811, 646, 739, 645, 480, 348, 760, 404, 514, 553, 443, 519, 287, 627, 462, 490, 146, 690, 317, 249, 340, 722, 367, 511, 632, 349, 367, 320]


In [16]:
nPalavras = []
nParagrafos = []

for i in range (len(textos_por_palavra)):
    nPalavras.append(len(textos_por_palavra[i]))
    nParagrafos.append(len(textos_por_paragrafo[i]))
    
print("Número de palavras\n", nPalavras)
print("\nNúmero de parágrafos\n", nParagrafos)

Número de palavras
 [345, 532, 913, 322, 557, 400, 400, 345, 577, 1129, 439, 311, 300, 516, 345, 449, 341, 799, 609, 714, 612, 375, 236, 438, 766, 381, 371, 1757, 330, 339, 292, 355, 203, 1052, 619, 363, 435, 487, 426, 678, 584, 529, 271, 691, 1079, 335, 1044, 583, 511, 668, 1031, 631, 348, 678, 342, 855, 768, 913, 515, 327, 389, 1702, 1153, 1124, 758, 947, 392, 443, 706, 1324, 810, 851, 816, 472, 697, 367, 406, 613, 973, 737, 576, 1228, 1441, 1452, 1252, 1249, 1309, 533, 1171, 651, 1341, 731, 1200, 687, 782, 749, 580, 1152, 749, 552, 1083, 685, 756, 1236, 779, 934, 554, 606, 564, 1219, 437, 1011, 987, 563, 788, 652, 608, 759, 954, 608, 1219, 886, 812, 835, 778, 443, 618, 654, 1048, 1011, 713, 917, 547, 1111, 788, 708, 948, 892, 1097, 673, 2046, 754, 1978, 724, 883, 965, 756, 803, 1026, 903, 926, 750, 667, 761, 321]

Número de parágrafos
 [9, 18, 33, 6, 13, 9, 7, 7, 9, 20, 11, 7, 7, 8, 8, 10, 7, 23, 9, 16, 9, 11, 7, 7, 10, 8, 7, 46, 6, 7, 7, 7, 8, 23, 8, 6, 8, 8, 7, 10, 14, 11, 7, 11, 

Postagging para criação dos atributos 'numSub', 'numAdj', 'numVrb', 'numNEs', 'numDet', 'numConj', 'numAdv', 'numAdp' e 'numNum'.

In [None]:
postagging = spacy.load('pt_core_news_lg')

Exemplo para o título do texto 117.

In [None]:
parsedData = postagging(textos_por_paragrafo[117][0])
print(parsedData,"\n")

for j,word in enumerate(parsedData):
    print("Palavra:",word.text,"\nPostag:",word.pos_,"\n")

In [None]:
for word in parsedData:
    if word.ent_type_:
        print(word.text, word.ent_type_)

In [None]:
t=time.perf_counter()

nNounsTotal = []
nAdjTotal = []
nVerbTotal = []
nNesTotal = []
nDetTotal = []
nConjTotal = []
nAdvTotal = []
nAdpTotal = []
nNumTotal = []
palavras_desconhecidas = []

for k in range (len(textos_por_paragrafo)):
    nNouns = 0
    nAdj = 0
    nVerb = 0
    nNes = 0
    nDet = 0
    nConj = 0
    nAdv = 0
    nAdp = 0
    nNum = 0
    
    for l in range (len(textos_por_paragrafo[k])):        
        parsedData = postagging(textos_por_paragrafo[k][l])
        
        for j,palavra in enumerate(parsedData):
            tag = palavra.pos_
            if tag in ["NOUN","PROPN"]:
                nNouns += 1
            elif tag in ["ADJ"]:
                nAdj += 1
            elif tag in ["VERB"]:
                nVerb += 1
            elif tag in ["DET"]:
                nDet += 1
            elif tag in ["CONJ","CCONJ"]:
                nConj += 1
            elif tag in ["ADV"]:
                nAdv += 1
            elif tag in ["NUM"]:
                nNum += 1
            elif tag in ["ADP"]:
                nAdp += 1
            elif tag in ["X"]:
                palavras_desconhecidas.append(palavra)
            if palavra.ent_type_:
                nNes += 1

    nNounsTotal.append(round(nNouns/nPalavras[k],4))
    nAdjTotal.append(round(nAdj/nPalavras[k],4))
    nVerbTotal.append(round(nVerb/nPalavras[k],4))
    nNesTotal.append(round(nNes/nPalavras[k],4))
    nDetTotal.append(round(nDet/nPalavras[k],4))
    nConjTotal.append(round(nConj/nPalavras[k],4))
    nAdvTotal.append(round(nAdv/nPalavras[k],4))
    nAdpTotal.append(round(nAdp/nPalavras[k],4))
    nNumTotal.append(round(nNum/nPalavras[k],4))

print(round(time.perf_counter()-t,3), "segundos")

In [None]:
print("Substantivos (%):\n",nNounsTotal)
print("\nAdjetivos (%):\n",nAdjTotal)
print("\nVerbos (%):\n",nVerbTotal)
print("\nEntidades nomeadas (%):\n",nNesTotal)
print("\nDeterminantes (%):\n",nDetTotal)
print("\nConjunções (%):\n",nConjTotal)
print("\nAdvérbios (%):\n",nAdvTotal)
print("\nAdposições (%):\n",nAdpTotal)
print("\nNumerais (%):\n",nNumTotal)
print("\nPalavras desconhecidas:\n",palavras_desconhecidas)

Criação do atributo 'Pergunta'.

In [None]:
titulos = []
for i in range (len(textos_por_paragrafo)):
    titulos.append(textos_por_paragrafo[i][0])
    
pergunta = []
for titulo in titulos:
    if(titulo.find('?') != -1):
        pergunta.append(1)
    else:
        pergunta.append(0)

print("Há uma pergunta no título?\n", pergunta)

Visualizando todos os títulos.

In [None]:
for i in range (len(textos_por_paragrafo)):
    print(textos_por_paragrafo[i][0])

Criação do atributo 'refs', 

In [None]:
col_list = ["Post","Área","Rel1","Rel2","Rel3"]
relacionados = pd.read_excel("dataset-pgc-manual.xlsx", usecols=col_list)
relacionados.head()

In [None]:
edges = []
    
for i in range (len(relacionados)):
    rel = []
    rel.append(list(relacionados[relacionados['Post'][i] == relacionados['Rel1']].index))
    rel.append(list(relacionados[relacionados['Post'][i] == relacionados['Rel2']].index))
    rel.append(list(relacionados[relacionados['Post'][i] == relacionados['Rel3']].index))

    for j in range (len(rel)):
        for k in range (len(rel[j])):
            edges.append([rel[j][k],i])
    
print("Arestas:\n", edges)

In [None]:
g = ig.Graph(directed=True)
g.add_vertices(len(df))

for i in range(len(g.vs)):
    g.vs[i]["id"]= i
    g.vs[i]["area"]= df['Área'][i]
    g.vs[i]["label"]= str(i)

g.add_edges(edges)

In [None]:
print("Número de vértices no grafo:", g.vcount())
print("Número de arestas no grafo:", g.ecount())
print("Grau máximo no grafo:", g.maxdegree())

In [None]:
refs = []
#layers = []
for i in range (len(df)):
    refs.append(len(g.neighbors(i, mode='IN')))
    #layers.append(abs(refs[i]-17))
print("Referências:\n", refs)
#print(layers)

In [None]:
visual_style = {}
out_name = "graph.pdf"

color_dict = {"Biologia": "green",
              "Ciência": "red",
              "Química": "yellow",
              "Física": "blue",
              "História": "pink",
              "Medicina": "cyan",
              "Astronomia": "orange",
              "Atualidades": "brown",
              "Matemática": "olive",
              "Psicologia": "purple",
              "Tecnologia": "gray"}

visual_style["layout"] = g.layout_sugiyama(layers=layers, hgap=100.0, vgap=2000.0)
#layout = g.layout_sugiyama(layers=layers, hgap=110, vgap=1000)
#layout_bounding_box = layout.bounding_box()
#layout.translate((-1*layout_bounding_box.left, -1*layout_bounding_box.top))
#layout_bounding_box = layout.bounding_box()
visual_style["bbox"] = (12000,4000)
visual_style["margin"] = 100
visual_style["vertex_size"] = 70
visual_style["vertex_label_size"] = 30
visual_style["edge_curved"] = False
visual_style["edge_widht"] = 2
edges_colors = []
for i in range (len(g.es)): edges_colors.append(g.vs[g.es[i].source]["area"])
visual_style["edge_color"] = [color_dict[area] for area in edges_colors]
visual_style["vertex_color"] = [color_dict[area] for area in g.vs["area"]]
#visual_style["layout"] = g.layout_lgl()

#ig.plot(g, out_name, keep_aspect_ratio=True, layout=layout, bbox=layout_bounding_box, **visual_style);
ig.plot(g, out_name, **visual_style);

In [None]:
i = 149
print(f"Texto {i} - {textos_por_paragrafo[i][0][:-1]}")
print(f"Autor: {textos_por_paragrafo[i][-1][:-1]}")
print(f"Número de palavras: {nPalavras[i]}")
print(f"Número de parágrafos: {nParagrafos[i]}") ####### Título e Autor contam como parágrafos
print(f"Número de substantivos: {nNounsTotal[i]}")
print(f"Número de adjetivos: {nAdjTotal[i]}")
print(f"Número de verbos: {nVerbTotal[i]}")
print(f"Número de Entidades Nomeadas: {nNesTotal[i]}")
print(f"Número de Determinantes:",nDetTotal[i])
print(f"Número de Conjunções:",nConjTotal[i])
print(f"Número de Advérbios:",nAdvTotal[i])
print(f"Número de Adposições:",nAdpTotal[i])
print(f"Número de Numerais:",nNumTotal[i])
print(f"Tamanho médio dos parágrafos:",mediaParagrafos[i])
print(f"Número de caracteres do título:",tamanhoTitulo[i])
print(f"Número de Desconhecidos:",xTotal[i])
print(f"É uma pergunta?: {pergunta[i]}")
print(f"Vezes relacionado: {refs[i]}")

In [None]:
nomes = ['numPal', 'numPar','numSub', 'numAdj', 'numVrb', 'numNEs','numDet',
         'numConj','numAdv','numAdp','numNum','Pergunta','tamMedioParagraf','tamTitulo', 'refs']
df = pd.DataFrame(list(zip(nPalavras, nParagrafos, nNounsTotal, nAdjTotal, nVerbTotal, nNesTotal,
                           nDetTotal, nConjTotal, nAdvTotal, nAdpTotal, nNumTotal, 
                           pergunta, mediaParagrafos, tamanhoTitulo, refs)),columns=nomes)

In [None]:
print(df.head())
df.to_excel('dataset-pln.xlsx', index = False)

In [None]:
for i in range (len(textos_por_paragrafo)):
    print(textos_por_paragrafo[i][-1][:-1])

In [None]:
mask = cv2.imread("logo3.png")

colormap = ListedColormap(['green','#9DA219','black'])
cloud = WordCloud(background_color='white',
                 colormap=colormap,
                 max_words=100,
                 mask=mask)

cloud.fit_words(frequencies)
plt.imshow(cloud);
cloud.to_file('cloud2.png');