# Statis

## Carregar os corpora

In [1]:
import os
import copy
import numpy
from utils import lexical, tui
from nltk.corpus import stopwords
from string import punctuation
from prettytable import PrettyTable

stop_words = set(stopwords.words('portuguese') + list(punctuation) + [ '”', '“', '–'])

## Carregar corpora

In [2]:
BASE_DIR = '../data/corpora'

corpus_ocultismo = []
for dir in os.listdir('{}/ocultismo'.format(BASE_DIR)):
    with open('{}/ocultismo/{}'.format(BASE_DIR, dir), 'r') as fl:
        corpus_ocultismo.append(fl.readlines())
        
corpus_tecnologia = []
for dir in os.listdir('{}/tecnologia'.format(BASE_DIR)):
    with open('{}/tecnologia/{}'.format(BASE_DIR, dir), 'r') as fl:
        corpus_tecnologia.append(fl.readlines())

In [3]:
print('size ocultismo:', len(corpus_ocultismo))
print('size tecnologia:', len(corpus_tecnologia))

size ocultismo: 506
size tecnologia: 510


## Frequência de palavras

## Corpus Ocultismo

In [4]:
PP = lexical.Preprocessing()
P = tui.Progress(len(corpus_ocultismo), 'ocultismo')

freq_words = {}
sent_sizes = []
paragraphs_sizes = []
docs_size = []
for doc in corpus_ocultismo:
    docs_size.append(len(doc))
    
    for p in doc:
        sentences = PP.tokenize_sentences(p)
        paragraphs_sizes.append(len(sentences))
        
        for sent in sentences:
            sent_size = 0
            
            s = PP.remove_punctuation(sent)
            for word in PP.tokenize_words(s):
                sent_size += 1
                
                w = PP.lowercase(word)
                try:
                    freq_words[w] += 1
                except KeyError:
                    freq_words[w] = 1
                    
            sent_sizes.append(sent_size)
            
    P.progressStep()



### 20 palavras mais usadas

In [5]:
fql = [ x for x in list(freq_words.items()) if x not in stop_words ]
fql.sort(key=lambda x: x[1], reverse=True)

pt = PrettyTable()
pt.field_names = [ 'Posição', 'Palavra', 'Quantidade' ]
for i in range(20):
    pt.add_row((i+1, fql[i][0], fql[i][1]))
print(pt)

+---------+---------+------------+
| Posição | Palavra | Quantidade |
+---------+---------+------------+
|    1    |    de   |   20965    |
|    2    |   que   |   18129    |
|    3    |    a    |   16477    |
|    4    |    e    |   15949    |
|    5    |    o    |   15335    |
|    6    |    é    |    9810    |
|    7    |   não   |    7471    |
|    8    |    um   |    7013    |
|    9    |    do   |    6893    |
|    10   |    em   |    6337    |
|    11   |    da   |    6261    |
|    12   |   uma   |    6037    |
|    13   |   para  |    5964    |
|    14   |    se   |    5391    |
|    15   |   com   |    5161    |
|    16   |    os   |    4391    |
|    17   |   como  |    4273    |
|    18   |   por   |    3805    |
|    19   |   mais  |    3426    |
|    20   |    no   |    3380    |
+---------+---------+------------+


### 20 palavras menos usadas

In [6]:
pt = PrettyTable()
pt.field_names = [ 'Posição', 'Palavra', 'Quantidade' ]
for i in range(len(fql)-1, len(fql)-21, -1):
    pt.add_row((i+1, fql[i][0], fql[i][1]))
print(pt)

+---------+--------------+------------+
| Posição |   Palavra    | Quantidade |
+---------+--------------+------------+
|  35966  |   retenha    |     1      |
|  35965  |   excluame   |     1      |
|  35964  |    rabiah    |     1      |
|  35963  |   ascética   |     1      |
|  35962  |  sofressem   |     1      |
|  35961  |   mcdonald   |     1      |
|  35960  |   megafone   |     1      |
|  35959  |   sussurra   |     1      |
|  35958  | narcisística |     1      |
|  35957  |  privandoas  |     1      |
|  35956  |    aliás…    |     1      |
|  35955  |  ensinavam   |     1      |
|  35954  |  confortos   |     1      |
|  35953  |  agraciado   |     1      |
|  35952  |   utópica    |     1      |
|  35951  |  paradoxais  |     1      |
|  35950  |  sucedidos   |     1      |
|  35949  |  tristezas   |     1      |
|  35948  |  reprimindo  |     1      |
|  35947  |   moderar    |     1      |
+---------+--------------+------------+


### Tamanhos médios

In [7]:
print('Tamanho médio das sentenças: {:.02f}'.format(numpy.average(sent_sizes)))

word_sizes = [ len(x[0]) for x in fql ]
numpy.mean(word_sizes)
print('Tamanho médio das palavras: {:.02f}'.format(numpy.average(word_sizes)))

print('Tamanho médio dos pagrafos em sentenças: {:.02f}'.format(numpy.average(paragraphs_sizes)))
print('Tamanho médio dos documentos em pagrafos: {:.02f}'.format(numpy.average(docs_size)))

Tamanho médio das sentenças: 16.71
Tamanho médio das palavras: 8.27
Tamanho médio dos pagrafos em sentenças: 2.79
Tamanho médio dos documentos em pagrafos: 23.96


## Corpus Tecnologia

In [8]:
PP = lexical.Preprocessing()
P = tui.Progress(len(corpus_ocultismo), 'tecnologia')

freq_words = {}
sent_sizes = []
paragraphs_sizes = []
docs_size = []
for doc in corpus_tecnologia:
    docs_size.append(len(doc))
    
    for p in doc:
        sentences = PP.tokenize_sentences(p)
        paragraphs_sizes.append(len(sentences))
        
        for sent in sentences:
            sent_size = 0
            
            s = PP.remove_punctuation(sent)
            for word in PP.tokenize_words(s):
                sent_size += 1
                
                w = PP.lowercase(word)
                try:
                    freq_words[w] += 1
                except KeyError:
                    freq_words[w] = 1
                    
            sent_sizes.append(sent_size)
            
    P.progressStep()



### 20 Palavras mais usadas

In [9]:
fql = [ x for x in list(freq_words.items()) if x not in stop_words ]
fql.sort(key=lambda x: x[1], reverse=True)

pt = PrettyTable()
pt.field_names = [ 'Posição', 'Palavra', 'Quantidade' ]
for i in range(20):
    pt.add_row((i+1, fql[i][0], fql[i][1]))
print(pt)

+---------+---------+------------+
| Posição | Palavra | Quantidade |
+---------+---------+------------+
|    1    |    de   |    9909    |
|    2    |    a    |    7198    |
|    3    |    o    |    6988    |
|    4    |    e    |    5243    |
|    5    |   que   |    4919    |
|    6    |   com   |    3496    |
|    7    |   para  |    3274    |
|    8    |    em   |    2999    |
|    9    |    é    |    2757    |
|    10   |    um   |    2708    |
|    11   |    do   |    2375    |
|    12   |    da   |    1915    |
|    13   |   uma   |    1849    |
|    14   |    no   |    1843    |
|    15   |   mais  |    1834    |
|    16   |   não   |    1731    |
|    17   |    os   |    1731    |
|    18   |   por   |    1454    |
|    19   |    na   |    1196    |
|    20   |   como  |    1156    |
+---------+---------+------------+


### 20 Palavras menos usadas

In [10]:
pt = PrettyTable()
pt.field_names = [ 'Posição', 'Palavra', 'Quantidade' ]
for i in range(len(fql)-1, len(fql)-21, -1):
    pt.add_row((i+1, fql[i][0], fql[i][1]))
print(pt)

+---------+---------------+------------+
| Posição |    Palavra    | Quantidade |
+---------+---------------+------------+
|  13398  |      3647     |     1      |
|  13397  |    lga3647    |     1      |
|  13396  |    sugeriu    |     1      |
|  13395  |    hc1000b    |     1      |
|  13394  |     hailea    |     1      |
|  13393  |   empolgação  |     1      |
|  13392  | representante |     1      |
|  13391  |    derreter   |     1      |
|  13390  |    confessa   |     1      |
|  13389  |      4229     |     1      |
|  13388  |    aceitar    |     1      |
|  13387  |   episódios   |     1      |
|  13386  |      4h30     |     1      |
|  13385  |   atrasados   |     1      |
|  13384  |     tédio     |     1      |
|  13383  |    alecrim    |     1      |
|  13382  |     house     |     1      |
|  13381  |    terrace    |     1      |
|  13380  |      plug     |     1      |
|  13379  |    mediana    |     1      |
+---------+---------------+------------+


### Tamanhos médios

In [11]:
print('Tamanho médio das sentenças: {:.02f}'.format(numpy.average(sent_sizes)))

word_sizes = [ len(x[0]) for x in fql ]
numpy.mean(word_sizes)
print('Tamanho médio das palavras: {:.02f}'.format(numpy.average(word_sizes)))

print('Tamanho médio dos pagrafos em sentenças: {:.02f}'.format(numpy.average(paragraphs_sizes)))
print('Tamanho médio dos documentos em pagrafos: {:.02f}'.format(numpy.average(docs_size)))

Tamanho médio das sentenças: 19.74
Tamanho médio das palavras: 7.37
Tamanho médio dos pagrafos em sentenças: 1.97
Tamanho médio dos documentos em pagrafos: 10.74
