# Statis

## Carregar os corpora

In [2]:
import os
import copy
import numpy
from utils import lexical, tui
from nltk.corpus import stopwords
from string import punctuation
from prettytable import PrettyTable

stop_words = set(stopwords.words('portuguese') + list(punctuation) + [ '”', '“', '–'])

## Carregar corpora

In [4]:
BASE_DIR = '../data/corpora'

corpus_ocultismo = []
for dir in os.listdir('{}/ocultismo'.format(BASE_DIR)):
    with open('{}/ocultismo/{}'.format(BASE_DIR, dir), 'r') as fl:
        corpus_ocultismo.append(fl.readlines())
        
corpus_games = []
for dir in os.listdir('{}/games'.format(BASE_DIR)):
    with open('{}/games/{}'.format(BASE_DIR, dir), 'r') as fl:
        corpus_games.append(fl.readlines())

In [5]:
print('size ocultismo:', len(corpus_ocultismo))
print('size games:', len(corpus_games))

size ocultismo: 506
size games: 10


## Frequência de palavras

In [6]:
PP = lexical.Preprocessing()
P = tui.Progress(len(corpus_ocultismo), 'ocultismo')

freq_words = {}
sent_sizes = []
for doc in corpus_ocultismo:
    for p in doc:
        for sent in PP.tokenize_sentences(p):
            sent_size = 0
            
            s = PP.remove_punctuation(sent)
            for word in PP.tokenize_words(s):
                sent_size += 1
                
                w = PP.lowercase(word)
                try:
                    freq_words[w] += 1
                except KeyError:
                    freq_words[w] = 1
            sent_sizes.append(sent_size)
    P.progressStep()



## Corpus Ocultismo

### 20 palavras mais usadas

In [25]:
fql = [ x for x in list(freq_words.items()) if x not in stop_words ]
fql.sort(key=lambda x: x[1], reverse=True)

pt = PrettyTable()
pt.field_names = [ 'Posição', 'Palavra', 'Quantidade' ]
for i in range(20):
    pt.add_row((i+1, fql[i][0], fql[i][1]))
print(pt)

+---------+---------+------------+
| Posição | Palavra | Quantidade |
+---------+---------+------------+
|    1    |    de   |   20965    |
|    2    |   que   |   18129    |
|    3    |    a    |   16477    |
|    4    |    e    |   15949    |
|    5    |    o    |   15335    |
|    6    |    é    |    9810    |
|    7    |   não   |    7471    |
|    8    |    um   |    7013    |
|    9    |    do   |    6893    |
|    10   |    em   |    6337    |
|    11   |    da   |    6261    |
|    12   |   uma   |    6037    |
|    13   |   para  |    5964    |
|    14   |    se   |    5391    |
|    15   |   com   |    5161    |
|    16   |    os   |    4391    |
|    17   |   como  |    4273    |
|    18   |   por   |    3805    |
|    19   |   mais  |    3426    |
|    20   |    no   |    3380    |
+---------+---------+------------+


### 20 palavras menos usadas

In [26]:
pt = PrettyTable()
pt.field_names = [ 'Posição', 'Palavra', 'Quantidade' ]
for i in range(len(fql)-1, len(fql)-21, -1):
    pt.add_row((i+1, fql[i][0], fql[i][1]))
print(pt)

+---------+--------------+------------+
| Posição |   Palavra    | Quantidade |
+---------+--------------+------------+
|  35966  |   retenha    |     1      |
|  35965  |   excluame   |     1      |
|  35964  |    rabiah    |     1      |
|  35963  |   ascética   |     1      |
|  35962  |  sofressem   |     1      |
|  35961  |   mcdonald   |     1      |
|  35960  |   megafone   |     1      |
|  35959  |   sussurra   |     1      |
|  35958  | narcisística |     1      |
|  35957  |  privandoas  |     1      |
|  35956  |    aliás…    |     1      |
|  35955  |  ensinavam   |     1      |
|  35954  |  confortos   |     1      |
|  35953  |  agraciado   |     1      |
|  35952  |   utópica    |     1      |
|  35951  |  paradoxais  |     1      |
|  35950  |  sucedidos   |     1      |
|  35949  |  tristezas   |     1      |
|  35948  |  reprimindo  |     1      |
|  35947  |   moderar    |     1      |
+---------+--------------+------------+


In [23]:
print('Tamanho médio das sentenças: {:.02f}'.format(numpy.average(sent_sizes)))

word_sizes = [ len(x[0]) for x in fql ]
numpy.mean(word_sizes)
print('Tamanho médio das palavras: {:.02f}'.format(numpy.average(word_sizes)))

Tamanho médio das sentenças: 16.71
Tamanho médio das palavras: 8.27


8.272980036701329