In [1]:
import sys
sys.path.insert(0, "..")

import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords') 
nltk.download('perluni') 
nltk.download('nonbreaking_prefixes')

from corpus_processor import CorpusProcessor
from text_stats import TextStats
from pprint import pprint
from typing import List

[nltk_data] Downloading package punkt to /home/matheus/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/matheus/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/matheus/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Error loading perluni: Package 'perluni' not found in
[nltk_data]     index
[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /home/matheus/nltk_data...
[nltk_data]   Package nonbreaking_prefixes is already up-to-date!


In [2]:
def display_stats(stats: TextStats, title=None) -> None:
    frequencies = stats.extract_frequencies()
    num_sentencas = stats.get_num_sentences()
    num_tokens = stats.get_num_tokens()
    num_tokens_unicos = stats.get_num_unique_tokens()

    top_10_tokens = frequencies[['Token', 'Freq']].head(10)
    down_10_tokens = frequencies[['Token', 'Freq']].tail(10)

    contagens = stats.count_by_pos_tag()

    subs_comuns = contagens['NOUN']
    subs_proprios = contagens['PROPN']
    num_verbos = contagens['VERB']
    num_preposicoes = contagens['ADP']

    print('-' * 10)
    if title:
        print(f"Texto: {title}")
    print('\nESTATÍSTICAS:\n')
    print(f'Número de Sentenças: {num_sentencas}\n')
    print(f'Número de Tokens: {num_tokens}\n')
    print(f'Número de Tokens únicos: {num_tokens_unicos}\n')
    print(f'Top 10 Tokens')
    pprint(top_10_tokens)
    print()
    print(f'Down 10 Tokens')
    pprint(down_10_tokens)
    print()
    print(f"Num. substantivos comuns: {subs_comuns}",)
    print(f"Num. substantivos próprios: {subs_proprios}")
    print(f"Total: {subs_comuns + subs_proprios}\n",)
    print(f"Número de Verbos: {num_verbos}\n")
    print(f"Número de Preposicoes: {num_preposicoes}\n")

def display_agg_stats(stats_list: List[TextStats]) -> None:
    num_tokens, num_tokens_unicos, num_sentencas = 0, 0, 0
    num_docs = len(stats_list)
    for stats in stats_list:
        num_tokens += stats.get_num_tokens()
        num_tokens_unicos += stats.get_num_unique_tokens()
        num_sentencas += stats.get_num_sentences()
    
    avg_num_tokens = float(num_tokens) / num_docs
    avg_num_tokens_unicos = float(num_tokens_unicos) / num_docs
    avg_num_sentencas = float(num_sentencas) / num_docs

    print('-' * 10)
    print('\nESTATÍSTICAS AGREGADAS:\n')
    print(f'Número Médio de Sentenças: {avg_num_sentencas}\n')
    print(f'Número Médio de Tokens: {avg_num_tokens}\n')
    print(f'Número Médio de Tokens únicos: {avg_num_tokens_unicos}\n')


In [3]:
processor = CorpusProcessor("../input/", "pt")

In [4]:
articles = processor.pdf_to_text_multiproc()

100%|██████████| 94/94 [00:52<00:00,  1.80it/s]]
100%|██████████| 109/109 [00:56<00:00,  1.92it/s]
100%|██████████| 127/127 [01:11<00:00,  1.78it/s]
100%|██████████| 136/136 [01:11<00:00,  1.89it/s]
100%|██████████| 125/125 [01:07<00:00,  1.85it/s]
100%|██████████| 131/131 [01:08<00:00,  1.92it/s]
100%|██████████| 171/171 [01:31<00:00,  1.87it/s]
100%|██████████| 235/235 [02:05<00:00,  1.87it/s]
100%|██████████| 144/144 [01:10<00:00,  2.03it/s]
100%|██████████| 98/98 [00:54<00:00,  1.81it/s]


In [5]:
articles.keys()

dict_keys(['30010-2546-24450-1-10-20240828.pdf', '17219-2102-13810-1-10-20210916.pdf', '21500-2102-17427-1-10-20220825.pdf', '17221-2102-13812-1-10-20210916.pdf', '17220-2102-13811-1-10-20210916.pdf', '26633-2174-22007-1-10-20231218.pdf', '30009-2546-24449-1-10-20240828.pdf', '30006-2546-24446-2-10-20240903.pdf', '21499-2102-17426-1-10-20220825.pdf', '29866-301-24307-1-10-20240810.pdf', '21498-2102-17425-1-10-20220825.pdf', '29824-157-24265-1-10-20240808.pdf', '31631-2606-25940-1-10-20241121.pdf', '30011-2546-24451-1-10-20240828.pdf', '29800-157-24241-1-10-20240808.pdf', '30007-2546-24447-1-10-20240828.pdf', '21496-2102-17423-1-10-20220825.pdf', '21494-2102-17421-1-10-20220825.pdf', '21495-2102-17422-1-10-20220825.pdf', '21493-2102-17420-1-10-20220825.pdf'])

In [6]:
all_stats = {}

for fname, content in articles.items():
    stats = TextStats(content)
    all_stats[fname] = stats

    display_stats(stats, title=fname)

----------
Texto: 30010-2546-24450-1-10-20240828.pdf

ESTATÍSTICAS:

Número de Sentenças: 127

Número de Tokens: 3007

Número de Tokens únicos: 942

Top 10 Tokens
         Token  Freq
0     quântica    57
1         rede    52
2  simuladores    34
3            ✓    34
4    quânticos    24
5    simulação    21
6    simulador    19
7        redes    18
8        disso    15
9         Além    15

Down 10 Tokens
               Token  Freq
844     2020/04031-1     1
845              sob     1
846           FAPESP     1
847            Paulo     1
848         Pesquisa     1
849         Fundação     1
850             CNPQ     1
851      Tecnológico     1
852       Científico     1
853  Desenvolvimento     1

Num. substantivos comuns: 760
Num. substantivos próprios: 237
Total: 997

Número de Verbos: 275

Número de Preposicoes: 450

----------
Texto: 17219-2102-13810-1-10-20210916.pdf

ESTATÍSTICAS:

Número de Sentenças: 83

Número de Tokens: 2457

Número de Tokens únicos: 750

Top 10 Tokens
     

In [7]:
display_agg_stats(list(all_stats.values()))

----------

ESTATÍSTICAS AGREGADAS:

Número Médio de Sentenças: 135.25

Número Médio de Tokens: 3402.8

Número Médio de Tokens únicos: 932.9

