In [38]:
import json
import re
import pandas
import numpy as np
from collections import Counter
from nltk.util import ngrams 

In [39]:
with open("corpus.json", "r") as f:
    data = json.load(f)
corpus = []
for article in data['data']:
      for paragraph in article['paragraphs']:
           corpus.append(paragraph['context'])
           

corpus = " ".join(corpus)
corpus = corpus.replace("quot", "")
len(corpus)

14612844

In [40]:
cleaned_corpus = re.sub(r'[^A-Za-zÀ-ÿ\s]', ' ', corpus).lower()
cleaned_corpus[:1000]

'arquitetonicamente  a escola tem um caráter católico  no topo da cúpula de ouro do edifício principal é uma estátua de ouro da virgem maria  imediatamente em frente ao edifício principal e de frente para ele  é uma estátua de cobre de cristo com os braços erguidos com a lenda   venite ad me omnes    ao lado do edifício principal é a basílica do sagrado coração  imediatamente atrás da basílica é a gruta  um lugar mariano de oração e reflexão  é uma réplica da gruta em lourdes  na frança  onde a virgem maria supostamente apareceu a santa bernadette soubirous em       no final da unidade principal  e em uma linha direta que liga através de   estátuas e da cúpula de ouro   é um estátua de pedra simples e moderna de maria  como na maioria das outras universidades  os alunos da notre dame dirigem uma série de meios de comunicação  as nove lojas administradas por estudantes incluem três jornais  uma estação de rádio e televisão e várias revistas e periódicos  iniciada como um periódico de um

In [41]:
tokenized_corpus = cleaned_corpus.split()

In [42]:
tokenized_corpus[:100]

['arquitetonicamente',
 'a',
 'escola',
 'tem',
 'um',
 'caráter',
 'católico',
 'no',
 'topo',
 'da',
 'cúpula',
 'de',
 'ouro',
 'do',
 'edifício',
 'principal',
 'é',
 'uma',
 'estátua',
 'de',
 'ouro',
 'da',
 'virgem',
 'maria',
 'imediatamente',
 'em',
 'frente',
 'ao',
 'edifício',
 'principal',
 'e',
 'de',
 'frente',
 'para',
 'ele',
 'é',
 'uma',
 'estátua',
 'de',
 'cobre',
 'de',
 'cristo',
 'com',
 'os',
 'braços',
 'erguidos',
 'com',
 'a',
 'lenda',
 'venite',
 'ad',
 'me',
 'omnes',
 'ao',
 'lado',
 'do',
 'edifício',
 'principal',
 'é',
 'a',
 'basílica',
 'do',
 'sagrado',
 'coração',
 'imediatamente',
 'atrás',
 'da',
 'basílica',
 'é',
 'a',
 'gruta',
 'um',
 'lugar',
 'mariano',
 'de',
 'oração',
 'e',
 'reflexão',
 'é',
 'uma',
 'réplica',
 'da',
 'gruta',
 'em',
 'lourdes',
 'na',
 'frança',
 'onde',
 'a',
 'virgem',
 'maria',
 'supostamente',
 'apareceu',
 'a',
 'santa',
 'bernadette',
 'soubirous',
 'em',
 'no',
 'final']

In [43]:
len(tokenized_corpus)

2283079

In [44]:
counts = Counter(tokenized_corpus)
words, word_counts = zip(*counts.most_common())
df_builder = {"words": words, "counts": word_counts, 
              "rank": range(1, len(words)+1)}
df = pandas.DataFrame(df_builder)
df

Unnamed: 0,words,counts,rank
0,de,134765,1
1,a,80240,2
2,e,71414,3
3,o,65293,4
4,em,47792,5
...,...,...,...
89249,arkefly,1,89250
89250,agni,1,89251
89251,cosmic,1,89252
89252,motsumoto,1,89253


In [45]:
df["Zipf score"] = df["counts"] * df["rank"]
df

Unnamed: 0,words,counts,rank,Zipf score
0,de,134765,1,134765
1,a,80240,2,160480
2,e,71414,3,214242
3,o,65293,4,261172
4,em,47792,5,238960
...,...,...,...,...
89249,arkefly,1,89250,89250
89250,agni,1,89251,89251
89251,cosmic,1,89252,89252
89252,motsumoto,1,89253,89253


In [46]:
def calculate_number_of_words_to_read_x_percent_of_text(x):
    if x < 0 or x > 1:
        raise ValueError("X should be between 0 and 1!")
    total_num_of_words_to_know = len(tokenized_corpus)*x
    cur_num_of_words = 0
    num_of_words_to_know = 0
    it = 0
    while total_num_of_words_to_know >= cur_num_of_words:
        cur_num_of_words += df["counts"][it]
        num_of_words_to_know += 1
        it += 1
    return num_of_words_to_know

In [47]:
calculate_number_of_words_to_read_x_percent_of_text(0.5)

202

In [49]:


def get_most_frequent_ngrams(tokenized_text, n, top_k=100):
    """
    Function to find the most frequent n-grams in a tokenized text.
    
    Args:
    - tokenized_text (list): List of tokens (words) from the corpus.
    - n (int): The size of the n-gram.
    - top_k (int): Number of top frequent n-grams to return.
    
    Returns:
    - List of tuples containing the n-gram and its count.
    """
    # Generate n-grams from the tokenized text
    n_grams = ngrams(tokenized_text, n)
    
    # Count the frequency of each n-gram
    ngram_counts = Counter(n_grams)
    
    # Return the top 'top_k' most frequent n-grams
    return ngram_counts.most_common(top_k)

In [50]:
get_most_frequent_ngrams(tokenized_corpus, 2)

[(('e', 'a'), 4588),
 (('e', 'o'), 4118),
 (('para', 'o'), 3430),
 (('para', 'a'), 3255),
 (('de', 'um'), 3045),
 (('com', 'a'), 3003),
 (('que', 'a'), 2911),
 (('com', 'o'), 2906),
 (('em', 'de'), 2879),
 (('que', 'o'), 2794),
 (('de', 'uma'), 2452),
 (('de', 'a'), 2140),
 (('no', 'entanto'), 2139),
 (('como', 'o'), 1973),
 (('que', 'os'), 1892),
 (('em', 'um'), 1889),
 (('estados', 'unidos'), 1843),
 (('em', 'uma'), 1783),
 (('como', 'a'), 1710),
 (('do', 'século'), 1669),
 (('é', 'o'), 1648),
 (('da', 'cidade'), 1640),
 (('todos', 'os'), 1602),
 (('cerca', 'de'), 1589),
 (('e', 'os'), 1481),
 (('mais', 'de'), 1481),
 (('como', 'um'), 1473),
 (('do', 'que'), 1372),
 (('a', 'maioria'), 1343),
 (('por', 'exemplo'), 1315),
 (('a', 'cidade'), 1293),
 (('o', 'primeiro'), 1289),
 (('durante', 'a'), 1286),
 (('é', 'a'), 1269),
 (('é', 'um'), 1250),
 (('em', 'a'), 1250),
 (('de', 'que'), 1250),
 (('pode', 'ser'), 1234),
 (('de', 'o'), 1215),
 (('de', 'sua'), 1170),
 (('em', 'o'), 1158),
 (('