In [124]:
import datetime
from os.path import exists
import pandas as pd
import nltk    
from nltk import ngrams, FreqDist
from nltk import tokenize    
from spacy.lang.pt import Portuguese
import spacy

sent_tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')

In [125]:
# Gets the current time and date when the script starts
def start_counting_time():
    # datetime object containing current date and time
    start_time = datetime.datetime.now()
    # dd/mm/YY H:M:S
    start_time_string = start_time.strftime("%d/%m/%Y %H:%M:%S")
    print("Beginning to read the file ", start_time_string, "\n")	
            
    return start_time

# Gets the current time and date when the script ends
def finish_counting_time(start_time):
    # datetime object containing current date and time
    finish_time = datetime.datetime.now()
    # dd/mm/YY H:M:S
    finish_time_string = finish_time.strftime("%d/%m/%Y %H:%M:%S")
    print("\nFinished the script at", finish_time_string)	
    
    difference = (finish_time - start_time).total_seconds()
    print("The script took " + str(difference) + " seconds to complete.\n")

<h2>This notebook aims to make some analysis of the review texts of top 100 books from Amazon</h2>

In [126]:
# The dataset path
treated_csv_file_path = 'datasets/treated_csv_file.csv'

# When the script starts
start_time = start_counting_time()

# Check if the file exists
treated_file_exists = exists(treated_csv_file_path)

if treated_file_exists:
    df = pd.read_csv(treated_csv_file_path, sep=';')
    print("Dataframe size: " + str(df.shape))
    


Beginning to read the file  07/04/2022 06:10:51 

Dataframe size: (21, 5)


In [127]:
    df.head()

Unnamed: 0,book_id,review_id,review_rating,review_title,review_text
0,8595081530,RM0NBXMBSU4M3,4,Um dos melhores livros sobre introdução ao con...,Sabe todos aqueles livros que ensinam você a c...
1,8595081530,R3KC0ZLPQX85LT,5,Livro excelente,Ensinamentos que eu tive quando li o livro:1. ...
2,8595081530,R2UADYH9X17S5V,4,Enriquecedor,"Sucinto livro de parábolas, O homem mais rico ..."
3,8595081530,RGJ6BAA0J8P77,5,Ótima leitura de fácil compreensão e ensinamen...,De forma clara traz ensinamentos sobre educaçã...
4,8595081530,RZ65FZEPU1Y8V,1,O livro O homem mais rico da Babilônia está fa...,O livro O homem mais rico da Babilônia está fa...


<h3>Column that contains the information that we want to classify: review_text.</h3>

In [128]:
    df.loc[:5, 'review_text']

0    Sabe todos aqueles livros que ensinam você a c...
1    Ensinamentos que eu tive quando li o livro:1. ...
2    Sucinto livro de parábolas, O homem mais rico ...
3    De forma clara traz ensinamentos sobre educaçã...
4    O livro O homem mais rico da Babilônia está fa...
5    O livro traz lições importantes como:-Busque c...
Name: review_text, dtype: object

<h3>Example of how to break a paragraph into sentences, using nltk.</h3>

In [129]:
    
    paragraph = df['review_text'].iloc[0]
    sentences = sent_tokenizer.tokenize(paragraph)
    
    for sent in sentences:
        print(sent, "\n")

    print("Total number of sentences: ", len(sentences))

Sabe todos aqueles livros que ensinam você a criar uma agenda para controle de gastos contendo tudo que você gasta durante determinado período de tempo e que você nunca consegue terminar o tal método? 

Ou daqueles que você termina a leitura sentindo que sua vida vai mudar, mas quando tenta colocar em pratica percebe que tudo parece inalcançável para você?Esquece! 

Você NÃO vai encontrar um setup milagroso, ou algum tipo de mindset do gênero PNL a partir de agora eu domino meu dinheiro.Basicamente este livro conta verdades sobre o dinheiro. 

Mostra os detalhes de uma forma tão direta e bem escrita que você acaba percebendo determinadas engrenagens da roda da fortuna e passa a evitar determinadas situações tóxicas pois entende que realmente acontecem na vida real.Só não ganha 5 estrelas pois acredito que a arte da capa poderia ser melhor desenhada, pois é um bom livro para sua biblioteca e a capa não condiz com teu contudo.Ps. 

: Gostei da textura do papel e da boa qualidade da gráfi

<h3>Example of how to break a paragraph into sentences, using spacy. Comparing spacy and nltk, it can be seen that spacy makes a better job while breaking the paragraph into sentences.</h3>

In [130]:
    nlp = Portuguese()  
    nlp = spacy.load("pt_core_news_lg")

    sentences = nlp(paragraph).sents

    count = 0
    for sent in sentences:
        count += 1
        print(sent.text, '\n')

    print("Total number of sentences: ", count)

Sabe todos aqueles livros que ensinam você a criar uma agenda para controle de gastos contendo tudo que você gasta durante determinado período de tempo e que você nunca consegue terminar o tal método? 

Ou daqueles que você termina a leitura sentindo que sua vida vai mudar, mas quando tenta colocar em pratica percebe que tudo parece inalcançável para você?Esquece! 

Você NÃO vai encontrar um setup milagroso, ou algum tipo de mindset do gênero PNL a partir de agora eu domino meu dinheiro. 

Basicamente este livro conta verdades sobre o dinheiro. 

Mostra os detalhes de uma forma tão direta e bem escrita que você acaba percebendo determinadas engrenagens da roda da fortuna e passa a evitar determinadas situações tóxicas pois entende que realmente acontecem na vida real. 

Só não ganha 5 estrelas pois acredito que a arte da capa poderia ser melhor desenhada, pois é um bom livro para sua biblioteca e a capa não condiz com teu contudo. 

Ps.: 

Gostei da textura do papel e da boa qualidade 

In [131]:
    df.head()

Unnamed: 0,book_id,review_id,review_rating,review_title,review_text
0,8595081530,RM0NBXMBSU4M3,4,Um dos melhores livros sobre introdução ao con...,Sabe todos aqueles livros que ensinam você a c...
1,8595081530,R3KC0ZLPQX85LT,5,Livro excelente,Ensinamentos que eu tive quando li o livro:1. ...
2,8595081530,R2UADYH9X17S5V,4,Enriquecedor,"Sucinto livro de parábolas, O homem mais rico ..."
3,8595081530,RGJ6BAA0J8P77,5,Ótima leitura de fácil compreensão e ensinamen...,De forma clara traz ensinamentos sobre educaçã...
4,8595081530,RZ65FZEPU1Y8V,1,O livro O homem mais rico da Babilônia está fa...,O livro O homem mais rico da Babilônia está fa...


In [132]:
    df.loc[:150, "review_text"].apply(lambda x: [sent.text for sent in nlp(x).sents])

0     [Sabe todos aqueles livros que ensinam você a ...
1     [Ensinamentos que eu tive quando li o livro:1....
2     [Sucinto livro de parábolas, O homem mais rico...
3     [De forma clara traz ensinamentos sobre educaç...
4     [O livro, O homem mais rico da Babilônia está ...
5     [O livro traz lições importantes como:-Busque ...
6     [Livro proveitoso e de fácil leitura., Da para...
7     [Bom livro, nada excepcional, é um livro de mi...
8     [O significado do sucesso e liberdade financei...
9     [●, Imagine que você está sentado em uma roda ...
10    [É um livro pequeno é bem didático, retatra o ...
11    [Um livro com ensinamentos tão profundos e uma...
12    [Uma leitura simples e básica sobre histórias ...
13    [Não recomendo!Livro que diz o óbvio!O autor u...
14    [Para quem é estudioso da área de economia o l...
15    [Livro com um estilo parecido de Pai rico, Pai...
16    [O livro trata de como os babilônicos lidavam ...
17    [Por tratar dos comportamentos, crenças e 

In [133]:
    df["sentences"] = df["review_text"].apply(lambda x: [sent.text for sent in nlp(x).sents])
    df = df.explode("sentences", ignore_index=True)
    df.index.name = "Sentence ID"
    df["sentences"].head()

Sentence ID
0    Sabe todos aqueles livros que ensinam você a c...
1    Ou daqueles que você termina a leitura sentind...
2    Você NÃO vai encontrar um setup milagroso, ou ...
3    Basicamente este livro conta verdades sobre o ...
4    Mostra os detalhes de uma forma tão direta e b...
Name: sentences, dtype: object

In [134]:
    df.loc[265]

book_id                                                 8595081530
review_id                                           R2IU0IH8KX983O
review_rating                                                    5
review_title     Os panfletos de George S. Clason reunidos em u...
review_text      O livro reúne uma série de panfletos escritos ...
sentences               Não exagerem nem tentem economizar demais.
Name: 265, dtype: object

In [135]:
    tokens = tokenize.word_tokenize(paragraph, language='portuguese')    
    len(tokens)

180

In [136]:
    fd = nltk.FreqDist(tokens)
    fd

FreqDist({'que': 9, 'você': 6, 'a': 6, 'da': 6, 'de': 5, 'e': 5, 'para': 3, ',': 3, 'pois': 3, 'uma': 2, ...})

In [137]:
    sentence = df.sentences.loc[0]
    #target_word = 'livros'
    ##fd = FreqDist(ng for ng in ngrams(sentence, 5) if target_word in ng)
    #for hit in fd:
        #print(' '.join(hit))

In [138]:
    #df['review_text']

In [139]:
# When the script ends    
finish_counting_time(start_time)            


Finished the script at 07/04/2022 06:10:54
The script took 3.837767 seconds to complete.

