# Ambiente

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re
import string
import nltk
from nltk.corpus import stopwords
nltk.download('punkt')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

# Corpus

In [None]:
with open("Crepúsculo.txt", "r", encoding="utf-8") as file:
    corpus_text = file.read()

# Dividir o livro em sentenças
corpus_sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', corpus_text)


In [None]:
input_paragraph = "E então, ela me fez envergar um vestido absolutamente risível - um azul escuro repleto de enfeites e desprovido de alças. Com uma etiqueta francesa que permanecia indecifrável para mim, aquele vestido parecia estar muito mais em sintonia com as passarelas do que com a atmosfera de Forks"

# Pré-processamento

Jaccard

In [None]:

# Função para calcular o coeficiente de Jaccard entre dois conjuntos
def jaccard_similarity(set1, set2):
    intersection = len(set1.intersection(set2))
    union = len(set1) + len(set2) - intersection
    if union == 0:
        return 0
    return intersection / union


# Função para pré-processar e tokenizar o texto
def preprocess_and_tokenize(text):
    text = text.lower()  # Converter para minúsculas
    text = re.sub(r'\d+', '', text)  # Remover números
    text = text.translate(str.maketrans('', '', string.punctuation))  # Remover pontuações
    text = text.strip()  # Remover espaços em branco extras
    tokens = nltk.word_tokenize(text)  # Tokenização
    tokens = [token for token in tokens if token not in stopwords.words('english')]  # Remover stopwords
    return set(tokens)

# Pré-processamento das sentenças do corpus
preprocessed_corpus = [preprocess_and_tokenize(sentence) for sentence in corpus_sentences]

# Pré-processamento do parágrafo de entrada
preprocessed_input = preprocess_and_tokenize(input_paragraph)

# Calcular a similaridade de Jaccard entre o parágrafo de entrada e as sentenças do corpus
similarities = [jaccard_similarity(preprocessed_input, sentence) for sentence in preprocessed_corpus]

# Organizar os resultados
results = [(sentence, similarity) for sentence, similarity in zip(corpus_sentences, similarities) if similarity > 0]

# Ordenar os resultados por similaridade
results.sort(key=lambda x: x[1], reverse=True)

# Selecionar as 100 frases com maior similaridade
top_100_results = results[:10]

# Imprimir os resultados
for sentence, similarity in top_100_results:
    print(f"Frase do livro: {sentence}\nSimilaridade Jaccard: {similarity}\n")


Frase do livro: Então ela me vestiu com um vestido ridículo - azul escuro, cheio de detalhes e sem os ombros,
com uma etiqueta francesa que eu não consegui ler, um vestido que combinava mais com uma
passarela do que com Forks.
Similaridade Jaccard: 0.3125

Frase do livro:       Ela sorriu para mim e desejou, como Charlie, que eu gostasse de Forks.
Similaridade Jaccard: 0.17073170731707318

Frase do livro: Eu tentei me vestir para o clima mais ameno com uma blusa com um
decote em formato de V - algo que eu usava no inverno em Phoenix.
Similaridade Jaccard: 0.16666666666666666

Frase do livro:       Port Angeles era uma linda armadilha para turistas, muito mais educada e pitoresca do que
Forks.
Similaridade Jaccard: 0.16279069767441862

Frase do livro: Eu encontrei uma pedra que
parecia muito estável perto de uma das piscinas maiores e me sentei lá cuidadosamente,
encantada com o aquário natural abaixo de mim.
Similaridade Jaccard: 0.16

Frase do livro: Ele era muito mais alto do que tin

In [None]:
def contar_frases(texto):
    # Substituir caracteres especiais que podem ser usados como pontos finais
    texto = texto.replace("...", ".")
    texto = texto.replace("!", ".")
    texto = texto.replace("?", ".")

    # Dividir o texto em frases usando o ponto como separador
    frases = texto.split(".")

    # Remover frases vazias resultantes da divisão
    frases = [frase.strip() for frase in frases if len(frase.strip()) > 0]

    return len(frases)

# Ler o conteúdo do livro a partir de um arquivo
caminho_arquivo = "Crepúsculo.txt"
with open(caminho_arquivo, "r", encoding="utf-8") as arquivo:
    conteudo_livro = arquivo.read()

numero_frases = contar_frases(conteudo_livro)
print("O livro tem aproximadamente", numero_frases, "frases.")


O livro tem aproximadamente 12286 frases.
