# Szöveg elemzése

## Szükséges könyvtárak telepítése, importálása

In [20]:
# %pip install pdftotext
# %pip install pdfreader
# %pip install nltk

In [43]:
import PyPDF2 as PP2
from collections import Counter
import plotly.express as px
import nltk
from nltk.corpus import stopwords
import re

nltk.download("stopwords")

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\csoka\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Szöveg kinyerése .pdf fájlból

In [22]:
def extract_text(file_path):    
    with open(file_path, 'rb') as file:        
        reader = PP2.PdfReader(file)        
        num_pages = len(reader.pages)

        text = ''        
       
        for page_num in range(num_pages):
            page = reader.pages[page_num]
            text += page.extract_text() + ' '
    
    return text

## Szöveg feldolgozása

A szöveget először kibetűsre alakítjuk, majd a speciális karaktereket kizárjuk és szóközök mentén listába daraboljuk. Ezután az NLTK segítségével kizárjuk a leggyakoribb kötőszavakat.

In [23]:
def preprocess_text(text):    
    text = text.lower()    
    text = re.sub(r'[^a-z0-9\s]', '', text)    
    words = text.split()
    stop_words = set(stopwords.words('english'))

    words = [word for word in words if word not in stop_words]
    
    return words

## Leggyakoribb szavak meghatározása

In [24]:
def most_frequent_words(words, n=10):    
    word_counts = Counter(words)    
    top_words = word_counts.most_common(n)
    
    return top_words

## Függvények meghívása és eredmények kiíratása

In [41]:
file_path = 'test1.pdf'

content = extract_text(file_path)
text = preprocess_text(content)
top_words = most_frequent_words(text,5)

print(top_words)

print("Leggyakoribb szavak a dokumentumban: ")
for word, frequency in top_words:
    print(f"{word:<15} - {frequency}")

[('jupyter', 32), ('hub', 22), ('notebooks', 20), ('students', 16), ('lecture', 14)]
Leggyakoribb szavak a dokumentumban: 
jupyter         - 32
hub             - 22
notebooks       - 20
students        - 16
lecture         - 14


## Az eredmények ábrázolva

In [46]:
words = [item[0] for item in top_words]
values = [item[1] for item in top_words]

fig = px.bar(top_words, x=words, y=values)

fig.update_layout(
    title="A dokumentumban leggyakrabban előforduló szavak",
    xaxis_title="Szavak",
    yaxis_title="Mennyiség (db)"
)

fig.show()