In [None]:
import pandas as pd
from collections import Counter
import re

def get_top_words(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = ' '.join(df[title_column].dropna().astype(str).tolist())

    # Usunięcie znaków interpunkcyjnych i podzielenie na słowa, pomijanie liczb
    words = re.findall(r'\b[a-zA-Z]+\b', all_titles.lower())

    # Lista dodatkowych stop words
    additional_stop_words = {'a', 'i', 'na', 'do', 'za', 'z'}

    # Wczytanie standardowych stop words z NLTK i dodanie dodatkowych
    from nltk.corpus import stopwords
    import nltk
    nltk.download('stopwords')
    stop_words = set(stopwords.words('english')).union(additional_stop_words)

    # Filtrowanie słów, aby usunąć stop words
    filtered_words = [word for word in words if word not in stop_words]

    # Zliczanie najczęściej występujących słów
    word_counts = Counter(filtered_words)
    most_common_words = word_counts.most_common(top_n)

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words(file_path, title_column)
print(top_words)


In [None]:
import pandas as pd
from collections import Counter
import re
import nltk
from nltk.corpus import stopwords

# Pobranie stop words z NLTK, w tym przypadku dla języka polskiego
nltk.download('stopwords')

def get_polish_stop_words():
    # Rozszerzenie listy polskich stop words
    additional_stop_words = {'a', 'i', 'na', 'do', 'za', 'z', 'oraz', 'ale', 'bądź', 'bo', 'by', 'być', 'ci', 'co', 'czy',
                             'dla', 'gdy', 'jak', 'jeśli', 'jest', 'to', 'już', 'który', 'lub', 'nie', 'o', 'po', 'przez',
                             'się', 'tak', 'tu', 'więc', 'że', 'aż', 'czyli', 'gdyby', 'jakie', 'jego', 'jej', 'są', 'ich',
                             'jeżeli', 'jako', 'jego', 'jej', 'się', 'nad', 'u', 'pod', 'przed', 'we', 'bez', 'od', 'między'}
    stop_words = set(stopwords.words('polish')).union(additional_stop_words)
    return stop_words

def get_top_words_nltk(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = ' '.join(df[title_column].dropna().astype(str).tolist())

    # Usunięcie znaków interpunkcyjnych i podzielenie na słowa
    words = re.findall(r'\b\w+\b', all_titles.lower())

    # Usunięcie stop words
    stop_words = get_polish_stop_words()
    filtered_words = [word for word in words if word not in stop_words]

    # Zliczanie najczęściej występujących słów
    word_counts = Counter(filtered_words)
    most_common_words = word_counts.most_common(top_n)

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words_nltk(file_path, title_column)
print(top_words)


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

def get_polish_stop_words():
    # Lista polskich stop words, można ją rozszerzyć w razie potrzeby
    polish_stop_words = set([
        'i', 'oraz', 'a', 'ale', 'bądź', 'bo', 'by', 'być', 'ci', 'co', 'czy',
        'dla', 'do', 'gdy', 'jak', 'jeśli', 'jest', 'to', 'już', 'który', 'lub',
        'na', 'nie', 'o', 'po', 'przez', 'się', 'tak', 'to', 'tu', 'więc',
        'z', 'że', 'aż', 'czyli', 'gdyby', 'jakie', 'jako', 'jego', 'jej', 'jest', 'są',
        'ich', 'jeżeli', 'jako', 'jego', 'jej', 'się', 'na', 'jest', 'być', 'co', 'do', 'za',
        'z', 'o', 'ze', 'nad', 'u', 'pod', 'po', 'przed', 'we', 'bez', 'dla', 'w', 'od', 'między'
    ])
    return polish_stop_words

def get_top_words_sklearn(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = df[title_column].dropna().astype(str).tolist()

    # Użycie CountVectorizer do tokenizacji i zliczania słów
    stop_words = get_polish_stop_words()
    vectorizer = CountVectorizer(stop_words=stop_words)
    X = vectorizer.fit_transform(all_titles)

    # Zliczanie wystąpień słów
    word_counts = X.toarray().sum(axis=0)
    word_freq = [(word, word_counts[idx]) for word, idx in vectorizer.vocabulary_.items()]
    word_freq = sorted(word_freq, key=lambda x: x[1], reverse=True)

    # Pobieranie top_n słów
    most_common_words = word_freq[:top_n]

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words_sklearn(file_path, title_column)
print(top_words)


In [None]:
import pandas as pd
import spacy
from collections import Counter

# Załadowanie modelu spaCy dla języka polskiego
nlp = spacy.load('pl_core_news_sm')

def get_top_words_spacy(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = ' '.join(df[title_column].dropna().astype(str).tolist())

    # Przetwarzanie tekstu za pomocą spaCy
    doc = nlp(all_titles)

    # Tokenizacja i usunięcie stop words
    words = [token.text.lower() for token in doc if not token.is_stop and not token.is_punct]

    # Zliczanie najczęściej występujących słów
    word_counts = Counter(words)
    most_common_words = word_counts.most_common(top_n)

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words_spacy(file_path, title_column)
print(top_words)
