In [None]:
import pandas as pd
from collections import Counter
import re

def get_top_words(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = ' '.join(df[title_column].dropna().astype(str).tolist())

    # Usunięcie znaków interpunkcyjnych i podzielenie na słowa
    words = re.findall(r'\b\w+\b', all_titles.lower())

    # Zliczanie najczęściej występujących słów
    word_counts = Counter(words)
    most_common_words = word_counts.most_common(top_n)

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words(file_path, title_column)
print(top_words)


In [None]:
import pandas as pd
from collections import Counter
import re
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')

def get_top_words_nltk(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = ' '.join(df[title_column].dropna().astype(str).tolist())

    # Usunięcie znaków interpunkcyjnych i podzielenie na słowa
    words = re.findall(r'\b\w+\b', all_titles.lower())

    # Usunięcie stop words
    stop_words = set(stopwords.words('english'))
    filtered_words = [word for word in words if word not in stop_words]

    # Zliczanie najczęściej występujących słów
    word_counts = Counter(filtered_words)
    most_common_words = word_counts.most_common(top_n)

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words_nltk(file_path, title_column)
print(top_words)


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

def get_top_words_sklearn(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = df[title_column].dropna().astype(str).tolist()

    # Użycie CountVectorizer do tokenizacji i zliczania słów
    vectorizer = CountVectorizer(stop_words='english')
    X = vectorizer.fit_transform(all_titles)

    # Zliczanie wystąpień słów
    word_counts = X.toarray().sum(axis=0)
    word_freq = [(word, word_counts[idx]) for word, idx in vectorizer.vocabulary_.items()]
    word_freq = sorted(word_freq, key=lambda x: x[1], reverse=True)

    # Pobieranie top_n słów
    most_common_words = word_freq[:top_n]

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words_sklearn(file_path, title_column)
print(top_words)


In [None]:
import pandas as pd
import spacy
from collections import Counter

# Załadowanie modelu spaCy
nlp = spacy.load('en_core_web_sm')

def get_top_words_spacy(file_path, title_column, top_n=50):
    # Wczytanie danych z pliku CSV
    df = pd.read_csv(file_path)

    # Złączenie wszystkich tytułów w jeden tekst
    all_titles = ' '.join(df[title_column].dropna().astype(str).tolist())

    # Przetwarzanie tekstu za pomocą spaCy
    doc = nlp(all_titles)

    # Tokenizacja i usunięcie stop words
    words = [token.text.lower() for token in doc if not token.is_stop and not token.is_punct]

    # Zliczanie najczęściej występujących słów
    word_counts = Counter(words)
    most_common_words = word_counts.most_common(top_n)

    return most_common_words

# Ścieżka do pliku CSV i nazwa kolumny z tytułami
file_path = 'path_to_your_file.csv'
title_column = 'title'

# Wywołanie funkcji i wyświetlenie wyników
top_words = get_top_words_spacy(file_path, title_column)
print(top_words)
