In [7]:
from sklearn.model_selection import GridSearchCV

In [19]:

# 문서들
documents = [
    "먹고 싶은 과일은 바나나",
    "바나나는 먹기 좋은 과일이다",
    "사과와 바나나 중에 뭐가 더 좋을까",
    "바나나나 사과나 둘 다 좋은데, 사과가 더 좋아"
]

# TF-IDF 변환기 생성
tfidf_vectorizer = TfidfVectorizer()

# TF-IDF 행렬 계산
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# 단어 목록 출력
feature_names = tfidf_vectorizer.get_feature_names()

# 키워드 추출
keywords = []
for doc in tfidf_matrix:
    # 문서에서 가장 높은 TF-IDF 값을 가지는 단어의 인덱스 추출
    max_tfidf_index = doc.argmax()
    # 해당 인덱스에 해당하는 단어를 키워드 리스트에 추가
    keywords.append(feature_names[max_tfidf_index])

# 중복 제거를 위해 집합으로 변환 후 다시 리스트로 변환
keywords = list(set(keywords))

# 최종 키워드 출력
print("Keywords:", keywords)

Keywords: ['과일은', '과일이다', '바나나나', '뭐가']


In [20]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')

def preprocess_text(text):
    # 소문자 변환
    text = text.lower()
    # 토큰화
    tokens = word_tokenize(text)
    # 불용어 제거
    stop_words = set(stopwords.words('english'))
    tokens = [token for token in tokens if token not in stop_words]
    return tokens

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\CDL\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\CDL\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


In [21]:
from nltk import FreqDist

def extract_keywords(tokens, top_n=5):
    fdist = FreqDist(tokens)
    return fdist.most_common(top_n)

In [22]:
text = "Natural Language Processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data."
preprocessed_text = preprocess_text(text)
keywords = extract_keywords(preprocessed_text)
print("Keywords:", keywords)

Keywords: [('language', 3), (',', 3), ('natural', 2), ('computers', 2), ('processing', 1)]


In [24]:
!pip install textblob

Collecting textblob
  Downloading textblob-0.18.0.post0-py3-none-any.whl.metadata (4.5 kB)
Collecting nltk>=3.8 (from textblob)
  Downloading nltk-3.8.1-py3-none-any.whl.metadata (2.8 kB)
Downloading textblob-0.18.0.post0-py3-none-any.whl (626 kB)
   --------------------------------------- 626.3/626.3 kB 19.9 MB/s eta 0:00:00
Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
   ---------------------------------------- 1.5/1.5 MB 31.9 MB/s eta 0:00:00
Installing collected packages: nltk, textblob
  Attempting uninstall: nltk
    Found existing installation: nltk 3.7
    Uninstalling nltk-3.7:
      Successfully uninstalled nltk-3.7
Successfully installed nltk-3.8.1 textblob-0.18.0.post0


In [25]:
from textblob import TextBlob

def extract_keywords(text, top_n=5):
    # TextBlob 객체 생성
    blob = TextBlob(text)
    
    # 각 단어의 빈도 계산
    word_freq = {}
    for word in blob.words:
        if len(word) > 1:  # 한 글자인 단어는 제외
            word = word.lower()  # 단어를 소문자로 변환
            word_freq[word] = word_freq.get(word, 0) + 1
    
    # 빈도 기준으로 정렬하여 상위 N개의 단어 추출
    sorted_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:top_n]
    
    return sorted_words

# 예제 텍스트
text = "Natural Language Processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data."

# 키워드 추출
keywords = extract_keywords(text)
print("Keywords:", keywords)

Keywords: [('language', 3), ('and', 3), ('natural', 2), ('of', 2), ('computers', 2)]


In [53]:
# TF-IDF 구현

travel_data = {
    '여행지 1': ['자연 경관', '산책로', '휴양지'],
    '여행지 2': ['역사적인 유적지', '문화 유산', '유럽 감성'],
    '여행지 3': ['해변 리조트', '수영', '해수욕'],
    '여행지 4': ['도심 번화가', '쇼핑', '음식'],
}

# 사용자의 관심사
user_interests = '음식 먹기 좋은 곳'

In [54]:
# 각 여행지의 키워드를 하나의 문자열로 결합
travel_descriptions = [' '.join(keywords) for keywords in travel_data.values()]
print(travel_descriptions)

# TF-IDF 벡터화
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(travel_descriptions)

# 입력된 관심사를 TF-IDF 벡터로 변환
user_vector = tfidf_vectorizer.transform([user_interests])

# 코사인 유사도 계산
from sklearn.metrics.pairwise import cosine_similarity
cos_sim = cosine_similarity(user_vector, tfidf_matrix)

# 가장 유사한 여행지 추천
similar_indices = cos_sim.argsort()[0][::-1]
for idx in similar_indices:
    if cos_sim[0][idx] > 0:  # 유사도가 0보다 큰 경우에만 출력
        print(list(travel_data.keys())[idx])

['자연 경관 산책로 휴양지', '역사적인 유적지 문화 유산 유럽 감성', '해변 리조트 수영 해수욕', '도심 번화가 쇼핑 음식']


In [60]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 여행지 데이터 (여행지 이름과 키워드 리스트)
travel_data = {
    '여행지 1': ['자연 경관', '산책로', '휴양지'],
    '여행지 2': ['역사적인 유적지', '문화 유산', '유럽 감성'],
    '여행지 3': ['해변 리조트', '수영', '해수욕'],
    '여행지 4': ['도심 번화가', '쇼핑', '음식'],
}

# 사용자가 입력한 값
user_query = '자연 경관과 산책로가 있는 곳'

# 각 여행지의 키워드를 하나의 문자열로 결합
travel_descriptions = [' '.join(keywords) for keywords in travel_data.values()]

# TF-IDF 벡터화
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(travel_descriptions)

# 사용자 입력을 TF-IDF 벡터로 변환
user_vector = tfidf_vectorizer.transform([user_query])

# 각 여행지와 사용자 입력의 유사도 계산
similarities = cosine_similarity(user_vector, tfidf_matrix)

# 유사도가 가장 높은 키워드 찾기
most_similar_index = similarities.argmax()

# 가장 유사한 여행지의 키워드 가져오기
most_similar_keywords = list(travel_data.values())[most_similar_index]

# 사용자가 다시 검색해볼 수 있도록 키워드 출력
print("Most similar keywords:", most_similar_keywords)

Most similar keywords: ['자연 경관', '산책로', '휴양지']


In [None]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(travel_descriptions)

In [None]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


In [None]:
from nltk import word_tokenize, pos_tag
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer

# 사용자로부터 입력 받은 문장
user_input = "자연 경관과 산책로가 있는 곳"

# 단어 토큰화 및 명사 추출
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(user_input)
pos_tags = pos_tag(tokens)
nouns = [word for word, pos in pos_tags if pos.startswith('NN')]

# 불용어 제거
stop_words = set(stopwords.words('english'))
keywords = [word for word in nouns if word.lower() not in stop_words]

print("Extracted keywords:", keywords)