<a href="https://colab.research.google.com/github/JuyeongKime2/Webtoon-recommendation-system/blob/main/%EC%9B%B9%ED%88%B0%EC%B6%94%EC%B2%9C%EC%8B%9C%EC%8A%A4%ED%85%9C.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 웹툰추천시스템

## 1. 필요한 라이브러리 임포트

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

## 2. CSV 파일 불러오기

In [None]:
file_path = '/content/Updated_Naver_Webtoon_Dataset.csv'
webtoon_data = pd.read_csv(file_path)

In [None]:
webtoon_data

## 3. 'genre'와 'description'을 결합하여 웹툰의 전체적인 콘텐츠 특성을 생성

In [None]:
webtoon_data['content'] = webtoon_data['genre'] + ' ' + webtoon_data['description']

## 4. TF-IDF 벡터화기를 초기화하여 'content' 텍스트를 벡터로 변환

In [None]:
tfidf = TfidfVectorizer(stop_words='english', max_features=5000)

In [None]:
# TF-IDF 변환 후 벡터 크기 확인
print(tfidf_matrix.shape)  # (문서 수, 단어 수)

# 5. 'content' 데이터를 TF-IDF 벡터로 변환

In [None]:
tfidf_matrix = tfidf.fit_transform(webtoon_data['content'])

# 6. 모든 웹툰 간의 코사인 유사도(Cosine Similarity)를 계산

In [None]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

In [None]:
# 주어진 제목을 바탕으로 유사한 웹툰을 추천하는 함수 생성
def get_recommendations_with_info(title, cosine_sim=cosine_sim):
    # 주어진 제목과 일치하는 웹툰의 인덱스 찾기
    idx = webtoon_data[webtoon_data['title'] == title].index[0]

    # 선택한 웹툰과 다른 웹툰 간의 유사도 점수를 가져옴
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도 점수를 기준으로 내림차순 정렬
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 웹툰 인덱스 가져오기 (첫 번째는 동일한 웹툰이므로 제외)
    sim_scores = sim_scores[1:11]

    # 추천된 웹툰의 인덱스 리스트
    webtoon_indices = [i[0] for i in sim_scores]

    # 유사한 웹툰의 전체 정보를 데이터프레임으로 반환
    return webtoon_data.iloc[webtoon_indices]

# 7. 웹툰 추천

In [None]:
recommended_webtoons_info = get_recommendations_with_info('이십팔세기 광팬')

In [None]:
# 추천된 웹툰 정보를 CSV 파일로 저장하는 함수
def save_recommendations_to_csv(recommendations, filename):
    # 추천된 웹툰 정보를 CSV 파일로 저장
    recommendations.to_csv(filename, index=False, encoding='utf-8-sig')

# '놓지마 정신줄 시즌3'에 대한 추천 웹툰의 정보를 모두 받기
recommended_webtoons_info = get_recommendations_with_info('이십팔세기 광팬')

# 추천된 웹툰의 정보를 CSV 파일로 저장
save_recommendations_to_csv(recommended_webtoons_info, '/content/recommended_webtoons.csv')

# CSV 파일 저장 완료 메시지 출력
print("추천된 웹툰 정보가 'recommended_webtoons.csv' 파일로 저장되었습니다.")


# 추천된 웹툰 명단 출력

In [None]:
webtoon_recommendations= '/content/recommended_webtoons.csv'
webtoon_data = pd.read_csv(webtoon_recommendations)
webtoon_data