Skip to content

baesunny/BeerReviewAnalysis

Repository files navigation

Blog Review Analysis of Beer Brands

국내 맥주 브랜드(카스, 켈리, 테라, 클라우드, 아사히)에 대한 네이버 블로그 데이터를 수집하고, 텍스트 전처리와 키워드 시각화 등의 텍스트 분석을 수행하였다.

프로젝트 개요

주요 분석 흐름은 다음과 같다.

  1. 네이버 블로그 데이터 수집
  2. 브랜드별 원천 데이터 정리
  3. 본문 텍스트 전처리 및 해시태그 추출
  4. KoNLPy 기반 명사 추출과 불용어 제거
  5. 워드클라우드를 통한 브랜드별 주요 키워드 시각화
  6. KoSBERT, TF-IDF, TextRank 등을 활용한 문서 유사도, 요약, 감성 분석 실험

분석 대상

구분 대상
블로그 데이터 카스, 켈리, 테라, 클라우드, 아사히
주요 텍스트 필드 제목, 본문, 작성일자, 해시태그
주요 분석 방식 크롤링, 정규표현식 기반 전처리, 형태소 분석, 워드클라우드, 요약, 유사도 분석

데이터 규모

데이터 행 수 주요 컬럼
Preprocessing/cleaned_data/asahi_blog_cleaned.csv 3,370 검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/cass_blog_cleaned.csv 2,070 검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/kelly_blog_cleaned.csv 2,446 검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/kloud_blog_cleaned.csv 2,525 검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/terra_blog_cleaned.csv 2,312 검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Crawling/news/cass_news_1(264).csv 264 link, pubdate, title, body
Crawling/news/kelly_news_2(453).csv 453 link, pubdate, title, body

주요 기능

데이터 수집

  • 네이버 블로그 검색 결과에서 브랜드별 URL, 제목, 작성일자 수집
  • Selenium을 활용한 블로그 본문 수집
  • 네이버 뉴스 검색 결과와 기사 본문 수집
  • 수집 결과를 브랜드별 CSV 파일로 저장

텍스트 전처리

  • 본문 내 불필요한 공백, 특수문자, 반복 패턴 제거
  • 제목과 본문 중복 문장 제거
  • 날짜 정보 추출 및 작성일자 컬럼 정리
  • 해시태그 분리 및 별도 컬럼 저장
  • 브랜드별 정제 데이터셋 생성

키워드 분석 및 시각화

  • KoNLPy Okt 기반 명사 추출
  • 브랜드명, 일반 리뷰 표현 등 분석에 불필요한 단어 제거
  • 단어 빈도 계산
  • 워드클라우드 생성으로 주요 키워드 시각화

요약 및 유사도 분석

  • KoSBERT 임베딩을 활용한 문서 유사도 계산
  • Kkma 형태소 분석 기반 토큰화
  • TextRank 기반 본문 요약
  • TF-IDF와 KMeans를 활용한 요약문 군집화 실험
  • 감성 분석용 결과 데이터 생성 실험

디렉토리 구조

BeerReviewAnalysis/
├── Crawling/
│   ├── beer_list.ipynb
│   ├── cass_blog/
│   │   ├── cass_blog_data.ipynb
│   │   ├── cass_blog_data_1.csv
│   │   ├── cass_blog_data_2.csv
│   │   └── cass_blog_data_final.csv
│   ├── kelly_blog/
│   │   ├── kelly_blog_data.ipynb
│   │   ├── kelly_blog_data_1.csv
│   │   ├── kelly_blog_data_2.csv
│   │   └── kelly_blog_data_final.csv
│   └── news/
│       ├── cass_news_data.ipynb
│       ├── cass_news_1(264).csv
│       ├── kelly_news_data.ipynb
│       └── kelly_news_2(453).csv
├── Preprocessing/
│   ├── Preprocessing.ipynb
│   ├── Preprocessing_original.ipynb
│   ├── preprocessing_2.ipynb
│   ├── 크롤링.zip
│   ├── crawled_data/
│   │   ├── *_blog_filtered.csv
│   │   ├── *_blog_urls_temp.csv
│   │   └── crawled_blog_data.zip
│   └── cleaned_data/
│       └── *_blog_cleaned.csv
├── WordCloud/
│   ├── WordCloud.ipynb
│   ├── cleaned_data.zip
│   └── data/
│       └── *_blog_cleaned.csv
├── Beer_Review_Analysis.pdf          # 최종 보고서
├── .gitignore
├── text_prerocessing_summarization.ipynb
├── requirements.txt
└── README.md

파일 설명

경로 설명
Crawling/ 블로그 및 뉴스 데이터 수집 노트북과 원천 수집 결과
Preprocessing/ 수집 데이터 정제, 날짜/본문/해시태그 처리 노트북과 정제 데이터
WordCloud/ 정제 데이터를 활용한 브랜드별 키워드 빈도 분석 및 워드클라우드 생성
text_prerocessing_summarization.ipynb 전처리, KoSBERT 유사도, Kkma 토큰화, TextRank 요약, 감성 분석 실험 노트북
Beer_Review_Analysis.pdf 맥주 브랜드 블로그 리뷰 텍스트 분석 최종 보고서
requirements.txt 분석 환경 재현을 위한 주요 Python 패키지 목록

보고서

파일 설명
Beer_Review_Analysis.pdf 맥주 브랜드 블로그 리뷰 분석 최종 보고서 (데이터 수집, 전처리, 키워드·요약·유사도 분석, 결과 정리)

사용 기술

  • Python
  • Jupyter Notebook
  • pandas, numpy
  • Selenium
  • KoNLPy
  • scikit-learn
  • sentence-transformers
  • networkx
  • matplotlib
  • wordcloud

About

맥주 브랜드별 블로그 리뷰 데이터 분석 (텍스트데이터분석, Apr. 2025 – Jun. 2025)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors