Blog Review Analysis of Beer Brands
국내 맥주 브랜드(카스, 켈리, 테라, 클라우드, 아사히)에 대한 네이버 블로그 데이터를 수집하고, 텍스트 전처리와 키워드 시각화 등의 텍스트 분석을 수행하였다.
주요 분석 흐름은 다음과 같다.
네이버 블로그 데이터 수집
브랜드별 원천 데이터 정리
본문 텍스트 전처리 및 해시태그 추출
KoNLPy 기반 명사 추출과 불용어 제거
워드클라우드를 통한 브랜드별 주요 키워드 시각화
KoSBERT, TF-IDF, TextRank 등을 활용한 문서 유사도, 요약, 감성 분석 실험
구분
대상
블로그 데이터
카스, 켈리, 테라, 클라우드, 아사히
주요 텍스트 필드
제목, 본문, 작성일자, 해시태그
주요 분석 방식
크롤링, 정규표현식 기반 전처리, 형태소 분석, 워드클라우드, 요약, 유사도 분석
데이터
행 수
주요 컬럼
Preprocessing/cleaned_data/asahi_blog_cleaned.csv
3,370
검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/cass_blog_cleaned.csv
2,070
검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/kelly_blog_cleaned.csv
2,446
검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/kloud_blog_cleaned.csv
2,525
검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Preprocessing/cleaned_data/terra_blog_cleaned.csv
2,312
검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
Crawling/news/cass_news_1(264).csv
264
link, pubdate, title, body
Crawling/news/kelly_news_2(453).csv
453
link, pubdate, title, body
네이버 블로그 검색 결과에서 브랜드별 URL, 제목, 작성일자 수집
Selenium을 활용한 블로그 본문 수집
네이버 뉴스 검색 결과와 기사 본문 수집
수집 결과를 브랜드별 CSV 파일로 저장
본문 내 불필요한 공백, 특수문자, 반복 패턴 제거
제목과 본문 중복 문장 제거
날짜 정보 추출 및 작성일자 컬럼 정리
해시태그 분리 및 별도 컬럼 저장
브랜드별 정제 데이터셋 생성
KoNLPy Okt 기반 명사 추출
브랜드명, 일반 리뷰 표현 등 분석에 불필요한 단어 제거
단어 빈도 계산
워드클라우드 생성으로 주요 키워드 시각화
KoSBERT 임베딩을 활용한 문서 유사도 계산
Kkma 형태소 분석 기반 토큰화
TextRank 기반 본문 요약
TF-IDF와 KMeans를 활용한 요약문 군집화 실험
감성 분석용 결과 데이터 생성 실험
BeerReviewAnalysis/
├── Crawling/
│ ├── beer_list.ipynb
│ ├── cass_blog/
│ │ ├── cass_blog_data.ipynb
│ │ ├── cass_blog_data_1.csv
│ │ ├── cass_blog_data_2.csv
│ │ └── cass_blog_data_final.csv
│ ├── kelly_blog/
│ │ ├── kelly_blog_data.ipynb
│ │ ├── kelly_blog_data_1.csv
│ │ ├── kelly_blog_data_2.csv
│ │ └── kelly_blog_data_final.csv
│ └── news/
│ ├── cass_news_data.ipynb
│ ├── cass_news_1(264).csv
│ ├── kelly_news_data.ipynb
│ └── kelly_news_2(453).csv
├── Preprocessing/
│ ├── Preprocessing.ipynb
│ ├── Preprocessing_original.ipynb
│ ├── preprocessing_2.ipynb
│ ├── 크롤링.zip
│ ├── crawled_data/
│ │ ├── *_blog_filtered.csv
│ │ ├── *_blog_urls_temp.csv
│ │ └── crawled_blog_data.zip
│ └── cleaned_data/
│ └── *_blog_cleaned.csv
├── WordCloud/
│ ├── WordCloud.ipynb
│ ├── cleaned_data.zip
│ └── data/
│ └── *_blog_cleaned.csv
├── Beer_Review_Analysis.pdf # 최종 보고서
├── .gitignore
├── text_prerocessing_summarization.ipynb
├── requirements.txt
└── README.md
경로
설명
Crawling/
블로그 및 뉴스 데이터 수집 노트북과 원천 수집 결과
Preprocessing/
수집 데이터 정제, 날짜/본문/해시태그 처리 노트북과 정제 데이터
WordCloud/
정제 데이터를 활용한 브랜드별 키워드 빈도 분석 및 워드클라우드 생성
text_prerocessing_summarization.ipynb
전처리, KoSBERT 유사도, Kkma 토큰화, TextRank 요약, 감성 분석 실험 노트북
Beer_Review_Analysis.pdf
맥주 브랜드 블로그 리뷰 텍스트 분석 최종 보고서
requirements.txt
분석 환경 재현을 위한 주요 Python 패키지 목록
파일
설명
Beer_Review_Analysis.pdf
맥주 브랜드 블로그 리뷰 분석 최종 보고서 (데이터 수집, 전처리, 키워드·요약·유사도 분석, 결과 정리)
Python
Jupyter Notebook
pandas, numpy
Selenium
KoNLPy
scikit-learn
sentence-transformers
networkx
matplotlib
wordcloud