Blog Review Analysis of Beer Brands

국내 맥주 브랜드(카스, 켈리, 테라, 클라우드, 아사히)에 대한 네이버 블로그 데이터를 수집하고, 텍스트 전처리와 키워드 시각화 등의 텍스트 분석을 수행하였다.

프로젝트 개요

주요 분석 흐름은 다음과 같다.

네이버 블로그 데이터 수집
브랜드별 원천 데이터 정리
본문 텍스트 전처리 및 해시태그 추출
KoNLPy 기반 명사 추출과 불용어 제거
워드클라우드를 통한 브랜드별 주요 키워드 시각화
KoSBERT, TF-IDF, TextRank 등을 활용한 문서 유사도, 요약, 감성 분석 실험

분석 대상

구분	대상
블로그 데이터	카스, 켈리, 테라, 클라우드, 아사히
주요 텍스트 필드	제목, 본문, 작성일자, 해시태그
주요 분석 방식	크롤링, 정규표현식 기반 전처리, 형태소 분석, 워드클라우드, 요약, 유사도 분석

데이터 규모

데이터	행 수	주요 컬럼
`Preprocessing/cleaned_data/asahi_blog_cleaned.csv`	3,370	검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
`Preprocessing/cleaned_data/cass_blog_cleaned.csv`	2,070	검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
`Preprocessing/cleaned_data/kelly_blog_cleaned.csv`	2,446	검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
`Preprocessing/cleaned_data/kloud_blog_cleaned.csv`	2,525	검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
`Preprocessing/cleaned_data/terra_blog_cleaned.csv`	2,312	검색 키워드, URL, 제목, 작성일자, 본문, 해시태그
`Crawling/news/cass_news_1(264).csv`	264	link, pubdate, title, body
`Crawling/news/kelly_news_2(453).csv`	453	link, pubdate, title, body

주요 기능

데이터 수집

네이버 블로그 검색 결과에서 브랜드별 URL, 제목, 작성일자 수집
Selenium을 활용한 블로그 본문 수집
네이버 뉴스 검색 결과와 기사 본문 수집
수집 결과를 브랜드별 CSV 파일로 저장

텍스트 전처리

본문 내 불필요한 공백, 특수문자, 반복 패턴 제거
제목과 본문 중복 문장 제거
날짜 정보 추출 및 작성일자 컬럼 정리
해시태그 분리 및 별도 컬럼 저장
브랜드별 정제 데이터셋 생성

키워드 분석 및 시각화

KoNLPy Okt 기반 명사 추출
브랜드명, 일반 리뷰 표현 등 분석에 불필요한 단어 제거
단어 빈도 계산
워드클라우드 생성으로 주요 키워드 시각화

요약 및 유사도 분석

KoSBERT 임베딩을 활용한 문서 유사도 계산
Kkma 형태소 분석 기반 토큰화
TextRank 기반 본문 요약
TF-IDF와 KMeans를 활용한 요약문 군집화 실험
감성 분석용 결과 데이터 생성 실험

디렉토리 구조

BeerReviewAnalysis/
├── Crawling/
│   ├── beer_list.ipynb
│   ├── cass_blog/
│   │   ├── cass_blog_data.ipynb
│   │   ├── cass_blog_data_1.csv
│   │   ├── cass_blog_data_2.csv
│   │   └── cass_blog_data_final.csv
│   ├── kelly_blog/
│   │   ├── kelly_blog_data.ipynb
│   │   ├── kelly_blog_data_1.csv
│   │   ├── kelly_blog_data_2.csv
│   │   └── kelly_blog_data_final.csv
│   └── news/
│       ├── cass_news_data.ipynb
│       ├── cass_news_1(264).csv
│       ├── kelly_news_data.ipynb
│       └── kelly_news_2(453).csv
├── Preprocessing/
│   ├── Preprocessing.ipynb
│   ├── Preprocessing_original.ipynb
│   ├── preprocessing_2.ipynb
│   ├── 크롤링.zip
│   ├── crawled_data/
│   │   ├── *_blog_filtered.csv
│   │   ├── *_blog_urls_temp.csv
│   │   └── crawled_blog_data.zip
│   └── cleaned_data/
│       └── *_blog_cleaned.csv
├── WordCloud/
│   ├── WordCloud.ipynb
│   ├── cleaned_data.zip
│   └── data/
│       └── *_blog_cleaned.csv
├── Beer_Review_Analysis.pdf          # 최종 보고서
├── .gitignore
├── text_prerocessing_summarization.ipynb
├── requirements.txt
└── README.md

파일 설명

경로	설명
`Crawling/`	블로그 및 뉴스 데이터 수집 노트북과 원천 수집 결과
`Preprocessing/`	수집 데이터 정제, 날짜/본문/해시태그 처리 노트북과 정제 데이터
`WordCloud/`	정제 데이터를 활용한 브랜드별 키워드 빈도 분석 및 워드클라우드 생성
`text_prerocessing_summarization.ipynb`	전처리, KoSBERT 유사도, Kkma 토큰화, TextRank 요약, 감성 분석 실험 노트북
`Beer_Review_Analysis.pdf`	맥주 브랜드 블로그 리뷰 텍스트 분석 최종 보고서
`requirements.txt`	분석 환경 재현을 위한 주요 Python 패키지 목록

보고서

파일	설명
`Beer_Review_Analysis.pdf`	맥주 브랜드 블로그 리뷰 분석 최종 보고서 (데이터 수집, 전처리, 키워드·요약·유사도 분석, 결과 정리)

사용 기술

Python
Jupyter Notebook
pandas, numpy
Selenium
KoNLPy
scikit-learn
sentence-transformers
networkx
matplotlib
wordcloud

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Blog Review Analysis of Beer Brands

프로젝트 개요

분석 대상

데이터 규모

주요 기능

데이터 수집

텍스트 전처리

키워드 분석 및 시각화

요약 및 유사도 분석

디렉토리 구조

파일 설명

보고서

사용 기술

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
Crawling		Crawling
Preprocessing		Preprocessing
WordCloud		WordCloud
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
text_prerocessing_summarization.ipynb		text_prerocessing_summarization.ipynb

Folders and files

Latest commit

History

Repository files navigation

Blog Review Analysis of Beer Brands

프로젝트 개요

분석 대상

데이터 규모

주요 기능

데이터 수집

텍스트 전처리

키워드 분석 및 시각화

요약 및 유사도 분석

디렉토리 구조

파일 설명

보고서

사용 기술

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages