본 코드는 감성 분석을 위하여 먼저 한국어 형태소 분석기 KoNLPy 중 하나인 Okt 라이브러리를 사용해 형태소를 분석을 진행하였다. 분석이 완료된 형태소는 군산대학교 KNU 한국어 감성어사전을 활용하여 감성 분석을 진행하였다. KNU 한국어 감성어사전은 특정 도메인에 한정되지 않는 감성사전으로 보편적인 인간의 감정을 대표하는 단어로 형성 되어있다. 각 어휘의 긍정, 중립, 부정의 판별은 매우 부정이  -2, 부정이 -1, 중립이 0, 긍정이 1, 매우 긍정이 2의 리커트 척도(Likert scale)로 이루어져 있다. 감성 분석은 하나의 게시물을 구성하는 어휘 감성 값을 합하여 최종 감성 값으로 나타낸다. 예를 들어, “내 집 마련은 절대 못 할 듯 살면서 늘어나는 건 빚이다 끔찍하다”라는 게시물일 경우 ‘빚’에 -2점, ‘끔찍하다’에 -2점이 부여되어 -4점이라는 음의 감성 값으로 합산된다. 분석 결과, 토픽 0(토픽 0 전통 정치 갈등 및 정당 분열)의 경우 보수 언론의 평균 감성 점수는 -5.28, 중립 언론은 -3.63, 진보 언론은 -6.46으로 나타났다. 중립 언론에서 상대적으로 부정성이 낮은 수치를 보였다는 점은, 해당 토픽이 정책 중심 또는 제도 개편과 같은 전통 정치 영역의 이슈로 인식되었을 가능성을 시사한다. 보수와 진보 언론 간의 점수 차이는 크지 않으며, 이로 미루어 볼 때 토픽 0은 이념적 대립보다는 정당 내부의 권력 갈등이나 운영 문제 등 내부적 정치 구조를 중심으로 한 이슈였을 가능성이 크다.
반면, 토픽 (토픽 1 정치적 다양성과 공정성 담론)1의 경우에는 감성 점수의 격차가 뚜렷하게 나타났다. 보수 언론은 -7.58, 중립 언론은 -7.15, 진보 언론은 -12.92로, 진보 언론에서 특히 강한 부정 감성을 드러냈다. 이는 젠더, 인종, 다양성, 표현의 자유 등 정치적 올바름 이슈가 진보 언론에서도 단일한 수용이나 지지가 아닌 내부 비판과 갈등의 대상으로 작용했음을 의미한다. 즉, 진보 진영 내에서도 PC 담론을 둘러싼 이견이나, 그 적용 방식에 대한 문제의식이 존재했음을 시사하는 결과로 해석된다.
토픽(트럼프 및 국제 보수 포퓰리즘 관련 이슈) 2는 ‘트럼프’, ‘대선’, ‘보수 포퓰리즘’ 등 국제 정치의 이념 갈등과 밀접한 담론으로, 모든 성향에서 가장 낮은 감성 점수를 보였다(보수: -8.64, 중립: -6.53, 진보: -13.23). 특히 진보 언론은 -13.23으로 가장 강한 부정성을 보였는데, 이는 트럼프 및 보수 포퓰리즘에 대한 도덕적·정치적 비판의식이 강하게 반영된 결과이다. 보수 언론조차 -8.64라는 낮은 점수를 기록하고 있어, 보수 진영 내부에서도 트럼프식 정치 전략에 대해 일정 부분 비판적 거리두기가 작동했음을 보여준다.


In [None]:
merged_df.to_csv('감성분석용.csv',index=False, encoding='utf-8-sig')

In [None]:
import pandas as pd
import re

In [None]:
crwl_2010_2016 = pd.read_csv('daum_2010_2016_pc_fast.csv')
crwl_2017 =  pd.read_csv('daum_2017_pc_fast.csv')
crwl_2018 = pd.read_csv('daum_2018_pc_fast.csv')
crwl_2019 = pd.read_csv('daum_2019_pc_fast.csv')
crwl_2020 = pd.read_csv('daum_2020_pc_fast.csv')
crwl_2021 = pd.read_csv('daum_2021_pc_fast.csv')
crwl_2022 = pd.read_csv('daum_2022_pc_fast.csv')
crwl_2023 = pd.read_csv('daum_2023_pc_fast.csv')
crwl_2024 = pd.read_csv('daum_2024_pc_fast.csv')

In [None]:
crwl_2024 = crwl_2024[crwl_2024['연도'] != 2023]

In [None]:
# 데이터프레임 합치기
crwl_all = pd.concat([
    crwl_2010_2016,
    crwl_2017,
    crwl_2018,
    crwl_2019,
    crwl_2020,
    crwl_2021,
    crwl_2022,
    crwl_2023,
    crwl_2024
], ignore_index=True)

# 결과 확인
print(crwl_all.shape)
print(crwl_all.head())

In [None]:
merged_df = crwl_all

In [None]:
import pandas as pd
import re
from konlpy.tag import Okt

# 2. 제목과 본문 합치기
merged_df['text'] = merged_df['제목'].fillna('') + ' ' + merged_df['본문'].fillna('')

# 3. 영문자, 숫자, 특수기호 제거 (한글 및 공백만 남김)
def clean_non_korean(text):
    text = re.sub(r'[^가-힣\s]', ' ', text)
    return re.sub(r'\s+', ' ', text).strip()

merged_df['clean_text'] = merged_df['text'].apply(clean_non_korean)

# 4. 형태소 분석기
okt = Okt()

# 5. 불용어 정의 (기본 + 도메인용 확장 가능)
default_stopwords = set([
'뉴스', '기자', '기사', '보도', '언론', '인터뷰',
    '발표', '전달', '보도자료', '관련', '오늘', '이번',
    '좀','정치적', '수', '있다', '이', '대한', '있는', '한', '년', '등', '더',
    '그', '것이다', '같은', '기자', '다른', '것은', '일', '전', '했다', '하는',
    '미국', '이런', '위해', '하지만', '할', '지난', '월', '또', '것이', '대해',
    '한다', '가장', '없는', '있다고', '것을', '그는', '및', '통해', '아니라',
    '있다는', '때', '것', '많은', '중', '게', '최근', '모든', '큰', '어떤',
    '무단' ,'배포' ,'전', '행사' ,'금지','정치적', '수', '있다', '이', '대한',
    '있는', '한', '년', '등', '더', '그', '것이다', '같은', '기자', '다른', '것은', 
    '일', '전', '했다', '하는', '미국', '이런', '위해', '하지만', '할', '지난', '월',
    '또', '것이', '대해', '한다', '없는', '가장', '있다고', '것을', '그는', '및', '통해',
    '아니라', '있다는', '때', '것', '많은', '중', '게', '최근', '모든', '큰', '어떤',
    '것으로', '이후', '함께', '때문에', '없다', '자신의', '될', '두', '그러나', '않는', '말했다', 
    '다시', '안', '우리', '특히', '하고', '된', '것이라고', '위한', '그런', '건', '아니다', '때문이다', '내', 
    '모두', '어떻게', '잘', '그리고', '이번', '그의', '지금', '왜', '되는', 
    '많이', '보면', '그런데', '대', '우리가', '이렇게', '그래서', '있습니다', '저는',
    '는','다','역시','않은','나는','이제','여러','이를','내가','등을','당시','제가',
    '의','않고','가','데','것도','한다고','있을','된다','물론','한다는','바로','사실',
    '이미','에','그렇게','좋은','있고','말','사람','거','점','재','속','명','책','시작',
    '힘','하나','교수','시간','문화','표현','이유','생각','문제','한국','이야기','대표','세계',
    '후보','주장','상황','주의','작품','자신','정도','위','국가','모습','얘기','시대','뒤','못',
    '가지','캐릭터','의미','경우','분','의원','발언','운동','결과','과정','그것','현실','작가','만','사건',
    '평가','배우','를','등장','가치','경제','저','인간','걸','글','날','감독','입장','기업','존재','부분',
    '무엇','앞','세상','자기','공개','주인공','개인','현재','강조','당','삶','계속','마음','방송','자체',
    '방식','결정','인물','선택','과거','내용','분석','나라','개','사이','중심','일부','정당','때문','알','후',
    '나','번','관객','년대','여기','사용','설명','처음','아이','뜻','선','미래','이름','지난해','보고','뿐','세',
    '정의','적','시민','대상','자리','지역','볼','비','돈','온','곳','정치인','해','쪽','역할','사랑','권력','향',
    '공격','관계','감','누구','달','대중','가능성','요구','라며','수도','올해','간','목소리','진행','정체','위기',
    '개봉','표','이자','관심','살','오히려','층','질문','콘텐츠','정권','로','활동','시리즈','언어','행동','의견',
    '온라인','장면','또한','진영','최고','달러','영향','세력','제','이슈','전략','이기','고민','첫','현상','듯'
    ,'저자', '인기', '기존', '스스로', '주', '은', '집단', '바', '경험', '국제', '노력', '부정', 
    '기준', '국내', '동안', '여러분', '장관', '도널드', '줄', '학교', '로서', '논쟁', '요',
    '기록', '관', '도', '눈', '기도', '반응','대신', '조사', '참여', '라면', '해결', '메시지', '차', 
    '거나', '비롯', '필요', '영상', '다음', '약', '시절', '제기', '서로', '의식', '선언',
    '책임', '론', '단어', '포함', '직접', '편', '다만', '크게', '주목', '정말', 
    '지지율', '가운데', '몇', '우려', '김', '해당', '회사', '시', '언급', '사태', '출연', '독자',
    '말씀', '인사', '전체', '인정', '더욱', '입', '공식', '태도', '기회', '저작권', 
    '답', '해도', '방법', '단체', '기술', '박', '상대', '사진', '조금', '제작', '당신', '해석', '핵심', '동시', '회', 
    '예', '거부', '제도', '일이', '집', '사례', '매우', '음악', '여론조사', '역', '연기', '팀','실제','이해','추구','정신',
    '제대로','대부분','길','이미지','주요','리','앞서','거의','마지막','매체','확인','환경','운영','상태','그게','물','반면',
     '정보', '논리', '수준', '세기', '거리', '면', '먼저',
    '아버지', '공감', '뭐', '적극', '식', '배경', '친구', '지원',
    '우선', '자', '이용', '워', '달리', '행위', '미국인', '만큼', '분위기',
     '위원장', '위원회', '이전', '의도', '전혀', '투자', '란', '채',
    '상징', '고', '음', '명의', '유지', '조', '감정', '초', '함',
    '기', '누군가', '보기', '발생', '순간', '주류', '경찰', '앵커',
    '방향', '개발', '인터넷', '조직', '최', 
    '스', '설정', '씨', '논의', '머리', '준비', '얼마나', '새', '성과',
    '그대로', '시도', '인', '흥행', '끝', '손', '기반', '특정',
    '즉', '마찬가지', '거기', '부', '원칙', '진', '위원', '몸', '반영', '해외',
    '분노', '제목', '서비스', '전문가', '예술',
    '과도', '본인', '흐름', '대화', '그녀', '할리우드', '묘사', '글로벌',
    '주제', '요즘', '예상', '효과', '다수', '위협', '산업', '어디', '출마', '관점',
    '소개', '프로그램', '성공', '집중', '대응', '정', '기억','주의자',
    '과연', '구독', '수사', '한편', '장','불', '우리나라', '정치권', '일상', '시기', '제시',
    '활용', '국회', '영역', '기간', '구성', '임', '비교', '토론', '외교', '노래','도전', '무대',
    '기억', '커뮤니티', '피해', '당선인', '여론', '그동안', '사과',
    '공간', '억', '문학', '총장', '당원', '디', '그냥', '개념', '연합뉴스',
    '요소', '목표', '용어', '강', '계획', '지속', '단', '전망',
    '스타', '불만', '측면', '네', '늘', '최초', '로부터', '웃음', '기본', '일단',
    '절대', '티스', '맥락', '선수', '서사', '사상', '그때',
    '광고', '이익', '확산', '교사', '지난달', '시선', '국정', '남', '희망',
    '둘', '강요', '생활', '보', '차원', '추진','무슨','준','담론','사업','연구',
    '발','문','매력','지사','발전','아주','출시','현장',
    '현장', '일반', '피', '대사', '차지', '평론가', '크리스마스', '도시', '안보',
    '얼굴', '총리', '막', '조롱', '스토리', '전환', '직원', '배',
    '보이', '회의', '고려', '셈', '지층', '경선',
    '각종', '장르', '누가', '재미', '도움', '월일', '기대', '채널', '분야'
    '공연', '성장', '기관', '사고', '히어로', '최대', '대가', '불구', '터', '현', '쇼', '댓글', '시스템', '진짜', '반복', '무시',
    '제공', '지도자', '전문', '스타워즈', '만원', '선정', '행보', '수가', 
    '동의', '며', '이용자', '충격', '원인', '차례', '그룹',
    '신문', '주변', '원','제안','예정', '실사',
    '내부', '부통령', '과학', '내년', '근거', '치', '탓', '목적',
    '업계', '진실', '마련', '막말', '소재', '의회', '마치', '공유', '화제', '연설',
    '작업','스포츠', '변호사', '난', '계기', '느낌', '소리', '심지어',
    '형성', '만약', '정서', '관리', '중이', '한번', '판', '지구', '꿈','서구', '각','모델',
    '반', '아래', '소비', '주민',  '합의', '처', '싸움',
    '잘못', '창', '일종', '옹호', '상상', '포인트', '긍정','인생','원래','형태','공약','가수','주자','확장',
    '부동산','걱정', '에리얼', '그림', '얼마', '가정', '주체', '국',
    '바탕', '아무', '주로', '경향', '심','근본', '질', '수정', '탈', '항상',
    '생', '보장', '전국', '인상', '달라','주지','플로리다주',
    '소통', '파괴', '신뢰', '대의', '절차', '생명', '석',
    '의지', '외', '시청자', '검사', '확대', '탄생','공주','설득','인류','분열',
    '모바일','오마이','자연','과','디지털','친','사이트',
    '접근', '나이', '개입', '현지', '저희', '각자', '뉴욕타임스', '김현정', '기획',
    '중단', '일리', '통', '영어', '너', '낼', '엄마', '공부', '면서','사회',
'따라서', '아마', '갑자기', '별로', '당장', '보통', '무조건', '나은', '직후', '반드시',
                        '결코', '적지', '아예', '정작', '이건', '언제', '점점', '하라', '다소', '각각', '말로',
                        '왜곡', '일보', '오늘날', '자주', '업체','구조','뮤지컬',
                        '영화', '디즈니', '게임', '드라마', '소설', '마블', '애니메이션', '트위터', '캐스팅', '가족',
                        '코로나', '페이스북', '아들', '테러', '공연', '뉴욕', '아시아', '독일', '넷플릭스', '결혼',
                        '코미디', '유튜브', '연출', '러시아', '만화', '메리', '워싱턴', '뉴시스', '외모', '부모', '협회',
                        '뮤지컬', '죽음', '브랜드', '번역', '액션', '백설공주', '동물', '소셜미디어', '업체', '백악관', '의사',
                        '소녀', '이정재', '대회', '제다이', '억원', '시즌', '칼럼', '할리', '공동체', '창작', '문장', '고통', '욕망',
                        '예능', '남녀', '평점', '경기', '아카데미', '불법', '소비자', '남편', '상처', '화가', '교육감', '질서', '연대',
                        '발견', '유명', '경향신문', '올림픽', '그린', '영웅', '시사', '힐러리', '아내', '신청', '공포', '엘리트', '시상식',
                        '주연', '조선', '혼란', '저항', '자본주의', '웹툰', '바람', '플로리다', '직업', '취임', '가짜', '아이돌', '경영', '센터',
                        '투쟁', '곳곳', '판매', '억압', '윌슨', '극장', '응답', '움직임', '성명', '소식', '기득권', '의문', '정리', '집회', '한계',
                        '외면', '적용', '인지', '바다', '피부', '신체', '자녀', '박씨', '관계자', '제품', '개월', '포기', '어머니', '취지', '추가',
                        '특파원', '수상', '오후', '플레이', '교체', '동료', '간다', '플랫폼', '스타일', '혁신', '동원', '규모', '미군', '편이', '삭제',
                        '편집', '다운', '연결', '파리', '실천', '경계', '대변인', '희생', '지능', '타인', '생산', '반감', '기능', '수용', '정상', '증가',
                        '조치', '캘리포니아', '일자리', '약속', '오브', '전개', '하루', '보편', '예측', '특징', '동영상', '위치', '보이지', '구체', '외국인',
                        '라이트', '대목', '확보', '홍콩', '훼손', '뿌리', '일각', '요청', '테슬라', '전형', '지식', '상식', '수단', '무기', '거래', '비평',
                        '우크라이나', '미투', '에너지', '세계관', '이하', '소속', '실패', '복지', '전반', '촬영', '본질', '살인', '강화', '조건', '과제',
                        '대립', '극복', '공동', '팬덤', '권위', '의무', '기자회견', '역대', '감수성', '중앙', '세운', '초반', '통제', '인수', '본격',
                        '위험', '도입', '진단', '사안', '폐지', '인구', '부인', '서도', '불평등', '소득', '비용', '대로', '경고', '여부', '비율', '작용',
                        '기후', '실현', '답변', '젊은이', '항의', '거론', '대비', '모순', '독립', '구분', '반박', '겨냥', '조지', '우주', '방문', '마스크',
                        '진정', '중시', '계급', '개선', '부자', '시점', '구호', '임명', '동맹', '부담', '대책', '통과', '연합', '자료', '블리자드', '성격',
                        '멕시코', '계층', '부여', '교과서', '소위', '심리', '형식', '인도', '의심', '격차', '혐의', '장벽', '수익', '지위', '보지', '캡틴',
                        '이처럼', '법적', '압박', '단계', '절반', '캠프', '증거', '전면', '게이머', '예전', '지도', '외부', '강제', '수행', '충돌', '대결',
                        '의제', '구축', '결론', '재판', '비상', '중도', '임기', '지점', '일베', '구도', '협상', '세금', '박재홍',
                        '인어공주', '논란', '공연', '국민', '중국', '원작', '변화', '지지', '반대', '시장', '이상', '대학', '교육', '역사', '지적',
                        '혐오', '세대', '영국', '서울', '시즌', '칼럼', '할리', '공동체', '창작', '문장', '고통', '욕망', '예능', '평점', '불법',
                        '소비자', '남편', '상처', '화가', '교육감', '질서', '연대', '발견', '유명', '경향신문', '올림픽', '그린', '영웅', '시사', '힐러리',
                        '아내', '신청', '공포', '엘리트', '시상식', '주연', '조선', '혼란', '저항', '자본주의', '웹툰', '바람', '플로리다', '직업', '취임',
                        '가짜', '아이돌', '경영', '센터', '투쟁', '곳곳', '판매', '억압', '윌슨', '극장', '응답', '움직임', '성명', '소식', '기득권', '의문',
                        '정리', '한계', '외면', '적용', '인지', '바다', '피부', '신체', '자녀', '박씨', '관계자', '제품', '개월', '포기', '어머니', '취지',
                        '추가', '특파원', '수상', '오후', '플레이', '교체', '동료', '간다', '플랫폼', '스타일', '혁신', '동원', '규모', '미군', '편이', '삭제',
                        '편집', '다운', '연결', '파리', '실천', '경계', '대변인', '희생', '지능', '타인', '생산', '반감', '기능', '수용', '정상', '증가',
                        '조치', '캘리포니아', '일자리', '약속', '오브', '전개', '하루', '보편', '예측', '특징', '동영상', '위치', '보이지', '구체', '외국인',
                        '라이트', '대목', '확보', '홍콩', '훼손', '뿌리', '일각', '요청', '테슬라', '전형', '지식', '상식', '수단', '무기', '거래', '비평',
                        '에너지', '세계관', '이하', '소속', '실패', '복지', '전반', '촬영', '본질', '살인', '강화', '조건', '과제', '대립', '극복', '공동',
                        '팬덤', '권위', '의무', '기자회견', '역대', '감수성', '중앙', '세운', '초반', '통제', '인수', '본격', '위험', '도입', '진단', '사안',
                        '폐지', '인구', '부인', '서도', '소득', '비용', '대로', '경고', '여부', '비율', '작용', '기후', '실현', '답변', '젊은이', '항의',
                        '거론', '대비', '모순', '독립', '구분', '반박', '겨냥', '조지', '우주', '방문', '마스크', '진정', '중시', '계급', '개선', '부자',
                        '시점', '구호', '임명', '동맹', '부담', '대책', '통과', '연합', '자료', '블리자드', '성격', '멕시코', '계층', '부여', '교과서', '소위',
                        '심리', '형식', '인도', '의심', '격차', '장벽', '수익', '지위', '보지', '캡틴', '이처럼', '법적', '압박', '단계', '절반', '캠프',
                        '증거', '전면', '게이머', '예전', '지도', '외부', '강제', '수행', '충돌', '대결', '의제', '구축', '결론', '재판', '비상', '중도',
                        '임기', '지점', '일베', '구도', '협상', '세금', '박재홍','그다음', '그간', '내내', '부터', '처럼', '뭔가', '어쨌든', '마음껏', '전부',
                        '때로는', '최소한', '상대로', '제일', '어제'
])

# (원하면 domain_stopwords로 확장 가능)
domain_stopwords = set([])  # 사용자 정의 추가 가능

stopwords = default_stopwords.union(domain_stopwords)

# 6. 형태소 추출 + 불용어 제거
def extract_sentiment_tokens(text):
    pos_tags = okt.pos(text, stem=True)
    allowed_tags = ['Noun', 'Adjective', 'Verb', 'Adverb', 'Exclamation']
    return [
        word for word, tag in pos_tags 
        if tag in allowed_tags and len(word) > 1 and word not in stopwords
    ]

merged_df['tokens_sentiment'] = merged_df['clean_text'].apply(extract_sentiment_tokens)

# 7. 확인
print(merged_df[['제목', 'tokens_sentiment']].head())

In [None]:
merged_df

In [None]:
merged_df

In [None]:
# 진보와 보수 언론사 리스트 정의
progressive = ['오마이뉴스', '프레시안', '경향신문', '한겨레', '한겨레21', '주간경향']
conservative = ['조선일보', '중앙일보', '동아일보', '세계일보', '국민일보', '헤럴드경제', '머니투데이']

# 라벨링 함수 정의
def label_ideology(press_name):
    if press_name in progressive:
        return '진보'
    elif press_name in conservative:
        return '보수'
    else:
        return '중립'

# 새로운 열 '성향'에 라벨 부여
merged_df['성향'] = merged_df['신문사'].apply(label_ideology)

In [None]:
merged_df = pd.read_csv('감성분석용.csv')

In [None]:
merged_df

In [None]:
merged_df2 = pd.concat([merged_df,merged2_df_copy])

In [None]:
merged2_df_copy.head(10)

In [None]:
merged_df.head(10)

In [None]:
merged_df2

In [None]:
merged_df2 = pd.merge(df_topic, df_sentiment, on='문서 ID', how='inner')

In [None]:
merged_all = pd.concat([merged_df, merged2_df_copy], axis=1)


In [None]:
merged_all

In [None]:
!pip install json

In [None]:
import json

with open('SentiWord_info.json', encoding='utf-8-sig', mode='r') as f: 
  SentiWord_info = json.load(f)

sentiword_dic = pd.DataFrame(SentiWord_info)

In [None]:
sentiword_dic

In [None]:
# 필요한 컬럼만 추출
sentiword_dic = sentiword_dic[['word_root', 'polarity']]

# 중복 제거 (중복된 경우 평균값을 사용할 수도 있음)
sentiword_dic = sentiword_dic.drop_duplicates(subset='word_root')

# 딕셔너리로 변환
sentiword_dict = dict(zip(sentiword_dic['word_root'], sentiword_dic['polarity']))


In [None]:
def get_sentiment_score(tokens):
    return sum(sentiword_dict.get(token, 0) for token in tokens)


In [None]:
# 감성 점수 컬럼을 숫자로 변환
sentiword_dic['polarity'] = pd.to_numeric(sentiword_dic['polarity'], errors='coerce')

# 변환 후 NaN 제거 (혹은 0으로 처리)
sentiword_dic = sentiword_dic.dropna(subset=['polarity'])

# 다시 딕셔너리 생성
sentiword_dict = dict(zip(sentiword_dic['word_root'], sentiword_dic['polarity']))


In [None]:
# 감성 점수 계산 함수
def get_sentiment_score(tokens):
    return sum(sentiword_dict.get(token, 0) for token in tokens)

# 적용
merged_df['감성점수'] = merged_df['tokens_sentiment'].apply(get_sentiment_score)

# 감성 분류
def classify_sentiment(score):
    if score > 0:
        return '긍정'
    elif score < 0:
        return '부정'
    else:
        return '중립'

merged_df['감성분류'] = merged_df['감성점수'].apply(classify_sentiment)


In [None]:
merged_df

In [None]:
merged2_df = pd.read_csv('merged2_df.csv')

In [None]:
merged2_df

In [None]:
merged2_df_copy = merged2_df.iloc[:,-2:]

In [None]:
merged2_df_copy

In [None]:
merged_df = merged_df[['tokens_sentiment','성향','감성점수','감성분류']]

In [None]:
merged_df = pd.concat([merged_df,merged2_df_copy])

In [None]:
merged_df

# 신문사별 감성점수 평균, 중간값, 개수 등 요약 통계
summary_stats = merged_df.groupby('신문사')['감성점수'].agg(['mean', 'median', 'count', 'std']).reset_index()

print(summary_stats)


In [None]:
summary_stats_by_leaning = merged_df.groupby('성향')['감성점수'].agg(['mean', 'median', 'count', 'std']).reset_index()
print(summary_stats_by_leaning)


In [None]:
sentiment_counts_by_leaning = merged_df.groupby(['성향', '감성분류']).size().unstack(fill_value=0)
print(sentiment_counts_by_leaning)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.font_manager as fm

# 1. AppleGothic 폰트 설정
font_path = '/System/Library/Fonts/Supplemental/AppleGothic.ttf'
fontprop = fm.FontProperties(fname=font_path).get_name()
plt.rc('font', family=fontprop)

# 2. 시각화
plt.figure(figsize=(8,5))
sns.barplot(data=summary_stats_by_leaning, x='성향', y='mean', palette='pastel')
plt.title('성향별 평균 감성 점수')
plt.xlabel('신문사 성향')
plt.ylabel('평균 감성 점수')
plt.show()


In [None]:
sentiword_dic

In [None]:
# 감성 점수를 숫자로 변환
sentiword_dic['polarity'] = pd.to_numeric(sentiword_dic['polarity'], errors='coerce')

# word 기준 dictionary 생성
sentiword_dict = dict(zip(sentiword_dic['word'], sentiword_dic['polarity']))


In [None]:
def get_sentiment_score(tokens):
    return sum([sentiword_dict.get(token, 0) for token in tokens])


In [None]:
merged_df['감성점수'] = merged_df['tokens_sentiment'].apply(get_sentiment_score)


In [None]:
def classify_sentiment(score):
    if score > 0:
        return '긍정'
    elif score < 0:
        return '부정'
    else:
        return '중립'

merged_df['감성분류'] = merged_df['감성점수'].apply(classify_sentiment)


In [None]:
merged_df[['신문사', 'tokens_sentiment', '감성점수', '감성분류']].head()


In [None]:
summary_stats_by_leaning = merged_df.groupby('성향')['감성점수'].agg(['mean', 'std', 'count']).reset_index()
summary_stats_by_leaning.columns = ['성향', '평균', '표준편차', '기사 수']
summary_stats_by_leaning


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.font_manager as fm

# 한글 폰트 설정 (Mac 기준. 윈도우/리눅스는 경로 다름)
font_path = '/System/Library/Fonts/Supplemental/AppleGothic.ttf'  # macOS
font_prop = fm.FontProperties(fname=font_path)
plt.rc('font', family=font_prop.get_name())

plt.figure(figsize=(8, 5))
sns.barplot(data=summary_stats_by_leaning, x='성향', y='평균', palette='pastel')
plt.title('성향별 평균 감성 점수')
plt.xlabel('신문사 성향')
plt.ylabel('평균 감성 점수')
plt.ylim(0, 8)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()


In [None]:
print(summary_stats_by_leaning.dtypes)


In [None]:
# 타입 확인 및 변환
summary_stats_by_leaning['평균'] = pd.to_numeric(summary_stats_by_leaning['평균'], errors='coerce')

# 시각화
plt.figure(figsize=(8, 5))
sns.barplot(data=summary_stats_by_leaning, x='성향', y='평균', palette='pastel')
plt.title('성향별 평균 감성 점수')
plt.xlabel('신문사 성향')
plt.ylabel('평균 감성 점수')
plt.ylim(summary_stats_by_leaning['평균'].min() - 0.1, summary_stats_by_leaning['평균'].max() + 0.1)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()

In [None]:
merged_all

In [None]:
# 감성 점수 계산 함수
def get_sentiment_score(tokens):
    return sum(sentiword_dict.get(token, 0) for token in tokens)

# 적용
merged_all['감성점수'] = merged_all['tokens_sentiment'].apply(get_sentiment_score)

# 감성 분류
def classify_sentiment(score):
    if score > 0:
        return '긍정'
    elif score < 0:
        return '부정'
    else:
        return '중립'

merged_all['감성분류'] = merged_all['감성점수'].apply(classify_sentiment)


In [None]:
summary_stats_by_leaning = merged_all.groupby('성향')['감성점수'].agg(['mean', 'median', 'count', 'std']).reset_index()
print(summary_stats_by_leaning)


In [None]:
sentiment_counts_by_leaning = merged_all.groupby(['성향', '감성분류']).size().unstack(fill_value=0)
print(sentiment_counts_by_leaning)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.font_manager as fm

# 1. AppleGothic 폰트 설정
font_path = '/System/Library/Fonts/Supplemental/AppleGothic.ttf'
fontprop = fm.FontProperties(fname=font_path).get_name()
plt.rc('font', family=fontprop)

# 2. 시각화
plt.figure(figsize=(8,5))
sns.barplot(data=summary_stats_by_leaning, x='성향', y='mean', palette='pastel')
plt.title('성향별 평균 감성 점수')
plt.xlabel('신문사 성향')
plt.ylabel('평균 감성 점수')
plt.show()


In [None]:
crwl_all

In [None]:
merged_all = pd.concat([
    merged_all.reset_index(drop=True),
    crwl_all[['신문사']].reset_index(drop=True)
], axis=1)

In [None]:
merged_all

In [None]:
# 진보와 보수 언론사 리스트 정의
progressive = ['오마이뉴스', '프레시안', '경향신문', '한겨레', '한겨레21', '주간경향']
conservative = ['조선일보', '중앙일보', '동아일보', '세계일보', '국민일보', '헤럴드경제', '머니투데이']

# 라벨링 함수 정의
def label_ideology(press_name):
    if press_name in progressive:
        return '진보'
    elif press_name in conservative:
        return '보수'
    else:
        return '중립'

# 새로운 열 '성향'에 라벨 부여
merged_all['성향'] = merged_all['신문사'].apply(label_ideology)

In [None]:
summary_stats_by_leaning = merged_all.groupby('성향')['감성점수'].agg(['mean', 'median', 'count', 'std']).reset_index()
print(summary_stats_by_leaning)


In [None]:
sentiment_counts_by_leaning = merged_all.groupby(['성향', '감성분류']).size().unstack(fill_value=0)
print(sentiment_counts_by_leaning)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.font_manager as fm

# 1. AppleGothic 폰트 설정
font_path = '/System/Library/Fonts/Supplemental/AppleGothic.ttf'
fontprop = fm.FontProperties(fname=font_path).get_name()
plt.rc('font', family=fontprop)

# 2. 시각화
plt.figure(figsize=(8,5))
sns.barplot(data=summary_stats_by_leaning, x='성향', y='mean', palette='pastel')
plt.title('성향별 평균 감성 점수')
plt.xlabel('신문사 성향')
plt.ylabel('평균 감성 점수')
plt.show()


In [None]:
sentiment_counts_by_topic = merged_all.groupby(['주토픽', '감성분류']).size().unstack(fill_value=0)
print(sentiment_counts_by_topic)

In [None]:
avg_sentiment_by_topic = merged_all.groupby('주토픽')['감성점수'].mean().sort_values(ascending=False)
print(avg_sentiment_by_topic)


In [None]:
filtered_df = merged_all[merged_all['주토픽'].isin([0, 1, 2])]


In [None]:
sentiment_counts = filtered_df.groupby(['주토픽', '감성분류']).size().unstack(fill_value=0)
print(sentiment_counts)


In [None]:
avg_sentiment = filtered_df.groupby('주토픽')['감성점수'].mean()
print(avg_sentiment)


In [None]:
sentiment_counts = (
    filtered_df.groupby(['주토픽', '성향', '감성분류'])
    .size()
    .unstack(fill_value=0)
)
print(sentiment_counts)


In [None]:
avg_sentiment = (
    filtered_df.groupby(['주토픽', '성향'])['감성점수']
    .mean()
    .unstack()
)
print(avg_sentiment)


In [None]:
merged_all['주토픽'].value_counts()

In [None]:
filtered_df = merged_all[merged_all['주토픽'].isin([10,12,27,26,4,1,5,29,21])]


In [None]:
avg_sentiment = (
    filtered_df.groupby(['주토픽', '성향'])['감성점수']
    .mean()
    .unstack()
)
print(avg_sentiment)


In [None]:
plt.figure(figsize=(10, 6))
avg_sentiment.plot(kind='bar', colormap='coolwarm')
plt.title('주토픽별 성향에 따른 평균 감성점수', fontsize=14)
plt.xlabel('주토픽', fontsize=12)
plt.ylabel('평균 감성점수', fontsize=12)
plt.xticks(rotation=0)
plt.legend(title='성향', title_fontsize=11)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


In [None]:
LDA

In [None]:
import pandas as pd
LDA = pd.read_csv('LDA토픽모델링')

In [None]:
merged_b

In [None]:
merged_b = pd.read_csv('감성분석용.csv')

In [None]:
LDA = LDA[['주토픽','gamma_dist','토픽확률']]

새롭게 merge . 0,1,2 세 개의 토픽으로 진행

In [None]:
merged_a = pd.concat([merged_b, LDA], axis=1)

In [None]:
merged_all2 = merged_b[['감성점수','감성분류','신문사','성향']]

In [None]:
merged_b = pd.concat([merged_a, merged_all2], axis=1)

In [None]:
sentiment_counts_by_topic = merged_b.groupby(['주토픽', '감성분류']).size().unstack(fill_value=0)
print(sentiment_counts_by_topic)

In [None]:
sentiment_counts = (
    merged_b.groupby(['주토픽', '성향', '감성분류'])
    .size()
    .unstack(fill_value=0)
)
print(sentiment_counts)


In [None]:
avg_sentiment = (
    merged_b.groupby(['주토픽', '성향'])['감성점수']
    .mean()
    .unstack()
)
print(avg_sentiment)

In [None]:
from matplotlib import font_manager

# 설치된 폰트 중 AppleGothic이 있는지 확인
for font in font_manager.findSystemFonts(fontpaths=None, fontext='ttf'):
    if "AppleGothic" in font:
        print(font)


In [None]:
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
import seaborn as sns

# AppleGothic 폰트 경로
font_path = '/System/Library/Fonts/Supplemental/AppleGothic.ttf'
font_prop = font_manager.FontProperties(fname=font_path)

# matplotlib에 한글 폰트 강제 지정
plt.rcParams['font.family'] = font_prop.get_name()
plt.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지

In [None]:
plt.figure(figsize=(10, 6))
avg_sentiment.plot(kind='bar', colormap='coolwarm')
plt.title('주토픽별 성향에 따른 평균 감성점수', fontsize=14)
plt.xlabel('주토픽', fontsize=12)
plt.ylabel('평균 감성점수', fontsize=12)
plt.xticks(rotation=0)
plt.legend(title='성향', title_fontsize=11)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


In [None]:
from collections import defaultdict, Counter

# 각 토픽별 단어 감성 점수 집계용 딕셔너리
topic_sentiment_words = defaultdict(list)

# 문서별 토픽이 저장되어 있다고 가정 (예: merged_df['dominant_topic'])
# 그리고 tokens_sentiment 컬럼은 형태소 분석된 토큰 리스트

for i, row in merged_b.iterrows():
    topic = row['dominant_topic']  # 문서의 토픽 번호
    tokens = row['tokens_sentiment']  # 전처리된 토큰 리스트
    for token in tokens:
        score = sentiword_dict.get(token, 0)
        if score != 0:
            topic_sentiment_words[topic].append(token)

# 토픽별 상위 감성 단어 확인
for topic, words in topic_sentiment_words.items():
    print(f"\n[토픽 {topic}] 감성 기여 단어 TOP 20:")
    most_common = Counter(words).most_common(20)
    for word, count in most_common:
        print(f"{word}: {count}회")
