In [1]:
import pandas as pd
import numpy as np

In [2]:
from konlpy.tag import Okt
from collections import Counter

In [3]:
from tqdm import tqdm

In [21]:
import pickle

In [4]:
def parse_text_file(file_path):
    result_dict = {}

    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            # 줄의 앞뒤 공백 제거
            line = line.strip()

            # C?? 형식의 코드와 나머지 문자열 분리
            if line:
                parts = line.split(' ', 1)  # 첫 번째 공백으로 나눔
                
                if len(parts) == 2:
                    key = parts[0]
                    values = parts[1].split(',')  # 쉼표와 공백으로 구분하여 리스트 생성
                    result_dict[key] = values

    return result_dict

In [5]:
def get_ksic_code(file_path):
    ksic_dict = {}

    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            # 줄의 앞뒤 공백 제거
            line = line.strip()

            # C?? 형식의 코드와 나머지 문자열 분리
            if line:
                parts = line.split(' ', 1)  # 첫 번째 공백으로 나눔
                ksic_dict[parts[0]] = parts[1]

    return ksic_dict

In [6]:
def extract_nouns_and_count(text):
    # Okt 형태소 분석기 객체 생성
    okt = Okt()
    
    # 텍스트에서 명사 추출
    nouns = okt.nouns(text)
    
    # 명사의 등장 횟수를 세어 dict로 변환
    noun_count = dict(Counter(nouns))
    
    sorted_noun_count = dict(sorted(noun_count.items(), key=lambda item: item[1], reverse=True))
    
    return sorted_noun_count

In [7]:
def get_KSIC(keyword) :
    keys_with_value = []
    
    for key, value_list in KSIC_keyword.items():
        if keyword in value_list:
            keys_with_value.append(key)
            
    return keys_with_value

In [8]:
file_path = '/home/osung/data/korean/KSIC_keyword.txt'

In [9]:
KSIC_keyword = parse_text_file(file_path)

In [10]:
type(KSIC_keyword)

dict

In [11]:
KSIC_keyword.keys()

dict_keys(['c101', 'c102', 'c103', 'c104', 'c105', 'c106', 'c107', 'c108', 'c111', 'c112', 'c120', 'c131', 'c132', 'c133', 'c134', 'c139', 'c141', 'c142', 'c143', 'c144', 'c151', 'c152', 'c161', 'c162', 'c163', 'c171', 'c172', 'c179', 'c181', 'c182', 'c191', 'c192', 'c201', 'c202', 'c203', 'c204', 'c211', 'c212', 'c213', 'c221', 'c222', 'c231', 'c232', 'c233', 'c239', 'c241', 'c242', 'c243', 'c251', 'c252', 'c259', 'c261', 'c262', 'c263', 'c264', 'c265', 'c266', 'c271', 'c272', 'c273', 'c274', 'c281', 'c282', 'c283', 'c284', 'c285', 'c289', 'c291', 'c292', 'c301', 'c302', 'c303', 'c304', 'c311', 'c312', 'c313', 'c319', 'c320', 'c331', 'c332', 'c333', 'c334', 'c339', 'c340'])

In [12]:
get_KSIC('공격')

['c313', 'c319']

In [13]:
KSIC_keyword['c319']

['오토바이',
 '스쿠터',
 '차량',
 '모빌리티',
 '장갑차',
 '전차',
 '탱크',
 '전투용',
 '사이클',
 '사이드카',
 '이륜자동차',
 '실버카',
 '유모차',
 '손수레',
 '리어카',
 '우마차',
 '쇼핑카트',
 '전쟁',
 '군수',
 '공격',
 '발포']

In [14]:
combined_keywords = []

In [15]:
for key in KSIC_keyword :
    combined_keywords.extend(KSIC_keyword[key])

In [16]:
combined_keywords

['도축장',
 '도축',
 '축산물',
 '도축업',
 '도축',
 '육류',
 '한우',
 '냉동',
 '토종닭',
 '축산',
 '마리',
 '사육',
 '고래고기',
 '햄',
 '소시지',
 '선지',
 '소고기',
 '돼지고기',
 '양고기',
 '오리고기',
 '닭고기',
 '훈제',
 '닭가슴살',
 '닭발',
 '닭갈비',
 '닭꼬치',
 '양꼬치',
 '돈까스',
 '돈가스',
 '족발',
 '갈비',
 '베이컨',
 '편육',
 '생산량',
 '쇠고기',
 '농민',
 '농가',
 '고기',
 '광우병',
 '귀농',
 '농촌',
 '돼지',
 '한돈',
 '불고기',
 '식품',
 '수산물',
 '양식',
 '수산',
 '광어',
 '항만',
 '해조',
 '어란',
 '어육',
 '캐비어',
 '어묵',
 '젓갈',
 '생선통조림',
 '생선페이스트',
 '건어물',
 '오징어',
 '우럭',
 '도미',
 '도다리',
 '가자미',
 '갈치',
 '고등어',
 '멍게',
 '해삼',
 '굴',
 '석화',
 '조개',
 '가리비',
 '키조개',
 '참돔',
 '돌돔',
 '줄돔',
 '방어',
 '쥐포',
 '먹태',
 '황태',
 '게장',
 '맛살',
 '생선가스',
 '생선까스',
 '액젓',
 '북어채',
 '황태채',
 '미역',
 '김부각',
 '구운김',
 '조미김',
 '생선',
 '김',
 '수확',
 '생산량',
 '어장',
 '어민',
 '아구',
 '아귀',
 '어선',
 '어업',
 '바지락',
 '어촌',
 '어업인',
 '멸치액젓',
 '멸치',
 '주꾸미',
 '어획량',
 '남해안',
 '서해안',
 '동해안',
 '수중',
 '백합',
 '대합',
 '생합',
 '식품',
 '농업',
 '농가',
 '농산물',
 '농협',
 '식품',
 '양파',
 '마늘',
 '과일',
 '채소주스',
 '과일주스',
 '과채주스',
 '알로에',
 '과실주스',
 '딸기잼',
 '사과잼',
 '포도잼',
 '과일페

In [17]:
unique_keywords = list(set(combined_keywords))

In [28]:
unique_keywords

['스피커',
 '임신진단기',
 '펌프',
 'NVIDIA',
 '텐트',
 '타이머',
 '인터넷',
 '제재',
 '주사기',
 '크래커',
 '유성',
 '주물',
 '봉합',
 '사과즙',
 '비건',
 '분유',
 '철골',
 '필립',
 '전화기',
 '찬장',
 '가리비',
 '부동액',
 '전화',
 '종이컵',
 '건조기',
 '연삭기',
 '세라믹파이버',
 '광전관',
 '인테리어',
 '방송통신기',
 '편물사',
 '곡물세척기',
 '명패',
 '축구',
 '고구마',
 '시력교정',
 '철강',
 '무선기기',
 '젤라틴',
 '젖꼭지',
 '압연',
 '글리세린',
 '콩기름',
 '조개',
 '생합',
 '소주',
 '은제',
 '마늘',
 '철광석',
 '고압가스',
 '카메라',
 '철강분말',
 '상추',
 '만두피',
 '인쇄업',
 '합성',
 '혼방사',
 '망간',
 '민속의상',
 '합판',
 '항균',
 '목공물',
 '부유구조물',
 '손수레',
 '의료',
 '트럭',
 '가그린',
 '조개탄',
 '비축량',
 '엑스레이',
 '평삭기',
 '가솔린',
 '피자',
 '중계기',
 '견노일',
 '암면',
 '갤럭시',
 '카본블랙',
 '보건복지부',
 '리코더',
 '제책',
 '대나무',
 '형광램프',
 '이륜자동차',
 '롯데칠성',
 '글러브',
 '피스톤',
 '현대제철',
 '비타민',
 '소화기',
 '평형검사',
 '살충',
 '면도',
 '원자로',
 '시소',
 '게임',
 '석고',
 '비내화',
 '바지락',
 '비디오',
 '머플러',
 '착화탄',
 '다이스',
 '체육',
 '아미노수지',
 '워딩',
 '컴퓨터',
 '양탄자',
 '드라이아이스',
 '제동장치',
 '도정',
 '유기질',
 '전통의상',
 '케첩',
 '김',
 '가공유',
 '양돈',
 '여과',
 '현대자동차',
 '윤활',
 '수산물',
 '렌치',
 '수박',
 '사다리',
 '원심분리기',
 '디스켓

In [26]:
unique_keywords.pop(0)

''

In [27]:
len(unique_keywords)

2009

In [29]:
KSIC_keywords = unique_keywords

In [30]:
with open('ksic_keywords.pkl', 'wb') as file:
    pickle.dump(KSIC_keywords, file)

In [31]:
with open('ksic_keywords.pkl', 'rb') as file:
    loaded_list = pickle.load(file)

In [32]:
loaded_list

['스피커',
 '임신진단기',
 '펌프',
 'NVIDIA',
 '텐트',
 '타이머',
 '인터넷',
 '제재',
 '주사기',
 '크래커',
 '유성',
 '주물',
 '봉합',
 '사과즙',
 '비건',
 '분유',
 '철골',
 '필립',
 '전화기',
 '찬장',
 '가리비',
 '부동액',
 '전화',
 '종이컵',
 '건조기',
 '연삭기',
 '세라믹파이버',
 '광전관',
 '인테리어',
 '방송통신기',
 '편물사',
 '곡물세척기',
 '명패',
 '축구',
 '고구마',
 '시력교정',
 '철강',
 '무선기기',
 '젤라틴',
 '젖꼭지',
 '압연',
 '글리세린',
 '콩기름',
 '조개',
 '생합',
 '소주',
 '은제',
 '마늘',
 '철광석',
 '고압가스',
 '카메라',
 '철강분말',
 '상추',
 '만두피',
 '인쇄업',
 '합성',
 '혼방사',
 '망간',
 '민속의상',
 '합판',
 '항균',
 '목공물',
 '부유구조물',
 '손수레',
 '의료',
 '트럭',
 '가그린',
 '조개탄',
 '비축량',
 '엑스레이',
 '평삭기',
 '가솔린',
 '피자',
 '중계기',
 '견노일',
 '암면',
 '갤럭시',
 '카본블랙',
 '보건복지부',
 '리코더',
 '제책',
 '대나무',
 '형광램프',
 '이륜자동차',
 '롯데칠성',
 '글러브',
 '피스톤',
 '현대제철',
 '비타민',
 '소화기',
 '평형검사',
 '살충',
 '면도',
 '원자로',
 '시소',
 '게임',
 '석고',
 '비내화',
 '바지락',
 '비디오',
 '머플러',
 '착화탄',
 '다이스',
 '체육',
 '아미노수지',
 '워딩',
 '컴퓨터',
 '양탄자',
 '드라이아이스',
 '제동장치',
 '도정',
 '유기질',
 '전통의상',
 '케첩',
 '김',
 '가공유',
 '양돈',
 '여과',
 '현대자동차',
 '윤활',
 '수산물',
 '렌치',
 '수박',
 '사다리',
 '원심분리기',
 '디스켓

In [9]:
file_path = '/home/osung/data/korean/KSIC_code.txt'

In [10]:
KSIC_code = get_ksic_code(file_path)

In [11]:
KSIC_code

{'c101': '도축, 육류 가공 및 저장 처리업',
 'c102': '수산물 가공 및 저장 처리업',
 'c103': '과실, 체소 가공 및 저장 처리업',
 'c104': '동,식물성 유지 및 낙농제품 제조업',
 'c105': '낙농제품 및 식용빙과류 제조업',
 'c106': '곡물 가공품, 전분 및 전분제품 제조업',
 'c107': '기타 식품 제조업',
 'c108': '동물용 사료 및 조제식품 제조업',
 'c111': '알코올 음료 제조업',
 'c112': '비알코올 음료 및 얼음 제조업',
 'c120': '담배 제조업',
 'c131': '방적 및 가공사 제조업',
 'c132': '직물 직조 및 직물제품 제조업',
 'c133': '편조 원단 제조업',
 'c134': '섬유제품 염색, 정리 및 마무리 가공업',
 'c139': '기타 섬유제품 제조업',
 'c141': '봉제의복 제조업',
 'c142': '모피제품 제조업',
 'c143': '편조의복 제조업',
 'c144': '의복 액세서리 제조업',
 'c151': '가죽, 가방 및 유사 제품 제조업',
 'c152': '신발 및 신발 부분품 제조업',
 'c161': '제재 및 목재 가공업',
 'c162': '나무제품 제조업',
 'c163': '코르크 및 조물 제품 제조업',
 'c171': '펄프, 종이 및 판지 제조업',
 'c172': '골판지, 종이 상자 및 종이 용기 제조업',
 'c179': '기타 종이 및 판지 제품 제조업',
 'c181': '인쇄 및 인쇄관련 산업',
 'c182': '기록매체 복제업',
 'c191': '코크스 및 연탄 제조업',
 'c192': '석유 정제품 제조업',
 'c201': '기초 화학물질 제조업',
 'c202': '합성고무 및 플라스틱 물질 제조업',
 'c203': '비료, 농약 및 살균,살충제 제조업',
 'c204': '기타 화학제품 제조업',
 'c205': '화학섬유 제조업',
 'c211': '기초 의약물질 제조

In [14]:
file_path = '/home/osung/data/korean/modu/json/news_PEST_ksic_score_clean.tsv'

In [15]:
df = pd.read_csv(file_path, sep='\t')

In [16]:
len(df)

1530052

In [17]:
df[:10]

Unnamed: 0,id,topic,text,ksic,max_scores
0,NWRW2200000004.11879,P,코로나 환자 늘어 일반 중환자 치료 공백 코로나 바이러스 확산으로 위중증 환자가 급...,c271,0.4621
1,NWRW1900000015.17529,P,휴가때 골프 꼭 치고 싶으면 자비로 쳐라 허태열 대통령비서실장이 최근 수석비서관회...,c333,0.438204
2,NWRW1900000054.4560,P,이계안 정몽준 현대중 광고로 불법선거운동 현대그룹 전문경영인 출신의 이계안 민주통합...,c311,0.423902
3,NWRW2200000004.12649,P,인기끄는 포도딸기 바나나는 시들 소비자 입맛과 취향이 변하면서 대형 마트 인기 과일...,c103,0.412846
4,NWRW1900000017.11178,P,울산 현대 찾은 모디 조선업 파트너 돼달라 야드선박 건조장가 내려다보이는 배경으로 ...,c311,0.397418
5,NWRW1900000015.4072,P,농업분야 저서 10여권 과 30년 농림축산부 장관 후보자로 내정된 이동필 한국농촌경...,c103,0.39562
6,NPRW2100000003.6303,P,안철수 마스크 값만 월 60만원6500원짜리 마저도 품절 안철수 국민의당 대표가 신...,c271,0.394926
7,NPRW1900000055.31119,P,현대 수석부장은 누구 조선소 생활에 흠뻑 빠진 현대중공업의 정기선 경영기획팀 수석부...,c311,0.389997
8,NWRW1900000034.5678,P,안철수 공익재단 이름 안철수재단 확정 안철수 서울대 융합과학기술대학원장이 출연한 공...,c181,0.368741
9,NWRW1900000019.14197,P,청년 농업인 500명에 100만원 준다 문재인 대통령의 대선 공약이었던 청년 농업인...,c103,0.364516


In [18]:
df['ksic'].unique()

array(['c271', 'c333', 'c311', 'c103', 'c181', 'c301', 'c203', 'c192',
       'c151', 'c262', 'c212', 'c101', 'c141', 'c319', 'c111', 'c172',
       'c264', 'c139', 'c201', 'c222', 'c303', 'c182', 'c261', 'c102',
       'c313', 'c332', 'c241', 'c108', 'c221', 'c259', 'c273', 'c233',
       'c285', 'c120', 'c106', 'c213', 'c204', 'c171', 'c252', 'c331',
       'c339', 'c191', 'c272', 'c134', 'c105', 'c211', 'c334', 'c144',
       'c162', 'c304', 'c152', 'c107', 'c163', 'c283', 'c291', 'c312',
       'c112', 'c282', 'c231', 'c251', 'c179', 'c232', 'c292', 'c340',
       'c265', 'c131', 'c202', 'c242', 'c263', 'c132', 'c284', 'c239',
       'c320', 'c266', 'c289', 'c161', 'c243', 'c281', 'c302', 'c143',
       'c104', 'c274', 'c133', nan, 'c142'], dtype=object)

In [31]:
keywords = []
for text in tqdm(df.text) :
    keyword_count = extract_nouns_and_count(text)
    keywords.append(keyword_count)

100%|██████████████████████████████| 1530052/1530052 [28:14:41<00:00, 15.05it/s]


In [32]:
len(keywords)

1530052

In [33]:
keywords[100]

{'예비': 6,
 '후보': 6,
 '등': 6,
 '오이': 5,
 '칠곡': 4,
 '권': 4,
 '칠곡군': 4,
 '수확': 3,
 '권오을': 2,
 '도지사': 2,
 '왜관읍': 2,
 '리': 2,
 '자원봉사': 2,
 '농가': 2,
 '사업': 2,
 '농촌': 2,
 '대한': 2,
 '또': 2,
 '다른': 2,
 '지역': 2,
 '중앙정부': 2,
 '지방정부': 2,
 '민생': 1,
 '투어': 1,
 '새누리당': 1,
 '경북': 1,
 '군민': 1,
 '민심': 1,
 '파악': 1,
 '위해': 1,
 '직접': 1,
 '작업': 1,
 '오전': 1,
 '로얄': 1,
 '네거리': 1,
 '출근': 1,
 '인사': 1,
 '뒤': 1,
 '곧바로': 1,
 '윤주': 1,
 '섭씨': 1,
 '금남': 1,
 '농장': 1,
 '동안': 1,
 '도우': 1,
 '면서': 1,
 '윤씨': 1,
 '로부터': 1,
 '애로': 1,
 '사항': 1,
 '각종': 1,
 '보조': 1,
 '문제점': 1,
 '지원': 1,
 '개선': 1,
 '점': 1,
 '대해': 1,
 '군청': 1,
 '기자실': 1,
 '기자간담회': 1,
 '시': 1,
 '승격': 1,
 '여부': 1,
 '대강': 1,
 '중': 1,
 '칠곡보': 1,
 '활용': 1,
 '현황': 1,
 '현안': 1,
 '의견': 1,
 '수렴': 1,
 '사랑': 1,
 '집': 1,
 '무료': 1,
 '급식': 1,
 '오후': 1,
 '왜관': 1,
 '경로당': 1,
 '전통': 1,
 '시장': 1,
 '중앙': 1,
 '로': 1,
 '상가': 1,
 '방문': 1,
 '백합': 1,
 '라이온스': 1,
 '좌담': 1,
 '회': 1,
 '참석': 1,
 '일정': 1,
 '소화': 1,
 '그': 1,
 '도농복합도시': 1,
 '소득': 1,
 '고민': 1,
 '음': 1,
 '알': 1,
 '말': 1,
 '이제': 

In [23]:
extract_nouns_and_count(df.loc[0].text)

{'환자': 11,
 '코로나': 5,
 '암': 5,
 '일반': 3,
 '중환자': 3,
 '치료': 3,
 '서울대': 3,
 '명': 3,
 '공백': 2,
 '확산': 2,
 '의료': 2,
 '생기': 2,
 '교수': 2,
 '병원': 2,
 '응급실': 2,
 '약': 2,
 '증가': 2,
 '로': 2,
 '바이러스': 1,
 '위중': 1,
 '증': 1,
 '인력': 1,
 '집중': 1,
 '대처': 1,
 '차질': 1,
 '현장': 1,
 '등': 1,
 '목소리': 1,
 '김범': 1,
 '석': 1,
 '혈액': 1,
 '종양': 1,
 '내과': 1,
 '팀': 1,
 '사망': 1,
 '분석': 1,
 '결과': 1,
 '세상': 1,
 '대폭': 1,
 '것': 1,
 '말기': 1,
 '체류': 1,
 '시간': 1,
 '생존': 1,
 '위해': 1,
 '강제': 1,
 '혈압': 1,
 '승': 1,
 '압제': 1,
 '사용': 1,
 '수도': 1,
 '포인트': 1,
 '심폐소생술': 1,
 '김': 1,
 '이': 1,
 '때문': 1,
 '소외': 1,
 '방치': 1,
 '사실': 1,
 '말': 1}

In [24]:
extract_nouns_and_count(df.loc[1].text)

{'골프': 6,
 '것': 4,
 '말': 3,
 '휴가': 2,
 '때': 2,
 '꼭': 2,
 '문제': 2,
 '출범': 2,
 '실장': 2,
 '허태열': 1,
 '대통령비서실장': 1,
 '최근': 1,
 '석비': 1,
 '서관': 1,
 '회의': 1,
 '주재': 1,
 '사람': 1,
 '사람과': 1,
 '필드': 1,
 '골프장': 1,
 '대신': 1,
 '스크린골프': 1,
 '이용': 1,
 '게': 1,
 '박근혜': 1,
 '정부': 1,
 '이후': 1,
 '금지': 1,
 '령': 1,
 '북한': 1,
 '위협': 1,
 '이어진': 1,
 '데': 1,
 '정권': 1,
 '긴장감': 1,
 '공직자': 1,
 '칠': 1,
 '엄두': 1,
 '내지': 1,
 '이': 1,
 '관련': 1,
 '박': 1,
 '대통령': 1,
 '언론사': 1,
 '논설': 1,
 '오찬': 1,
 '캐디': 1,
 '수입': 1,
 '자꾸': 1,
 '외국': 1,
 '걱정': 1,
 '이야기': 1,
 '지금': 1,
 '여러': 1,
 '가지': 1,
 '생각': 1,
 '청와대': 1,
 '관계자': 1,
 '자비': 1,
 '취미': 1,
 '삼': 1,
 '수야': 1,
 '며': 1,
 '이제': 1,
 '선언': 1,
 '자연': 1,
 '분위기': 1,
 '발언': 1,
 '관가': 1,
 '치': 1,
 '반응': 1}

In [57]:
A = keywords[10]

In [58]:
A

{'등': 5,
 '올해': 4,
 '현대차': 4,
 '기아': 4,
 '것': 3,
 '차': 3,
 '판매': 3,
 '판매량': 2,
 '절반': 2,
 '승용차': 2,
 '중': 2,
 '대가': 2,
 '세단': 2,
 '차종': 2,
 '제': 2,
 '업계': 2,
 '수': 2,
 '인기': 2,
 '지속': 2,
 '현대': 1,
 '기아차': 1,
 '판': 1,
 '미니밴': 1,
 '레저': 1,
 '용': 1,
 '차량': 1,
 '인': 1,
 '종이': 1,
 '사상': 1,
 '처음': 1,
 '다른': 1,
 '비율': 1,
 '이상': 1,
 '달성': 1,
 '가능성': 1,
 '점': 1,
 '국내': 1,
 '집계': 1,
 '카니발': 1,
 '투싼': 1,
 '쏘렌토': 1,
 '주력': 1,
 '년': 1,
 '대비': 1,
 '배': 1,
 '제네시스': 1,
 '고급': 1,
 '확대': 1,
 '데': 1,
 '연초': 1,
 '연간': 1,
 '누적': 1,
 '전망': 1,
 '수납': 1,
 '공간': 1,
 '수년': 1,
 '작년': 1,
 '코로나': 1,
 '여파': 1,
 '박차': 1,
 '숙박': 1,
 '열풍': 1,
 '불어': 1,
 '수요': 1,
 '관계자': 1,
 '시장': 1,
 '선호': 1,
 '현상': 1,
 '당분간': 1,
 '말': 1}

In [64]:
f = {key: A[key]}

KeyError: 'c340'

In [62]:
A.keys()

dict_keys(['등', '올해', '현대차', '기아', '것', '차', '판매', '판매량', '절반', '승용차', '중', '대가', '세단', '차종', '제', '업계', '수', '인기', '지속', '현대', '기아차', '판', '미니밴', '레저', '용', '차량', '인', '종이', '사상', '처음', '다른', '비율', '이상', '달성', '가능성', '점', '국내', '집계', '카니발', '투싼', '쏘렌토', '주력', '년', '대비', '배', '제네시스', '고급', '확대', '데', '연초', '연간', '누적', '전망', '수납', '공간', '수년', '작년', '코로나', '여파', '박차', '숙박', '열풍', '불어', '수요', '관계자', '시장', '선호', '현상', '당분간', '말'])

In [65]:
filtered = {key: A[key] for key in KSIC_keywords if key in A}

In [66]:
filtered

{'코로나': 1,
 '종이': 1,
 '제네시스': 1,
 '현대차': 4,
 '기아': 4,
 '승용차': 2,
 '현대': 1,
 '차량': 1,
 '기아차': 1}

In [71]:
df.iloc[10].text

'올해 현대기아차 판매량 절반이 RV 올해 들어 현대차기아가 판 승용차 2대 중 1대가 SUV미니밴 등 레저용 차량RV인 것으로 나타났다 올해 RV 차종이 사상 처음으로 세단 등 다른 차종을 제치고 판매 비율 50 이상을 달성할 가능성이 점쳐진다 현대차기아는 올 12월 국내에서 팔린 승용차 15만7488대 중 528만1938대가 RV 차종으로 집계됐다고 21일 밝혔다 카니발1만4196대 투싼1만2602대 쏘렌토1만2425대 등 현대차기아의 주력 SUV 판매가 전년 대비 23배씩 늘었고 제네시스 GV704973대GV803155대 등 고급 SUV 판매도 확대된 데 따른 것이다 아직 연초지만 업계에선 올해는 현대차기아의 연간 누적 판매량에서 RV가 세단 등을 제치고 절반을 넘어설 수 있다는 전망이 나오고 있다 수납공간이 넉넉한 SUV는 수년째 인기가 지속돼왔다 특히 작년부터 코로나 여파로 차박차에서 숙박 열풍까지 불어닥치면서 RV 수요가 많이 늘어났다 업계 관계자는 내수 시장에서 큰 차를 선호하는 현상이 이어지고 있어 당분간 RV 인기가 지속할 것이라고 말했다'

In [75]:
filtered_keywords = []

for A in tqdm(keywords) :
    filtered = {key: A[key] for key in KSIC_keywords if key in A}
    filtered_keywords.append(filtered)

100%|███████████████████████████████| 1530052/1530052 [05:23<00:00, 4726.98it/s]


In [76]:
filtered_keywords[50:150]

[{'공격': 1, '코로나': 16, '전쟁': 7, '의료': 2, '전선': 1, '의사': 7, '전화': 1},
 {'중공업': 10, '유지': 1, '자동차': 1, '울산': 1, '현대': 7},
 {'축산': 2, '농가': 1, '방역': 6, '구제역': 9, '김치': 1, '농민': 1, '확산': 3},
 {'유전자': 1, '김': 2, '코로나': 4, '확진': 1, '격리': 3, '검사': 5, '진단': 2},
 {'김': 4, '농업': 3, '농협': 6, '농업인': 1, '양곡': 1, '농민': 1, '농촌': 3},
 {'김': 6, '바이러스': 1, '코로나': 5, '병원': 6, '환자': 1, '감염증': 1, '검사': 11},
 {'코로나': 3, '확진': 2, '감염증': 1, '검사': 3, '마스크': 2},
 {'코로나': 5, '병원': 46, '감염': 6, '환자': 5, '의료': 10, '격리': 2, '폭탄': 1, '담요': 1},
 {'강화': 2, '세제': 1, '유지': 1, '스포츠': 2, '기능': 1, '체육': 14},
 {'코로나': 6,
  '방역': 3,
  '백신': 1,
  '의료': 8,
  '감염증': 1,
  '의사': 1,
  '정비': 1,
  '의자': 1,
  '검사': 3,
  '확산': 1},
 {'신문': 11, '인터넷': 1, '광고': 1},
 {'김': 4, '양복': 5},
 {'코로나': 4,
  '병원': 12,
  '기타': 1,
  '환자': 5,
  '의료': 8,
  '치료': 5,
  '확진': 2,
  '격리': 1,
  '건강': 1,
  '의사': 1,
  '컨테이너': 1,
  '재활': 1,
  '퇴원': 1},
 {'농장': 1,
  '농가': 3,
  '쌀': 1,
  '농업': 8,
  '오이': 1,
  '귀농': 2,
  '생산량': 1,
  '곡물': 1,
  '농민': 11,
  '농촌': 9}

In [90]:
df.columns

Index(['id', 'topic', 'text', 'ksic', 'max_scores', 'keywords',
       'keywords_orig'],
      dtype='object')

In [89]:
df['keywords_orig'] = keywords

In [87]:
df['keywords'] = filtered_keywords

In [91]:
df.loc[10].keywords

{'코로나': 1,
 '종이': 1,
 '제네시스': 1,
 '현대차': 4,
 '기아': 4,
 '승용차': 2,
 '현대': 1,
 '차량': 1,
 '기아차': 1}

In [82]:
len(keywords)

1530052

In [83]:
keywords[10]

{'등': 5,
 '올해': 4,
 '현대차': 4,
 '기아': 4,
 '것': 3,
 '차': 3,
 '판매': 3,
 '판매량': 2,
 '절반': 2,
 '승용차': 2,
 '중': 2,
 '대가': 2,
 '세단': 2,
 '차종': 2,
 '제': 2,
 '업계': 2,
 '수': 2,
 '인기': 2,
 '지속': 2,
 '현대': 1,
 '기아차': 1,
 '판': 1,
 '미니밴': 1,
 '레저': 1,
 '용': 1,
 '차량': 1,
 '인': 1,
 '종이': 1,
 '사상': 1,
 '처음': 1,
 '다른': 1,
 '비율': 1,
 '이상': 1,
 '달성': 1,
 '가능성': 1,
 '점': 1,
 '국내': 1,
 '집계': 1,
 '카니발': 1,
 '투싼': 1,
 '쏘렌토': 1,
 '주력': 1,
 '년': 1,
 '대비': 1,
 '배': 1,
 '제네시스': 1,
 '고급': 1,
 '확대': 1,
 '데': 1,
 '연초': 1,
 '연간': 1,
 '누적': 1,
 '전망': 1,
 '수납': 1,
 '공간': 1,
 '수년': 1,
 '작년': 1,
 '코로나': 1,
 '여파': 1,
 '박차': 1,
 '숙박': 1,
 '열풍': 1,
 '불어': 1,
 '수요': 1,
 '관계자': 1,
 '시장': 1,
 '선호': 1,
 '현상': 1,
 '당분간': 1,
 '말': 1}

In [100]:
def get_ksic_score(f_keywords) :
    ksic_score = {}

    for key, value in f_keywords.items() :
        #print(key, value)
    
        ksic_list = get_KSIC(key)
        #print(ksic_list)
        for ksic in ksic_list :
            if ksic not in ksic_score:
                ksic_score[ksic] = 0
            
            ksic_score[ksic] += value
            
    return ksic_score

In [97]:
ksic_score

{'c271': 1, 'c171': 1, 'c301': 13, 'c311': 1, 'c303': 1, 'c312': 1, 'c319': 1}

In [103]:
ksic_score_list = []

for f_keywords in tqdm(filtered_keywords) :
    ksic_score = get_ksic_score(f_keywords)
    ksic_score_list.append(ksic_score)

100%|███████████████████████████████| 1530052/1530052 [07:55<00:00, 3219.87it/s]


In [110]:
df['ksic_scores'] = ksic_score_list

In [104]:
ksic_score_list[:10]

[{'c102': 1, 'c272': 1, 'c211': 2, 'c271': 24, 'c213': 2, 'c203': 2},
 {'c333': 6},
 {'c264': 1, 'c311': 17, 'c152': 1, 'c333': 1, 'c339': 7, 'c301': 8},
 {'c272': 1, 'c103': 33, 'c271': 2, 'c273': 1, 'c251': 1, 'c101': 1},
 {'c311': 26, 'c192': 3, 'c201': 1, 'c273': 1, 'c285': 5, 'c301': 4},
 {'c101': 6,
  'c102': 1,
  'c103': 12,
  'c104': 1,
  'c105': 1,
  'c106': 1,
  'c107': 2,
  'c112': 1,
  'c172': 1,
  'c273': 1,
  'c264': 1},
 {'c271': 19,
  'c213': 11,
  'c106': 1,
  'c340': 1,
  'c264': 1,
  'c101': 1,
  'c102': 1,
  'c103': 1,
  'c139': 12,
  'c203': 1},
 {'c311': 11, 'c301': 3},
 {'c181': 22},
 {'c103': 20, 'c101': 1}]

In [105]:
def find_max_value_keys(input_dict):
    # dict가 비어있는 경우 빈 리스트 반환
    if not input_dict:
        return []

    # 가장 큰 value 찾기
    max_value = max(input_dict.values())
    
    # max_value와 일치하는 모든 key를 리스트로 모으기
    max_keys = [key for key, value in input_dict.items() if value == max_value]

    return max_keys

In [108]:
max_key_list = []

for ksic_score in tqdm(ksic_score_list) :
    max_keys = find_max_value_keys(ksic_score)
    max_key_list.append(max_keys)

100%|███████████████████████████████| 1530052/1530052 [02:59<00:00, 8526.08it/s]


In [111]:
df['max_ksic'] = max_key_list

In [115]:
max_key_list[:100]

[['c271'],
 ['c333'],
 ['c311'],
 ['c103'],
 ['c311'],
 ['c103'],
 ['c271'],
 ['c311'],
 ['c181'],
 ['c103'],
 ['c301'],
 ['c203'],
 ['c301'],
 ['c271'],
 ['c192'],
 ['c151'],
 ['c151'],
 ['c262'],
 ['c212'],
 ['c311'],
 ['c101'],
 ['c192'],
 ['c271'],
 ['c271'],
 ['c141'],
 ['c262'],
 ['c192'],
 ['c271'],
 ['c103'],
 ['c319'],
 ['c111'],
 ['c262'],
 ['c172'],
 ['c271'],
 ['c271'],
 ['c271'],
 ['c192'],
 ['c103'],
 ['c103'],
 ['c333'],
 ['c264'],
 ['c264'],
 ['c271'],
 ['c103'],
 ['c271'],
 ['c271'],
 ['c271'],
 ['c262'],
 ['c264'],
 ['c103'],
 ['c271'],
 ['c311'],
 ['c203'],
 ['c271'],
 ['c103'],
 ['c271'],
 ['c271'],
 ['c271'],
 ['c333'],
 ['c271'],
 ['c181'],
 ['c141'],
 ['c271'],
 ['c103'],
 ['c103'],
 ['c231', 'c319'],
 ['c271'],
 ['c271'],
 ['c271'],
 ['c271'],
 ['c271'],
 ['c311'],
 ['c311'],
 ['c103'],
 ['c201'],
 ['c222'],
 ['c212'],
 ['c311'],
 ['c271'],
 ['c303'],
 ['c103'],
 ['c182'],
 ['c141'],
 ['c271'],
 ['c103'],
 ['c271'],
 ['c262'],
 ['c271', 'c139'],
 ['c271'],
 ['c2

In [117]:
len(max_key_list[87])

2

In [112]:
df['max_ksic'][:100]

0     [c271]
1     [c333]
2     [c311]
3     [c103]
4     [c311]
       ...  
95    [c333]
96    [c271]
97    [c181]
98    [c271]
99    [c301]
Name: max_ksic, Length: 100, dtype: object

In [113]:
df.columns

Index(['id', 'topic', 'text', 'ksic', 'max_scores', 'keywords',
       'keywords_orig', 'ksic_scores', 'max_ksic'],
      dtype='object')

In [131]:
for index, row in df[:1000].iterrows() :
    if len(row['max_ksic']) > 1 :
        print(index, row['max_ksic'], row['ksic_scores'][row['max_ksic'][0]])
        

65 ['c231', 'c319'] 5
87 ['c271', 'c139'] 23
118 ['c303', 'c304'] 10
126 ['c303', 'c304'] 18
150 ['c151', 'c172'] 19
153 ['c192', 'c201'] 17
175 ['c233', 'c320'] 14
235 ['c106', 'c340'] 9
249 ['c271', 'c139'] 23
251 ['c213', 'c271'] 25
337 ['c301', 'c303', 'c304'] 29
354 ['c151', 'c172'] 18
448 ['c102', 'c203'] 5
465 ['c102', 'c319'] 12
474 ['c259', 'c340'] 16
504 ['c211', 'c212'] 10
509 ['c151', 'c172'] 9
537 ['c233', 'c320'] 10
553 ['c162', 'c320'] 14
607 ['c313', 'c319'] 3
648 ['c101', 'c103'] 10
654 ['c271', 'c213'] 16
665 ['c212', 'c163'] 2
667 ['c201', 'c239'] 10
717 ['c106', 'c340'] 8
720 ['c262', 'c261'] 16
729 ['c233', 'c320'] 12
732 ['c201', 'c239'] 11
745 ['c102', 'c271'] 10
772 ['c233', 'c320'] 17
816 ['c233', 'c320'] 12
848 ['c192', 'c201'] 16
850 ['c303', 'c304'] 33
870 ['c201', 'c239'] 18
900 ['c313', 'c319'] 11
929 ['c201', 'c239'] 7
936 ['c233', 'c320'] 16
970 ['c106', 'c340'] 8
990 ['c201', 'c239'] 11


In [142]:
df.loc[448].text

'김부겸 총리 11명 식사 방역수칙 위반 반성한다 중앙안전대책본부장을 맡고 있는 김부겸 국무총리가 최근 수도권 방역지침을 어기고 11명이 모인 식사 자리에 참석한 것으로 드러났다 11일 KBS 보도에 따르면 김 총리는 지난 6일 서울 삼청동 총리공관에서 대학 동기 등 10명과 함께 사진을 찍었다 KBS는 식사 중간에 참석자 중 한 명이 촬영한 사진을 3장 공개했다 3장에 담긴 인물은 총 10명이고 촬영한 사람까지 더하면 총 11명이다 현행 사회적 거리두기 규정상 수도권에선 10인까지만 사적 모임이 가능한 데 방역수칙을 어긴 것이다 김 총리 측은 이날 원래 김 총리를 포함해 총 10명이 모일 예정이었는데 이 중 한 명의 배우자가 추가로 참석해 11명이 됐다고 설명했다 방역수칙을 위반하지 않으려면 10명만 식사를 해야 했지만 김 총리가 밥은 먹고 가야지 어떻게 하겠느냐며 식사를 함께했다고 한다 이에 총리실 관계자는 김 총리가 방역책임자로서 적절치 못한 행동을 해 반성한다는 입장을 밝혔다고 전했다'

In [143]:
df.loc[448].keywords

{'김': 5, '방역': 5, '자리': 1, '사진': 2}

In [144]:
df.columns

Index(['id', 'topic', 'text', 'ksic', 'max_scores', 'keywords',
       'keywords_orig', 'ksic_scores', 'max_ksic'],
      dtype='object')

In [145]:
df.to_csv('/home/osung/data/korean/modu/json/news_PEST_ksic_score_240903.tsv', sep='\t')

In [146]:
df.loc[10]['max_ksic']

['c301']

In [147]:
df.loc[10]['ksic_scores']

{'c271': 1, 'c171': 1, 'c301': 13, 'c311': 1, 'c303': 1, 'c312': 1, 'c319': 1}

In [148]:
df['ksic_count'] = df['max_ksic'].apply(lambda x:len(x))

In [149]:
df[:100]['ksic_count']

0     1
1     1
2     1
3     1
4     1
     ..
95    1
96    1
97    1
98    1
99    1
Name: ksic_count, Length: 100, dtype: int64

In [156]:
df['ksic_count'].value_counts().sort_index()

0       23666
1     1201074
2      194314
3       59252
4       28482
5       11241
6        5362
7        2837
8        1342
9        1462
10        478
11        252
12        122
13         65
14         44
15         12
16         19
17         11
18          2
19          5
20          6
21          2
22          1
23          1
Name: ksic_count, dtype: int64

In [154]:
df['ksic_count'].max()

23

In [157]:
df0 = df[df['ksic_count'] == 0]

In [159]:
len(df0)

23666

In [161]:
df0.iloc[0].text

'새 방송통신위원장에 최성준 판사 내정 이경재 위원장 사실상 경질 박근혜 대통령은 14일 신임 방송통신위원회 위원장에 최성준 서울고등법원 부장판사를 내정했다 오는 25일 임기가 만료되는 이경재 위원장은 이계철 전 위원장의 잔여 임기만 채우고 1년 만에 물러나게 됐다 청와대 민경욱 대변인은 법원의 주요 보직을 두루 거치며 리더십과 재판역량 등을 인정받았고 한국정보법학회 회장을 역임하는 등 관련 전문성과 경험을 갖추고 있다고 인선 배경을 설명했다 서울 출신인 최 내정자는 경기고서울대 법학과를 졸업하고 1986년 판사에 임용됐으며 특허법원 수석부장판사 춘천지방법원장 등을 역임했다 방송통신 분야와 직접적 연관성은 없다 최 내정자는 방통위도 법을 집행하는 기관이라며 법원이 국민 눈높이에 맞춰 재판하듯이 방송통신 이용자들을 잘 헤아려 정책에 반영하겠다고 말했다 대표적 친박 인사인 이경재 위원장의 연임 실패는 경질로 해석된다 국회에서 처리된 방통위 소관 법안이 거의 없다는 점이 우선 지목된다 민경욱 대변인이 KBS에 사표를 제출하지 않고 청와대에 직행한 것을 두고 윤리도덕적 측면에서 문제가 있다고 답변해 박 대통령의 심기를 건드린 것 아니냐는 말도 나온다'

In [162]:
df2 = df[df['ksic_count'] > 0]

In [163]:
len(df2)

1506386

In [164]:
df2['ksic_count'].value_counts().sort_index()

1     1201074
2      194314
3       59252
4       28482
5       11241
6        5362
7        2837
8        1342
9        1462
10        478
11        252
12        122
13         65
14         44
15         12
16         19
17         11
18          2
19          5
20          6
21          2
22          1
23          1
Name: ksic_count, dtype: int64

In [189]:
df2.to_csv('/home/osung/data/korean/modu/json/news_PEST_ksic_score_remove_non.tsv', sep='\t')

In [168]:
df2['ksic_scores']

0          {'c102': 1, 'c272': 1, 'c211': 2, 'c271': 24, ...
1                                                {'c333': 6}
2          {'c264': 1, 'c311': 17, 'c152': 1, 'c333': 1, ...
3          {'c272': 1, 'c103': 33, 'c271': 2, 'c273': 1, ...
4          {'c311': 26, 'c192': 3, 'c201': 1, 'c273': 1, ...
                                 ...                        
1530047                    {'c192': 1, 'c179': 2, 'c264': 1}
1530048         {'c271': 1, 'c285': 1, 'c301': 1, 'c311': 1}
1530049                               {'c132': 1, 'c171': 1}
1530050    {'c204': 2, 'c262': 1, 'c282': 1, 'c289': 1, '...
1530051    {'c262': 2, 'c201': 2, 'c202': 3, 'c204': 2, '...
Name: ksic_scores, Length: 1506386, dtype: object

In [170]:
df2['max_ksic_score'] = df2['max_ksic'].apply(lambda x:df2['ksic_scores'][(x[0])])

KeyError: 'c271'

In [178]:
max_ksic_scores = []

for index, row in tqdm(df2.iterrows(), total=len(df2)) :
        max_ksic_score = row['ksic_scores'][row['max_ksic'][0]]
        max_ksic_scores.append(max_ksic_score)

100%|██████████████████████████████| 1506386/1506386 [00:41<00:00, 36234.86it/s]


In [179]:
df2['max_ksic_scores'] = max_ksic_scores

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['max_ksic_scores'] = max_ksic_scores


In [182]:
df2['max_ksic_scores'].value_counts().sort_index()

1      122391
2      153496
3      130342
4      114292
5      102355
        ...  
138         2
143         1
148         1
164         2
166         1
Name: max_ksic_scores, Length: 133, dtype: int64

In [198]:
df3 = df2[df2['max_ksic_scores'] > 4]

In [199]:
len(df3)

985865

In [188]:
len(df2)

1506386

In [190]:
df_1 = df2[df2['max_ksic_scores'] == 1]

In [192]:
df_1.columns

Index(['id', 'topic', 'text', 'ksic', 'max_scores', 'keywords',
       'keywords_orig', 'ksic_scores', 'max_ksic', 'ksic_count',
       'max_ksic_scores'],
      dtype='object')

In [194]:
df_1.ksic_count.value_counts().sort_index()

1     36333
2     32097
3     22525
4     13686
5      8202
6      4515
7      2330
8      1216
9       648
10      367
11      210
12      105
13       63
14       40
15       11
16       18
17       10
18        2
19        5
20        5
21        2
22        1
Name: ksic_count, dtype: int64

In [197]:
df_1.iloc[1].text

'윤석열 아내 관련 논란 공정상식에 맞지 않아죄송 윤석열 국민의힘 대선 후보가 배우자 김건희씨의 허위 이력 의혹과 관련해 제 아내와 관련된 논란으로 국민 여러분께 심려를 끼쳐드려 죄송하다고 사과했다 윤 후보는 17일 오후 여의도 당사에서 국민후원금 모금 캠페인 행사를 한 뒤 예고 없이 기자실을 찾아 양복 안주머니에서 준비된 A4 용지를 꺼내들곤 이같이 말했다 윤 후보는 또 이유 여하를 불문하고 경력 기재가 정확하지 않고 논란을 야기하게 된 것 자체만으로 제가 강조해 온 공정과 상식에 맞지 않는 것임을 분명히 말씀드린다고 밝혔다 이어 국민 여러분께서 저에게 기대하셨던 바를 결코 잊지 않겠다며 과거 제가 가졌던 일관된 원칙과 잣대를 저와 제 가족 제 주변에 대해서도 똑같이 적용돼야만 한다고 강조했다 윤 후보는 아내와 관련된 국민의 비판을 겸허히 달게 받겠다며 그리고 더 낮은 자세로 국민께 다가가겠다 죄송하다라며 거듭 고개를 숙였다'

In [200]:
df3.ksic_count.value_counts().sort_index()

1     880092
2      85274
3      13865
4       5418
5        354
6         39
7        176
8         16
9        594
10        24
11        11
12         2
Name: ksic_count, dtype: int64

In [201]:
global_ksic_count = {key: 0 for key in KSIC_keyword.keys()}

In [204]:
for index, row in tqdm(df3.iterrows(), total=len(df3)):
    for ksic in row['max_ksic']:
        global_ksic_count[ksic] += 1

100%|████████████████████████████████| 985865/985865 [00:24<00:00, 40489.83it/s]


In [205]:
global_ksic_count

{'c101': 17822,
 'c102': 37096,
 'c103': 77533,
 'c104': 1617,
 'c105': 3319,
 'c106': 6948,
 'c107': 16823,
 'c108': 1094,
 'c111': 5395,
 'c112': 5568,
 'c120': 875,
 'c131': 280,
 'c132': 1689,
 'c133': 659,
 'c134': 2872,
 'c139': 3588,
 'c141': 2609,
 'c142': 14,
 'c143': 328,
 'c144': 469,
 'c151': 1590,
 'c152': 4008,
 'c161': 3669,
 'c162': 1753,
 'c163': 1170,
 'c171': 4285,
 'c172': 7680,
 'c179': 2279,
 'c181': 8879,
 'c182': 4718,
 'c191': 2404,
 'c192': 27067,
 'c201': 17125,
 'c202': 4199,
 'c203': 11679,
 'c204': 5944,
 'c211': 5637,
 'c212': 10921,
 'c213': 924,
 'c221': 3689,
 'c222': 4219,
 'c231': 2541,
 'c232': 490,
 'c233': 31461,
 'c239': 4596,
 'c241': 19159,
 'c242': 2623,
 'c243': 153,
 'c251': 2575,
 'c252': 35346,
 'c259': 3764,
 'c261': 24746,
 'c262': 71972,
 'c263': 3756,
 'c264': 102255,
 'c265': 9737,
 'c266': 978,
 'c271': 158917,
 'c272': 24601,
 'c273': 12137,
 'c274': 527,
 'c281': 461,
 'c282': 9792,
 'c283': 2514,
 'c284': 1520,
 'c285': 19369,
 'c

In [225]:
df_c142 = df3[df3['max_ksic'].apply(lambda x: 'c142' in x)]

In [207]:
df_c142

Unnamed: 0,id,topic,text,ksic,max_scores,keywords,keywords_orig,ksic_scores,max_ksic,ksic_count,max_ksic_scores
794858,NPRW2100000002.50776,S,코로나 때문에 살처분된 수천 마리 밍크 땅을 뚫고 솟아올라 공포 덴마크에서 신종 코...,c142,0.206258,"{'밍크': 12, '바이러스': 3, '코로나': 3, '가스': 4, '소독':...","{'밍크': 12, '사체': 8, '살': 4, '처분': 4, '덴마크': 4,...","{'c142': 12, 'c211': 3, 'c271': 7, 'c192': 4, ...",[c142],1,12
796689,NWRW2100000005.15953,S,변종 코로나 때문에 밍크 2000만 마리 살처분 운명 종간 신종 코로나바이러스 감염...,c142,0.203095,"{'농장': 4, '밍크': 20, '바이러스': 2, '코로나': 5, '감염':...","{'밍크': 20, '마리': 7, '살': 7, '처분': 7, '변종': 5, ...","{'c103': 4, 'c142': 23, 'c211': 2, 'c271': 10,...",[c142],1,23
818559,NPRW2100000002.43978,S,가죽 벗기더니 이번엔 코로나밍크 100만마리 눈물의 살처분 덴마크에서 밍크 100만...,c142,0.175707,"{'농장': 10, '밍크': 18, '코로나': 9, '식품': 1, '감염': ...","{'밍크': 18, '덴마크': 11, '농장': 10, '코로나': 9, '감염'...","{'c103': 12, 'c142': 20, 'c271': 16, 'c101': 7...",[c142],1,20
820412,NWRW2100000004.14286,S,덴마크 밍크 1700만 마리 살처분모피축산코로나의 비극 인간의 옷이 되기 위해 좁은...,c142,0.17391,"{'축산': 1, '농장': 14, '밍크': 23, '바이러스': 3, '코로나'...","{'밍크': 23, '덴마크': 14, '농장': 14, '마리': 8, '감염':...","{'c101': 12, 'c103': 15, 'c142': 30, 'c211': 3...",[c142],1,30
830698,NWRW2100000005.16448,S,덴마크 정부가 밍크 1700만마리 살처분 일단 멈춘 이유 실수를 저질렀다 유감스러운...,c142,0.164779,"{'영상': 1, '농장': 9, '밍크': 24, '바이러스': 1, '코로나':...","{'밍크': 24, '살': 16, '처분': 16, '덴마크': 11, '농장':...","{'c265': 1, 'c272': 1, 'c273': 1, 'c103': 16, ...",[c142],1,27
833775,NWRW2100000002.32433,S,좀비 밍크 공포 휩싸인 덴마크 사체 다시 꺼낼 것왜 덴마크가 코로나19 바이러스 확...,c271,0.162348,"{'농장': 1, '밍크': 11, '바이러스': 4, '코로나': 5, '감염':...","{'밍크': 11, '덴마크': 7, '사체': 6, '살': 6, '처분': 6,...","{'c103': 1, 'c142': 12, 'c211': 4, 'c271': 11,...",[c142],1,12
862384,NWRW2100000004.14990,S,덴마크 변종 코로나 발견된 밍크 살처분 명령에 총리 퇴진론 덴마크 농업식품부 장관이...,c142,0.143487,"{'농장': 1, '밍크': 22, '바이러스': 6, '코로나': 8, '농가':...","{'밍크': 22, '덴마크': 11, '살': 11, '처분': 11, '사육':...","{'c103': 6, 'c142': 24, 'c211': 6, 'c271': 19,...",[c142],1,24
876640,NWRW2100000002.30370,S,덴마크 코로나 걸린 밍크 살처분 철회했지만대신 모피 벗겨 도살 덴마크 정부가 밍크 ...,c142,0.136155,"{'농장': 8, '밍크': 21, '바이러스': 9, '코로나': 8, '농가':...","{'밍크': 21, '살': 14, '처분': 14, '덴마크': 10, '바이러스...","{'c103': 10, 'c142': 26, 'c211': 9, 'c271': 20...",[c142],1,26
964334,NWRW2100000002.34516,S,죽어도 편히 못죽네덴마크 매장한 밍크 400만 마리 다시 꺼내 소각 모피 때문에 죽...,c271,0.103939,"{'폐기물': 1, '밍크': 12, '바이러스': 4, '코로나': 5, '농가'...","{'밍크': 12, '사체': 6, '덴마크': 5, '마리': 5, '다시': 5...","{'c222': 1, 'c142': 14, 'c211': 4, 'c271': 11,...",[c142],1,14
1008619,NLRW1900000047.884,S,백화점서 파는 것 가짜 모피 속여 판 일당 검거 지난달 5일 오전 10시께 창원시 ...,c142,0.09258,"{'코트': 1, '의류': 1, '의사': 1, '모피': 5, '차량': 1}","{'씨': 9, '이': 9, '모피': 5, '백화점': 4, '유명': 4, '...","{'c141': 1, 'c134': 1, 'c143': 1, 'c271': 1, '...","[c142, c151]",2,5


In [226]:
df_c243 = df3[df3['max_ksic'].apply(lambda x: 'c243' in x)]

In [227]:
len(df_c243)

153

In [232]:
df_c243.iloc[20].text

'한일단조 세아베스틸과 특수강 협업 사업경쟁력 강화 한일단조가 세아베스틸과의 협업체제를 통해 사업경쟁력을 강화한다 한일단조는 1일 세아베스틸과 동반관계 구축을 위한 장기 협약식을 맺고 양사간 상생체제를 구축했다고 밝혔다 회사 관계자는 양사의 협약 배경은 최근 급변하는 글로벌 사업환경속에서 상호협력을 통해 시장확대를 모색하고 상호이익을 추구해 상생기반을 다진다는데 목표를 두고 있다고 설명했다 이에 따라 한일단조는 상용차 정밀 단조부품과 고품질의 방산품을 생산하는 데 최우선적으로 세아베스틸의 특수강을 사용해 품질향상 및 신규고객 창출을 견인할 계획이다 또 세아베스틸은 한일단조의 글로벌경쟁력 제고와 시장리더십 강화를 위해 원재료 공급을 최대한 지원한다는게 골자다 아울러 한일단조와 세아베스틸은 상호간의 신뢰와 협력을 바탕으로 국내외 신규 고객발굴 및 접점 마케팅 강화 해외시장개척 및 수출 저변 확대를 통한 수출 확대 정기 기술 교류회 등을 펼쳐 협업시너지를 극대화해 나갈 방침이다 한일단조는 세아베스틸과의 협업을 통해 그동안 우수한 기술과 제품력에도 불구하고 중국이나 인도 업체에게 불리했던 가격경쟁력을 만회하고 시장점유율을 견인할 수 있는 계기가 마련될 것으로 기대하고 있다 권병호 한일단조 대표는 부품소재업체 입장에서 안정적인 원재료 공급선 확보는 안정적인 사업을 영위하는 전제조건인데 세아베스틸의 적극적인 지원을 통해 고품질 기반 가격경쟁력을 갖출 수 있게 돼 큰 힘이 된다며 각 분야 1위 기업이 맞손을 잡은 만큼 이번 공동 협업으로 시장을 선점해 지속성장을 일구는 기업으로 자리매김할 것이라고 말했다 한편 한일단조는 49년간 단조기술을 통한 상용차용 단조부품 사업과 미사일 및 박격포탄 탄두탄체 방위사업을 영위하며 한국형 단조기술 표준기업으로 글로벌 성장을 가속화하고 있다'