In [7]:
import os
import json
import glob

def load_company_names(folder_path, key='companyName'):
    company_names = set()
    # 폴더 내 모든 .json 파일 경로 찾기
    json_files = glob.glob(os.path.join(folder_path, '*.json'))
    for file in json_files:
        try:
            with open(file, 'r', encoding='utf-8') as f:
                data = json.load(f)
            # 만약 파일 내에 companyName 필드가 존재하면 추가
            if key in data and data[key]:
                company_names.add(data[key])
        except Exception as e:
            print(f"Error processing {file}: {e}")
    return company_names

# 폴더 경로 설정
folder1 = './crawling'
folder2 = './jobs'

# 각 폴더의 회사명 로드
companies1 = load_company_names(folder1)
companies2 = load_company_names(folder2)

# 양쪽 모두 존재하는 회사명 구하기
common_companies = companies1.intersection(companies2)

# 결과 출력
print("양쪽 모두 존재하는 회사명 목록:")
for company in common_companies:
    print(company)
print(f"총 개수: {len(common_companies)}")


양쪽 모두 존재하는 회사명 목록:
펨트론
한국네트웍스
소프트넷
와탭랩스
피앤이시스템즈
호전실업
티사이언티픽
소만사
네비웍스
펜타시큐리티
미스터블루
위즈코리아
링네트
덴티움
이파피루스
이수시스템
엑심베이
메타넷티플랫폼
네오티스
디지털포토
콘텐츠웨이브
크래프톤
넥서스커뮤니티
유진로봇
쎄크
씨브이네트
코아비스
디에스이트레이드
인피닉
위드네트웍스
앤씨앤
씨이랩
이노웍스
레이언스
이너버스
네오펙트
이노아이
아이파킹
이엘피
엔미디어플랫폼
파이오링크
메이아이
커넥트웨이브
시어스랩
스콥정보통신
이스트소프트
건솔루션
와이즈넛
대상정보기술
한솔테크닉스
티엔에이치
슈프리마
코닉글로리
엘아이지시스템
유니온커뮤니티
메타넷글로벌
브레인즈컴퍼니
메디트
유디아이디
코그넷나인
오픈소스컨설팅
캐럿글로벌
엔에이치엔링크
아이디에스앤트러스트
씨앤유글로벌
모비루스
날개물류
신비앤텍
에임메드
스톤위즈
프레스토솔루션
상화
비욘드테크
메가스터디교육
미디어로그
이글루코퍼레이션
케이웨더
페니로이스
지2터치
씨알에스큐브
누리인포스
총 개수: 81


In [None]:
import os
import json
import glob

def load_unique_company_names(folder_path, key='companyName'):
    company_names = set()
    # 폴더 내 모든 .json 파일 경로 찾기
    json_files = glob.glob(os.path.join(folder_path, '*.json'))
    for file in json_files:
        try:
            with open(file, 'r', encoding='utf-8') as f:
                data = json.load(f)
            # JSON 파일에 companyName 필드가 존재하면 추가
            if key in data and data[key]:
                company_names.add(data[key])
        except Exception as e:
            print(f"Error processing {file}: {e}")
    return company_names

# .jobs 폴더 경로 설정
folder = './jobs'
unique_companies = load_unique_company_names(folder)
unique_count = len(unique_companies)

# 결과 출력: 고유한 companyName의 개수
print(f"Unique companyName count: {unique_count}")

# 결과를 JSON 형식으로 저장할 데이터 구성
output = {
    "unique_companyName_count": unique_count,
    "companyNames": list(unique_companies)
}

# 결과 JSON 파일로 저장
output_file = 'unique_company_names_jumpit.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(output, f, ensure_ascii=False, indent=4)

print(f"JSON file created: {output_file}")


Unique companyName count: 3737
JSON file created: unique_company_names_jobkorea.json


In [3]:
import json
from rapidfuzz import fuzz

# JSON 파일에서 회사명 리스트 로드
with open("unique_company_names_jumpit.json", "r", encoding="utf-8") as f:
    jumpit_data = json.load(f)
jumpit_names = jumpit_data["companyNames"]

with open("unique_company_names_jobkorea.json", "r", encoding="utf-8") as f:
    jobkorea_data = json.load(f)
jobkorea_names = jobkorea_data["companyNames"]

# 회사명 비교 시, 간단한 정규화를 수행할 수 있음 (소문자화, 공백 제거 등)
def normalize(name):
    return name.lower().replace(" ", "").replace("(", "").replace(")", "")

# 유사도가 높은 회사명 쌍을 찾기 위한 임계치 설정 (0~100 사이)
threshold = 90
suspected_duplicates = []

# 두 리스트의 모든 회사명을 비교 (계산량이 많을 수 있으므로 필요에 따라 최적화)
for name1 in jumpit_names:
    norm1 = normalize(name1)
    for name2 in jobkorea_names:
        norm2 = normalize(name2)
        similarity = fuzz.ratio(norm1, norm2)
        if similarity >= threshold:
            suspected_duplicates.append({
                "jumpit": name1,
                "jobkorea": name2,
                "similarity": similarity
            })

# 결과 출력
print("유사도가 높은(동일 가능성이 있는) 회사명 쌍:")
for pair in suspected_duplicates:
    print(pair)


유사도가 높은(동일 가능성이 있는) 회사명 쌍:
{'jumpit': '한국네트웍스', 'jobkorea': '한국네트웍스', 'similarity': 100.0}
{'jumpit': '소프트넷', 'jobkorea': '소프트넷', 'similarity': 100.0}
{'jumpit': '호전실업', 'jobkorea': '호전실업', 'similarity': 100.0}
{'jumpit': '펜타시큐리티', 'jobkorea': '펜타시큐리티', 'similarity': 100.0}
{'jumpit': '네오티스', 'jobkorea': '네오티스', 'similarity': 100.0}
{'jumpit': '와이즈스톤티', 'jobkorea': '와이즈스톤', 'similarity': 90.9090909090909}
{'jumpit': '코아비스', 'jobkorea': '코아비스', 'similarity': 100.0}
{'jumpit': '위드네트웍스', 'jobkorea': '위드네트웍스', 'similarity': 100.0}
{'jumpit': '이노아이', 'jobkorea': '이노아이', 'similarity': 100.0}
{'jumpit': '아이파킹', 'jobkorea': '아이파킹', 'similarity': 100.0}
{'jumpit': '이엘피', 'jobkorea': '이엘피', 'similarity': 100.0}
{'jumpit': '엔미디어플랫폼', 'jobkorea': '엔미디어플랫폼', 'similarity': 100.0}
{'jumpit': '파이오링크', 'jobkorea': '파이오링크', 'similarity': 100.0}
{'jumpit': '시어스랩', 'jobkorea': '시어스랩', 'similarity': 100.0}
{'jumpit': '건솔루션', 'jobkorea': '건솔루션', 'similarity': 100.0}
{'jumpit': '유니온커뮤니티', 'jobkorea': '유니온커뮤니

In [4]:
import json
import re

# 정규화 함수: 괄호와 그 안의 내용을 제거
def normalize_company_name(name):
    # 괄호와 그 내부 내용 제거 (예: "아이센스(caresens)" -> "아이센스")
    normalized = re.sub(r'\(.*?\)', '', name)
    # 좌우 공백 제거
    return normalized.strip()

# 기존 JSON 파일 로드 (unique_company_names_jumpit.json)
input_file = "unique_company_names_jumpit.json"
with open(input_file, "r", encoding="utf-8") as f:
    data = json.load(f)

# 회사명 리스트 수정: 각각 정규화 진행
original_names = data["companyNames"]
normalized_names = [normalize_company_name(name) for name in original_names]

# 수정된 결과로 새로운 JSON 데이터 생성 (개수도 업데이트)
normalized_data = {
    "unique_companyName_count": len(set(normalized_names)),
    "companyNames": list(set(normalized_names))
}

# 결과 저장할 파일명 지정
output_file = "unique_company_names_jumpit_normalized.json"
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(normalized_data, f, ensure_ascii=False, indent=4)

print(f"Normalized JSON file created: {output_file}")


Normalized JSON file created: unique_company_names_jumpit_normalized.json


In [10]:
import os
import json
import glob

# 검색할 타겟 회사명
target_name = "WATA Inc."
# 검색할 폴더 경로 (필요에 따라 수정)
folder_path = "./jobs"  # 현재 폴더 또는 원하는 경로

# 폴더 내 모든 JSON 파일 목록 가져오기
json_files = glob.glob(os.path.join(folder_path, "*.json"))
matching_files = []

for file in json_files:
    try:
        with open(file, "r", encoding="utf-8") as f:
            data = json.load(f)
        # companyName 키가 있고, 값이 타겟과 일치하면 해당 파일명을 저장
        if data.get("companyName") == target_name:
            matching_files.append(file)
    except Exception as e:
        print(f"파일 처리 중 오류 발생 ({file}): {e}")

if matching_files:
    print(f'"{target_name}"을(를) 포함한 JSON 파일:')
    for f in matching_files:
        print(f)
else:
    print(f'"{target_name}"을(를) 포함한 JSON 파일을 찾지 못했습니다.')


"WATA Inc."을(를) 포함한 JSON 파일:
./jobs\job_43856.json
./jobs\job_43857.json
./jobs\job_43858.json
./jobs\job_44510.json
./jobs\job_44511.json
./jobs\job_44512.json
./jobs\job_44513.json
./jobs\job_44514.json
./jobs\job_44515.json


In [8]:
import os
import json
import glob
import re

def normalize_company_name(name):
    # 괄호와 그 내부 내용을 제거한 후 좌우 공백 제거 (예: "아이센스(caresens)" -> "아이센스")
    normalized = re.sub(r'\(.*?\)', '', name)
    return normalized.strip()

def load_unique_company_names(folder_path, key='companyName'):
    company_names = set()
    # 폴더 내 모든 .json 파일 경로 찾기
    json_files = glob.glob(os.path.join(folder_path, '*.json'))
    for file in json_files:
        try:
            with open(file, 'r', encoding='utf-8') as f:
                data = json.load(f)
            # JSON 파일에 companyName 필드가 존재하면 정규화 후 추가
            if key in data and data[key]:
                normalized_name = normalize_company_name(data[key])
                company_names.add(normalized_name)
        except Exception as e:
            print(f"Error processing {file}: {e}")
    return company_names

# .jobs 폴더 경로 설정
folder = './jobs'
unique_companies = load_unique_company_names(folder)
unique_count = len(unique_companies)

# 결과 출력: 고유한 companyName의 개수
print(f"Unique companyName count: {unique_count}")

# 결과를 JSON 형식으로 저장할 데이터 구성
output = {
    "unique_companyName_count": unique_count,
    "companyNames": list(unique_companies)
}

# 결과 JSON 파일로 저장
output_file = 'unique_company_names_jumpit.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(output, f, ensure_ascii=False, indent=4)

print(f"JSON file created: {output_file}")


Unique companyName count: 550
JSON file created: unique_company_names_jumpit.json


In [11]:
import json

# jumpit JSON 파일 로드
with open("unique_company_names_jumpit.json", "r", encoding="utf-8") as f:
    jumpit_data = json.load(f)
jumpit_companies = set(jumpit_data.get("companyNames", []))

# jobkorea JSON 파일 로드
with open("unique_company_names_jobkorea.json", "r", encoding="utf-8") as f:
    jobkorea_data = json.load(f)
jobkorea_companies = set(jobkorea_data.get("companyNames", []))

# jumpit에만 존재하는 회사명 추출
target_companies = jumpit_companies - jobkorea_companies

# 결과 JSON 데이터 구성
output = {
    "unique_companyName_count": len(target_companies),
    "companyNames": list(target_companies)
}

# 결과를 JSON 파일로 저장
output_file = "collected_target_companies.json"
with open(output_file, "w", encoding="utf-8") as f:
    json.dump(output, f, ensure_ascii=False, indent=4)

print(f"JSON file created: {output_file}")


JSON file created: collected_target_companies.json


In [1]:
import json
import os
import re

# target JSON 파일에서 기업명 리스트 로드
with open("collected_target_companies.json", "r", encoding="utf-8") as f:
    target_data = json.load(f)

# 대상 기업명은 "companyNames" 리스트에 있다고 가정합니다.
# (필요에 따라 키 이름을 조정하세요)
target_companies = set(target_data.get("companyNames", []))

# 크롤링된 파일이 있는 폴더 (예시: "./collected_crawling")
crawled_folder = "./collected_crawling"

# 폴더 내 JSON 파일 이름을 리스트로 가져오기 (확장자 제외)
crawled_files = [f for f in os.listdir(crawled_folder) if f.endswith(".json")]

def normalize_company_name(name):
    """
    회사명에 포함될 수 있는 특수문자를 제거하는 함수.
    (크롤링 시 safe_company_name과 동일한 방식으로 처리했다고 가정)
    """
    return re.sub(r'[\\/*?:"<>|]', "_", name).strip()

# 크롤링된 회사명 (파일 이름에서 확장자 제거)
crawled_companies = set(normalize_company_name(os.path.splitext(filename)[0]) for filename in crawled_files)

# 비교: target에는 있지만, 크롤링 폴더에는 없는 기업명
missing_companies = list(target_companies - crawled_companies)

# 정렬 (선택 사항)
missing_companies.sort()

# 결과를 JSON 파일로 저장
with open("missing_companies.json", "w", encoding="utf-8") as f:
    json.dump(missing_companies, f, ensure_ascii=False, indent=4)

print(f"Missing companies saved in 'missing_companies.json' (총 {len(missing_companies)}개)")


Missing companies saved in 'missing_companies.json' (총 211개)


In [17]:
import os
import json

folder_path = './crawling'
unique_categories = set()

for file_name in os.listdir(folder_path):
    if file_name.endswith('.json'):
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
            if 'category' in data:
                # category가 리스트 형태로 있다고 가정
                unique_categories.update(data['category'])

# 유니크한 category의 개수 출력
print("유니크 category 개수:", len(unique_categories))
# 유니크한 category 전체 리스트 출력
print("유니크 category 리스트:", list(unique_categories))


유니크 category 개수: 152
유니크 category 리스트: ['제약', '원무', '인테리어', '목재', '렌탈', '증권', '패션', '언론사', '섬유', '학습지', '제지', '쇼핑몰', '건축', '바이오', '설비', '정보보안', '모바일', '대출', '자재', '케이블', '생활용품', '홍보', '무역', '중학교', '식품가공', '중개', '자동차', '배송', '조선', '광학', '솔루션', '방송', '이벤트', '부동산', '보안', '여가', '통신서비스', '공기업', '연예', '여행', '보건', '백화점', '배급', '신문', '기계', '회계', 'IT컨설팅', '기계설비', '시공', '법무', '반도체', '출판', '협회', '은행', 'CRM', '호텔', '특수학교', '운송', '제어', '커뮤니티', '의류', '화학', '광고', '하드웨어', '공연', '컨텐츠', '항공', 'ERP', '엔터테인먼트', '카센터', '건설', '임대', '학원', '애니메이션', '웹에이전시', '서치펌', '소셜커머스', '방문교육', '게임', '음식료', '의료(병원분류별)', '카드', '금속', '교육원', '토목', '스포츠', '캐피탈', '장비', '전시', '재료', '잡지', '전자', '연구', '컴퓨터', '전기', '공공기관', '네트워크', '생활화학', '디자인', '소비재', '리스', '철강', '조경', '아웃소싱', '상담', '문화', '환경', '콜센터', '도소매', '오픈마켓', '경비', '어학원', '보험', '금융', '영화', '시설관리', 'A/S', '유통', '헤드헌팅', '의료(진료과별)', '정비', '조사', '사진', '에너지', '화장품', '포털', '상조', 'APP', '외식', '세무', '물류', '요양', '단체', '웨딩', '예술', '가구', '기타', '디스플레이', '프로덕션', '레저', '초등학교', '음반', '상사'

In [1]:
import os
import json

# 수정할 카테고리 값 매핑
corrections = {
    '학교(초': '학교(초)',
    '의료(간호': '의료(간호)',
    '상담)': '상담',
    '특수)': '특수'
}

# 대분류 매핑 예시 (필요에 따라 확장하세요)
mapping = {
    # IT·디지털 및 소프트웨어
    'ERP': 'IT·디지털 및 소프트웨어',
    'APP': 'IT·디지털 및 소프트웨어',
    '모바일': 'IT·디지털 및 소프트웨어',
    '솔루션': 'IT·디지털 및 소프트웨어',
    'SI': 'IT·디지털 및 소프트웨어',
    '보안': 'IT·디지털 및 소프트웨어',
    'IT컨설팅': 'IT·디지털 및 소프트웨어',
    'CRM': 'IT·디지털 및 소프트웨어',
    '컴퓨터': 'IT·디지털 및 소프트웨어',
    '정보보안': 'IT·디지털 및 소프트웨어',
    '웹에이전시': 'IT·디지털 및 소프트웨어',
    '네트워크': 'IT·디지털 및 소프트웨어',
    '통신서비스': 'IT·디지털 및 소프트웨어',

    # 제조·기계·산업
    '기계': '제조·기계·산업',
    '자재': '제조·기계·산업',
    '하드웨어': '제조·기계·산업',
    '전기': '제조·기계·산업',
    '제어': '제조·기계·산업',
    '기계설비': '제조·기계·산업',
    '금속': '제조·기계·산업',
    '전자': '제조·기계·산업',
    '디스플레이': '제조·기계·산업',
    '장비': '제조·기계·산업',
    '인쇄': '제조·기계·산업',
    '광학': '제조·기계·산업',
    '화학': '제조·기계·산업',
    '생활화학': '제조·기계·산업',
    '재료': '제조·기계·산업',
    '설비': '제조·기계·산업',
    '환경': '제조·기계·산업',
    '목재': '제조·기계·산업',
    '섬유': '제조·기계·산업',
    '제지': '제조·기계·산업',
    '조선': '제조·기계·산업',

    # 건설·부동산·인테리어
    '토목': '건설·부동산·인테리어',
    '임대': '건설·부동산·인테리어',
    '부동산': '건설·부동산·인테리어',
    '렌탈': '건설·부동산·인테리어',
    '건설': '건설·부동산·인테리어',
    '중개': '건설·부동산·인테리어',
    '건축': '건설·부동산·인테리어',
    '인테리어': '건설·부동산·인테리어',
    '조경': '건설·부동산·인테리어',

    # 금융·보험
    '은행': '금융·보험',
    '보험': '금융·보험',
    '대출': '금융·보험',
    '카드': '금융·보험',
    '금융': '금융·보험',
    '캐피탈': '금융·보험',
    '리스': '금융·보험',

    # 유통·소매·물류
    '도소매': '유통·소매·물류',
    '생활용품': '유통·소매·물류',
    '의류': '유통·소매·물류',
    '백화점': '유통·소매·물류',
    '쇼핑몰': '유통·소매·물류',
    '소셜커머스': '유통·소매·물류',
    '배송': '유통·소매·물류',
    '물류': '유통·소매·물류',
    '프랜차이즈': '유통·소매·물류',
    '가구': '유통·소매·물류',

    # 교육·연구
    '교육원': '교육·연구',
    '방문교육': '교육·연구',
    '학교(초)': '교육·연구',
    '어학원': '교육·연구',
    '대학': '교육·연구',
    '학습지': '교육·연구',
    '학원': '교육·연구',
    '연구': '교육·연구',
    '인터넷교육': '교육·연구',

    # 의료·보건·복지
    '요양': '의료·보건·복지',
    '의료(진료과별)': '의료·보건·복지',
    '의료(병원분류별)': '의료·보건·복지',
    '의료(간호)': '의료·보건·복지',
    '보건': '의료·보건·복지',
    '제약': '의료·보건·복지',
    '바이오': '의료·보건·복지',
    '사회복지': '의료·보건·복지',

    # 미디어·엔터테인먼트·문화
    '영화': '미디어·엔터테인먼트·문화',
    '잡지': '미디어·엔터테인먼트·문화',
    '출판': '미디어·엔터테인먼트·문화',
    '연예': '미디어·엔터테인먼트·문화',
    '방송': '미디어·엔터테인먼트·문화',
    '음반': '미디어·엔터테인먼트·문화',
    '프로덕션': '미디어·엔터테인먼트·문화',
    '예술': '미디어·엔터테인먼트·문화',
    '전시': '미디어·엔터테인먼트·문화',
    '배급': '미디어·엔터테인먼트·문화',
    '애니메이션': '미디어·엔터테인먼트·문화',
    '신문': '미디어·엔터테인먼트·문화',
    '공연': '미디어·엔터테인먼트·문화',
    '문화': '미디어·엔터테인먼트·문화',
    '스포츠': '미디어·엔터테인먼트·문화',
    '사진': '미디어·엔터테인먼트·문화',
    '언론사': '미디어·엔터테인먼트·문화',

    # 광고·마케팅 및 전문서비스
    '홍보': '광고·마케팅 및 전문서비스',
    '광고': '광고·마케팅 및 전문서비스',
    '이벤트': '광고·마케팅 및 전문서비스',
    '서치펌': '광고·마케팅 및 전문서비스',
    '회계': '광고·마케팅 및 전문서비스',
    '세무': '광고·마케팅 및 전문서비스',
    '컨설팅': '광고·마케팅 및 전문서비스',
    '헤드헌팅': '광고·마케팅 및 전문서비스',
    '조사': '광고·마케팅 및 전문서비스',
    '상담': '광고·마케팅 및 전문서비스',
    '아웃소싱': '광고·마케팅 및 전문서비스',
    '법무': '광고·마케팅 및 전문서비스',

    # 운송·정비·서비스
    '운송': '운송·정비·서비스',
    'A/S': '운송·정비·서비스',
    '항공': '운송·정비·서비스',
    '카센터': '운송·정비·서비스',
    '정비': '운송·정비·서비스',
    '시설관리': '운송·정비·서비스',
    '콜센터': '운송·정비·서비스',
    '경비': '운송·정비·서비스',

    # 인터넷·커뮤니티·포털·디지털 컨텐츠
    '커뮤니티': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '컨텐츠': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '포털': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '소셜네트워크서비스(SNS)': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷만화': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '취업포털': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷금융': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷방송': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷생활정보': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷게임': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷영화': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷여행': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷경매': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷부동산': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '여성포털': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷법률': '인터넷·커뮤니티·포털·디지털 컨텐츠',

    # 숙박·여행·외식·레저
    '호텔': '숙박·여행·외식·레저',
    '여행': '숙박·여행·외식·레저',
    '외식': '숙박·여행·외식·레저',
    '음식료': '숙박·여행·외식·레저',
    '웨딩': '숙박·여행·외식·레저',
    '여가': '숙박·여행·외식·레저',
    '레저': '숙박·여행·외식·레저',

    # 기타·공공
    '기타': '기타·공공',
    '공공기관': '기타·공공',
    '공기업': '기타·공공',
    '상사': '기타·공공',
    '상조': '기타·공공',
    '원무': '기타·공공',
    '단체': '기타·공공',
    '협회': '기타·공공',
    '중': '기타·공공',
    '특수': '기타·공공',
}

folder_path = './crawling'

for file_name in os.listdir(folder_path):
    if file_name.endswith('.json'):
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        if 'category' in data:
            original_categories = data['category']
            corrected_categories = []
            # 잘못된 카테고리 수정
            for cat in original_categories:
                corrected_categories.append(corrections.get(cat, cat))
            # 수정된 카테고리로 다시 업데이트
            data['category'] = corrected_categories
            
            # 대분류 매핑 진행
            major_categories = set()
            for cat in corrected_categories:
                major = mapping.get(cat, "미분류")
                major_categories.add(major)
            data['majorCategory'] = list(major_categories)
        
        # 변경된 내용을 원본 파일에 저장
        with open(file_path, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=4)

print("모든 JSON 파일에 카테고리 수정 및 대분류 추가 완료!")


모든 JSON 파일에 카테고리 수정 및 대분류 추가 완료!


In [20]:
# 현재 매핑 사전 (이전 예시 코드에서 사용한 매핑)
mapping = {
    # IT·디지털 및 소프트웨어
    'ERP': 'IT·디지털 및 소프트웨어',
    'APP': 'IT·디지털 및 소프트웨어',
    '모바일': 'IT·디지털 및 소프트웨어',
    '솔루션': 'IT·디지털 및 소프트웨어',
    'SI': 'IT·디지털 및 소프트웨어',
    '보안': 'IT·디지털 및 소프트웨어',
    'IT컨설팅': 'IT·디지털 및 소프트웨어',
    'CRM': 'IT·디지털 및 소프트웨어',
    '컴퓨터': 'IT·디지털 및 소프트웨어',
    '정보보안': 'IT·디지털 및 소프트웨어',
    '웹에이전시': 'IT·디지털 및 소프트웨어',
    '네트워크': 'IT·디지털 및 소프트웨어',
    '통신서비스': 'IT·디지털 및 소프트웨어',

    # 제조·기계·산업
    '기계': '제조·기계·산업',
    '자재': '제조·기계·산업',
    '하드웨어': '제조·기계·산업',
    '전기': '제조·기계·산업',
    '제어': '제조·기계·산업',
    '기계설비': '제조·기계·산업',
    '금속': '제조·기계·산업',
    '전자': '제조·기계·산업',
    '디스플레이': '제조·기계·산업',
    '장비': '제조·기계·산업',
    '인쇄': '제조·기계·산업',
    '광학': '제조·기계·산업',
    '화학': '제조·기계·산업',
    '생활화학': '제조·기계·산업',
    '재료': '제조·기계·산업',
    '설비': '제조·기계·산업',
    '환경': '제조·기계·산업',
    '목재': '제조·기계·산업',
    '섬유': '제조·기계·산업',
    '제지': '제조·기계·산업',
    '조선': '제조·기계·산업',
    '에너지': '제조·기계·산업',
    '자동차': '제조·기계·산업',
    'CAD': '제조·기계·산업',
    '철강': '제조·기계·산업',
    '반도체': '제조·기계·산업',
    '식품가공': '제조·기계·산업',

    # 건설·부동산·인테리어
    '토목': '건설·부동산·인테리어',
    '임대': '건설·부동산·인테리어',
    '부동산': '건설·부동산·인테리어',
    '렌탈': '건설·부동산·인테리어',
    '건설': '건설·부동산·인테리어',
    '중개': '건설·부동산·인테리어',
    '건축': '건설·부동산·인테리어',
    '인테리어': '건설·부동산·인테리어',
    '조경': '건설·부동산·인테리어',
    '시공': '건설·부동산·인테리어',

    # 금융·보험
    '은행': '금융·보험',
    '보험': '금융·보험',
    '대출': '금융·보험',
    '카드': '금융·보험',
    '금융': '금융·보험',
    '캐피탈': '금융·보험',
    '리스': '금융·보험',
    '증권': '금융·보험',

    # 유통·소매·물류
    '도소매': '유통·소매·물류',
    '생활용품': '유통·소매·물류',
    '의류': '유통·소매·물류',
    '백화점': '유통·소매·물류',
    '쇼핑몰': '유통·소매·물류',
    '소셜커머스': '유통·소매·물류',
    '배송': '유통·소매·물류',
    '물류': '유통·소매·물류',
    '프랜차이즈': '유통·소매·물류',
    '가구': '유통·소매·물류',
    '소비재': '유통·소매·물류',
    '화장품': '유통·소매·물류',
    '패션': '유통·소매·물류',
    '무역': '유통·소매·물류',
    '오픈마켓': '유통·소매·물류',
    '유통': '유통·소매·물류',

    # 교육·연구
    '교육원': '교육·연구',
    '방문교육': '교육·연구',
    '초등학교': '교육·연구',
    '중학교': '교육·연구',
    '고등학교': '교육·연구',
    '대학교': '교육·연구',
    '특수학교': '교육·연구',
    '어학원': '교육·연구',
    '학습지': '교육·연구',
    '학원': '교육·연구',
    '연구': '교육·연구',
    '인터넷교육': '교육·연구',

    # 의료·보건·복지
    '요양': '의료·보건·복지',
    '의료(진료과별)': '의료·보건·복지',
    '의료(병원분류별)': '의료·보건·복지',
    '의료(간호)': '의료·보건·복지',
    '보건': '의료·보건·복지',
    '제약': '의료·보건·복지',
    '바이오': '의료·보건·복지',
    '사회복지': '의료·보건·복지',

    # 미디어·엔터테인먼트·문화
    '영화': '미디어·엔터테인먼트·문화',
    '잡지': '미디어·엔터테인먼트·문화',
    '출판': '미디어·엔터테인먼트·문화',
    '연예': '미디어·엔터테인먼트·문화',
    '방송': '미디어·엔터테인먼트·문화',
    '음반': '미디어·엔터테인먼트·문화',
    '프로덕션': '미디어·엔터테인먼트·문화',
    '예술': '미디어·엔터테인먼트·문화',
    '전시': '미디어·엔터테인먼트·문화',
    '배급': '미디어·엔터테인먼트·문화',
    '애니메이션': '미디어·엔터테인먼트·문화',
    '신문': '미디어·엔터테인먼트·문화',
    '공연': '미디어·엔터테인먼트·문화',
    '문화': '미디어·엔터테인먼트·문화',
    '스포츠': '미디어·엔터테인먼트·문화',
    '사진': '미디어·엔터테인먼트·문화',
    '언론사': '미디어·엔터테인먼트·문화',
    '케이블': '미디어·엔터테인먼트·문화',
    '게임': '미디어·엔터테인먼트·문화',
    '엔터테인먼트': '미디어·엔터테인먼트·문화',

    # 광고·마케팅 및 전문서비스
    '홍보': '광고·마케팅 및 전문서비스',
    '광고': '광고·마케팅 및 전문서비스',
    '이벤트': '광고·마케팅 및 전문서비스',
    '서치펌': '광고·마케팅 및 전문서비스',
    '회계': '광고·마케팅 및 전문서비스',
    '세무': '광고·마케팅 및 전문서비스',
    '컨설팅': '광고·마케팅 및 전문서비스',
    '헤드헌팅': '광고·마케팅 및 전문서비스',
    '조사': '광고·마케팅 및 전문서비스',
    '상담': '광고·마케팅 및 전문서비스',
    '아웃소싱': '광고·마케팅 및 전문서비스',
    '법무': '광고·마케팅 및 전문서비스',
    '디자인': '광고·마케팅 및 전문서비스',

    # 운송·정비·서비스
    '운송': '운송·정비·서비스',
    'A/S': '운송·정비·서비스',
    '항공': '운송·정비·서비스',
    '카센터': '운송·정비·서비스',
    '정비': '운송·정비·서비스',
    '시설관리': '운송·정비·서비스',
    '콜센터': '운송·정비·서비스',
    '경비': '운송·정비·서비스',

    # 인터넷·커뮤니티·포털·디지털 컨텐츠
    '커뮤니티': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '컨텐츠': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '포털': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '소셜네트워크서비스(SNS)': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷만화': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '취업포털': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷금융': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷방송': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷생활정보': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷게임': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷영화': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷여행': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷경매': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷부동산': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '여성포털': '인터넷·커뮤니티·포털·디지털 컨텐츠',
    '인터넷법률': '인터넷·커뮤니티·포털·디지털 컨텐츠',

    # 숙박·여행·외식·레저
    '호텔': '숙박·여행·외식·레저',
    '여행': '숙박·여행·외식·레저',
    '외식': '숙박·여행·외식·레저',
    '음식료': '숙박·여행·외식·레저',
    '웨딩': '숙박·여행·외식·레저',
    '여가': '숙박·여행·외식·레저',
    '레저': '숙박·여행·외식·레저',

    # 기타·공공
    '기타': '기타·공공',
    '공공기관': '기타·공공',
    '공기업': '기타·공공',
    '상사': '기타·공공',
    '상조': '기타·공공',
    '원무': '기타·공공',
    '단체': '기타·공공',
    '협회': '기타·공공',
}



# corrected_categories 내에서 mapping에 없는 항목 찾기
missing = [cat for cat in corrected_categories if cat not in mapping]

print("매핑에 없는 카테고리:")
for cat in missing:
    print("-", cat)

매핑에 없는 카테고리:


In [None]:
import os
import json

folder_path = './crawling'

for file_name in os.listdir(folder_path):
    if file_name.endswith('.json'):
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        if 'category' in data:
            original_categories = data['category']
            corrected_categories = []
            # 잘못된 카테고리 수정 (예시: corrections 사전 적용)
            for cat in original_categories:
                corrected_categories.append(corrections.get(cat, cat))
            data['category'] = corrected_categories
            
            # 대분류 매핑 진행 및 기존 majorCategory 덮어쓰기
            major_categories = set()
            for cat in corrected_categories:
                major = mapping.get(cat, "미분류")
                major_categories.add(major)
            data['majorCategory'] = list(major_categories)
        
        # 변경된 내용을 파일에 저장 (기존 majorCategory 필드는 덮어씌워짐)
        with open(file_path, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=4)

print("모든 JSON 파일의 대분류(majorCategory)를 업데이트 완료!")

In [22]:
import os
import json

folder_path = './crawling'
companies_with_go = []

for file_name in os.listdir(folder_path):
    if file_name.endswith('.json'):
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        # "category" 리스트에 '고'가 포함되어 있으면 해당 기업명을 리스트에 추가
        if 'category' in data and any(cat == '미분류' for cat in data['category']):
            companies_with_go.append(data.get("companyName", file_name))

print("카테고리에 '미분류'가 포함된 기업들:")
for company in companies_with_go:
    print("-", company)


카테고리에 '미분류'가 포함된 기업들:


In [10]:
import os
import json

# 학교 관련 카테고리 통일 매핑 정의
school_corrections = {
    "학교(초)": "초등학교",
    "중": "중학교",
    "고": "고등학교",
    "대학": "대학교",
    "특수": "특수학교"
    # 만약 "특수"도 학교를 의미한다면, 추가로 변환할 수 있음
    # 예: "특수": "특수학교"
}

folder_path = './crawling'

for file_name in os.listdir(folder_path):
    if file_name.endswith('.json'):
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        if 'category' in data:
            updated_categories = []
            for cat in data['category']:
                # school_corrections에 있으면 변환, 없으면 그대로 사용
                updated_categories.append(school_corrections.get(cat, cat))
            data['category'] = updated_categories
        
        with open(file_path, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=4)

print("모든 JSON 파일에서 학교 관련 카테고리 통일 완료!")


모든 JSON 파일에서 학교 관련 카테고리 통일 완료!


In [23]:
import os
import json

folder_path = './crawling'
all_major_categories = set()

# 폴더 내 모든 JSON 파일 순회
for file_name in os.listdir(folder_path):
    if file_name.endswith('.json'):
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        # majorCategory 필드가 있으면 항목들을 집합에 추가
        if 'majorCategory' in data:
            for major in data['majorCategory']:
                all_major_categories.add(major)

# 유니크한 majorCategory 목록을 리스트로 변환
major_category_list = list(all_major_categories)

# JSON 파일로 저장
output_file = 'majorCategory_list.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(major_category_list, f, ensure_ascii=False, indent=4)

print(f"majorCategory 목록을 '{output_file}' 파일로 저장했습니다.")


majorCategory 목록을 'majorCategory_list.json' 파일로 저장했습니다.
