# 특정 사이트에서 명사를 추출하는 코드



In [9]:
from bs4 import BeautifulSoup
import requests
from konlpy.tag import Komoran

In [10]:
# 명사만 추출하는 함수 정의
def extract_nouns_from_html(url):
    # 웹사이트의 HTML 코드 가져오기
    response = requests.get(url)
    encoding = response.encoding
    print(f"[Debug] Raw Type: {encoding}")
    html = response.content
    # BeautifulSoup을 사용하여 HTML 파싱
    soup = BeautifulSoup(html, "html.parser", from_encoding=encoding)
    # HTML에서 텍스트 추출
    text = soup.get_text().replace("\n", "")
    print(f"[Debug] {text}")
    # Komoran 형태소 분석기 초기화
    komoran = Komoran()
    # 명사만 추출하여 리스트에 저장
    nouns = komoran.nouns(text)
    return set(nouns)

In [11]:
url_list = [
    "https://www.lgcns.com/careers/who-we-are/",  # 오류
    "https://www.samsungsvc.co.kr/intro/recruitment",  # ok
    "https://www.samsungsds.com/kr/unsdgs/values.html",  # 오류
    "https://www.lge.co.kr/company/recruit/talent",  # 오류
    "https://www.sk.co.kr/ko/careers/person.jsp",  # ok
    "https://www.skhynix.com/careers/UI-FR-CR01/",  # ok
]

In [12]:
extract_nouns_from_html(url_list[1])

[Debug] Raw Type: utf-8
[Debug] 인재상 | 회사소개 | 삼성전자서비스본문 바로가기 SAMSUNG 삼성전자서비스  안녕하세요 고객님, 안녕하세요  고객님!             로그인 하시면 보다 편리하게            서비스를 이용하실 수 있습니다.           무엇을 도와드릴까요? 로그인 장바구니 주문/배송 조회 소모품샵 1:1문의 자가수리부품 보증등록  로그아웃 스스로해결 스스로해결 모바일PC/모니터프린터/복합기세탁기/건조기/에어드레서TV에어컨냉장고/김치냉장고청소기공기청정기/제습기주방가전오디오스마트싱스앱 & 서비스기타 제품전문상담 전문상담 챗봇상담이메일 상담원격상담전화상담 예약수어상담 서비스 안내 서비스 안내 요금안내유지보수/세척Samsung Care+영수증/명세서 발급다운로드 자료실 고객 자가수리서비스 예약 서비스 예약 출장서비스 예약예약 조회/ 취소센터찾기주말케어센터 예약소모품샵 소모품샵 모바일PC프린터/복합기TV/모니터에어컨/공기청정기세탁기/건조기/에어드레서청소기냉장고주방가전할인판매고객 자가수리고객의 소리 고객의 소리 칭찬합니다불편합니다 센터찾기 동영상 챗봇 상담 회사소개 공지사항 이용가이드  사이드 메뉴 닫기 로그인 로그아웃  장바구니에 담긴 상품 0 개 검색 사이드 메뉴 보기 궁금하신 내용을 검색해주세요.   검색    인기 검색어  최근 검색어  전체삭제 검색영역 닫기  메인으로 이동 회사소개인재상   회사소개 CEO 인사말 기업정보 윤리경영 사회공헌 인재상 뉴스 안전환경 인재상 인재상 인재상 인재상 인사제도 복리후생 닫기           삼성전자서비스가           지향하는 인재상은 도덕적이고           책임감과 도전의식을 갖춘           창조적 인재입니다.         도덕성-고객지향-진취적사고-책임감  도덕성 정직과 신뢰를 바탕으로 비뚤어진 것은 바로 고치도록 당당히 말하는 용기 있는 사람, 더불어 사는 삶을 실천할 수 있는 따뜻한 사람, 집단과 개인          이기주의를   

{'PC',
 'TV',
 '가수리',
 '가이드',
 '가전',
 '감성',
 '개',
 '개인',
 '개인정보',
 '거래',
 '건조기',
 '검색',
 '검색어',
 '것',
 '격려',
 '경기도',
 '경영',
 '경험',
 '고객',
 '공기',
 '공지',
 '공헌',
 '관련',
 '관리',
 '구매',
 '기기',
 '기업',
 '기타',
 '내용',
 '냉장고',
 '년',
 '뉴스',
 '능력',
 '다운로드',
 '대표',
 '도덕',
 '도전',
 '독창',
 '동료',
 '동료애',
 '동영상',
 '드레',
 '등',
 '등록',
 '로그',
 '로그인',
 '로딩',
 '로지텍',
 '마음',
 '말',
 '매매',
 '메뉴',
 '메인',
 '명세서',
 '모니터',
 '모바일',
 '무단',
 '문',
 '바',
 '바탕',
 '발급',
 '발상',
 '발신자',
 '발휘',
 '방침',
 '배',
 '배려',
 '배포',
 '번호',
 '변화',
 '보수',
 '보증',
 '보호',
 '복리',
 '복사',
 '복합기',
 '본문',
 '봉',
 '봉사',
 '부담',
 '부문',
 '부품',
 '불편',
 '블로그',
 '비',
 '사고',
 '사람',
 '사명감',
 '사업자',
 '사이드',
 '사이트',
 '사항',
 '사회',
 '삭제',
 '삶',
 '삼성',
 '삼성로',
 '삼성전자',
 '삼성전자서비스',
 '상단',
 '상담',
 '상대방',
 '상상력',
 '상품',
 '생각',
 '서',
 '서로',
 '서비스',
 '선도',
 '선정',
 '섭',
 '세상',
 '세척',
 '세탁기',
 '센터',
 '소개',
 '소리',
 '송',
 '수',
 '수어',
 '수원시',
 '스스로',
 '스토어',
 '신고',
 '신념',
 '신뢰',
 '실천',
 '아웃',
 '아이디어',
 '안내',
 '안녕하세요',
 '안심',
 '안전',
 '안주',
 '약관',
 '어',
 '에어',
 '에어컨',
 '연속'

In [2]:
extract_nouns_from_html(url_list[1])

NameError: name 'extract_nouns_from_html' is not defined

In [1]:
response = requests.get("https://www.samsungsds.com/kr/unsdgs/values.html")
encoding = response.encoding
help(encoding)

NameError: name 'requests' is not defined