# 1. 유튜브 댓글 수집

**youtube-comment-downloader 다운**

In [None]:
!pip install youtube-comment-downloader

In [None]:
# 필요한 모듈 불러오기
import os         # 운영체제 명령어 실행 및 파일 삭제 등에 사용
import json       # JSON 파일을 읽기 위해 사용
import pandas as pd  # 데이터프레임 사용을 위해 pandas 불러옴

# 사용자에게 유튜브 영상 URL을 입력받음
url = input("유튜브 영상 링크를 입력하세요: ").strip()  # strip()은 앞뒤 공백 제거

# 댓글 데이터를 저장할 JSON 파일 이름
json_file = 'YoutubeComments.json'

# 최종적으로 저장할 CSV 파일 이름
csv_file = 'YoutubeComments.csv'

# 터미널 명령어를 통해 youtube-comment-downloader 실행
# 입력한 URL에서 댓글을 추출해서 json_file 이름으로 저장함
# ※사전에 !pip install youtube-comment-downloader해서 youtube-comment-downloader를 다운 받아둬야 함
os.system(f'youtube-comment-downloader --url "{url}" --output {json_file}')

# 저장된 JSON 파일을 읽음
# 각 줄(line)은 하나의 JSON 객체이므로 이를 파싱해서 리스트로 저장
with open(json_file, 'r', encoding='utf-8') as f:
    json_data = [json.loads(line) for line in f]  # 줄마다 json.loads로 파싱

# JSON 데이터를 pandas DataFrame으로 변환
# 구조화된 테이블 형태로 가공
df = pd.DataFrame(json_data)

# DataFrame을 CSV 파일로 저장
# index=False는 인덱스 열을 저장하지 않음
# encoding='utf-8-sig'는 엑셀에서 한글이 깨지는 것을 방지하기 위한 설정
df.to_csv(csv_file, index=False, encoding='utf-8-sig')

# JSON 임시 파일 삭제 (필요 없으므로 정리)
os.remove(json_file)

# 사용자에게 완료 메시지를 출력
print(f"\n댓글이 {csv_file} 파일로 저장되었습니다.")

## 2. 언어 감지 코드

**langid 모델 설치**

In [None]:
!pip install langid

In [None]:
# 필요한 라이브러리 불러오기
import pandas as pd      # 데이터프레임을 다루기 위한 pandas
import langid            # 텍스트의 언어를 자동으로 판별해주는 라이브러리
import re                # 정규표현식 처리용 라이브러리

# 처리할 CSV 파일 경로 (Colab에 업로드한 유튜브 댓글 파일)
file_path = 'YoutubeComments.csv'

# CSV 파일을 pandas로 불러와서 DataFrame으로 저장
df = pd.read_csv(file_path)

# 1. 한국어 초성 및 인터넷 은어(줄임말, 신조어)를 감지하는 함수
def is_korean_internet_slang(text):
    if pd.isna(text):     # 결측값(NaN)이면 False 반환
        return False
    text = str(text).strip()  # 문자열로 변환하고 양쪽 공백 제거

    return (
        # 초성(ㄱ~ㅎ), 모음(ㅏ~ㅣ), ㅋ, ㅎ 만 반복된 문자열 (ex: ㅋㅋ, ㅜㅠ, ㅎㅅㅎ)
        bool(re.fullmatch(r'[ㄱ-ㅎㅏ-ㅣㅜㅠㅋㅎ\s]+', text)) or
        # 많이 쓰이는 은어 일부를 직접 포함 여부로 판별
        'ㄹㅇ' in text or   # "real", 진짜라는 의미
        'ㅇㅈ' in text or   # "인정"의 초성
        'ㅅㅂ' in text or   # 욕설 초성
        'ㅋㅋㅋ' in text or # 웃음 표현
        'ㄷㄷ' in text      # "덜덜", 놀람 표현
    )

# 2. 텍스트를 정리하는 함수 (특수문자 제거)
def clean_text(text):
    if pd.isna(text):     # 결측값이면 빈 문자열 반환
        return ''
    # 한글, 영어, 숫자, 공백 외 모든 특수문자 제거
    return re.sub(r'[^\w\sㄱ-힣]', '', str(text))

# 3. 언어 감지 함수 (langid 사용 + 한글 은어 직접 처리 포함)
def detect_langid_custom(text):
    try:
        text = str(text).strip()  # 문자열로 변환하고 공백 제거
        if len(text) < 2:
            return 'unknown'     # 너무 짧은 글은 판별 불가능
        if is_korean_internet_slang(text):
            return 'ko'          # 초성이나 은어로 판별되면 한국어로 처리
        cleaned = clean_text(text)  # 전처리
        lang, _ = langid.classify(cleaned)  # langid로 언어 분류
        return lang
    except:
        return 'unknown'  # 오류 발생 시 'unknown'으로 처리

# 4. 실제로 각 댓글에 대해 언어를 분류하여 새로운 컬럼 'language'에 저장
df['language'] = df['text'].apply(detect_langid_custom)

# 5. 분류된 언어가 몇 개인지 종류별로 출력
print(df['language'].value_counts())

# 6. 결과를 새로운 CSV 파일로 저장
df.to_csv('YoutubeComments_with_langid.csv', index=False, encoding='utf-8-sig')
