# 1. 파이토치(Pytorch)와 GPU 설치 및 확인

이제부터 아주 똑똑한 계산기(파이토치)와 빠른 계산기(GPU)를 준비해볼 거예요!

- **파이토치(PyTorch)**는 컴퓨터가 똑똑하게 생각할 수 있게 도와주는 도구예요.
- **GPU**는 아주 빠른 계산기예요. 그림 그릴 때나 게임할 때도 쓰이지만, 인공지능도 엄청 빨리 계산할 수 있게 도와줘요.

아래 코드는 파이토치와 GPU를 설치하고, 내 컴퓨터에 GPU가 있는지 확인하는 방법이에요.

> 비유: 파이토치는 똑똑한 연필, GPU는 슈퍼 연필깎이!


In [None]:
# 파이토치와 GPU 설치 명령어 (주피터 노트북에서는 %pip 사용)
# 아래 명령어는 한 번만 실행하면 돼요!
# %pip install torch torchvision torchaudio

# 파이토치 불러오기
import torch  # torch는 똑똑한 계산기!

# 파이토치 버전 확인하기
print('파이토치 버전:', torch.__version__)

# 내 컴퓨터에 GPU가 있는지 확인하기
print('내 컴퓨터에 GPU가 있나요?', torch.cuda.is_available())

# 만약 GPU가 있다면, GPU 이름도 알려줘요!
if torch.cuda.is_available():
    print('내 GPU 이름:', torch.cuda.get_device_name(0))
else:
    print('GPU가 없어요! CPU로 계산해요.')

# 예시 출력:
# 파이토치 버전: 2.1.0
# 내 컴퓨터에 GPU가 있나요? True
# 내 GPU 이름: NVIDIA GeForce RTX 3060


# 2. 필요한 라이브러리 불러오기와 모델 준비

이제 똑똑한 요약 기계를 만들기 위해 여러 도구(라이브러리)를 불러올 거예요!

- **pandas**: 표(엑셀처럼)를 다루는 도구예요.
- **transformers**: 똑똑한 요약 기계(모델)를 불러오는 도구예요.
- **torch**: 아까 불러온 똑똑한 계산기예요.

그리고, 요약을 해주는 똑똑한 기계(모델)와, 글자를 숫자로 바꿔주는 기계(토크나이저)도 준비할 거예요.

> 비유: pandas는 표 계산기, transformers는 요약 로봇, torch는 슈퍼 계산기!

In [None]:
# 필요한 도구(라이브러리) 불러오기
import pandas as pd  # 표를 다루는 도구! (예: 엑셀처럼)
from transformers import PreTrainedTokenizerFast  # 글자를 숫자로 바꿔주는 기계
from transformers import BartForConditionalGeneration  # 똑똑한 요약 기계(모델)

# 모델과 토크나이저 불러오기
# 'gogamza/kobart-summarization'은 한국어 뉴스 요약에 특화된 똑똑한 기계예요!
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-summarization')  # 글자를 숫자로 바꿔주는 기계
model = BartForConditionalGeneration.from_pretrained('gogamza/kobart-summarization')  # 요약을 해주는 똑똑한 기계

print('모델과 토크나이저 준비 완료!')
# 예시 출력: 모델과 토크나이저 준비 완료!

# 3. 뉴스 데이터 불러오기와 데이터 살펴보기

이제 신문 기사 데이터를 불러와서, 어떤 내용이 들어있는지 살펴볼 거예요!

- **CSV 파일**은 표처럼 생긴 파일이에요. (엑셀 파일과 비슷해요)
- 첫 번째 줄은 '제목', 두 번째 줄은 '내용'이 들어있어요.

> 예시: '오늘의 날씨', '오늘은 맑고 따뜻합니다.'


In [None]:
# 뉴스 데이터 파일 불러오기
# './data/crawling_tuned_data.csv' 파일에는 신문 기사들이 표로 들어있어요!
df = pd.read_csv('./data/crawling_tuned_data.csv')  # 표를 불러와요

# 데이터 크기와 컬럼명(제목들) 확인하기
print('데이터 크기:', df.shape)  # (행, 열) 개수
print('컬럼명:', list(df.columns))  # 표의 제목들

# 첫 번째 기사 제목과 내용 살펴보기
print('\n첫 번째 기사 제목:')
print(df['title'].iloc[0])
print('\n첫 번째 기사 본문 일부:')
print(df['text'].iloc[0][:200] + '...')  # 앞 200글자만 보여줘요

# 예시 출력:
# 데이터 크기: (1000, 3)
# 컬럼명: ['title', 'text', 'etc']
# 첫 번째 기사 제목: 오늘의 날씨
# 첫 번째 기사 본문 일부: 오늘은 맑고 따뜻합니다. ...