# 07-3-2 Hugging Face 활용 (Colab)

본 노트북은 Hugging Face Hub 접속, 모델/데이터셋 탐색, Spaces(Gradio/Streamlit) 예제를 **Colab 환경**에서 바로 실행할 수 있도록 구성되었습니다.

> ⚠️ 주의: 토큰/개인정보는 절대 공개 저장소에 업로드하지 마세요.

### 07-3-2-1 Hugging Face 홈페이지 접속

#### (1) Hugging Face 홈페이지 접속하기
- 웹사이트 주소: https://huggingface.co 접속  
- 회원가입  
- 로그인  

#### (2) 모델 검색 및 다운로드

**■ 모델 검색**  
- 접속: https://huggingface.co/models  
- 검색 필터 예시  
  - Task: text-generation / summarization / translation  
  - Library: Transformers / Diffusers / Sentence-Transformers  
  - Language: English, Korean, Multilingual  
- 예시  
  - `bert-base-uncased`  
  - `skt/kogpt2-base-v2`  
  - `facebook/bart-large-cnn`  

**■ 모델 카드 주요 정보**  

| 항목 | 설명 | 예시 |
| --- | --- | --- |
| **Model Description** | 모델의 목적, 학습 데이터, 구조 요약 | “English BERT fine-tuned for sentiment analysis” |
| **Use Cases / Examples** | 코드 스니펫 및 예시 | `pipeline("text-classification", model="bert-base-uncased")` |
| **Limitations** | 사용 시 주의할 점, 편향 가능성 | “본 모델은 정치적 문맥에 민감할 수 있음” |
| **License** | 사용 가능 범위 (연구용/상업용) | Apache 2.0, MIT, CC-BY-NC |
| **Pipeline Support** | 즉시 실행 여부 | ✅ 지원 (`text-generation`) |

➡️ **모델 카드**는 모델의 ‘이력서’로 모델을 쓰기 전에 반드시 확인하세요.

**■ 모델 검색 및 카드 확인**  
1. Hugging Face Hub 접속  
   - https://huggingface.co 접속 → 상단 `Models` 선택  
2. 모델 검색  
   - 예: `distilbert-base-uncased`  
3. Model Card에서 확인할 항목  

| 확인 항목 | 설명 |
| --- | --- |
| **Model Description** | DistilBERT는 BERT의 경량화 버전 |
| **Usage** | 텍스트 분류/요약 예제 코드 포함 |
| **Training Data** | Wikipedia, BooksCorpus 등 |
| **Evaluation Results** | GLUE 벤치마크 점수 |
| **Limitations** | 문맥 이해력이 완벽하지 않음 |
| **License** | Apache 2.0 (상업적 사용 가능) |

4. `skt/kogpt2-base-v2` 모델 탐색 → 한국어 LLM 구조/사용법  
5. `facebook/bart-large-cnn` 모델 탐색 → 요약 입력/출력 예시  
6. `stabilityai/stable-diffusion-2` 모델 탐색 → 이미지 생성 Spaces 체험  

➡️ 모델을 직접 실행하지 않아도 **모델 카드만으로도** 연구 목적과 활용 범위를 빠르게 이해할 수 있습니다.

---
### 07-3-2-2 Hugging Face 모델이용 코딩
#### (1) Hugging Face 환경 준비

**1) Access Token 생성**  
- Settings → Access Tokens → `+ Create new token` (권한: Read/Write/Admin)  
- 발급된 토큰은 재확인 불가이므로 안전 보관

In [13]:
# Python에서 로그인 — 안전한 방식: 환경변수/Colab secrets 사용 권장
from huggingface_hub import login
HF_TOKEN = "hf_xxx_your_token"  # ✅ 본인 토큰으로 교체하세요
login(token=HF_TOKEN)

**2) Transformers 설치 및 로그인 확인**

In [16]:
!pip -q install -U transformers
# whoami (CLI)
!hf auth whoami || true

[1muser: [0m gislee


#### (2) Hugging Face Spaces 활용
**Gradio 예시**

In [17]:
!pip -q install gradio
from transformers import pipeline
import gradio as gr

classifier = pipeline("sentiment-analysis")

def classify_text(text: str):
    result = classifier(text)
    return result[0]["label"]

demo = gr.Interface(fn=classify_text, inputs="text", outputs="text", title="감성 분석 (Transformers)")
demo.launch(share=False)  # Colab에서는 출력 하단에 링크가 표시됩니다.

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

Device set to use cpu


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Note: opening Chrome Inspector may crash demo inside Colab notebooks.
* To create a public link, set `share=True` in `launch()`.


<IPython.core.display.Javascript object>



**Streamlit 예시 (로컬/리모트 런타임)**
- 아래 셀을 실행하면 `app.py`가 생성됩니다.  
- 로컬/터미널에서 `streamlit run app.py`로 실행하세요.

In [19]:
%%writefile app.py
import streamlit as st
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
st.title("허깅페이스 감성 분석")
user_input = st.text_area("텍스트를 입력하세요:")
if st.button("분석 실행"):
    result = classifier(user_input)
    st.write("결과:", result[0]['label'])


Overwriting app.py


Streamlit 앱 (`app.py`)을 로컬 터미널에서 실행하려면 다음과 같은 단계를 따르세요.

1.  **로컬 환경 준비**: 로컬 컴퓨터에 Python과 Streamlit이 설치되어 있어야 합니다. 설치되어 있지 않다면 다음 명령으로 설치할 수 있습니다.

In [29]:
    !cd /content/
    !pip install streamlit



In [30]:
   !streamlit run app.py


Collecting usage statistics. To deactivate, set browser.gatherUsageStats to false.
[0m
[0m
[34m[1m  You can now view your Streamlit app in your browser.[0m
[0m
[34m  Local URL: [0m[1mhttp://localhost:8501[0m
[34m  Network URL: [0m[1mhttp://172.28.0.12:8501[0m
[34m  External URL: [0m[1mhttp://34.66.148.7:8501[0m
[0m
[34m  Stopping...[0m


#### (3) 데이터셋 검색 및 활용

In [31]:
!pip -q install datasets
from datasets import load_dataset
ds = load_dataset("imdb")
ds

README.md: 0.00B [00:00, ?B/s]

plain_text/train-00000-of-00001.parquet:   0%|          | 0.00/21.0M [00:00<?, ?B/s]

plain_text/test-00000-of-00001.parquet:   0%|          | 0.00/20.5M [00:00<?, ?B/s]

plain_text/unsupervised-00000-of-00001.p(…):   0%|          | 0.00/42.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating unsupervised split:   0%|          | 0/50000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})

출력 예시:
```
DatasetDict({
  train: Dataset({ features: ['text', 'label'], num_rows: 25000 }),
  test: Dataset({ features: ['text', 'label'], num_rows: 25000 }),
  unsupervised: Dataset({ features: ['text', 'label'], num_rows: 50000 })
})
```