<a href="https://colab.research.google.com/github/namhawon/2024_Study03/blob/main/09_Huggingface.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Huggingface로 무엇을 할 수 있나요?

https://huggingface.co/learn/nlp-course/ko/chapter1/3?fw=pt

* feature-extraction : 특징 추출 (텍스트에 대한 벡터 표현 추출)
* fill-mask : 마스크 채우기
* ner : 개체명 인식 (named entity recognition)
* question-answering : 질의 응답
* sentiment-analysis : 감정 분석
* summarization : 요약
* text-generation : 텍스트 생성
* translation : 번역
* zero-shot-classification : 제로샷 분류

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

In [None]:
from transformers import pipeline

## 제로샷 분류(Zero-shot classification)

In [None]:
classifier = pipeline("zero-shot-classification")
classifier(
    "We will learn about deep learning algorithm.",
    candidate_labels=["education", "politics", "business"],
)

In [None]:
classifier(
    "우리는 이번 시간에 딥러닝의 기본 원리에 대해 배워보겠습니다.",
    candidate_labels=["education", "politics", "business", "health"]
)

## sentiment-analysis : 감정 분석

In [None]:
classifier = pipeline("sentiment-analysis")
classifier("I have been waiting for you.")

In [None]:
classifier(
    ["I hate this!",
     "I like it",
     "I love you",
     "행복하다",
     "슬프다",
     "힘들다"]
)

In [None]:
classifier("이 영화는 너무 재미있었다.")

In [None]:
classifier("행복한 기억이었다.")

In [None]:
classifier("너무 피곤하고 힘들다")

## 텍스트 생성(Text generation)

In [None]:
from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course, we will learn about how to deep learning advanced")

In [None]:
generator("lunch menu?")

In [None]:
generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

## 마스크 채우기




In [None]:
mask_fill = pipeline("fill-mask")
mask_fill("This course will teach you about <mask> theorem.", top_k=2)

In [None]:
mask_fill("I eat bread with <mask>.", top_k=2)

### klue/bert-base

In [None]:
mask_fill_ko = pipeline("fill-mask", model="klue/bert-base")
mask_fill_ko ("한국인이 가장 좋아하는 음식은 [MASK] 입니다.", top_k=2)

In [None]:
mask_fill_ko  = pipeline("fill-mask", model="klue/bert-base")
mask_fill_ko ("한국인이 좋아하는 국가는 [MASK] 이다.", top_k=2)

## 개체명 인식(Named entity recognition)

In [None]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("Alice lives in Seattle and works as a software engineer at Amazon.")

In [None]:
ner("My Name is Sieun Hyeon. I live in Korea.")

## 질의 응답(Question-answering)

In [None]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    context="Alice lives in Seattle and works as a software engineer at Amazon.",
    question="What is Alice's job?",
)

## 요약(Summarization)

In [None]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
The rapid advancement of technology has significantly transformed our daily lives.
Mobile devices like smartphones have revolutionized the way we communicate,
while social media platforms enable us to connect with people around the world.
Additionally, artificial intelligence and machine learning technologies are increasing efficiency in various industries,
and cutting-edge innovations such as autonomous vehicles are fundamentally changing our modes of transportation.
These changes create new opportunities but also present new challenges, such as concerns about privacy.
Therefore, it is essential to maximize the benefits of technology while carefully managing its potential risks.
"""
)

https://huggingface.co/gogamza/kobart-summarization

In [None]:
from transformers import pipeline

summarizer = pipeline("summarization", model="gogamza/kobart-summarization")
summarizer(
    """기술의 급속한 발전은 우리의 일상 생활을 크게 변화시키고 있다. 스마트폰과 같은 모바일 기기는 우리의 소통 방식을 혁신하였으며, 소셜 미디어 플랫폼은 전 세계 사람들과의 연결을 가능하게 만들었다. 또한, 인공지능과 머신러닝 기술은 다양한 산업에서 효율성을 증대시키고 있으며, 자율주행차와 같은 첨단 기술은 우리의 이동 수단을 근본적으로 바꾸고 있다. 이러한 변화는 새로운 기회를 창출하는 동시에, 개인 정보 보호와 같은 새로운 도전 과제를 제시하고 있다. 따라서 우리는 기술의 이점을 최대한 활용하면서도, 그로 인한 잠재적 위험을 신중하게 관리해야 한다.
"""
)

## 번역(Translation)

* https://huggingface.co/models

In [None]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face.")

https://huggingface.co/Helsinki-NLP/opus-mt-ko-en

In [None]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-ko-en")
translator("""안녕하세요. 비가 많이 내리고 나서 날씨가 더워졌습니다.""")

In [None]:
translator("""
오늘의 강의에서는 딥러닝의 최신 기법들을 다룰 예정입니다.
데이터 전처리는 머신러닝 모델의 성능을 크게 향상시킬 수 있습니다.
신경망의 다양한 층을 이해하면 모델을 더 효과적으로 설계할 수 있습니다.
""")

# 데이터셋 불러와보기

https://huggingface.co/datasets/dair-ai/emotion

In [None]:
from datasets import load_dataset

emotion_dataset = load_dataset("dair-ai/emotion")
emotion_dataset