##🎤 음성 인식 + 합성 예제: Whisper + TTS

🧰 사용 도구

| 기능    | 도구                                                    | 설명               |
| ----- | ----------------------------------------------------- | ---------------- |
| 음성 인식 | [`openai/whisper`](https://github.com/openai/whisper) | 고성능 다국어 음성 인식 모델 |
| 음성 합성 | `TTS` (Coqui.ai or pyttsx3 / gTTS)                    | 텍스트를 음성으로 변환     |



###✅ 1. Whisper 설치 및 인식

🔧 설치

In [None]:
!pip install git+https://github.com/openai/whisper.git
!pip install torch

🎧 샘플 오디오 다운로드 (영어)

In [None]:
!wget https://github.com/gloveboxes/OpenAI-Whisper-Transcriber-Sample/raw/master/harvard.wav -O harvard.wav


🧠 인식 코드

In [None]:
import whisper

# 모델 로딩
model = whisper.load_model("base")  # base, small, medium, large

# 음성 파일 처리
result = model.transcribe("harvard.wav")
print("🎧 인식된 텍스트:\n", result["text"])

🔊 음성 합성 (Text-to-Speech) 예제

인식된 텍스트를 음성으로 변환하려면 gTTS 라이브러리를 사용할 수 있습니다:

In [None]:
!pip install gTTS

In [None]:
from gtts import gTTS
from IPython.display import Audio

# 텍스트를 음성으로 변환
tts = gTTS(text=result["text"], lang='en')
tts.save("output.mp3")

# 오디오 재생
Audio("output.mp3")

###🎧 한국어 Whisper + TTS 음성 실습 예제

✅ 1. 한국어 음성 파일 준비 (예: 음성 샘플 업로드 또는 다운로드)

[KSS Dataset](https://www.kaggle.com/datasets/bryanpark/korean-single-speaker-speech-dataset) (Korean)에서  다운로드

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("bryanpark/korean-single-speaker-speech-dataset")

print("Path to dataset files:", path)

In [None]:
from IPython.display import Audio

wav_path = "/root/.cache/kagglehub/datasets/bryanpark/korean-single-speaker-speech-dataset/versions/4/kss/1/1_0000.wav"

# 오디오 재생
Audio(wav_path)

✅ 3. Whisper로 한국어 음성 인식

In [None]:
import whisper

model = whisper.load_model("base")  # small/medium/large 가능
result = model.transcribe(wav_path)
print("📝 인식 결과:", result["text"])


✅ 4. TTS로 한국어 음성 생성

▶️ gTTS (간단하고 빠름)

In [None]:
from gtts import gTTS
from IPython.display import Audio

text = result["text"]
tts = gTTS(text=text, lang='ko')
tts.save("korean_tts.mp3")
Audio("korean_tts.mp3")


##🎓 Colab 기반 AI 음성 비서 시스템 (한국어)

| 단계       | 도구               | 설명              |
| -------- | ---------------- | --------------- |
| 🎙 입력    | 마이크 또는 WAV 파일    | 사용자의 질문 수집      |
| 📝 음성 인식 | Whisper          | 음성을 텍스트로 변환     |
| 💬 응답 생성 | OpenAI / Rule 기반 | 간단한 챗봇 또는 LLM   |
| 🔊 음성 합성 | gTTS / Coqui TTS | 한국어 텍스트 → 음성 출력 |


✅ 1. 라이브러리 설치

In [None]:
!pip install git+https://github.com/openai/whisper.git
!pip install gTTS
!pip install pydub

✅ 2. 사전 준비 – Colab에 한국어 음성 파일 업로드

🎤 Windows 녹음기에서 녹음한 음성 저장 방법

✅ 1. Windows 녹음기 열기

- 검색창에 "녹음기" 또는 "Voice Recorder" 입력 후 앱 실행

- 또는 윈도우 키 + R → soundrecorder 또는 VoiceRecorder 입력 후 실행

✅ 2. 녹음 시작 및 저장

1. ● 버튼 클릭하여 녹음 시작

2. ■ 버튼 클릭하여 녹음 종료

3. 좌측 목록에 녹음 파일이 자동 저장됨

4. 녹음기 앱에서 우클릭 → 파일 위치 열기로 이동 가능

✅ 4. 파일 형식

- 기본 저장 형식은 .m4a (AAC 압축)

- Whisper에서는 .wav 권장 → 변환 필요 시 Audacity 또는 ffmpeg 사용

In [None]:
from google.colab import files

print("🔼 음성 파일을 업로드하세요")
uploaded = files.upload()

🔁 m4a → wav 변환 (Whisper용)

▶️ Python 코드로 변환

In [None]:
from pydub import AudioSegment

# m4a 파일을 wav로 변환
m4a = AudioSegment.from_file("녹음.m4a", format="m4a")
m4a.export("converted.wav", format="wav")

✅ Whisper로 한국어 음성 인식

In [None]:
import whisper

model = whisper.load_model("base")
result = model.transcribe("converted.wav", language="ko")
recognized_text = result["text"]
print("📝 인식된 텍스트:", recognized_text)


✅ 간단한 규칙 기반 응답 생성

In [None]:
def respond_to(text):
    if "날씨" in text:
        return "오늘은 맑고 기온은 22도입니다."
    elif "시" in text:
        from datetime import datetime
        return f"지금은 {datetime.now().strftime('%H시 %M분입니다')}."
    elif "안녕" in text:
        return "안녕하세요! 무엇을 도와드릴까요?"
    else:
        return "죄송해요. 아직 그 요청은 이해하지 못했어요."

response_text = respond_to(recognized_text)
print("🤖 응답:", response_text)


✅ TTS 음성으로 응답 생성 및 재생

In [None]:
from gtts import gTTS
from IPython.display import Audio

tts = gTTS(text=response_text, lang='ko')
tts.save("response.mp3")
Audio("response.mp3")

##🧠 LLaMA3 + Whisper + gTTS 기반 AI 음성 비서 (Colab용)

✅ Hugging Face 로그인 (LLaMA3 모델 다운로드용)

In [None]:
!pip install transformers accelerate pandas

In [None]:
from huggingface_hub import login

# 🔑 여기에서 Hugging Face Access Token 입력 (https://huggingface.co/settings/tokens)
login("hf_your_access_token_here")


✅ 음성 파일 업로드 (마이크 입력 대신)

In [None]:
from google.colab import files

print("🎤 질문 음성 파일을 업로드하세요 (예: korean_question.wav)")
uploaded = files.upload()
filename = list(uploaded.keys())[0]

🔁 m4a → wav 변환 (Whisper용)

In [None]:
from pydub import AudioSegment

# m4a 파일을 wav로 변환
m4a = AudioSegment.from_file("녹음.m4a", format="m4a")
m4a.export("converted.wav", format="wav")

✅ Whisper로 한국어 음성 인식

In [None]:
import whisper

model = whisper.load_model("base")
result = model.transcribe("converted.wav", language="ko")
recognized_text = result["text"]
print("📝 인식된 질문:", recognized_text)

✅ 5. LLaMA3 기반 자연어 응답 생성

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "meta-llama/Meta-Llama-3-8B-Instruct"

# 모델 불러오기 (최초 실행 시 시간 소요)
tokenizer = AutoTokenizer.from_pretrained(model_name, use_auth_token=True)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

# 프롬프트 구성
prompt = f"""
당신은 친절한 한국어 AI 비서입니다. 사용자의 질문에 정중하고 정확하게 답변하세요.

질문: {recognized_text}
답변:"""

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200, temperature=0.7)
response_text = tokenizer.decode(outputs[0], skip_special_tokens=True).split("답변:")[-1].strip()

print("🤖 LLaMA3 응답:", response_text)


✅ gTTS로 음성 응답 생성

In [None]:
from gtts import gTTS
from IPython.display import Audio

tts = gTTS(text=response_text, lang='ko')
tts.save("response.mp3")
Audio("response.mp3")