In [7]:
!pip install transformers huggingface_hub

from huggingface_hub import login
login(token="토큰 입력하세요.")

import torchaudio
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import re

audio_file = "/content/development_meeting_script.wav"

model_name = "openai/whisper-medium"
processor = WhisperProcessor.from_pretrained(model_name)
model = WhisperForConditionalGeneration.from_pretrained(model_name)

audio_input, sample_rate = torchaudio.load(audio_file)

# 오디오 청크 처리 함수
def transcribe_chunk(audio_chunk):
    input_features = processor(
        audio_chunk.squeeze(0),
        sampling_rate=16000,
        return_tensors="pt",
        language="ko"
    ).input_features
    generated_ids = model.generate(input_features, max_new_tokens=300)
    transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)
    return transcription[0]

# 청크 길이 설정
chunk_length = int(20 * sample_rate)
num_chunks = (audio_input.shape[1] + chunk_length - 1) // chunk_length

full_transcription = []

for i in range(num_chunks):
    start = i * chunk_length
    end = min((i + 1) * chunk_length, audio_input.shape[1])
    audio_chunk = audio_input[:, start:end]
    transcription = transcribe_chunk(audio_chunk)
    full_transcription.append(transcription)

text = " ".join(full_transcription)
formatted_text = re.sub(r'([.!?])\s*', r'\1\n', text)

print(formatted_text)

with open("/content/formatted_text.txt", "w") as f:
    f.write(formatted_text)

print("Transcription complete. Result saved to formatted_text.txt")




Due to a bug fix in https://github.com/huggingface/transformers/pull/28687 transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English.This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`.
Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.43.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


 김유진 PM 오늘 회의는 각 분야별로 필요한 솔루션을 논의하고 피드백을 나누는 시간을 갖도록 하겠습니다.
먼저 프론트앤드 부분부터 이야기해 볼까요?
네, 프론트앤드에서는 사용자 경험이 매우 중요한 요소입니다.
저는 리액트를 사용해서 컴포넌트 기반으로 UI를 개발하는 것이 좋을 것 같습니다.
css나 material, ui 같은 css 프레임워크도 고려하고 있어요.
이 지훈 100엔드 개발자 프론트엔드에서 리액트를 사용하면 API 요청이 많아질텐데 100엔드에서 그걸 처리하는 부분이 중요할 것 같습니다 그래서 100엔드에서는  랫스프 풀 API를 제공하는 구조로 잡는게 좋겠다고 생각해요 특히 비동기 처리를 효율적으로 할 수 있어서 리액트와 잘 맞을 것 같습니다 솜화 나 데이터 베이스 전문가 API 요청이 많아질 걸 고려하면  데이터베이스 선택도 중요하겠네요.
저는 관계형 데이터베이스임 포스트그레스 크랜을 제안하고 싶어요.
스케일링이 필요하다면 노스크엘임 몽고두부와 혼용하는 것도 고려해볼 수 있습니다.
보안적인 부분도 중요한데 특히 인증 부분을 강화할 필요가 있습니다.
데이터 전송을 암호화하고 서버 측에서는 기본적인 보안 규칙을 모두 따르는 게 중요합니다.
김유진, PM 좋습니다.
프론트 앤드, 백 앤드, 데이터 베이스 보안 모두 큰 틀에서 방향이 잡힌 것 같아요.
혹시 추가적인 의견이나 고려할 사항이 있을까요?
그리고 노드  플라이웨이 나 리퀴베이스 같은 툴을 고려해보죠.
데이터베이스는 포스트그레스ク웨어는 기본으로 하되 필요시 모형을 사용하여  동고들 부와의 혼용도 고려하며 플라이웨이 같은 마이그레이션 도구를 사용한다.
보안은 oas 2.
0과 JWT를 기반으로 강화하고, HTTPS를 기반으로 한다.
내용을 바탕으로 다음 회의 때까지 각 분야별 세부 설계를 진행해주시면 좋겠습니다.

Transcription complete. Result saved to formatted_text.txt


In [15]:
!pip install transformers torchaudio jiwer

import torchaudio
import torchaudio.transforms as T
from transformers import WhisperProcessor, WhisperForConditionalGeneration
from jiwer import wer

model_name = "openai/whisper-medium"
processor = WhisperProcessor.from_pretrained(model_name)
model = WhisperForConditionalGeneration.from_pretrained(model_name)

audio_file = "/content/development_meeting_script.wav"
audio_input, sample_rate = torchaudio.load(audio_file)

resampler = T.Resample(orig_freq=sample_rate, new_freq=16000)
audio_input_resampled = resampler(audio_input)

def evaluate_pronunciation(audio_chunk, expected_transcription):
    input_features = processor(
        audio_chunk.squeeze(0),
        sampling_rate=16000,
        return_tensors="pt"
    ).input_features
    generated_ids = model.generate(input_features)
    transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

    error_rate = wer(expected_transcription, transcription)
    return transcription, error_rate

# 기대하는 발음 텍스트
expected = """
김유진 PM: 오늘 회의는 각 분야별로 필요한 솔루션을 논의하고 피드백을 나누는 시간을 갖도록 하겠습니다. 먼저 프론트엔드 부분부터 이야기해 볼까요?

프론트엔드 개발자: 네, 프론트엔드에서는 사용자 경험이 매우 중요한 요소입니다. 저는 React를 사용해서 컴포넌트 기반으로 UI를 개발하는 것이 좋을 것 같습니다. CSS나 Material UI 같은 CSS 프레임워크도 고려하고 있습니다.

이지훈, 백엔드 개발자: 프론트엔드에서 React를 사용하면 API 요청이 많아질 텐데, 백엔드에서 그걸 처리하는 부분이 중요할 것 같습니다. 그래서 백엔드에서는 RESTful API를 제공하는 구조로 잡는 게 좋겠다고 생각해요. 특히 비동기 처리를 효율적으로 할 수 있어서 React와 잘 맞을 것 같습니다.

솜화, 데이터베이스 전문가: API 요청이 많아질 걸 고려하면 데이터베이스 선택도 중요하겠네요. 저는 관계형 데이터베이스로 PostgreSQL을 제안하고 싶어요. 스케일링이 필요하다면 NoSQL인 MongoDB와 혼용하는 것도 고려해볼 수 있습니다.

보안 전문가: 보안적인 부분도 중요한데 특히 인증 부분을 강화할 필요가 있습니다. 데이터 전송을 암호화하고, 서버 측에서는 기본적인 보안 규칙을 모두 따르는 게 중요합니다.

김유진, PM: 좋습니다. 프론트엔드, 백엔드, 데이터베이스, 보안 모두 큰 틀에서 방향이 잡힌 것 같아요. 혹시 추가적인 의견이나 고려할 사항이 있을까요? 그리고 Flyway나 Liquibase 같은 툴을 고려해보죠. 데이터베이스는 PostgreSQL을 기본으로 하되 필요 시 MongoDB와의 혼용도 고려하며 Flyway 같은 마이그레이션 도구를 사용할 수 있습니다. 보안은 OAuth 2.0과 JWT를 기반으로 강화하고, HTTPS를 기반으로 합니다.

김유진, PM: 내용을 바탕으로 다음 회의 때까지 각 분야별 세부 설계를 진행해주시면 좋겠습니다.
"""

audio_chunk = audio_input_resampled[:, :int(audio_input_resampled.shape[1])]
transcription, error_rate = evaluate_pronunciation(audio_chunk, expected)

print("Transcription:", transcription)
print("Pronunciation Error Rate:", error_rate)


Transcription:  김유진 PM 오늘 회의는 각 분야별로 필요한 솔루션을 논의하고 피드백을 나누는 시간을 갖도록 하겠습니다. 먼저 프론트앤드 부분부터 이야기해 볼까요?
Pronunciation Error Rate: 0.914572864321608
