## 音声データを文字起こしする

## 対象データ
* zoom の音声データ 拡張子: m4a を wav に変換する

### 使用ライブラリ
- ffmpeg==1.4
- SpeechRecognition==3.8.1
- pydub==0.25.1

### 必要パッケージ
* ffmpeg

```bash
$ apt-get install ffmpeg libavcodec-extra
```

## 参考
* https://github.com/jiaaro/pydub

In [1]:
import os
import sys
import pathlib

import ffmpeg

from pydub import AudioSegment
import speech_recognition as sr

In [2]:
dir_name = './audio'
file_name = 'audio1660685412.m4a'
# file_name = 'audio1660685412.wav'

In [3]:


def convert_audio_file(dir_name='./audio', file_name=None, before_extent='m4a', after_extent='wav'):
    """ 音声データを指定した拡張子に変換する
    params
    ------
      dir_name(str):
      file_name(str):
      before_extent(str)   default: 'm4a'
      after_extent(str)    default: 'wav'
    
    return
    ------
    
    """
    before_file = f"{dir_name}/{file_name}"
    if not file_name.split('.')[-1] == 'm4a':
        before_file = f"{dir_name}/{file_name.split('.')[0]}.{before_extent}"
        
    after_file = f"{dir_name}/{file_name.split('.')[0]}.{after_extent}"

    track = AudioSegment.from_file(before_file, format=before_extent)
    track.export(after_file, format=after_extent)
    
    return after_file, track

In [4]:
file_name.split(',')[-1]

'audio1660685412.m4a'

In [5]:
after_file, track = convert_audio_file(file_name=file_name)

In [6]:
track

In [9]:
def export_audio_text(audio_file=None, language='ja-JP'):
    """ 読み込んだ audio データを全文テキスト出力する
    
    params
    ------
      audio_file(str): 拡張子は、wavのみ動作確認済
      language(str): テキスト出力する言語
    
    return
    ------
      テキスト出力
    
    """

    recognizer = sr.Recognizer()

    with sr.AudioFile(audio_file) as source:
        audio = recognizer.record(source)

    return recognizer.recognize_google(audio, language=language)

In [11]:
text = export_audio_text(after_file)

## 出力したテキストデータを確認

**今後**
* 発言者で、データを切り分ける
* 発言した内容を議事録として見やすく加工する
* 発言内容・言語を分析

In [12]:
len(text)

32

In [13]:
text

'今日はテストとして録音データを録画しています テスト 終了します'

In [15]:
text_words = text.split(' ')

In [16]:
text_words

['今日はテストとして録音データを録画しています', 'テスト', '終了します']