In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
%cd /content/drive/MyDrive/voice01
%ls

/content/drive/MyDrive/voice01
voice.m4a


## ffmpegの基本コマンド
`ffmpeg`は, オーディオやビデオの変換, エンコード, デコードを行うコマンドラインツールである.

## 入力ファイルの指定
- `-i`オプションに続けて入力ファイルのパスを指定する.
  - 例: `-i input.mp4` は`input.mp4`ファイルを入力として使用する.

## 出力ファイルの指定
- コマンドの最後に出力ファイルの名前と形式を指定する.
  - 例: `output.avi` は変換後のファイルを`output.avi`として保存する.

## フォーマットの変換
- 入力ファイルと異なる形式の出力ファイルを指定することで, フォーマットの変換が行われる.
  - 例: `ffmpeg -i input.mp4 output.avi` はMP4ファイルをAVIファイルに変換する.

## 上書きオプション
- `-y`オプションを使用すると, 出力ファイルが既に存在する場合に確認なしで上書きする.
  - 例: `ffmpeg -y -i input.mp4 output.avi`

## ビデオとオーディオの品質設定
- ビットレートや解像度などの品質設定を調整するオプションも利用できる.
  - 例: `-b:v 1M` はビデオのビットレートを1Mbpsに設定する.
  - 例: `-b:a 192k` はオーディオのビットレートを192kbpsに設定する.

## その他のオプション
- `ffmpeg`には, フレームレートの変更, 特定のオーディオトラックの選択, 字幕の追加など, 多くの追加オプションがある.


## M4Aファイルとは

M4Aは，オーディオファイルのフォーマットの一つであり，以下の特徴を持つ:

1. **ファイル形式**: M4Aは「MPEG-4 Part 14」のオーディオファイル拡張子である. このフォーマットは，Apple社によってiTunesとiPodでの使用を目的に普及した.

2. **圧縮方式**: M4Aファイルは通常，AAC（Advanced Audio Coding）またはALAC（Apple Lossless Audio Codec）の圧縮方式を使用する. AACは損失圧縮方式で，高い圧縮率を持ちながらも良好な音質を保持する. ALACは非損失圧縮方式で，オリジナルの音質をそのまま保持する.

    - 損失圧縮コーデックとは，データを圧縮する際に元のデータから一部の情報を削除し，ファイルサイズを小さくする技術

3. **互換性**: M4Aフォーマットは，Appleのデバイスやソフトウェアで広くサポートされているが，他のプラットフォームやデバイスでも広く互換性がある.

4. **品質とファイルサイズ**: AAC圧縮を使用したM4Aファイルは，MP3よりも効率的な圧縮を提供し，同じビットレートでより高い音質を実現する. ALACを使用したM4Aファイルは，非圧縮のオーディオフォーマット（例えばWAV）と比較して，ファイルサイズを小さくしながらも高品質を保持する.




# m4aからwavに変換

## M4AからWAVへの変換プロセス

### デコード
M4Aファイルは通常，AAC（Advanced Audio Coding）などの損失圧縮コーデックを使用している. 変換プロセスの最初のステップは，この圧縮されたオーディオデータをデコード（解凍）して，生のオーディオデータに変換することである.

### フォーマット変換
デコードされたオーディオデータは，次にWAVフォーマットに変換される. WAVは非圧縮オーディオフォーマットであり，オーディオデータをそのままの形で（圧縮せずに）保存する.

### ファイルの書き出し
最後に，変換されたオーディオデータはWAVファイルとして保存される. このファイルには，オーディオデータの他に，サンプリングレート，ビット深度，チャンネル数などのメタデータも含まれる.


In [4]:
%ls voice01

ls: cannot access 'voice01': No such file or directory


In [9]:
# -y は上書き保存するオプション

# m4aからwavに変換
!ffmpeg -y -i /content/drive/MyDrive/voice01/voice.m4a /content/drive/MyDrive/voice01/voice.wav

ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg developers
  built with gcc 11 (Ubuntu 11.2.0-19ubuntu1)
  configuration: --prefix=/usr --extra-version=0ubuntu0.22.04.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enab

In [10]:
%ls voice01

ls: cannot access 'voice01': No such file or directory


In [11]:
from IPython.display import Audio, display
display(Audio('/content/drive/MyDrive/voice01/voice.m4a'))

In [12]:
import os

# M4Aファイルのサイズを取得
size_m4a = os.path.getsize('/content/drive/MyDrive/voice01/voice.m4a')

# WAVファイルのサイズを取得
size_wav = os.path.getsize('/content/drive/MyDrive/voice01/voice.wav')

# サイズを表示
print(f"M4Aファイルのサイズ: {size_m4a} bytes")
print(f"WAVファイルのサイズ: {size_wav} bytes")

M4Aファイルのサイズ: 96580 bytes
WAVファイルのサイズ: 297034 bytes


WAVファイルのサイズが大きくなるのは，オーディオデータが非圧縮で保存されるためであり，音声情報が増えているわけではない．

# MP3ファイルの編集

eyed3はPythonでMP3ファイルを編集するためのライブラリ

このライブラリを使用すると，MP3ファイルのID3タグを読み取り編集することができる

In [13]:
!pip install eyed3

Collecting eyed3
  Downloading eyed3-0.9.7-py3-none-any.whl.metadata (6.0 kB)
Collecting coverage<6.0.0,>=5.3.1 (from coverage[toml]<6.0.0,>=5.3.1->eyed3)
  Downloading coverage-5.5-cp310-cp310-manylinux1_x86_64.whl.metadata (8.0 kB)
Collecting deprecation<3.0.0,>=2.1.0 (from eyed3)
  Downloading deprecation-2.1.0-py2.py3-none-any.whl.metadata (4.6 kB)
Collecting filetype<2.0.0,>=1.0.7 (from eyed3)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Downloading eyed3-0.9.7-py3-none-any.whl (246 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m246.1/246.1 kB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading coverage-5.5-cp310-cp310-manylinux1_x86_64.whl (238 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m239.0/239.0 kB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading deprecation-2.1.0-py2.py3-none-any.whl (11 kB)
Downloading filetype-1.2.0-py2.py3-none-any.whl (19 kB)
Installing collected packages: filetype, de

In [16]:
import eyed3

# m4aからmp3に変換
!ffmpeg -y -i /content/drive/MyDrive/voice01/voice.m4a /content/drive/MyDrive/voice01/voice.mp3

mp3_file = "/content/drive/MyDrive/voice01/voice.mp3"
audiofile = eyed3.load(mp3_file)

# ID3タグがない場合は新しく作成
if audiofile.tag is None:
    audiofile.initTag()

# 歌詞を追加
audiofile.tag.lyrics.set(u"音声ファイルの作成です．気軽に楽しめます！")

# 画像（アルバムアート）を追加
image_path = '/content/drive/MyDrive/voice/IMG_1381.JPG'
with open(image_path, 'rb') as img_file:
    audiofile.tag.images.set(3, img_file.read(), 'image/jpeg')

# 変更を保存
audiofile.tag.save()


ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg developers
  built with gcc 11 (Ubuntu 11.2.0-19ubuntu1)
  configuration: --prefix=/usr --extra-version=0ubuntu0.22.04.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enab

In [17]:
# audiofile.tagの編集可能な属性
editable_tag_attributes = [
    'artist', 'album', 'album_artist', 'title', 'track_num',
    'genre', 'lyrics', 'composer', 'publisher', 'copyright',
    'encoded_by', 'bpm', 'recording_date', 'release_date', 'comments'
]

for attr in editable_tag_attributes:
    if hasattr(audiofile.tag, attr):
        print(attr)

artist
album
album_artist
title
track_num
genre
lyrics
composer
publisher
copyright
encoded_by
bpm
recording_date
release_date
comments
