In [17]:
import opensmile
import pandas as pd

# openSMILEのインスタンスを作成
# (前回と同様に、60ms幅、10msステップで処理される)
smile = opensmile.Smile(
    feature_set=opensmile.FeatureSet.ComParE_2016,
    feature_level=opensmile.FeatureLevel.LowLevelDescriptors,
    options={
        'frameSize': 0.01,
        'frameStep': 0.01,
    }
)

# 解析したい音声ファイルのパス
# !! このパスをご自身の音声ファイルに変更してください !!
audio_file = "extracted_audio.wav" 

try:
    # 特徴量を抽出
    result_df = smile.process_file(audio_file)

    # ----------------------------------------------------------------
    # 結果をCSVファイルに保存
    # ----------------------------------------------------------------
    output_filename = "audio_features.csv"
    result_df.to_csv(output_filename)
    
    print(f"特徴量の抽出が完了し、'{output_filename}' に保存されました。")
    print("\n保存されたデータの最初の5行:")
    print(result_df.head())


except FileNotFoundError:
    print(f"エラー: 音声ファイルが見つかりません。")
    print(f"'{audio_file}' のパスが正しいか確認してください。")
except Exception as e:
    print(f"処理中にエラーが発生しました: {e}")

特徴量の抽出が完了し、'audio_features.csv' に保存されました。

保存されたデータの最初の5行:
                                                                   F0final_sma  \
file                start                  end                                   
extracted_audio.wav 0 days 00:00:00        0 days 00:00:00.060000   439.661652   
                    0 days 00:00:00.010000 0 days 00:00:00.070000   439.667847   
                    0 days 00:00:00.020000 0 days 00:00:00.080000   439.672516   
                    0 days 00:00:00.030000 0 days 00:00:00.090000   439.670013   
                    0 days 00:00:00.040000 0 days 00:00:00.100000   439.663818   

                                                                   voicingFinalUnclipped_sma  \
file                start                  end                                                 
extracted_audio.wav 0 days 00:00:00        0 days 00:00:00.060000                   0.893364   
                    0 days 00:00:00.010000 0 days 00:00:00.070000             

In [14]:
# 前回、特徴量を抽出した result_df を使います

try:
    # DataFrameのすべての列名（全特徴量名）をリストとして表示します
    all_features = result_df.columns.tolist()
    print("--- 特徴量リストここから ---")
    print(all_features)
    print("--- 特徴量リストここまで ---")

except NameError:
    print("エラー: `result_df` が存在しません。")
    print("先に特徴量抽出のコードを実行してください。")
except Exception as e:
    print(f"エラーが発生しました: {e}")

--- 特徴量リストここから ---
['F0final_sma', 'voicingFinalUnclipped_sma', 'jitterLocal_sma', 'jitterDDP_sma', 'shimmerLocal_sma', 'logHNR_sma', 'audspec_lengthL1norm_sma', 'audspecRasta_lengthL1norm_sma', 'pcm_RMSenergy_sma', 'pcm_zcr_sma', 'audSpec_Rfilt_sma[0]', 'audSpec_Rfilt_sma[1]', 'audSpec_Rfilt_sma[2]', 'audSpec_Rfilt_sma[3]', 'audSpec_Rfilt_sma[4]', 'audSpec_Rfilt_sma[5]', 'audSpec_Rfilt_sma[6]', 'audSpec_Rfilt_sma[7]', 'audSpec_Rfilt_sma[8]', 'audSpec_Rfilt_sma[9]', 'audSpec_Rfilt_sma[10]', 'audSpec_Rfilt_sma[11]', 'audSpec_Rfilt_sma[12]', 'audSpec_Rfilt_sma[13]', 'audSpec_Rfilt_sma[14]', 'audSpec_Rfilt_sma[15]', 'audSpec_Rfilt_sma[16]', 'audSpec_Rfilt_sma[17]', 'audSpec_Rfilt_sma[18]', 'audSpec_Rfilt_sma[19]', 'audSpec_Rfilt_sma[20]', 'audSpec_Rfilt_sma[21]', 'audSpec_Rfilt_sma[22]', 'audSpec_Rfilt_sma[23]', 'audSpec_Rfilt_sma[24]', 'audSpec_Rfilt_sma[25]', 'pcm_fftMag_fband250-650_sma', 'pcm_fftMag_fband1000-4000_sma', 'pcm_fftMag_spectralRollOff25.0_sma', 'pcm_fftMag_spectralRollOff

In [7]:
import opensmile
import pandas as pd

# ----------------------------------------------------------------
# 1. openSMILE のインスタンスを作成
# ----------------------------------------------------------------
# 特徴量セットをMFCCに変更することで、10msのフレームサイズが適用される
smile = opensmile.Smile(
    feature_set=opensmile.FeatureSet.Mfcc12_0_D_A_Z, #
    feature_level=opensmile.FeatureLevel.LowLevelDescriptors,
    options={
        'frameSize': 0.010,
        'frameStep': 0.010,
    }
)

# ----------------------------------------------------------------
# 2. 解析したい音声ファイルのパスを指定
# ----------------------------------------------------------------
# !! このパスをご自身の音声ファイルに変更してください !!
audio_file = "extracted_audio.wav" 

try:
    # ----------------------------------------------------------------
    # 3. 特徴量を抽出し、結果を確認
    # ----------------------------------------------------------------
    result_df = smile.process_file(audio_file)
    
    print(f"特徴量セット 'Mfcc12_0_D_A_Z' を使って10ms区間で抽出しました。")

    # 結果の最初の5行を表示
    print("\n抽出結果（最初の5フレーム）:")
    print(result_df.head())

    # 最初のフレームの時間情報を確認
    if not result_df.empty:
        first_frame_index = result_df.index[0]
        start_time = first_frame_index[1]
        end_time = first_frame_index[2]
        duration = end_time - start_time
        
        print(f"\n最初のフレームの区間幅: {duration.total_seconds():.3f} 秒")
        # ここで0.010秒（10ms）になるはずです

except Exception as e:
    print(f"処理中にエラーが発生しました: {e}")

AttributeError: Mfcc12_0_D_A_Z

In [8]:
import opensmile

# 利用可能なFeatureSetの一覧を表示
available_sets = [f.name for f in opensmile.FeatureSet]
print(available_sets)

['ComParE_2016', 'GeMAPS', 'GeMAPSv01b', 'eGeMAPS', 'eGeMAPSv01b', 'eGeMAPSv02', 'emobase']


In [10]:
import opensmile
import pandas as pd

# ----------------------------------------------------------------
# 1. 正しい方法で設定ファイルを指定する
# ----------------------------------------------------------------
# 'options'を使い、コマンドライン引数として設定ファイルを渡すのが正しい方法です。
smile = opensmile.Smile(
    # ↓↓ この2行は必須だが、設定ファイルで上書きされるため無視される ↓↓
    feature_set=opensmile.FeatureSet.ComParE_2016,
    feature_level=opensmile.FeatureLevel.LowLevelDescriptors,
    # ↑↑ ---------------------------------------------------- ↑↑
    options={
        '-C': 'my_mfcc_config.conf'  # ここで設定ファイルを指定
    }
)

# ----------------------------------------------------------------
# 2. 解析したい音声ファイルのパスを指定
# ----------------------------------------------------------------
audio_file = "extracted_audio.wav" 

try:
    # ----------------------------------------------------------------
    # 3. 特徴量を抽出
    # ----------------------------------------------------------------
    result_df = smile.process_file(audio_file)
    
    print("カスタム設定ファイルを使って、10ms区間で抽出しました。")
    print("\n抽出結果（最初の5フレーム）:")
    print(result_df.head())

except Exception as e:
    print(f"処理中にエラーが発生しました: {e}")

カスタム設定ファイルを使って、10ms区間で抽出しました。

抽出結果（最初の5フレーム）:
                                                                   F0final_sma  \
file                start                  end                                   
extracted_audio.wav 0 days 00:00:00        0 days 00:00:00.060000   439.661652   
                    0 days 00:00:00.010000 0 days 00:00:00.070000   439.667847   
                    0 days 00:00:00.020000 0 days 00:00:00.080000   439.672516   
                    0 days 00:00:00.030000 0 days 00:00:00.090000   439.670013   
                    0 days 00:00:00.040000 0 days 00:00:00.100000   439.663818   

                                                                   voicingFinalUnclipped_sma  \
file                start                  end                                                 
extracted_audio.wav 0 days 00:00:00        0 days 00:00:00.060000                   0.893364   
                    0 days 00:00:00.010000 0 days 00:00:00.070000                   0.8931

In [11]:
import opensmile
import pandas as pd

# ComParE_2016 を指定して、要求されたほぼすべての特徴量を取得します
smile = opensmile.Smile(
    feature_set=opensmile.FeatureSet.ComParE_2016,
    feature_level=opensmile.FeatureLevel.LowLevelDescriptors,
)

# 解析したい音声ファイル
audio_file = "extracted_audio.wav" 

try:
    # 特徴量を抽出
    result_df = smile.process_file(audio_file)
    
    print("ComParE_2016 の特徴量を抽出しました。")
    print("\n抽出結果（最初の5フレーム）:")
    print(result_df.head())
    
    # DataFrameの列（抽出された特徴量名）を一部表示
    print(f"\n抽出された特徴量の数: {len(result_df.columns)}")
    print("特徴量名の例:", result_df.columns[:5].tolist())


except Exception as e:
    print(f"処理中にエラーが発生しました: {e}")

ComParE_2016 の特徴量を抽出しました。

抽出結果（最初の5フレーム）:
                                                                   F0final_sma  \
file                start                  end                                   
extracted_audio.wav 0 days 00:00:00        0 days 00:00:00.060000   439.661652   
                    0 days 00:00:00.010000 0 days 00:00:00.070000   439.667847   
                    0 days 00:00:00.020000 0 days 00:00:00.080000   439.672516   
                    0 days 00:00:00.030000 0 days 00:00:00.090000   439.670013   
                    0 days 00:00:00.040000 0 days 00:00:00.100000   439.663818   

                                                                   voicingFinalUnclipped_sma  \
file                start                  end                                                 
extracted_audio.wav 0 days 00:00:00        0 days 00:00:00.060000                   0.893364   
                    0 days 00:00:00.010000 0 days 00:00:00.070000                   0.893115  