# 程序实现流程
* 1.判断文件类型
* 2.预处理文件
  * 若是视频需要先提取视频的音频
  * 音频频率转化
  * 音频切割、断句
* 3.音频转成文字

# 导入所需的库和接口

In [1]:
import os
import ffmpeg
import pocketsphinx
import soundfile as sf
from ffmpy import FFmpeg
from aip import AipSpeech # 方法1
from pydub import AudioSegment
import speech_recognition as sr # 方法2
from pydub.utils import make_chunks
from moviepy.editor import AudioFileClip
from inaSpeechSegmenter import Segmenter
from inaSpeechSegmenter.export_funcs import seg2csv, seg2textgrid

In [2]:
path = "E:\\学习\\第五学期\\数据挖掘与机器学习\\作业\\期末\\start\\"
savepath = "E:\\学习\\第五学期\\数据挖掘与机器学习\\作业\\期末\\audio\\"

# 1. 用moviepy库提取音频
* moviepy是一个用于视频编辑Python库，可以切割、拼接、标题插入，视频合成（即非线性编辑），进行视频处理和自定义效果的设计

In [2]:
def extractaudio(path, savepath, name):
    # 导入视频
    myaudio =  AudioFileClip(path + name + '.mp4')
    # 提取音频并保存
    myaudio.write_audiofile(savepath + name + '.wav')

In [7]:
# extractaudio('E:/图片/视频/', 'E:/图片/视频/', '宋雨琦翻唱')

chunk:   2%|█▍                                                          | 118/4800 [00:00<00:04, 1169.92it/s, now=None]

MoviePy - Writing audio in E:/图片/视频/宋雨琦翻唱.wav


                                                                                                                       

MoviePy - Done.




## 1.1 处理视频文件——英文

In [11]:
name = "视频实例1"
print('---------------------开始处理文件{}.mp4---------------------'.format(name))
extractaudio(path, savepath, name)
print('--------------------------处理完成--------------------------')
print('保存的路径：',savepath)

---------------------开始处理文件视频实例1.mp4---------------------


chunk:   9%|█████▍                                                         | 58/666 [00:00<00:01, 574.21it/s, now=None]

MoviePy - Writing audio in E:\学习\第五学期\数据挖掘与机器学习\作业\期末\audio\视频实例1.wav


                                                                                                                       

MoviePy - Done.
--------------------------处理完成--------------------------
保存的路径： E:\学习\第五学期\数据挖掘与机器学习\作业\期末\audio\




## 1.1 处理视频文件——中文

In [12]:
cname = "视频实例2"
print('---------------------开始处理文件{}.mp4---------------------'.format(cname))
extractaudio(path, savepath, cname)
print('--------------------------处理完成--------------------------')
print('保存的路径：',savepath)

chunk:   0%|                                                                         | 0/472 [00:00<?, ?it/s, now=None]

---------------------开始处理文件视频实例2.mp4---------------------
MoviePy - Writing audio in E:\学习\第五学期\数据挖掘与机器学习\作业\期末\audio\视频实例2.wav


                                                                                                                       

MoviePy - Done.
--------------------------处理完成--------------------------
保存的路径： E:\学习\第五学期\数据挖掘与机器学习\作业\期末\audio\




# 2. 长语音特征切分

## 2.1 特征识别

In [5]:
def features(media):
    seg = Segmenter(detect_gender = False)
    segmentation = seg(media)
    print(segmentation)

In [13]:
cmedia = savepath + '中文音频.mp3'
emedia = savepath + '英语听力.mp3'
features(cmedia)

[('noEnergy', 0.0, 2.42), ('music', 2.42, 26.04), ('speech', 26.04, 37.26), ('noise', 37.26, 38.84), ('speech', 38.84, 44.9), ('noEnergy', 44.9, 45.78), ('speech', 45.78, 47.14), ('music', 47.14, 53.22), ('speech', 53.22, 92.5), ('music', 92.5, 102.18), ('speech', 102.18, 106.62), ('music', 106.62, 117.12), ('noEnergy', 117.12, 117.7), ('music', 117.7, 120.10000000000001), ('speech', 120.10000000000001, 126.68), ('music', 126.68, 139.52), ('speech', 139.52, 140.76), ('music', 140.76, 165.20000000000002), ('speech', 165.20000000000002, 171.96), ('music', 171.96, 199.14000000000001), ('speech', 199.14000000000001, 206.08), ('music', 206.08, 247.36), ('noEnergy', 247.36, 249.42000000000002), ('music', 249.42000000000002, 252.70000000000002), ('noEnergy', 252.70000000000002, 260.04)]


In [14]:
features(emedia)

[('noEnergy', 0.0, 0.38), ('speech', 0.38, 26.6), ('noEnergy', 26.6, 27.68)]


In [15]:
name = "视频实例1"
emav = savepath + name + '.wav'
features(emav)

[('speech', 0.0, 19.16), ('music', 19.16, 22.04), ('speech', 22.04, 30.14)]


In [16]:
cname = "视频实例2"
cmav = savepath + cname + '.wav'
features(cmav)

[('speech', 0.0, 17.080000000000002), ('music', 17.080000000000002, 20.62), ('noEnergy', 20.62, 21.36)]


## 2.2 效果展示

In [17]:
# mp3文件——中文音频
mp3_c = AudioSegment.from_mp3(cmedia)
display(mp3_c[38.84*1000:44.9*1000], mp3_c[26.04*1000:37.26*1000])

In [18]:
# 保存节选出的音频
# mp3_c[38.84*1000:44.9*1000].export(savepath + '中文1.wav', format='wav')
mp3_c[26.04*1000:37.26*1000].export(savepath + '中文2.wav', format='wav')

<_io.BufferedRandom name='E:\\学习\\第五学期\\数据挖掘与机器学习\\作业\\期末\\audio\\中文2.wav'>

In [19]:
# mp3文件——英文音频
mp3_e = AudioSegment.from_mp3(emedia)
display(mp3_e[0.38*1000:26.6*1000], mp3_e[26.6*1000:27.68*1000])

In [20]:
# 保存节选出的音频
mp3_e[0.38*1000:26.6*1000].export(savepath + '英语1.wav', format='wav')

<_io.BufferedRandom name='E:\\学习\\第五学期\\数据挖掘与机器学习\\作业\\期末\\audio\\英语1.wav'>

In [21]:
# 视频文件提取出来的 wav 文件——视频音频
wav = AudioSegment.from_wav(savepath + name + '.wav')
# 人声 BGM
display(wav[00.00*1000:19.16*1000], wav[19.16*1000:22.04*1000])

In [22]:
# 视频文件提取出来的 wav 文件——中文音频
cwav = AudioSegment.from_wav(savepath + cname + '.wav')
# 人声 BGM
display(cwav[00.00*1000:17.08*1000])

# 3. 处理视频或音频

## 3.1 处理音频的函数编写

In [6]:
# 重新采样——百度接口只能识别16 kHz的音频，所以需要重新采样后，才适用
def sampling(path, newpath): # fmat文件格式
    # 方法1：用ffmpeg重新采样一下
    # 参数设置：path, savepath, name, fmat
    # ffmpeg.input(path + name + fmat).output(savepath + name + '.wav', ar=16000).run()
    
    # 方法2：用soundfile
    data, samplerate = sf.read(path)
    sf.write(newpath, data, samplerate, 'PCM_16')


# 切分音频
# 百度短语音识别接口支持1分钟以内的音频，需要对长音频进行分割处理，再使用接口识别
def cutaudio(audio, savepath, name, s):
    size = s #切割的毫秒数
    chunks = make_chunks(audio, size)  ##将文件切割为5s一块
    
    # os.path.exists 函数判断文件夹是否存在
    folder = os.path.exists(savepath + name)
    
    # 判断是否存在文件夹如果不存在则创建为文件夹
    if not folder:
        # os.makedirs 传入一个path路径，生成一个递归的文件夹；如果文件夹存在，就会报错,因此创建文件夹之前，需要使用os.path.exists(path)函数判断文件夹是否存在；
        os.makedirs(savepath + name)  # makedirs 创建文件时如果路径不存在会创建这个路径
    else:
        pass
    for i, chunk in enumerate(chunks):
        ## 枚举，i是索引，chunk是切割好的文件
        chunk_name = savepath + name + "\\voice{0}.wav".format(i)
        ## 保存文件
        chunk.export(chunk_name, format="wav")
    
    print('保存路径：', savepath + name)

In [7]:
# 将mp3文件转成wav文件
def MP32WAV(mp3_path, wav_path):
    """
    这是MP3文件转化成WAV文件的函数
    :param mp3_path: MP3文件的地址
    :param wav_path: WAV文件的地址
    """
    MP3_File = AudioSegment.from_mp3(file = mp3_path)
    MP3_File.export(wav_path, format = "wav")
# MP32WAV(cmedia, savepath)

## 3.2 重新采样音频

In [67]:
# sampling(savepath + '中文2.wav', savepath + '新中文2.wav')

## 3.3 分割音频

In [32]:
print('------------------开始分割{}.mp3文件------------------'.format('中文2'))
cutaudio(mp3_c[26.04*1000:37.26*1000], savepath, '中文2', 5000)
print('-----------------------分割完成-----------------------')

------------------开始分割中文2.mp3文件------------------
保存路径： E:\学习\第五学期\数据挖掘与机器学习\作业\期末\audio\中文2
-----------------------分割完成-----------------------


In [33]:
print('------------------开始分割{}.wav文件------------------'.format(cname))
cutaudio(cwav[00.00*1000:17.08*1000], savepath, name, 30000)
print('-----------------------分割完成-----------------------')

------------------开始分割视频实例2.wav文件------------------
保存路径： E:\学习\第五学期\数据挖掘与机器学习\作业\期末\audio\视频实例1
-----------------------分割完成-----------------------


# 4. 保存转换成功的文本函数编写

In [8]:
# 将识别成功的文字保存成.txt文件        
def save_txt(txt):
    txt_path = 'E:\\学习\\第五学期\\数据挖掘与机器学习\\作业\\期末\\txt\\'
    with open(txt_path + str(len(os.listdir(txt_path))+1) + '.txt', 'w') as f:
        f.write(txt)
    f.close()
    print('保存路径：', txt_path)

# 5. 音频转文字

提取音频之后就要把音频转成文字了，目前市面上有很多方式都可以快速的将视频里的音频内容转成文字

* 科大讯飞、知意等付费平台
* 剪映、Pr等剪辑如案件生成字幕
* 百度云、腾讯云等国内接口
* GOogle、IBM、Bing等国外接口
* 自己造轮子，语音识别训练
* 自己一边听一边打字

## 5.1 方法一：使用百度接口实现文本转换
### 使用现成的接口来批量处理——百度语音API地址：https://cloud.baidu.com/doc/SPE

In [9]:
# 单个音频转换——使用百度接口
def apichange(client, path):
    with open(path, 'rb') as fp:
        cont = fp.read()
    # 识别本地文件
    result = client.asr(cont, 'wav', 16000, {
        'dev_pid': 1537  # 默认1537（普通话 输入法模型），dev_pid参数见本节开头的表格
    })
    fp.close()
    return result['result']

In [34]:
# APPID AK SK
APP_ID = '29506461'
API_KEY = 'Q2Q8DoXq8Qw3ZeZSUT49imZT'
SECRET_KEY = '8G84ezvjoz60RCWE0BOdYdRHLRWjMy8m'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
# 分割后的文件转换——使用百度接口
t = []
cuts = os.listdir(savepath + '中文2\\')
apath = savepath + '中文2\\'
for i in cuts:
    t += apichange(client, apath + i)
txt = ''.join(t)
# txt = str(apichange(client, apath))
save_txt(txt)
print('---------------------开始语音识别---------------------')
print('---------------------------')
print('------------------')
print('-----------')
print('-----')
print('-----------------------识别结束-----------------------')
print('识别结果：',txt)

保存路径： E:\学习\第五学期\数据挖掘与机器学习\作业\期末\txt\
---------------------开始语音识别---------------------
---------------------------
------------------
-----------
-----
-----------------------识别结束-----------------------
识别结果： 嗯嗯嗯嗯。嗯嗯嗯哎呀嗯嗯。嗯。


## 5.2 方法二：使用 PocketSphinx 实现语音转换文本
* 安装 pocketsphinx
* pip install pocketsphinx python39环境下安装失败
* pip install pocketsphinx-0.1.15-cp39-cp39-win_amd64.whl 也失败
* 换成 python38 虚拟环境，安装直接安装，pocketsphinx-0.1.15-cp38-cp38-win_amd64.whl 成功

**speech_recognition 默认识别英文，是不支持中文的，需要在Sphinx语音识别工具包里面下载对应的 普通话包 和 语言模型。**

**AudioFile无法支持mp3、m4a格式，所以要先转换成wav文件**

In [10]:
# 单条音频转换
def sphinxchage(path, language):
    global t # 全局变量
    # 获取识别语音内容的对象
    r = sr.Recognizer()

    # 打开语音文件
    with sr.AudioFile(path) as source:
        audio = r.record(source)
    if language == 'en-US':
        # 将语音转化为文本，并展示
        t = str(r.recognize_sphinx(audio))# recognize_sphinx() 参数中language='en-US' 默认是英语
    if language == 'zh-CN':
        t = str(r.recognize_sphinx(audio, language='zh-CN'))
    return t

### 5.2.1 方法2. 识别不含BGM的英文音频

In [35]:
print('---------------------开始语音识别---------------------')
print('---------------------------')
print('------------------')
print('-----------')
print('-----')
txt = sphinxchage(savepath + '英语1.wav', 'en-US')
print('-----------------------识别结束-----------------------')
print('识别结果：',txt)

---------------------开始语音识别---------------------
---------------------------
------------------
-----------
-----
-----------------------识别结束-----------------------
识别结果： the b. c. has learned that the british prime minister gordon brown has decided that the bushes general election will take place on larry the sex was the bronco goes to buckingham palace tomorrow to say to los queen elizabeth to dissolve parliament and then make a full blown us and all the election date that will solve the official election campaign which of the b. c. correspondent says will be dominated by his use of taxation and spending in the wake of the global recession


In [27]:
print('---------------------正在保存结果---------------------')
save_txt(txt)
print('-----------------------保存成功-----------------------')

---------------------正在保存结果---------------------
保存路径： E:\学习\第五学期\数据挖掘与机器学习\作业\期末\txt\
-----------------------保存成功-----------------------


### 5.2.2 方法2. 识别含BGM的英文音频

In [36]:
txt1 = sphinxchage(savepath + '视频实例1.wav', 'en-US')
print('识别结果：',txt1)

识别结果： winning every einhorn here what wonderfully understated what letter of whom he's read it but emily hit and send it all the cheese think so we're thinking she wants and live jump to that don't do that at this the line that weren't you know it's the customary because of the fourth of the night of the world wants to house and that's that were things there


### 5.2.3 方法2. 识别不含BGM的中文音频

In [37]:
print('---------------------开始语音识别---------------------')
print('---------------------------')
print('------------------')
print('-----------')
print('-----')
ctxt = sphinxchage(savepath + '中文1.wav', 'zh-CN')
ctxt2 = sphinxchage(savepath + '中文2.wav', 'zh-CN')
print('-----------------------识别结束-----------------------')
print('识别结果：',ctxt)
print('识别结果：',ctxt2)

---------------------开始语音识别---------------------
---------------------------
------------------
-----------
-----
-----------------------识别结束-----------------------
识别结果： 了 一 个 个 封堵 杜 消化 的 举手 投足 的 全程 可 从 创新 度
识别结果： 一 周 前 优化 不 单单 刊登 的 秘密 告诉 了 并提 的 钱 优化 很快 经理 全程 得天 优化 就 都 知道


In [48]:
print('---------------------正在保存结果---------------------')
save_txt(ctxt2)
print('-----------------------保存成功-----------------------')

---------------------正在保存结果---------------------
保存路径： E:\学习\第五学期\数据挖掘与机器学习\作业\期末\txt\
-----------------------保存成功-----------------------


In [38]:
ctxt3 = sphinxchage(savepath + '视频实例2.wav', 'zh-CN')
print('识别结果：',ctxt3)

识别结果： 但 不 了 了 金融 退堂 的 回暖 的 屏 五十 称 要 有 室内 将 培训 和 一 横尸 部长 胡 将 公交 为主 库存 纵火 新闻 实习 的 孙子


In [39]:
ctxt4 = str(apichange(client, savepath + '中文3.wav'))
ctxt5 = sphinxchage(savepath + '中文3.wav', 'zh-CN')
print('正确结果：这是一段测试语音，中文的。')
print('百度接口 识别结果：', ctxt4)
print('PocketSphinx 识别结果：', ctxt5)

正确结果：这是一段测试语音，中文的。
百度接口 识别结果： ['啊嗯嗯嗯嗯嗯嗯太多了嗯啊嗯嗯。']
PocketSphinx 识别结果： 这 是一 场 用来 测 使用 的 名 周末 的
