In [6]:
from google.cloud import speech
from google.cloud.speech import enums
from google.cloud.speech import types

client = speech.SpeechClient()

uri = 'gs://speech2text_nlp/N2_tango_13.wav'
audio = types.RecognitionAudio(uri=uri)

config = types.RecognitionConfig(
    encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=44100,
    language_code='ja-JP',
)

In [7]:
operation = client.long_running_recognize(config, audio)
response = operation.result(timeout=90)

In [5]:
for result in response.results:
    # The first alternative is the most likely one for this portion.
    print(u'Transcript: {}'.format(result.alternatives[0].transcript))
    print('Confidence: {}'.format(result.alternatives[0].confidence))

Transcript: 来年東京に引っ越すことになったんだよでも東京の家賃は郊外に比べて高いよそうだよねだから不動産屋のアドバイスを聞きたくて電話したんだよお金をかけたくないならシェアハウスはどうトイレや浴室は共同だけど都心のマンションで一人暮らしが憧れなんだけどなー池袋とかどうかな池袋なら安くても好きな名前は覚悟しなきゃ借りられないよ噂で聞いた通り高いねでもちょうど今渋谷でいい物件があるよ光熱費込みで5万円くらい渋谷にしては安いね床にヒビが入ってたり幽霊が住んでたりしないよね明日一度見に行ってからまた連絡するよ
Confidence: 0.9571875929832458


In [8]:
for result in response.results:
    # The first alternative is the most likely one for this portion.
    print(u'Transcript: {}'.format(result.alternatives[0].transcript))
    print('Confidence: {}'.format(result.alternatives[0].confidence))

Transcript: 不平等
Confidence: 0.9614928364753723
Transcript: ラッシュのとき女性専用車両しかないのは不平等だ
Confidence: 0.9053735733032227
Transcript: 非常識
Confidence: 0.9614928364753723
Transcript: 夜中3時に電話してくるなんて非常識な人だ
Confidence: 0.9358851313591003
Transcript: 無責任
Confidence: 0.9476232528686523
Transcript: 今日までの仕事が終わっていないのに仕事を休むのは無責任だ
Confidence: 0.9333395957946777
Transcript: 未経験
Confidence: 0.9614928364753723
Transcript: この仕事は未経験の人も応募できますよ
Confidence: 0.9351255893707275
Transcript: 逆効果
Confidence: 0.9577565789222717
Transcript: りんごダイエットをしたら太ってしまい逆効果だった
Confidence: 0.9427210092544556
Transcript: 好成績
Confidence: 0.9224366545677185
Transcript: 今年私のチームは今までにないぐらいの好成績を収めた
Confidence: 0.9359591007232666
Transcript: 高収入
Confidence: 0.9463663697242737
Transcript: 仕事をするなら高収入の仕事がしたいなー
Confidence: 0.9436413049697876
Transcript: 最前列
Confidence: 0.9614928364753723
Transcript: 有名な歌手のコンサートを最前列で見られてラッキーだった
Confidence: 0.9440494179725647
Transcript: 政治家
Confidence: 0.9104916453361511
Transcript: 政治家の言うことは信じられない
Confidence: 0

In [6]:
config = types.RecognitionConfig(
    encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=44100,
    language_code='ja-JP',
    enable_automatic_punctuation=True
)

operation = client.long_running_recognize(config, audio)
response_punctuation = operation.result(timeout=90)

In [7]:
for result in response.results:
    # The first alternative is the most likely one for this portion.
    print(u'Transcript: {}'.format(result.alternatives[0].transcript))
    print('Confidence: {}'.format(result.alternatives[0].confidence))

Transcript: 久しぶりだねもしかしてちょっと痩せたんじゃない気付いた今年に入ってからジムに通い始めたんだえあんなに運動嫌いだったのによく続いてるね去年友達に会うたびに太ったって言われて生活見直そうと思ったんだそうなんだどこのジムに降ってるの今話題のお花事務だよネットで広告見て気になってすぐ入会したんださすが有名なジムだけあって効果も抜群だねそうなんだよしかもリバウンドの確率もすごく低いんだって現に私も体型キープできてるし私も申し込んでみようかな運動の習慣をつけたいって思ってたしやすじゃあ早速これから一緒に行こう
Confidence: 0.9468536376953125


In [10]:
import io
import os

def transcribe_streaming(stream_file):
    """Streams transcription of the given audio file."""
    from google.cloud import speech
    from google.cloud.speech import enums
    from google.cloud.speech import types
    client = speech.SpeechClient()

    with io.open(stream_file, 'rb') as audio_file:
        content = audio_file.read()

    # In practice, stream should be a generator yielding chunks of audio data.
    stream = [content]
    requests = (types.StreamingRecognizeRequest(audio_content=chunk)
                for chunk in stream)

    config = types.RecognitionConfig(
        encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=44100,
        language_code='ja-JP',
    )
    streaming_config = types.StreamingRecognitionConfig(config=config)

    # streaming_recognize returns a generator.
    responses = client.streaming_recognize(streaming_config, requests)

    for response in responses:
        # Once the transcription has settled, the first result will contain the
        # is_final result. The other results will be for subsequent portions of
        # the audio.
        for result in response.results:
            print('Finished: {}'.format(result.is_final))
            print('Stability: {}'.format(result.stability))
            alternatives = result.alternatives
            # The alternatives are ordered from most likely to least.
            for alternative in alternatives:
                print('Confidence: {}'.format(alternative.confidence))
                print(u'Transcript: {}'.format(alternative.transcript))

In [11]:
file_name = '/Users/casbie/Project/Speech2Text/resources/N2_11.wav'
transcribe_streaming(file_name)

Finished: True
Stability: 0.0
Confidence: 0.9468560218811035
Transcript: 久しぶりだねもしかしてちょっと痩せたんじゃない気付いた今年に入ってからジムに通い始めたんだえあんなに運動嫌いだったのによく続いてるね去年友達に会うたびに太ったって言われて生活見直そうと思ったんだそうなんだどこのジムに降ってるの今話題のお花事務だよネットで広告見て気になってすぐ入会したんださすが有名なジムだけあって効果も抜群だねそうなんだよしかもリバウンドの確率もすごく低いんだって現に私も体型キープできてるし私も申し込んでみようかな運動の習慣をつけたいって思ってたしやすじゃあ早速これから一緒に行こう


In [4]:
result = response.results[0]

In [6]:
result.alternatives[0].words

[]

# Token with punctuation

In [1]:
import re
import nltk

In [2]:
sent_detector = nltk.RegexpTokenizer(u'[^　！？。]*[！？。.\n]')

sents = sent_detector.tokenize(u"　原子番号９２のウランより重い元素は全て人工的に合成され、１１８番まで発見の報告がある。\
      １１３番については、理研と米露の共同チームがそれぞれ「発見した」と報告し、国際純正・応用化学連合と国際純粋・応用物理学連合の合同作業部会が審査していた。両学会は「データの確実性が高い」ことを理由に、理研の発見を認定し、３１日に森田さんに通知した。未確定だった１１５番と１１７番、１１８番の新元素は米露チームの発見を認めた。森田さんは「周期表に名前が残ることは感慨深い。大勢の共同研究者にまずは感謝したい」と述べた。 \n")

In [4]:
for s in sents:
    print(s, len(s))

原子番号９２のウランより重い元素は全て人工的に合成され、１１８番まで発見の報告がある。 43
      １１３番については、理研と米露の共同チームがそれぞれ「発見した」と報告し、国際純正・応用化学連合と国際純粋・応用物理学連合の合同作業部会が審査していた。 82
両学会は「データの確実性が高い」ことを理由に、理研の発見を認定し、３１日に森田さんに通知した。 47
未確定だった１１５番と１１７番、１１８番の新元素は米露チームの発見を認めた。 38
森田さんは「周期表に名前が残ることは感慨深い。 23
大勢の共同研究者にまずは感謝したい」と述べた。 23
 
 2
