In [1]:
import numpy as np
import tritonclient.http

In [2]:
url = "10.10.66.25:8000"
model_name = "speech-video-handler"
model_version = "1"
batch_size = 1

In [38]:
triton_client = tritonclient.http.InferenceServerClient(url=url, verbose=False)

In [4]:
triton_client.is_model_ready(model_name=model_name, model_version=model_version)

True

In [5]:
model_metadata = triton_client.get_model_metadata(model_name=model_name, model_version=model_version)

In [6]:
model_config = triton_client.get_model_config(model_name=model_name, model_version=model_version)

### Video handler requests

In [7]:
_input = tritonclient.http.InferInput(name="video_url", shape=(batch_size,), datatype="BYTES")
output_1 = tritonclient.http.InferRequestedOutput(name="AUDIO_TEXT", binary_data=False)
# output_2 = tritonclient.http.InferRequestedOutput(name="LANGUAGE", binary_data=False)

In [8]:
video_url = "https://cdn-st.rutubelist.ru/media/d1/e7/642dc2194fcdb69664f832d5f2dd/fhd.mp4"

In [13]:
_input.set_data_from_numpy(np.asarray([video_url] * batch_size, dtype=object))

response = triton_client.infer(
        model_name=model_name,
        model_version=model_version,
        inputs=[_input],
        outputs=[output_1],
    )

print(response.get_response())

{'model_name': 'speech-video-handler', 'model_version': '1', 'outputs': [{'name': 'AUDIO_TEXT', 'datatype': 'BYTES', 'shape': [], 'data': ['я убежден что чем беднее человек тем сложнее его удовлетворить потому что тот человек у которого нет денег он всегда недоволен чем он всегда просит больше который в принципе удовлетворен своими деньгами он говорит классно это здорово спасибо и идет и делает']}]}


In [14]:
np.array2string(response.as_numpy("AUDIO_TEXT"))

"'я убежден что чем беднее человек тем сложнее его удовлетворить потому что тот человек у которого нет денег он всегда недоволен чем он всегда просит больше который в принципе удовлетворен своими деньгами он говорит классно это здорово спасибо и идет и делает'"

In [15]:
response.get_output("AUDIO_TEXT")['data'][0]

'я убежден что чем беднее человек тем сложнее его удовлетворить потому что тот человек у которого нет денег он всегда недоволен чем он всегда просит больше который в принципе удовлетворен своими деньгами он говорит классно это здорово спасибо и идет и делает'

### Xclip handler requests

In [16]:
model_name = "xclip-video-handler"

_input = tritonclient.http.InferInput(name="video_url", shape=(batch_size,), datatype="BYTES")
output_1 = tritonclient.http.InferRequestedOutput(name="EMBEDDING", binary_data=False)

In [17]:
# video_url = "https://cdn-st.rutubelist.ru/media/d1/e7/642dc2194fcdb69664f832d5f2dd/fhd.mp4"
video_url = "https://cdn-st.rutubelist.ru/media/82/04/13afdc714bab8f2f5269fc59de01/fhd.mp4"
_input.set_data_from_numpy(np.asarray([video_url] * batch_size, dtype=object))

response = triton_client.infer(
        model_name=model_name,
        model_version=model_version,
        inputs=[_input],
        outputs=[output_1],
    )

print(response.get_response())

{'model_name': 'xclip-video-handler', 'model_version': '1', 'outputs': [{'name': 'EMBEDDING', 'datatype': 'FP32', 'shape': [1024], 'data': [-0.22852547466754913, 0.18959251046180725, -0.8829571604728699, -0.26282110810279846, -0.16040295362472534, 0.17611032724380493, 0.22399885952472687, 0.6420912146568298, 0.07905346900224686, -0.08954619616270065, -0.1478281021118164, -0.10714150965213776, 0.031769588589668274, -0.4252740144729614, -0.09633582085371017, 0.3449266254901886, 0.38339823484420776, -0.41446030139923096, -0.006556730717420578, -0.14731241762638092, -0.19850051403045654, 0.07024514675140381, 0.6687752604484558, 0.21599915623664856, 0.20972655713558197, 0.22742733359336853, -0.03710328787565231, -0.2367304116487503, 0.009547494351863861, 0.2125776708126068, -0.20033052563667297, -0.22876152396202087, -0.15019191801548004, -0.16718898713588715, 0.11776123195886612, -0.35724109411239624, 0.0043360330164432526, -0.5093863010406494, -0.3705253005027771, 0.2623288035392761, 0.16

### Face embeddings model

In [20]:
model_name = "face-analysis"

_input = tritonclient.http.InferInput(name="video_url", shape=(batch_size,), datatype="BYTES")
output_1 = tritonclient.http.InferRequestedOutput(name="EMBEDDINGS", binary_data=False)

In [23]:
video_url = "https://cdn-st.rutubelist.ru/media/d1/e7/642dc2194fcdb69664f832d5f2dd/fhd.mp4"
_input.set_data_from_numpy(np.asarray([video_url] * batch_size, dtype=object))

response = triton_client.infer(
        model_name=model_name,
        model_version=model_version,
        inputs=[_input],
        outputs=[output_1],
    )

print(response.get_response())

{'model_name': 'face-analysis', 'model_version': '1', 'outputs': [{'name': 'EMBEDDINGS', 'datatype': 'FP32', 'shape': [1, 512], 'data': [-0.39640986919403076, 0.5577621459960938, -0.38480040431022644, -0.5430930852890015, -0.5977988243103027, 0.8291841745376587, -0.8572166562080383, -0.4391906261444092, 1.5082900524139404, 0.571452260017395, -1.0145152807235718, 0.41790148615837097, 1.493511438369751, -0.4966958463191986, 0.20283396542072296, 0.7836390733718872, -0.40304818749427795, 0.006415354087948799, 0.31307706236839294, 0.73674076795578, -0.16823141276836395, 0.41729435324668884, -1.0762966871261597, -0.09193019568920135, -1.0771055221557617, -0.725462019443512, 0.2510703206062317, 1.4907912015914917, 0.13848771154880524, -0.97098308801651, -1.2592426538467407, -0.3069590628147125, -0.704663097858429, -0.6280113458633423, -0.11498209089040756, -0.5642503499984741, -0.2103513777256012, -0.4158037304878235, -0.23870427906513214, -1.6885080337524414, 0.6630844473838806, 0.9056518077

In [28]:
response.as_numpy("EMBEDDINGS").shape

(3, 512)

In [37]:
triton_client.close()

### Benchmark

In [9]:
from functools import wraps
from time import time

from tqdm.notebook import tqdm

def timing(f):
    @wraps(f)
    def wrap(*args, **kw):
        ts = time()
        result = f(*args, **kw)
        te = time()
        print('func:%r args:[%r, %r] took: %2.4f sec' % \
          (f.__name__, args, kw, te-ts))
        return result
    return wrap

In [21]:
def request_triton(model_name: str, inputs, outputs):
    response = triton_client.infer(
        model_name=model_name,
        model_version=model_version,
        inputs=[_input],
        outputs=[output_1],
    )
    return response

In [17]:
links = [
    "https://cdn-st.rutubelist.ru/media/b0/e9/ef285e0241139fc611318ed33071/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/39/6c/b31bc6864bef9d8a96814f1822ca/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/e9/e0/b47a9df14a5e97942715e5e705c0/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/87/43/b11df3f344d0af773aac81e410ee/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/d1/e7/642dc2194fcdb69664f832d5f2dd/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/e2/97/f9164f8a41479f961d64842154a7/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/0f/48/8a1ff7324073947a31e80f71d001/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/19/9c/98de3b4a4d9e83cb5dda828f899e/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/bf/ee/85fb6b80491db79e8baebe5c9d80/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/fc/73/d86600d04e519178a55774dfe65e/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/17/ae/a36f6f824fa1a67496d299c8ac6e/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/4b/54/0a36f96d4030a0f6ad1b6d7f4902/fhd.mp4",
    "https://cdn-st.rutubelist.ru/media/8c/58/96608b7a4834883ea2dd1c884c63/fhd.mp4"
]

### speech handler bench

In [33]:
model_name = "speech-video-handler"
_input = tritonclient.http.InferInput(name="video_url", shape=(batch_size,), datatype="BYTES")
output_1 = tritonclient.http.InferRequestedOutput(name="AUDIO_TEXT", binary_data=False)

times = []
for l in tqdm(links):
    _input.set_data_from_numpy(np.asarray([l] * batch_size, dtype=object))
    st = time()
    request_triton(model_name, [_input], [output_1])
    times.append(round(time()-st, 3))

  0%|          | 0/13 [00:00<?, ?it/s]

In [34]:
print(f"Mean СPU time for Speech rec handler {np.mean(times)} sec")

Mean СPU time for Speech rec handler 1.4195384615384614 sec


### xclip video handler

In [35]:
model_name = "xclip-video-handler"

_input = tritonclient.http.InferInput(name="video_url", shape=(batch_size,), datatype="BYTES")
output_1 = tritonclient.http.InferRequestedOutput(name="EMBEDDING", binary_data=False)

times = []
for l in tqdm(links):
    _input.set_data_from_numpy(np.asarray([l] * batch_size, dtype=object))
    st = time()
    request_triton(model_name, [_input], [output_1])
    times.append(round(time()-st, 3))

  0%|          | 0/13 [00:00<?, ?it/s]

In [36]:
print(f"Mean CPU time for XClip video handler {np.mean(times)} sec")

Mean CPU time for XClip video handler 2.6283076923076925 sec


### face video handler

In [30]:
model_name = "face-analysis"

_input = tritonclient.http.InferInput(name="video_url", shape=(batch_size,), datatype="BYTES")
output_1 = tritonclient.http.InferRequestedOutput(name="EMBEDDINGS", binary_data=False)

times = []
for l in tqdm(links):
    _input.set_data_from_numpy(np.asarray([l] * batch_size, dtype=object))
    st = time()
    request_triton(model_name, [_input], [output_1])
    times.append(round(time()-st, 3))

  0%|          | 0/13 [00:00<?, ?it/s]

In [32]:
print(f"Mean CPU time for Face video handler {np.mean(times)} sec")

Mean CPU time for Face video handler 5.503461538461538 sec
