In [35]:
import librosa
import pandas as pd
from pathlib import Path
import hebrew
import html

audio_path = Path('audio')
audio_files = sorted(audio_path.glob('*/*wav'))
df = pd.DataFrame({'audio_path' : audio_files})
df['team'] = df['audio_path'].apply(lambda x: x.parent.name)
df['file_index'] = df['audio_path'].apply(lambda x: int(x.name[0]))
df

Unnamed: 0,audio_path,team,file_index
0,audio/baseline/1_opening_baseline.wav,baseline,1
1,audio/baseline/2_story_baseline.wav,baseline,2
2,audio/baseline/3_prices_baseline.wav,baseline,3
3,audio/baseline/4_nailpolish_baseline.wav,baseline,4
4,audio/baseline/5_police_baseline.wav,baseline,5
5,audio/team_1/1_opening_maxim_melichov_and_tony...,team_1,1
6,audio/team_1/2_story_maxim_melichov_tony_hasso...,team_1,2
7,audio/team_1/3_prices_maxim_melichov_tony_hass...,team_1,3
8,audio/team_1/4_nailpolish_maxim_melichov_tony_...,team_1,4
9,audio/team_1/5_police_maxim_melichov_tony_hass...,team_1,5


In [39]:
# make it a table with a column per team and the entry is the path to the file
df_for_display = df.pivot(columns='team', index='file_index', values='audio_path')
df_for_display['transcript'] = [ hebrew.Hebrew(i).text_only().string for i in [
        """הֵי, אַתֶּם עַל חַיוֹת כִּיס, אֲנִי שָׁאוּל אַמֶסְטֶרְדַמְסְקִי.
אַתֶּם הֶאֱזַנְתֶּם לִחְיוֹת כִּיס, הַפּוּדְקָאסְט הַכַּלְכָּלִי שֶׁל כָּאן.
עוֹרֵךְ חַיּוֹת כִּיס הוּא תּוֹמֶר מִיכְלְזוֹן.
בְּמַעֲרֶכֶת חַיּוֹת כִּיס תִּמְצְאוּ גַּם אֶת צְלִיל אַבְרָהָם,""",
"אֲבָל מָה שֶׁעוֹבֵר עַל סְמוֹטְרִיץ הוּא לֹא הַסִּיפּוּר. הַסִּיפּוּר הוּא מַשֶּׁהוּ אַחֵר לְגַמְרֵי.",
"וּבִשְׁבִיל לְהָבִין לָמָּה מְחִיר הַדֶּלֶק כָּל כָּךְ עָלָה, צָרִיךְ לַחֲזוֹר שְׁנָתַיִים אֲחוֹרַנִּית.",
"כְּשֶׁשָּׁאַלְתִּי אוֹתָהּ לָמָּה הִיא הֶחֱלִיטָה לִפְתּוֹחַ עֵסֶק שֶׁל לֵק ג׳ל, הַתְּשׁוּבָה שֶׁלָּהּ הָיְתָה מְאוֹד בְּרוּרָה,",
"תַּגִּידוּ, גָּנְבוּ לָכֶם פַּעַם אֶת הָאוֹטוֹ וּפָשׁוּט יְדַעְתֶּם שֶׁאֵין טַעַם לְהַגִּישׁ תְּלוּנָה בַּמִּשְׁטָרָה?",
    ]]

In [52]:
df_for_display.columns.set_names(None)

Index(['baseline', 'team_1', 'team_2', 'team_3', 'team_4', 'transcript'], dtype='object')

In [54]:
df_for_display.index.set_names(None)

Int64Index([1, 2, 3, 4, 5], dtype='int64')

In [60]:
# formatter to turn file path into an audio control
audio_control_template = '''<audio id="audio-small" controls>
    <source src="{}" type="audio/wav">
</audio>'''

def create_audio_from_path(p):
    return audio_control_template.format(p)

# transcript column is last, move it to be first
col_list = df_for_display.columns.tolist()
col_list = col_list[-1:] + col_list[:-1]

table = df_for_display[col_list]
table.index = table.index.set_names(None)
table.columns = table.columns.set_names(None)
table = table.rename(columns={
    'transcript' : 'Transcript',
    'baseline' : 'Baseline',
    'team_1' : 'Team 1',
    'team_2' : 'Team 2',
    'team_3' : 'Team 3',
    'team_4' : 'Team 4',
})

print(table.to_html(
    formatters=[html.escape] + [create_audio_from_path] * 5,
    index=False,
    border=0,
    escape=False,
    classes='tg',
    justify='center',
))

<table border="0" class="dataframe tg">
  <thead>
    <tr style="text-align: center;">
      <th>Transcript</th>
      <th>Paper Baseline</th>
      <th>Team 1</th>
      <th>Team 2</th>
      <th>Team 3</th>
      <th>Team 4</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>הי, אתם על חיות כיס, אני שאול אמסטרדמסקי.
אתם האזנתם לחיות כיס, הפודקאסט הכלכלי של כאן.
עורך חיות כיס הוא תומר מיכלזון.
במערכת חיות כיס תמצאו גם את צליל אברהם,</td>
      <td><audio id="audio-small" controls>
    <source src="audio/baseline/1_opening_baseline.wav" type="audio/wav">
</audio></td>
      <td><audio id="audio-small" controls>
    <source src="audio/team_1/1_opening_maxim_melichov_and_tony_hasson.wav" type="audio/wav">
</audio></td>
      <td><audio id="audio-small" controls>
    <source src="audio/team_2/1_opening_maxim_lvov.wav" type="audio/wav">
</audio></td>
      <td><audio id="audio-small" controls>
    <source src="audio/team_3/1_opening_ gaby.wav" type="audio/wav">
</audio></td>
      <td><