In [16]:
from youtube_transcript_api import YouTubeTranscriptApi

video_id = "1GKzqxKwBK0"

ytt_api = YouTubeTranscriptApi()
transcript = ytt_api.fetch(video_id, languages=['fr'])

In [None]:
#'https://www.youtube.com/watch/?v=' + video_id

'https://www.youtube.com/watch/?v=1GKzqxKwBK0'

In [17]:
transcript[0:10]  # first two chunks

[FetchedTranscriptSnippet(text='nous sommes le 27 mars 1796 à nice', start=0.2, duration=4.369),
 FetchedTranscriptSnippet(text='pendant la révolution française', start=3.08, duration=3.779),
 FetchedTranscriptSnippet(text="dans les rangs de l'armée républicaine", start=4.569, duration=4.301),
 FetchedTranscriptSnippet(text="le bruit court qu'un nouveau général est", start=6.859, duration=3.48),
 FetchedTranscriptSnippet(text='sur le point de prendre ses quartiers', start=8.87, duration=4.229),
 FetchedTranscriptSnippet(text="il se dit que ce général et jeunes qu'il", start=10.339, duration=4.68),
 FetchedTranscriptSnippet(text='est inexpérimenté mais il se dit aussi', start=13.099, duration=3.331),
 FetchedTranscriptSnippet(text="qu'il est plein de rêves et plein", start=15.019, duration=3.241),
 FetchedTranscriptSnippet(text="d'ambition mais pourra-t-il seulement", start=16.43, duration=2.97),
 FetchedTranscriptSnippet(text='redonné courage aux troupes', start=18.26, duration=3.09)]

In [22]:
from youtube_transcript_api import YouTubeTranscriptApi
from datetime import timedelta


def format_timestamp(seconds: float) -> str:
    """Convert seconds to HH:MM:SS.mmm"""
    td = timedelta(seconds=seconds)
    hours, remainder = divmod(td.seconds, 3600)
    minutes, secs = divmod(remainder, 60)
    millis = int(td.microseconds / 1000)
    return f"{hours:02}:{minutes:02}:{secs:02}.{millis:03}"

lines = []
current_line = ""
current_start = None

for snippet in transcript:
    if current_start is None:
        current_start = snippet.start

    # Append text
    current_line += " " + snippet.text

    # Heuristic: merge until line reaches ~80 characters, then break
    if len(current_line) > 80:
        timestamp = format_timestamp(current_start)
        lines.append(f"{timestamp} {current_line.strip()}")
        current_line = ""
        current_start = None

# Last remaining line
if current_line:
    timestamp = format_timestamp(current_start)
    lines.append(f"{timestamp} {current_line.strip()}")

# Save to file
with open("transcript.txt", "w", encoding="utf-8") as f:
    f.write("\n".join(lines))

In [23]:
timestamp

'00:38:22.650'

## Formatting the transcript

In [6]:
from youtube_transcript_api.formatters import TextFormatter
text_formatter = TextFormatter()
text_formatted = text_formatter.format_transcript(ytt_api.fetch(video_id, languages=['fr']))
print(text_formatted)

nous sommes le 27 mars 1796 à nice
pendant la révolution française
dans les rangs de l'armée républicaine
le bruit court qu'un nouveau général est
sur le point de prendre ses quartiers
il se dit que ce général et jeunes qu'il
est inexpérimenté mais il se dit aussi
qu'il est plein de rêves et plein
d'ambition mais pourra-t-il seulement
redonné courage aux troupes
pourra-t-il redonner confiance et fierté
à ces soldats qui au premier jour du
printemps 1796 sont démoralisés
sous-équipés mal payés et en proie à la
mutinerie
comment pourra-t-il lui du haut de ses
26 ans mené une campagne militaire dans
ces conditions et voilà que soudain le
jeune homme prend la parole et s'adresse
à l'armée soldats vous êtes nuls vous
êtes mal nourris le gouvernement vous
dois beaucoup
il ne peut rien vous donner mes mois
napoléon bonaparte
je veux vous conduire dans les plaines
les plus fertiles du monde et ses
plaines ses plaines si fertile
ce sont celles de l'italie un pays où
les peuples et les villes ne

In [7]:
from youtube_transcript_api.formatters import JSONFormatter
json_formatter = JSONFormatter()
json_formatted = json_formatter.format_transcript(ytt_api.fetch(video_id, languages=['fr']))
print(json_formatted)

[{"text": "nous sommes le 27 mars 1796 \u00e0 nice", "start": 0.2, "duration": 4.369}, {"text": "pendant la r\u00e9volution fran\u00e7aise", "start": 3.08, "duration": 3.779}, {"text": "dans les rangs de l'arm\u00e9e r\u00e9publicaine", "start": 4.569, "duration": 4.301}, {"text": "le bruit court qu'un nouveau g\u00e9n\u00e9ral est", "start": 6.859, "duration": 3.48}, {"text": "sur le point de prendre ses quartiers", "start": 8.87, "duration": 4.229}, {"text": "il se dit que ce g\u00e9n\u00e9ral et jeunes qu'il", "start": 10.339, "duration": 4.68}, {"text": "est inexp\u00e9riment\u00e9 mais il se dit aussi", "start": 13.099, "duration": 3.331}, {"text": "qu'il est plein de r\u00eaves et plein", "start": 15.019, "duration": 3.241}, {"text": "d'ambition mais pourra-t-il seulement", "start": 16.43, "duration": 2.97}, {"text": "redonn\u00e9 courage aux troupes", "start": 18.26, "duration": 3.09}, {"text": "pourra-t-il redonner confiance et fiert\u00e9", "start": 19.4, "duration": 4.05}, {"