# Install Required Libraries

In [4]:
!pip install moviepy
!pip install git+https://github.com/openai/whisper.git
!pip install googletrans==3.1.0a0

Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-mxffa2z7
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-mxffa2z7
  Resolved https://github.com/openai/whisper.git to commit 517a43ecd132a2089d85f4ebc044728a71d49f6e
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone


In [5]:
from google.colab import files
import moviepy.editor as mp
import whisper
import os
from googletrans import Translator

# Upload a video file

In [3]:
uploaded = files.upload()
video_file = list(uploaded.keys())[0]
print(f"Uploaded video file: {video_file}")

Saving video.mp4 to video.mp4
Uploaded video file: video.mp4


# Extract audio from the video

In [6]:
audio_file = "temp_audio.wav"
video = mp.VideoFileClip(video_file)
video.audio.write_audiofile(audio_file)
print(f"Audio extracted and saved as: {audio_file}")

MoviePy - Writing audio in temp_audio.wav


                                                                        

MoviePy - Done.
Audio extracted and saved as: temp_audio.wav




# Load Whisper model

In [7]:
model = whisper.load_model("base")

100%|████████████████████████████████████████| 139M/139M [00:00<00:00, 160MiB/s]


# Transcribe audio with timestamps

In [8]:
result = model.transcribe(audio_file, verbose=True)
transcript = result["text"]
segments = result["segments"]
print("\nTranscript:\n", transcript)




Detecting language using up to the first 30 seconds. Use `--language` to specify the language
Detected language: English
[00:00.000 --> 00:04.560]  Hey guys, welcome to the next video on Python to Toll for beginners.
[00:04.560 --> 00:09.840]  In this video, we will discuss how to create modules in Python.
[00:09.840 --> 00:17.200]  Now in the previous videos, I have already discussed briefly about built-in modules and how
[00:17.200 --> 00:19.200]  to import a built-in module.
[00:19.200 --> 00:27.160]  You use a import keyword and then you use the name of the built-in module in Python.
[00:27.160 --> 00:31.800]  This module means this module is already present in Python.
[00:31.800 --> 00:37.440]  So we can use these built-in modules in order to perform some functionality.
[00:37.440 --> 00:43.760]  So for example, this math module helps us to perform some mathematical operations.
[00:43.760 --> 00:47.360]  Now first of all, what is a module?
[00:47.360 --> 00:54.800]  So it turns ou

In [9]:
def format_timestamp(seconds):
    """Convert seconds to SRT timestamp format."""
    hours = int(seconds // 3600)
    minutes = int((seconds % 3600) // 60)
    secs = int(seconds % 60)
    millis = int((seconds % 1) * 1000)
    return f"{hours:02d}:{minutes:02d}:{secs:02d},{millis:03d}"

In [10]:
def generate_srt(segments, output_file):
    """Generate an SRT file with precise timestamps."""
    with open(output_file, 'w') as f:
        for i, segment in enumerate(segments, 1):
            start_time = segment["start"]
            end_time = segment["end"]
            text = segment["text"].strip()
            f.write(f"{i}\n")
            f.write(f"{format_timestamp(start_time)} --> {format_timestamp(end_time)}\n")
            f.write(f"{text}\n\n")

# Generate English SRT file

In [11]:
english_srt_file = "output_transcript.srt"
generate_srt(segments, english_srt_file)
print(f"English SRT file generated: {english_srt_file}")

English SRT file generated: output_transcript.srt


# Initialize translator

In [12]:
translator = Translator()

# Translate the SRT content to Tamil

In [13]:
tamil_segments = []
for segment in segments:
    translated = translator.translate(segment["text"], src='en', dest='ta')
    tamil_segments.append({
        "start": segment["start"],
        "end": segment["end"],
        "text": translated.text
    })
print("\nTranslated SRT Content:\n", "\n".join([seg["text"] for seg in tamil_segments]))


Translated SRT Content:
 ஏய் தோழர்களே, ஆரம்பத்தில் சுங்கச்சாவடிக்கு பைத்தானில் அடுத்த வீடியோவுக்கு வருக.
இந்த வீடியோவில், பைத்தானில் தொகுதிகள் எவ்வாறு உருவாக்குவது என்பது பற்றி விவாதிப்போம்.
இப்போது முந்தைய வீடியோக்களில், உள்ளமைக்கப்பட்ட தொகுதிகள் மற்றும் எப்படி பற்றி நான் ஏற்கனவே சுருக்கமாக விவாதித்தேன்
உள்ளமைக்கப்பட்ட தொகுதியை இறக்குமதி செய்ய.
நீங்கள் ஒரு இறக்குமதி முக்கிய சொல்லைப் பயன்படுத்துகிறீர்கள், பின்னர் பைத்தானில் உள்ளமைக்கப்பட்ட தொகுதியின் பெயரைப் பயன்படுத்துகிறீர்கள்.
இந்த தொகுதி இந்த தொகுதி ஏற்கனவே பைத்தானில் உள்ளது என்பதாகும்.
எனவே சில செயல்பாடுகளைச் செய்ய இந்த உள்ளமைக்கப்பட்ட தொகுதிகள் பயன்படுத்தலாம்.
எனவே, எடுத்துக்காட்டாக, இந்த கணித தொகுதி சில கணித செயல்பாடுகளைச் செய்ய எங்களுக்கு உதவுகிறது.
இப்போது முதலில், ஒரு தொகுதி என்றால் என்ன?
எனவே ஒரு தொகுதி ஒரு பைதான் கோப்பைத் தவிர வேறில்லை என்று மாறிவிடும்.
இப்போது என் கருத்தை நிரூபிக்க, இந்த கணித தொகுதிக்கு மேல் வட்டமிட்டு கட்டுப்பாட்டை அழுத்தவும்
பின்னர் அதன் மேல் வட்டமிடுங்கள்.
எனவே இப்போது நான் கட்டுப்பாட்டை அழுத்துகிறேன்,

# Generate Tamil SRT file

In [14]:
tamil_srt_file = "translated_transcript_ta.srt"
generate_srt(tamil_segments, tamil_srt_file)
print(f"Tamil SRT file generated: {tamil_srt_file}")

Tamil SRT file generated: translated_transcript_ta.srt


# Display English SRT file

In [15]:
with open(english_srt_file, 'r') as f:
    english_content = f.read()
print("\nEnglish SRT File Content:\n", english_content)


English SRT File Content:
 1
00:00:00,000 --> 00:00:04,560
Hey guys, welcome to the next video on Python to Toll for beginners.

2
00:00:04,560 --> 00:00:09,839
In this video, we will discuss how to create modules in Python.

3
00:00:09,839 --> 00:00:17,199
Now in the previous videos, I have already discussed briefly about built-in modules and how

4
00:00:17,199 --> 00:00:19,199
to import a built-in module.

5
00:00:19,199 --> 00:00:27,160
You use a import keyword and then you use the name of the built-in module in Python.

6
00:00:27,160 --> 00:00:31,800
This module means this module is already present in Python.

7
00:00:31,800 --> 00:00:37,439
So we can use these built-in modules in order to perform some functionality.

8
00:00:37,439 --> 00:00:43,760
So for example, this math module helps us to perform some mathematical operations.

9
00:00:43,760 --> 00:00:47,359
Now first of all, what is a module?

10
00:00:47,359 --> 00:00:54,799
So it turns out that a module is nothing but a 

# Display Tamil SRT file

In [16]:
with open(tamil_srt_file, 'r') as f:
    tamil_content = f.read()
print("\nTamil SRT File Content:\n", tamil_content)


Tamil SRT File Content:
 1
00:00:00,000 --> 00:00:04,560
ஏய் தோழர்களே, ஆரம்பத்தில் சுங்கச்சாவடிக்கு பைத்தானில் அடுத்த வீடியோவுக்கு வருக.

2
00:00:04,560 --> 00:00:09,839
இந்த வீடியோவில், பைத்தானில் தொகுதிகள் எவ்வாறு உருவாக்குவது என்பது பற்றி விவாதிப்போம்.

3
00:00:09,839 --> 00:00:17,199
இப்போது முந்தைய வீடியோக்களில், உள்ளமைக்கப்பட்ட தொகுதிகள் மற்றும் எப்படி பற்றி நான் ஏற்கனவே சுருக்கமாக விவாதித்தேன்

4
00:00:17,199 --> 00:00:19,199
உள்ளமைக்கப்பட்ட தொகுதியை இறக்குமதி செய்ய.

5
00:00:19,199 --> 00:00:27,160
நீங்கள் ஒரு இறக்குமதி முக்கிய சொல்லைப் பயன்படுத்துகிறீர்கள், பின்னர் பைத்தானில் உள்ளமைக்கப்பட்ட தொகுதியின் பெயரைப் பயன்படுத்துகிறீர்கள்.

6
00:00:27,160 --> 00:00:31,800
இந்த தொகுதி இந்த தொகுதி ஏற்கனவே பைத்தானில் உள்ளது என்பதாகும்.

7
00:00:31,800 --> 00:00:37,439
எனவே சில செயல்பாடுகளைச் செய்ய இந்த உள்ளமைக்கப்பட்ட தொகுதிகள் பயன்படுத்தலாம்.

8
00:00:37,439 --> 00:00:43,760
எனவே, எடுத்துக்காட்டாக, இந்த கணித தொகுதி சில கணித செயல்பாடுகளைச் செய்ய எங்களுக்கு உதவுகிறது.

9
00:00:43,760 -->

# Download files

In [17]:
files.download(english_srt_file)
files.download(tamil_srt_file)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Clean up temporary audio files

In [18]:
os.remove(audio_file)
print(f"Temporary file {audio_file} removed.")

Temporary file temp_audio.wav removed.
