In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os

os.chdir('/content/drive/My Drive/Colab Notebooks')

In [3]:
import psutil

# Check available memory
mem = psutil.virtual_memory()
print(f"Available memory: {mem.available / (1024**2):.2f} MB")


Available memory: 11485.32 MB


In [4]:
import torch

# Check if CUDA is available
if torch.cuda.is_available():
    device = torch.device("cuda")
    print("CUDA is available. Using GPU.")
else:
    device = torch.device("cpu")
    print("CUDA is not available. Using CPU.")


CUDA is available. Using GPU.


In [7]:
import os
import torch
import librosa
from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer

model_name = "TheAIchemist13/kannada_beekeeping_wav2vec2"
tokenizer = Wav2Vec2Tokenizer.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)

model.eval()
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

audio_directory = "Sandalwood Dataset"

transcriptions = {}

for filename in os.listdir(audio_directory):
    if filename.endswith(".mp3"):
        audio_file = os.path.join(audio_directory, filename)
        audio_input, _ = librosa.load(audio_file, sr=16000)
        input_values = tokenizer(audio_input, return_tensors="pt", padding=True).input_values.to(device)

        max_input_length = 400000
        if input_values.size(1) > max_input_length:
            input_values = input_values[:, :max_input_length]

        try:
            with torch.no_grad():
                logits = model(input_values).logits

            predicted_ids = torch.argmax(logits, dim=-1)
            transcription = tokenizer.batch_decode(predicted_ids)[0]

            transcriptions[filename] = transcription
            print(f"Processed {filename}: {transcription}")

        except RuntimeError as e:
            print(f"Error processing {filename}: {e}. Skipping this file.")

with open("transcriptions.txt", "w") as f:
    for filename, transcription in transcriptions.items():
        f.write(f"{filename}: {transcription}\n")

print("Transcription completed for all audio files.")


The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'Wav2Vec2CTCTokenizer'. 
The class this function is called from is 'Wav2Vec2Tokenizer'.
Some weights of the model checkpoint at TheAIchemist13/kannada_beekeeping_wav2vec2 were not used when initializing Wav2Vec2ForCTC: ['wav2vec2.encoder.pos_conv_embed.conv.weight_g', 'wav2vec2.encoder.pos_conv_embed.conv.weight_v']
- This IS expected if you are initializing Wav2Vec2ForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing Wav2Vec2ForCTC from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weig

Processed SandalWoodNewsStories_200.mp3: ದು ಒಳ್ಳೆ ಟಾಪಿಕ್ತೋಡಬಂದು ವಿಡಮಾಡತ್ತರೋದು ಂದರೆ ಕ್ರೋಚಿಪ್ ದು ಶ್ರೀಂಧಕೆ ಪ್ರೊಟಕ್ಷನ್ ಬಗ್ಗೆ ಎಲ್ಲರಿಗೊಂದು ಸಂಶದ ಎಲ್ಲರಿಗೊಂದು ಕನಿಸಿದೆ ತಮ್ಮ ಗಂಧದ  ಹೊಲನ ಹೇಗೆನೋ ಕಾಪಾಡ್ಬೇಕು ಇಲ್ಂದರೆ ಅದರಿಂದ ಹೇಗೆ ಲಭಪಡಬೇಕಂತ ೇಳಿ ಅರ ಬಗ್ಗೆ ಕುರ್ತುನನು ಿಪ್ಬಗ್ಗೆ ಹೇಗೆ ಹಾಕಬೇಕು ಇಲಂದರೆ ಎಷ್ಟು ಖರ್ಚಾಗುತ್ತೆ ಆಮೇಲೆ ಯವಾಗ ಹಾಕಬೇಕು ಎಷ್ಟು ವರ್ಷಬರತಮ್ಮೆ ನವ್
Processed SandalWoodNewsStories_148.mp3: ಮನ ಗ  ನ್ನು ಮಡಲಮಾಡಿ ಇದಕಕೂ ಕಗೊರಕೊಟ್ಟ ಅದಕ್ಕೆ ು  ಗಬ ಕಂಡಿರಕಟ್ಟರೆ ರಕ   ನಗೆ ಲ ಿ       ಲ ಗ ದ ಲ್ಲ   ್  ಾಗಿದ
Processed SandalWoodNewsStories_63.mp3: ದ ಲೋ ರೀತಿದು ್ರ ದಲ್ಲೇ ರೀತಿ ಮಾಡಿಸಿದ ವು ಸ ಡ ರೀತಿ ಮಾಡಿಕೊಟ್ಟರೆ ಖಂಡಿತವಾ ಗೆ ದು ಶರೀಲ ದುಶೀು ಬೆಳಸಿದರೆ ರಿ ಲಕ್ಷ ಆಗಿ ಅ ಯರು ಭಯಪಡಬೇ ಈ ರೀತಿದು ದ ಗ್ರ್ ಮಾಡದ ಕೆಸದ ರಿ
Processed SandalWoodNewsStories_46.mp3: ನಮಸ್ಕಾರ ಆ ನ್    ಹ ಕರ್ನ್ಮಂದಿಲ್ಲನೆ       ಗ ರ ಲಾಸಿಯರಿ  ತಂದಗ ಲ್ಲ  ್ರೀ ಮಂತಲ್ಯಾನ
Processed SandalWoodNewsStories_167.mp3: ಕ್ೃಷಿಕೋ್ ಕರಿಗೆ  ಕೋಟಿ ಸಂಪಾದಿಸಿ     ಶ್ರೀಗಂಧದ ಮಾರುಕಟ್ಟೆಯಲ್ಲಿ ಭಾರತ ವಿಶ್ವಕ್ಕೆ ಲೀಡರ್ ಕರ್ನಾಟಕ ಭಾರತದಲ್ಲಿ ಟಾಪಾನ   ಲಕ್ಷಕೋಟಿಮೌಲ್ಯದ ವಿಶ್ವಮಾರುಕಟ್ಟೆಯಲ್ಲಿ ನಮ್ಮದು ಸಿಂಹಪಾಲ್
Processed SandalWoodNewsStori