In [70]:
from packages.transcripts import transcribe_with_timestamps
from packages.PII_detection import detect_pii_entities
from packages.mapTimeStamps import map_pii_to_timestamps
from packages.saveRedactedAudo import redact_audio

In [71]:
input_audio_path = "inputs/in-70001-919417328881-20250530-160219-1748601139.42162.wav"

### 🎙️ Step 1: Transcribe Hindi Audio with Word-Level Timestamps

This function uses Azure's Speech SDK to transcribe a WAV audio file in Hindi (`hi-IN`) and extract:

- Recognized speech as text.
- Word-level timestamps including start and end time (in seconds).

The results are collected and returned in a structured dictionary with `text` and `chunks`.


In [72]:
transcript = transcribe_with_timestamps(input_audio_path)
print(transcript)

{'text': 'ਹੈਲੋ ਹਾਂਜੀ ਹਾਂਜੀ ਸਿਰ ਫੋਨ ਆਇਆ ਸੀ ਤੁਹਾਡਾ ਫੋਨ ਆਇਆ ਸੀ ਇੱਕ ਸੈਕਿੰਡ ਹੋਲਡ ਕਰੋ ਜੀ ਮੈਂ ਨਾਮ ਜਾਣ ਸਕਦੀ ਆਂ ਤੁਹਾਡਾ ਰਜਿੰਦਰ ਸਿੰਘ ਜੀ। ਰਜਿੰਦਰ ਸਿੰਘ, ਲਿਖ ਸਿੰਘ, ਰਾਜਿੰਦਰ ਸਿੰਘ ਲਾ ਲੇ ਐਲ ਏ। ਜੇ ਆਈ। ਐੱਨ। ਡੀ। ਏ। ਆ। ਰਾਜਿੰਦਰ ਸਿੰਘ ਜੀ ਮੈਂ ਕਲਟੀਵੇਟ ਕੰਪਨੀ ਪਟਿਆਲੇ ਤੋਂ ਗੱਲ ਕਰ ਰਹੀ ਹਾਂ ਤੁਹਾਡੀ। ਕੋਲੇ ਨਾ ਸਾਡਾ ਕੋਈ ਨਾ ਕੋਈ ਫੀਲਡ ਆਫੀਸਰ ਆਇਆ ਹੋਣਾ। ਉਹ ਨੇ ਤੁਹਾਨੂੰ ਕਾਰਬਨ ਕ੍ਰੇਡਿਟ ਪ੍ਰੋਗਰਾਮ ਬਾਰੇ ਜਾਣਕਾਰੀ ਦਿੱਤੀ ਹੋਣੀ ਸਿਰ। ਜਿਹੜੇ ਖੇਤਾਂ ਦੇ ਵਿੱਚ ਪਾਈਪ ਲੱਗਦੇ ਨੇ ਸਿਰ। ਆਈਡੀਆ ਮੈਸੇਜ ਲੋਨ ਦੇਣੀ। ਨਹੀਂ ਮੇਰੇ ਕੋਲ ਕੋਈ ਨਹੀਂ ਆਇਆ ਜੀ ਅਜੇ। ਜਸਵੰਤ ਸਿੰਘ ਜੀ ਲਈ ਅੱਛਾ ਸ਼ਵਾਨ ਸਿੰਘ ਦਾ ਫਰਡੇ ਆ ਜੀ ਹੈਗਾ। ਉਹ ਮਸ਼ੀਨ ਐ ਉਹ ਕਰੀ ਜਾਂਦੇ ਨੇ ਨਾ ਜੀ ਖੇਦ ਤਾਚ ਸਾਧੂ ਮਸ਼ੀਨ ਨਾਲ। ਮੈਂ ਤੁਹਾਨੂੰ ਦੱਸਦੀ ਆਂ। ਜਸਵੰਤ ਸਿੰਘ ਜੀ ਨੇ ਤੁਹਾਨੂੰ ਜੋ ਦੱਸਿਆ ਹੁਣ ਆਈ ਸੀ। ਉਹਦਾ ਪ੍ਰਾਪਰ ਦੱਸ ਨੀ ਪਾਏ ਯਾ ਤੁਸੀਂ ਸਮਝ ਨਹੀਂ ਪਾਏ। ਦੱਸੋ ਜੀ। ਮੈਂ ਨਾ ਸੈਂਸਰ ਲੈ ਜਾਂਦਾ। ਪਾਈਪ ਕਹਿੰਦੇ ਨੇ ਅਸੀਂ ਕੰਪਨੀ ਨੂੰ ਸੈਂਸਰ ਕਹਿਦੇ ਨੇ ਬੱਟ ਦੇ ਨਾਲ ਲੱਗ ਜੁਗਾ ਪਹਿਲੀ ਗੱਲ ਥੋੜੀ ਫਸਲ ਦੇ ਵਿੱਚ ਕੋਈ ਨੁਕਸਾਨ ਨੀ ਕਰੂਗਾ। ਕੋਈ ਜਗ੍ਹਾ ਨੀ ਜਿਆਦਾ ਖੇਡਿਓ ਖੈਰੂਗਾ ਠੀਕ ਆ ਠੀਕ ਆ ਜੀ ਠੀਕ ਆ ਠੀਕ ਰਹੂਗਾ ਕੀ ਜਦੋਂ ਤੁਹਾਡੇ ਖੇਤ ਦੇ ਵਿੱਚ ਪਾਣੀ ਦੀ ਮਾਤਰਾ ਕੱਟਜੂਗੀ। ਹਾਂਜੀ। ਂਦਰ ਸਿੰਘ ਜੀ ਤੁਹਾਡੇ ਖੇਤ ਦੇ ਵਿੱਚ ਪਾਣੀ ਦੀ ਮਾਤ

### 🕵️ Step 2: Detect PII Entities in Hindi Text

This function uses the Azure client to recognize PII entities in a Hindi document. It:

- Calls Azure's `recognize_pii_entities()` method with language set to `"hi"` (Hindi).
- Prints redacted text and detailed info for each detected entity.
- Returns a list of all PII words detected in the input.


In [117]:
asr_text = [transcript['text']]
pii_result = detect_pii_entities(asr_text)
pii_words = []
for doc in pii_result:
    print("Redacted Text: {}".format(doc.redacted_text))
    for entity in doc.entities:
        if entity.confidence_score > 0.7 and entity.category in ['Person', 'Organization', 'PhoneNumber', 'Address', 'Location']:
            print("Entity: {}".format(entity.text))
            pii_words.append(entity.text)
            print("\tCategory: {}".format(entity.category))
            print("\tConfidence Score: {}".format(entity.confidence_score))
            print("\tOffset: {}".format(entity.offset))
            print("\tLength: {}".format(entity.length))

Redacted Text: ਹੈਲੋ ਹਾਂਜੀ ਹਾਂਜੀ ਸਿਰ ਫੋਨ ਆਇਆ ਸੀ ਤੁਹਾਡਾ ਫੋਨ ਆਇਆ ਸੀ ਇੱਕ ਸੈਕਿੰਡ ਹੋਲਡ ਕਰੋ ਜੀ ਮੈਂ ਨਾਮ ਜਾਣ ਸਕਦੀ ਆਂ ਤੁਹਾਡਾ *********** ਜੀ। ***********, ********, ************ ਲਾ ਲੇ ਐਲ ਏ। ਜੇ ਆਈ। ਐੱਨ। ਡੀ। ਏ। ਆ। ************ ਜੀ ਮੈਂ ************* ਪਟਿਆਲੇ ਤੋਂ ਗੱਲ ਕਰ ਰਹੀ ਹਾਂ ਤੁਹਾਡੀ। ਕੋਲੇ ਨਾ ਸਾਡਾ ਕੋਈ ਨਾ ਕੋਈ ਫੀਲਡ ***** ਆਇਆ ਹੋਣਾ। ਉਹ ਨੇ ਤੁਹਾਨੂੰ ਕਾਰਬਨ ਕ੍ਰੇਡਿਟ ਪ੍ਰੋਗਰਾਮ ਬਾਰੇ ਜਾਣਕਾਰੀ ਦਿੱਤੀ ਹੋਣੀ ਸਿਰ। ਜਿਹੜੇ ਖੇਤਾਂ ਦੇ ਵਿੱਚ ਪਾਈਪ ਲੱਗਦੇ ਨੇ ਸਿਰ। ਆਈਡੀਆ ਮੈਸੇਜ ਲੋਨ ਦੇਣੀ। ਨਹੀਂ ਮੇਰੇ ਕੋਲ ਕੋਈ ਨਹੀਂ ਆਇਆ ਜੀ ਅਜੇ। ********** ਜੀ ਲਈ ਅੱਛਾ ********** ਦਾ ਫਰਡੇ ਆ ਜੀ ਹੈਗਾ। ਉਹ ਮਸ਼ੀਨ ਐ ਉਹ ਕਰੀ ਜਾਂਦੇ ਨੇ ਨਾ ਜੀ ਖੇਦ ਤਾਚ ਸਾਧੂ ਮਸ਼ੀਨ ਨਾਲ। ਮੈਂ ਤੁਹਾਨੂੰ ਦੱਸਦੀ ਆਂ। ********** ਜੀ ਨੇ ਤੁਹਾਨੂੰ ਜੋ ਦੱਸਿਆ *** ਆਈ ਸੀ। ਉਹਦਾ ਪ੍ਰਾਪਰ ਦੱਸ ਨੀ ਪਾਏ ਯਾ ਤੁਸੀਂ ਸਮਝ ਨਹੀਂ ਪਾਏ। ਦੱਸੋ ਜੀ। ਮੈਂ ਨਾ ਸੈਂਸਰ ਲੈ ਜਾਂਦਾ। **** ਕਹਿੰਦੇ ਨੇ ਅਸੀਂ ਕੰਪਨੀ ਨੂੰ ਸੈਂਸਰ ਕਹਿਦੇ ਨੇ ਬੱਟ ਦੇ ਨਾਲ ਲੱਗ ਜੁਗਾ ਪਹਿਲੀ ਗੱਲ ਥੋੜੀ ਫਸਲ ਦੇ ਵਿੱਚ ਕੋਈ ਨੁਕਸਾਨ ਨੀ ਕਰੂਗਾ। ਕੋਈ ਜਗ੍ਹਾ ਨੀ ਜਿਆਦਾ ਖੇਡਿਓ ਖੈਰੂਗਾ ਠੀਕ ਆ ਠੀਕ ਆ ਜੀ ਠੀਕ ਆ ਠੀਕ ਰਹੂਗਾ ਕੀ ਜਦੋਂ ਤੁਹਾਡੇ ਖੇਤ ਦੇ ਵਿੱਚ ਪਾਣੀ ਦੀ ਮਾਤਰਾ ਕੱਟਜੂਗੀ। ਹਾਂਜੀ। ******** ਜੀ ਤੁਹਾਡੇ ਖੇਤ ਦੇ ਵਿੱਚ ਪਾਣੀ ਦ

### 🧠 Step 3: Map PII Words to Audio Word Timestamps

This function attempts to align each detected PII word to a timestamped word chunk in the ASR output using:

- Fuzzy string matching (`SequenceMatcher`) to allow for slight mismatches.
- Returns a list of timestamps corresponding to each PII word.

This is crucial for knowing **where** in the audio to apply redaction.


In [118]:
pii_segments = map_pii_to_timestamps(pii_words, transcript['chunks'], threshold=0.5)
print(pii_segments)

[(13.47, 13.87), (17.32, 17.56), (13.87, 14.11), (18.72, 19.28), (25.19, 25.59), (46.88, 47.08), (49.32, 49.6), (59.12, 59.32), (38.27, 38.55), (17.96, 18.12), (26.59, 26.91), (224.47, 224.75), (235.87, 236.39), (246.75, 247.19), (257.15, 257.35)]


In [119]:
len(pii_segments)

15

### 🔇 Step 4: Mute Audio Segments Containing PII

This function takes the original audio file and the timestamps of detected PII, and:

- Loads the audio using `torchaudio`.
- Silences the waveform between each PII segment (sets amplitude to zero).
- Saves the redacted audio file to `output_audio/` directory, replacing `"in-"` with `"out-"` in the filename.


In [120]:
redact_audio(input_audio_path,pii_segments)

✅ Redacted audio saved at: output_audio\out-70001-919417328881-20250530-160219-1748601139.42162.wav
