NeMoFeatureExtractor-Android

Kotlin library for extracting mel spectrograms compatible with NVIDIA NeMo models on Android.

Features

NeMo-compatible mel spectrogram extraction
Support for VAD (MarbleNet), ASR (Conformer, Parakeet), and Speaker (TitaNet) models
Pre-computed NeMo filterbank for maximum accuracy
Pure Kotlin implementation with no external dependencies
Configurable normalization modes

Requirements

Android API 24+
Kotlin 1.9+

Installation

Gradle

Add JitPack repository to your project's settings.gradle.kts:

dependencyResolutionManagement {
    repositories {
        maven { url = uri("https://jitpack.io") }
    }
}

Add the dependency to your module's build.gradle.kts:

dependencies {
    implementation("com.github.Otosaku:NeMoFeatureExtractor-Android:1.0.0")
}

Usage

Basic Usage

import com.otosaku.nemofeatureextractor.NeMoFeatureExtractor
import com.otosaku.nemofeatureextractor.MelSpectrogramConfig

// For VAD (MarbleNet)
val vadExtractor = NeMoFeatureExtractor(context, MelSpectrogramConfig.nemoVAD)
val features = vadExtractor.process(audioSamples)

// For ASR (Conformer, Parakeet)
val asrExtractor = NeMoFeatureExtractor(context, MelSpectrogramConfig.nemoASR)
val features = asrExtractor.process(audioSamples)

// For Speaker (TitaNet)
val speakerExtractor = NeMoFeatureExtractor(context, MelSpectrogramConfig.nemoSpeaker)
val features = speakerExtractor.process(audioSamples)

Without Context (generates filterbank)

val extractor = NeMoFeatureExtractor(MelSpectrogramConfig.nemoVAD)
val features = extractor.process(audioSamples)

Custom Configuration

val config = MelSpectrogramConfig(
    sampleRate = 16000,
    nMels = 80,
    nFFT = 512,
    windowSize = 400,
    hopLength = 160,
    normalization = NormalizationMode.PER_FEATURE,
    preemph = 0.97f
)

val extractor = NeMoFeatureExtractor(context, config)

Audio Requirements

Sample rate: 16,000 Hz
Channels: Mono
Format: Float32 array

Configuration Presets

Preset	Normalization	Pad To	Use Case
`nemoVAD`	None	2	Voice Activity Detection (MarbleNet)
`nemoASR`	Per-feature	0	Speech Recognition (Conformer, Parakeet)
`nemoSpeaker`	Per-feature	16	Speaker Verification (TitaNet)

Output Format

The process() method returns Array<FloatArray> with shape [nMels, nFrames]:

nMels: Number of mel frequency bins (default: 80)
nFrames: Number of time frames (depends on audio length)

License

MIT License

Related Projects

NeMoFeatureExtractor-iOS - iOS/macOS version
NVIDIA NeMo - Original implementation

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
gradle/wrapper		gradle/wrapper
library		library
.gitignore		.gitignore
README.md		README.md
build.gradle.kts		build.gradle.kts
gradle.properties		gradle.properties
gradlew		gradlew
gradlew.bat		gradlew.bat
settings.gradle.kts		settings.gradle.kts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NeMoFeatureExtractor-Android

Features

Requirements

Installation

Gradle

Usage

Basic Usage

Without Context (generates filterbank)

Custom Configuration

Audio Requirements

Configuration Presets

Output Format

License

Related Projects

About

Uh oh!

Releases 1

Packages

Contributors 2

Uh oh!

Languages

Otosaku/NeMoFeatureExtractor-Android

Folders and files

Latest commit

History

Repository files navigation

NeMoFeatureExtractor-Android

Features

Requirements

Installation

Gradle

Usage

Basic Usage

Without Context (generates filterbank)

Custom Configuration

Audio Requirements

Configuration Presets

Output Format

License

Related Projects

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 2

Uh oh!

Languages

Packages