kill-gpu-zombie-pod

Detect and delete GPU zombie pod in Kubernetes cluster.

In a GPU cluster, if a GPU is scheduled to a pod but has zero utilization continuously, the pod may be hanging or deadlocked, which harms the cluster utilization.

This repository provides a tool to automatically detect and delete these "GPU zombie pods" after a timeout period.

Quick Start

1. Deploy `nvidia_smi_exporter`

We scratch GPU metrics from heyfey/nvidia_smi_exporter

git clone https://github.com/heyfey/nvidia_smi_exporter.git
kubectl apply -f nvidia_smi_exporter/nvidia_smi_exporter.yaml

2. Deploy `kill-gpu-zombie-pod`

git clone https://github.com/heyfey/kill-gpu-zombie-pod.git
cd kill-gpu-zombie-pod
kubectl apply -f kill-gpu-zombie-pod.yaml

args:

-check_period_seconds float
        Check for zombie every # seconds (default 10)
-idle_timeout_seconds float
        Kill the pod after idle timeout of # seconds (default 90)
-namespace string
        Detect and kill GPU zombie pod in the namespace (default "default")

You can specify args in the YAML

3. Done!

Zombie Example

kubectl apply -f gpu-zombie-pod.yaml

Build Image

docker build  .

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
go.mod		go.mod
go.sum		go.sum
gpu-zombie-pod.yaml		gpu-zombie-pod.yaml
kill-gpu-zombie-pod.yaml		kill-gpu-zombie-pod.yaml
kill_gpu_zombie_pod.go		kill_gpu_zombie_pod.go

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

Dockerfile

Dockerfile

LICENSE

LICENSE

README.md

README.md

go.mod

go.mod

go.sum

go.sum

gpu-zombie-pod.yaml

gpu-zombie-pod.yaml

kill-gpu-zombie-pod.yaml

kill-gpu-zombie-pod.yaml

kill_gpu_zombie_pod.go

kill_gpu_zombie_pod.go

Repository files navigation

kill-gpu-zombie-pod

Quick Start

1. Deploy `nvidia_smi_exporter`

2. Deploy `kill-gpu-zombie-pod`

3. Done!

Zombie Example

Build Image

About

Releases

Packages

Languages

License

heyfey/kill-gpu-zombie-pod

Folders and files

Latest commit

History

Repository files navigation

kill-gpu-zombie-pod

Quick Start

1. Deploy nvidia_smi_exporter

2. Deploy kill-gpu-zombie-pod

3. Done!

Zombie Example

Build Image

About

Topics

Resources

License

Stars

Watchers

Forks

Languages

1. Deploy `nvidia_smi_exporter`

2. Deploy `kill-gpu-zombie-pod`