Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Who's using HAMi / 您在使用 HAMi 吗 ? #4

Open
archlitchi opened this issue Dec 20, 2021 · 50 comments
Open

Who's using HAMi / 您在使用 HAMi 吗 ? #4

archlitchi opened this issue Dec 20, 2021 · 50 comments

Comments

@archlitchi
Copy link
Collaborator

archlitchi commented Dec 20, 2021

Sincerely thank you for using and continuing to pay attention to HAMi. In order to better build the community and attract more people to use and contribute to HAMi to strengthen the community, please comment the following information in the issue:

Your company, school or organization.
Information about your GPU cluster.
Your scenarios using HAMi.
You can refer to the following format to provide information:
Company(Organization): xxx
Website: xxx (Just to get the company logo)
GPU cluster: 8 * (T4 * 8) + 4 * (V100*2)
Scenarios: DL inference

诚挚的感谢每一位使用并持续关注 HAMi 的朋友。为了更好的建设社区并聆听社区的声音,吸引更多的人使用 HAMi 并给 HAMi 的社区贡献力量,我们期待您能够提交一条评论, 其中包括以下内容:

您所在公司、学校
您的集群规模
您在哪些业务场景中使用
您可以用这些格式来提供信息:
公司:xx
集群规模:8台8卡A100+8台8卡T4
使用场景:深度学习推理

@archlitchi archlitchi pinned this issue Dec 20, 2021
@archlitchi archlitchi changed the title Who's using vGPU K8s Device Plugin / 您在使用vGPU K8s Device Plugin吗 ? Who's using vGPU K8s Scheduler / 您在使用vGPU K8s Scheduler吗 ? Dec 20, 2021
@rnyrnyrny
Copy link

公司:联易融
使用场景:在线推理
感谢开发者的工作

@detongz
Copy link

detongz commented Dec 28, 2021

公司:平安证券

联系方式:17319068082(微信同),张

使用场景:配合kubeflow进行使用,目前公司搭建了一套kubeflow平台,供算法同事使用。但是默认情况下一张显卡只能分配给一个notebook,并且如果notebook不停止/销毁的话,会一直独占这张显卡。我们资源有限,使用了vgpu插件之后可以使一张物理显卡同时让多个算法工程师使用,提升工作效率

遇到的问题:偶尔会遇到jupyter kernel莫名挂掉的问题,暂时还不知道是kubeflow jupyter有bug、或是显存不够用或者其他原因造成的

最后感谢贡献者的出色工作以及开源精神,希望社区能够保持活跃

@summerisc
Copy link

summerisc commented Dec 28, 2021

公司: Caper
使用场景: 物理显卡做切分,配合volcano调度器做自动训练pipeline
欢迎大家多多交流使用场景、和别的工具的结合使用经验

@detongz
Copy link

detongz commented Dec 28, 2021

公司:平安证券

联系方式:17319068082(微信同),张

使用场景:配合kubeflow进行使用,目前公司搭建了一套kubeflow平台,供算法同事使用。但是默认情况下一张显卡只能分配给一个notebook,并且如果notebook不停止/销毁的话,会一直独占这张显卡。我们资源有限,使用了vgpu插件之后可以使一张物理显卡同时让多个算法工程师使用,提升工作效率

遇到的问题:偶尔会遇到jupyter kernel莫名挂掉的问题,暂时还不知道是kubeflow jupyter有bug、或是显存不够用或者其他原因造成的

最后感谢贡献者的出色工作以及开源精神,希望社区能够保持活跃

jupyter kernal突然挂掉是因为显存不够,算法同事调整了相关参数之后,没有问题了

@AlexPei
Copy link

AlexPei commented Jan 5, 2022

公司:华为
联系方式:597956597
使用场景:测试多个深度学习推理服务(多容器)共享单卡资源的隔离情况,对提高稀缺资源的利用率有很大帮助
发现有几个问题点:
1:持续增大并发请求,显存持续增加,停掉压测,显存不释放;物理机上服务部署不会出现持续增加的情况
2:GPU算力单元的利用率会超过设置的值(比如单卡切分为2卡,显存是控制住了50%,但算力利用率会超过50%)
GPU利用率如何如何和具体的容器进程,pod,deployment、service对象关联起并可视化展示是个可深入探讨的点

感谢开源社区,贡献者的辛勤付出,点赞

@jamie-liu
Copy link

公司:平安银行
测试环境在使用这个方案,很好的解决了gpu资源不足的问题,提升了资源的利用率
报issue解决也很快,赞!

@eadou
Copy link

eadou commented Jan 26, 2022

公司:北京思特奇信息技术有限公司
联系方式:18792187789
使用场景:用于测试训练AI算法

@Chenyangzh
Copy link

公司:北京辰安
联系方式:18132152739
使用场景:深度学习算法推理
感谢开源!加油!!

@mazhaoshuo
Copy link

mazhaoshuo commented Feb 16, 2022

公司:中化现代农业有限公司
使用场景:推理
非常感觉作者开源的项目,很好的解决了虚拟化问题,会一直关注,加油!!!

@JJwangbilin
Copy link

公司:新网银行
测试环境使用,解决了gpu算力隔离问题
为xuanzong点赞,报issue解决也很快,赞!

@khw934
Copy link

khw934 commented May 6, 2022

公司:浩方
wx方式:khw934
使用场景:测试GPU虚拟化的一些场景, 公司也有GPU机器, 想充分使用GPU 资源
希望后期能增加以下功能:
1:希望支持用CPU资源替代GPU 算力
2: 希望支持这个功能, 在一个node节点一张卡剩下 0.3,另外一直卡剩下 0.5, 希望能还能申请 0.7 , 就是化零为整的功能

感谢开源社区,贡献者的辛勤付出,点赞

@Danniez
Copy link

Danniez commented May 12, 2022

公司:R3
使用场景:Inf Deployment
非常棒的项目 @archlitchi 解决问题非常积极高效

@ssslkj123
Copy link

公司:中国移动
wx方式:Fedora_lee
使用场景:GPU资源池化,基于GPU时间分片、内存Quota控制情况下针对租户的申请进行隔离,机器学习运算、与售卖场景。
目前遇到的一些小问题:
目前在离线的情况下对于使用helm模板部署不是很友好,导致该项目部署起来异常复杂,应为主机无法通过设置内部镜像源的方式进行。能否提供有关离线部署该插件与调度器的doc文档。
非常感谢对开源社区的贡献。

@archlitchi
Copy link
Collaborator Author

公司:中国移动
wx方式:Fedora_lee
使用场景:GPU资源池化,基于GPU时间分片、内存Quota控制情况下针对租户的申请进行隔离,机器学习运算、与售卖场景。
目前遇到的一些小问题:
目前在离线的情况下对于使用helm模板部署不是很友好,导致该项目部署起来异常复杂,应为主机无法通过设置内部镜像源的方式进行。能否提供有关离线部署该插件与调度器的doc文档。
非常感谢对开源社区的贡献。

非常感谢您的支持,如果离线部署遇到困难的话,可以加我wx: xuanzong4493

@chenxj1997
Copy link

公司:H3C
使用场景:测试环境使用,实现了gpu隔离
为xuanzong点赞,报issue解决也很快,赞!

@x1y2z3456
Copy link

公司:承启科技
使用场景:测试ubuntu18的环境,搭配k8s 1.18.10的环境,可有效隔离GPU,达到高效使用的需求
为xuanzong点赞,报issue解决也很快,赞!

@NoKnowKonwNo
Copy link

公司:深圳某事业单位
联系方式:un8que (微信)
使用场景:ubuntu18.04 k8s1.19.4 3090 helm方式部署成功~
感谢xuanzong的答疑解惑,回复十分及时有效~
另外分享一下问题: vgpu-scheduler单个pod只能申请小于等于显卡张数的gpu单元~

@15220036003
Copy link

公司:轩辕网络科技股份有限公司
联系方式:15220036003
使用场景:教学把一张物理GPU卡虚拟化多个vgpu提供给多个学生使用

遇到的问题:vgpu-device-plugin插件安装不上!! 感谢社区工作人员帮助下解决了问题。

@51qzpw
Copy link

51qzpw commented Oct 13, 2022

公司:土豆数据
背景:目前在技术预研阶段
使用场景:
预计会在 模型推理,图像解译等场景使用
规模:目前在开发环境下,8GPU 节点(每个节点2张nvidia卡)

很OK的开源项目,希望一直活跃下去,加油

@freemanke
Copy link

公司:推想医疗
背景:目前在技术预研阶段
使用场景:模型推理
预计会在 模型推理
规模:目前在开发环境下,10节点(每个节点2张nvidia卡)
很OK的开源项目,希望一直活跃下去,加油**

@fangfenghuang
Copy link

公司:中国东信
使用场景:UAT测试环境GPU虚拟化,解决GPU资源共享问题
集群规模:目前2个GPU 节点(每个节点2张nvidia T4卡)

感谢开源贡献者出色工作以及开源精神,希望社区能够保持活跃

@18735100708
Copy link

18735100708 commented Dec 5, 2022

公司:中**业
集群规模:9张卡物理卡,每张卡虚拟为4张vgpu
使用场景:深度学习推理

@zqz199
Copy link

zqz199 commented Dec 6, 2022

公司:上海联通产业互联网
使用场景:尝试为AI训练和推理搭建可以细粒化切分调度GPU资源的系统化平台
集群规模: 目前有一个三个节点的集群,24张T4卡

@x1y2z3456
Copy link

公司:承O智慧
集群规模:1台A100 4卡机、1台V100 8卡机、50台3060 1卡机、10台3090 4卡机、30台3080 2卡機
使用场景:深度学习训练,教育科研单位

感谢xuanzong的答疑解惑,回复十分及时!解决问题快速~

@nice-jiang
Copy link

nice-jiang commented Dec 6, 2022

公司:安源汇信
集群规模
10台A100*8的GPU服务器,其中2台做VGPU
使用场景
在教育和科研以及企业内部研发场景,为了提高GPU的资源利用率,通过VGPU很好的解决了这个问题
在使用过程中遇到了一些配置和部署上的问题,也向社区进行了反馈,社区工作人员提供了相关技术支持,帮助我们解决了问题,现在我们已经在多个环境中使用VGPU

@Ajexsen
Copy link

Ajexsen commented Dec 6, 2022

學校:德國慕尼黑工業大學
集群規模:暫時只有一張物理卡
使用場景:碩士論文,聯合學習測試研發環境

@niconical
Copy link

学校:东南大学
集群规模:华为Taishan服务器 *5 + Nvidia Tesla T4 *4
使用场景:预研ARM64平台上Kubernetes上GPU资源利用率优化课题+满足甲方要求

@louyifei8888
Copy link

公司:杭州联汇
集群规模:5-10个节点,30张a2
使用场景:gpu使用隔离,gpu资源最大化利用研究

@xyy1999
Copy link

xyy1999 commented Jan 5, 2023

公司:杭州联汇
集群规模:2-10个节点,30张a2
使用场景:vgpu隔离,分配给多个用户使用

@15220036003
Copy link

15220036003 commented Jan 9, 2023 via email

@1284551258
Copy link

公司:广州北软
集群规模:5个节点
使用场景:深度学习实时预测

@zhuziyuan
Copy link

公司:上海喔趣信息计算有限公司
集群规模:2个节点
使用场景:测试GPU切分。
感谢xuanzong大哥。

@cccusername
Copy link

学校:广东工业大学
集群规模:A100(预研阶段,暂时一个机器)
使用场景:预研GPU虚拟化技术,gpu隔离

@zhuziyuan

This comment was marked as duplicate.

@rainbowechoes
Copy link

公司:深圳伯德睿捷健康科技有限公司
集群规模:3个节点
使用场景:GPU 虚拟化推理
感谢xuanzong大佬

@Project-HAMi Project-HAMi deleted a comment from zhuziyuan May 5, 2023
@Dravening
Copy link

Dravening commented May 23, 2023

公司:某工业互联网企业
集群规模:双节点物理机,每台物理机双GPU,显卡型号NVIDIA-SMI 515.86.01 Driver Version: 515.86.01 CUDA Version: 11.7
使用场景:公司有多种基于k8s调度的GPU计算任务,GPU的虚拟化对提高GPU资源的利用率有很大帮助

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢xuanzong兄弟大力支持

@zeta65
Copy link

zeta65 commented Jun 1, 2023

公司:https://www.ppio.cn/
集群规模:3个节点 (技术调研阶段,未大规模上量)
使用场景:AI 计算提升资源利用率

感谢 xuanzong,回复很及时也很有耐心,帮忙解决了疑惑。
非常棒的开源项目,希望能一直维护下去

@zhangchi6414
Copy link

公司:北京单元格科技有限公司
集群规模:单物理节点,多GPU
使用场景: AI计算平台,细化资源分配

非常感谢大佬的开源,希望能够维持下去!

@liudsl
Copy link

liudsl commented Jun 8, 2023

南开大学-网络实验室
集群规模:1个GPU节点 3080Ti (实验环境,以后可能会上规模)
使用场景:预研GPU算力资源分配和隔离,用于调度算法的研究

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢xuanzong兄弟大力支持!

@Crownor
Copy link

Crownor commented Jun 18, 2023

您所在公司、学校

中国科学院信息工程研究所

您的集群规模

5台共计 10 X V100 | 2 X A100 | 30 X T4

您在哪些业务场景中使用

课题组科研资源整合与管理,同时支持学生科研使用与课题组工程项目落地

@hellobiek
Copy link

hellobiek commented Jun 19, 2023

您所在公司、学校
XX基金

您的集群规模
3台共计 2 X V100 | 1 X A100

您在哪些业务场景中使用
金融场景中,智能客服,智能搜索等场景

@kirakiseki
Copy link

学校:东华大学
集群规模:3090 x2 + 3090Ti x1
使用场景:利用本插件运行高显存需求任务、使用k8s调度GPU资源、为学习培训等场景提供灵活资源分配支持

@Project-HAMi Project-HAMi deleted a comment from zhuziyuan Jul 7, 2023
@Project-HAMi Project-HAMi deleted a comment from zhuziyuan Jul 7, 2023
@hyc-yuchen
Copy link

学校:中国矿业大学
集群规模:1060ti5+2080ti2
使用场景:进行GPU的虚拟化并使用k8s调度GPU资源

@Project-HAMi Project-HAMi deleted a comment from zhuziyuan Aug 28, 2023
@whybeyoung
Copy link
Contributor

whybeyoung commented Aug 28, 2023

公司: 科大讯飞
集群规模: 300+
使用场景: 公有云推理,训练

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢xuanzong兄弟大力支持!

@xieyyan
Copy link

xieyyan commented Aug 30, 2023

公司:北京东方国信科技有限公司
集群规模:3个节点
使用场景:ai Gpu限速
感谢xuanzong大佬大力支持

@liuchunhui-c
Copy link

公司:北京辰安科技
集群规模:3个节点
使用场景:推理训练
感谢xuanzong大佬大力支持

@erganzi
Copy link

erganzi commented Jan 10, 2024

公司:秒云
集群规模:单节点
使用场景:进行GPU的虚拟化并使用k8s调度GPU资源
显卡型号:NVIDIA-Quadro P2000 * 2

感谢开源项目https://github.com/4paradigm/k8s-vgpu-scheduler
感谢 @archlitchi

@stormdragongardin
Copy link

stormdragongardin commented Mar 14, 2024

公司:重悦计算机网络科技有限公司
集群规模:4台单卡3090-24G+1台单卡A6000+1台V100-SMX-32G 八卡
使用场景:云平台开发
非常棒的开源项目,希望能一直维护下去,我也会做一些力所能及的事情

@wawa0210 wawa0210 changed the title Who's using vGPU K8s Scheduler / 您在使用vGPU K8s Scheduler吗 ? Who's using HAMi / 您在使用 HAMi 吗 ? Apr 15, 2024
@wawa0210 wawa0210 mentioned this issue Apr 15, 2024
2 tasks
@zhangQiWorr
Copy link

公司:广州品高
使用场景:GPU异构资源的调度的研究
感谢开源

@shown1985
Copy link

公司:上海艾莎医学科技有限公司
使用场景:内部测试
希望继续开发,支持

@wawa0210 wawa0210 unpinned this issue Jul 26, 2024
@wawa0210 wawa0210 pinned this issue Aug 9, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests