alexngng

Follow

Alex Ng alexngng

Follow

Working at Alibaba Cloud, responsible for model inference optimization on the AI infrastructure of the ECS platform.

2 followers · 5 following

alibaba cloud
Beijing
05:43 (UTC +08:00)

Popular repositories Loading

CUDA-Learn-Note CUDA-Learn-Note Public

Forked from DefTruth/CUDA-Learn-Notes

🎉CUDA 笔记 / 高频面试题汇总 / C++笔记，个人笔记，更新随缘: sgemm、sgemv、warp reduce、block reduce、dot product、elementwise、softmax、layernorm、rmsnorm、hist etc.

Cuda 6
FasterTransformer FasterTransformer Public

Forked from NVIDIA/FasterTransformer

Transformer related optimization, including BERT, GPT

C++
ChatGLM2-6B ChatGLM2-6B Public

Forked from THUDM/ChatGLM2-6B

ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型

Python
ChatGLM-6B ChatGLM-6B Public

Forked from THUDM/ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型

Python
llama llama Public

Forked from meta-llama/llama

Inference code for LLaMA models

Python
tensor_parallel tensor_parallel Public

Forked from BlackSamorez/tensor_parallel

Automatically split your PyTorch models on multiple GPUs for training & inference

Python