[Gemini] fix grad unreleased issue and param recovery issue #2052

zengzh95 · 2022-11-30T09:56:15Z

参数保存与恢复

ParamTracerWrapper中定义cpu_param_data_dict属性，forward执行之前调用_save_param_data_on_cpu函数备份参数
Tracer过程中，_free_cuda_params函数和_allocate_params_on_cuda函数只负责释放和分配cuda内存，不拷贝数据
backward执行完后，调用_restore_param_data函数恢复参数，并清空cpu_param_data_dict

拆分grad hook和param hook

添加GradHook类
ParamTracerWrapper实例执行forward之前，调用GradHook实例的register_grad_hook函数给参数挂上hook
backward执行之后，调用GradHook实例的remove_grad_hook函数删除参数的hook

MemInfo

model_data_list 记录 model data 的内存
non_model_data_list 记录 non model data 的内存
unreleased_grad_flag 表示参数对应的梯度是否未释放
unreleased_grad_volume 表示未释放的梯度数据量

shared module处理

sample_model_data函数中计算model data时，初始化data_volume为unreleased_grad_volume，
sample_model_data函数中判断参数梯度是否处于未释放状态，如果是则不用累加unreleased_grad_volume，PyTorch梯度累加器只保存一份梯度
grad_handle函数中释放梯度

测试

https://github.com/hpcaitech/ColossalAI/blob/main/tests/test_gemini/test_param_tracer.py

feifeibear · 2022-12-01T02:14:15Z

colossalai/gemini/ophooks/param_trace_hook.py

+            if p.data.device.type == "cpu":
+                raise NotImplementedError("Only free cuda memory")
+            p.cpu_data = torch.empty(p.data.shape, dtype=self.dtype, device="cpu")
+            p.cpu_data.copy_(p.data)


p.data不也是你自己empty出来的么？这样会备份到有意义的信息么？

feifeibear · 2022-12-01T02:22:37Z

Comments：

把param hook和grad hook拆成两个class。current memory statistics信息单独一个类，被前二者的实例共同更新。
备份param.data逻辑抽出来，在tracer运行前备份，在运行后恢复。

…umtimeTracer

feifeibear · 2022-12-02T01:50:08Z

colossalai/gemini/ophooks/param_trace_hook.py

@@ -15,42 +15,76 @@ class TrainingPhase(Enum):
    BACKWARD = 1


+class MemInfo():


这些信息都是gpu memory的么？if so，应该改名叫CUDAMemInfo

你一致把它当成全局变量用。建议使用单例模式。

fix grad unreleased issue and param recovery issue

3fade4d

feifeibear reviewed Dec 1, 2022

View reviewed changes

zengzh95 added 2 commits December 1, 2022 23:22

polish runtime tracer code

0a124bb

Merge branch 'main' of https://github.com/hpcaitech/ColossalAI into r…

a91a731

…umtimeTracer

feifeibear reviewed Dec 2, 2022

View reviewed changes

feifeibear added the Run Build and Test label Dec 2, 2022

[gemini] SingletonMeta

2d59a5c

feifeibear approved these changes Dec 2, 2022

View reviewed changes

feifeibear changed the title ~~fix grad unreleased issue and param recovery issue~~ [Gemini] fix grad unreleased issue and param recovery issue Dec 2, 2022

feifeibear merged commit 38ea4ba into hpcaitech:main Dec 2, 2022

zengzh95 deleted the rumtimeTracer branch December 2, 2022 08:51

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Gemini] fix grad unreleased issue and param recovery issue #2052

[Gemini] fix grad unreleased issue and param recovery issue #2052

zengzh95 commented Nov 30, 2022 •

edited

Loading

feifeibear Dec 1, 2022

feifeibear commented Dec 1, 2022

feifeibear Dec 2, 2022

feifeibear Dec 2, 2022 •

edited

Loading

		@@ -15,42 +15,76 @@ class TrainingPhase(Enum):
		BACKWARD = 1


		class MemInfo():

[Gemini] fix grad unreleased issue and param recovery issue #2052

[Gemini] fix grad unreleased issue and param recovery issue #2052

Conversation

zengzh95 commented Nov 30, 2022 • edited Loading

参数保存与恢复

拆分grad hook和param hook

MemInfo

shared module处理

测试

feifeibear Dec 1, 2022

Choose a reason for hiding this comment

feifeibear commented Dec 1, 2022

feifeibear Dec 2, 2022

Choose a reason for hiding this comment

feifeibear Dec 2, 2022 • edited Loading

Choose a reason for hiding this comment

zengzh95 commented Nov 30, 2022 •

edited

Loading

feifeibear Dec 2, 2022 •

edited

Loading