Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

메모리 할당 문제 #39

Closed
toriving opened this issue Dec 4, 2018 · 8 comments
Closed

메모리 할당 문제 #39

toriving opened this issue Dec 4, 2018 · 8 comments

Comments

@toriving
Copy link

toriving commented Dec 4, 2018

현재 메모리는 24G로 고정되어있는건가요?

--memory string 명령어를 통해 변경하려해도 에러만 나옵니다.

@toriving
Copy link
Author

toriving commented Dec 4, 2018

추가로 모델을 돌리거나 제출을 할때 오류가 자주 뜨는데 원인이 무엇인지 궁금합니다.
image

@nsml-admin
Copy link
Collaborator

안녕하세요

  1. 현재 메모리는 기본값으로 24G로 고정되어 있습니다. 조정이 필요하면 nsml run --memory 16G 같이 조정가능합니다. 에러가 나온다는 메세지나 캡처화면을 볼수있을까요?

  2. 현재 특정장비에 세션이 할당될경우 위와같은 에러가 발생하는걸로 파악됩니다. 현재 장비 점검중에 있고 해당장비들을 제외시켜놔서 위와같은 에러상황은 발생하지 않을걸로 생각됩니다.(혹시라도 또 발생하면 제보해주시면 감사하겠습니다)
    제보해주셔서 감사드리며 불편을 드려서 죄송합니다.

감사합니다.

@toriving
Copy link
Author

toriving commented Dec 5, 2018

nsml run -d NER --memory '48G'
를 했을때는
image
이런 에러가발생합니다.
또한
nsml run -d NER --memory 48G
을 실행하면 실제로는 24G가 적용되는데 24G가 최대치인가요?

@toriving
Copy link
Author

toriving commented Dec 5, 2018

또한 submit시에 OOM 에러가 나는데 반면에 디버깅시에도 트레이닝시에도 잘 됩니다.
제생각엔 infer 함수를 그대로 submit에서 쓰게된다면 batch size가 full batch로 되서 그런것같은데
해결방안이 있을까요?

@toriving
Copy link
Author

toriving commented Dec 6, 2018

또한 세션에 로그가 안뜨는 오류가 있는데 확인해주실수있나요?
State_Of_The_Art/NER/127 155 158 입니다.

@nsml-admin
Copy link
Collaborator

안녕하세요.

  1. 위 에러는 한번 확인해보겠습니다.
  2. 24G가 정용된다는게 gpu의 메모리인가요? gpu메모리의 최대치는 24G이고, 실제 cpu메모리는 약 45G까지라고 생각하시면됩니다.
  3. submit할때의 batch size는 full은 아니고 2500씩 입력됩니다. 세션번호를 알려주시면 에러로그를 보여드릴수있을거같습니다.
  4. 해당세션의 장비들이 문제가있어서 문제 해결하였고 현재는 정상작동할거같습니다. 불편을드려서 죄송합니다.

감사합니다.

@toriving
Copy link
Author

toriving commented Dec 6, 2018

  1. State_Of_The_Art/NER/127 입니다.

@nsml-admin
Copy link
Collaborator

위 세션 확인해봤는데

/bin/bash: line 1:    74 Killed ~~

로 세션이 종료되었습니다.

여러가지 이유가 있지만 대부분의 경우는 OOM킬로 세션이 꺼진경우이고, 트레이닝 중에도 메모리를 24G에 임박하게 사용하였던걸로 생각됩니다.

최대 지피유의 메모리는 24G입니다.

감사합니다.

@toriving toriving closed this as completed Dec 6, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants