Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

GPU 서버 내 ksapce data 손상 & GPU pending #231

Open
yellowon opened this issue Aug 18, 2023 · 1 comment
Open

GPU 서버 내 ksapce data 손상 & GPU pending #231

yellowon opened this issue Aug 18, 2023 · 1 comment

Comments

@yellowon
Copy link

안녕하세요 조교님,
이번 대회를 위해 많이 힘써주셔서 항상 감사드립니다.
다음 두 가지 문의사항이 있어 질문 올리게 되었습니다.

1. GPU 서버 내 특정 ksapce data 손상 문제

서버 내에서 training 도중 계속해서 다음과 같은 에러 메세지가 발생했습니다.

OSError: [Errno 5] Can't read data (file read failed: time = Fri Aug 18 10:50:32 2023
, filename = '../../Data/train/kspace/brain_acc8_48.h5', file descriptor = 25, errno = 5, error message = 'Input/output error', buf = 0x5fae48a0, total read size = 43892272, bytes this sub-read = 43892272, bytes actually read = 18446744073709551615, offset = 0)

여러 번 시도해봤으나, 계속 'brain_acc8_48.h5'를 읽지 못하는 문제가 발생하여 서버 내 해당 데이터 손상이 의심되어 해당 데이터 교체가 가능할지 문의 드립니다.
(iabeng07: pertinent-supermarket)

2. stop된 서버의 pending 무한 로딩 문제

stop된 서버에서 다시 running을 시도할 시 pending 상태로 무한로딩 되는 상황이 발생합니다.
GPU사용률 증가로 인한 자원 부족 문제라면 어쩔 수 없지만, 혹시 재할당이 가능할지 여쭤봅니다.
(iabeng32: deadly-stress)

읽어주셔서 감사합니다.
Mr.Ai팀 올림

@wogur110
Copy link
Collaborator

안녕하세요, 2023 SNU FastMRI Challenge 조교 배재혁입니다.

  1. GPU 서버 내 kspace data를 재할당 조치하겠습니다. 3~4시간 후에 다시 확인해주시면 감사하겠습니다.
  2. 현재, 남은 GPU 서버가 없는 관계로 재할당까지 시간이 오래 걸릴 것으로 예상됩니다.

감사합니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants