## Cross Validation 시 주의사항

- When dealing with X-ray image files that are organized by person in separate folders, and you want to perform cross-validation, it's important to ensure that images of the same person are not split across different folds. <br>
    [번역] X-ray 이미지 파일이 사람별로 다른 폴더에 저장되어 있고, 각 사람의 폴더 안에 이미지와 라벨이 있다면, 크로스 밸리데이션을 수행할 때 몇 가지 주의해야 할 점이 있음. 중요한 것은 같은 사람의 이미지가 다른 폴드에 분리되지 않도록 하는 것.<br><br>
- why? 왜 그래야 할까? 
    - to maintain the integrity of the validation process 검증 과정의 무결성을 유지 
    - avoiding data leakage 데이터 누수를 방지
    - ensuring that your model is evaluated on completely unseen data 모델이 완전히 보지 못한 데이터에 대해 평가하게 위해

- If your dataset labels are imbalanced (some classes are more frequent than others), consider using a <b>stratified split</b>. Indeed, the number of bbox for neckbone is larger the one for hyoid bone.<br>
[번역] 데이터 라벨이 불균형한 경우(일부 클래스가 다른 것보다 빈번한 경우), 계층화된 분할을 고려해야 함.실제로 목뼈에 대한 bbox의 수가 설골에 대한 bbox의 수보다 많음.
- This means you would split your data in a way that maintains the original proportion of different classes (e.g., types of conditions diagnosed by X-rays) within each fold. <br>
이는 다른 클래스(예: X-ray로 진단된 조건 유형)의 원래 비율을 각 폴드 내에서 유지하면서 데이터를 분할하는 것을 의미함.
- You would do this at the person level, not the individual image level, to avoid having images of the same person in both training and validation sets.<br>
 개별 이미지 수준이 아닌 사람별 수준에서 수행되어야 하며, 훈련 및 검증 세트에 같은 사람의 이미지가 없도록 처리.<br><br>

- <b>All images associated with a specific person should be grouped together and treated as a single entity during the splitting process. 특정 인물과 관련된 모든 이미지는 분할 과정에서 함께 그룹화되어 단일 개체로 처리되어야 함.</b>

### K-Fold Cross-Validation at the Person Level
- For cross-validation, you would typically shuffle and then split your dataset into "K" folds. 
<br>크로스 밸리데이션에서는 일반적으로 데이터셋을 "K"개의 폴드로 셔플한 다음 분할함. 
- You should shuffle and split the list of persons, not individual images, into K folds to avoid data leakage and to maintina the integrity of the validation process.
하지만, 위에서 설명된 데이터 누수와 검증과정의 무결성을 위해, 개별이미지가 아닌 사람별 폴더 안의 이미지를 크로스 벨리데이션 해야 함. 
- 따라서, 사람 목록을 셔플하고 K개의 폴드로 분할해야 하며, 각 폴드는 고유한 사람의 데이터세트를 포함해야 함. 
    - 예시로 "김소현_SF_흡인" 폴더데이터와 "김소현_YP_비흡인" 폴더데이터는 같은 K-FOLD CV FOLD/폴드에 나타나야 함. 
    - 즉, train용 FOLD폴드에 "김소현_YP_비흡인" 폴더데이터가 있다면, validation FOLD폴드에 "김소현_SF_흡인" 폴더데이터는 들어가서는 안 됌.
<br>
- 이를 위해, scikit-learn Python 라이브러리의 ```GroupKFold```를 사용할 수 있음. 
- 계층화가 필요한 경우에는, 계층화와 그룹 분리가 모두 유지되도록 하는 사용자 지정 계층화 로직을 구현해야 함. 

In [None]:
%pip install sklearn
import sklearn
from sklearn.model_selection import GroupKFold