In [2]:
import pandas as pd
import json

In [27]:
df = pd.read_csv('../data/latest_251022/vdjdb/database/vdjdb.txt', sep='\t')

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 214412 entries, 0 to 214411
Data columns (total 22 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   complex.id        214412 non-null  int64 
 1   gene              214412 non-null  object
 2   cdr3              214412 non-null  object
 3   v.segm            214412 non-null  object
 4   j.segm            214412 non-null  object
 5   species           214412 non-null  object
 6   mhc.a             214412 non-null  object
 7   mhc.b             214412 non-null  object
 8   mhc.class         214412 non-null  object
 9   antigen.epitope   214412 non-null  object
 10  antigen.gene      214374 non-null  object
 11  antigen.species   214412 non-null  object
 12  reference.id      212901 non-null  object
 13  vdjdb.score       214412 non-null  int64 
 14  method            214412 non-null  object
 15  meta              214412 non-null  object
 16  cdr3fix           214412 non-null  obj

### VDJDB Column Metadata

VDJdb 데이터베이스의 컬럼 구조는 다음과 같습니다. 자세한 정보는 [VDJdb 공식 사이트](https://vdjdb.cdr3.net/)를 참고하세요.

| name | 예시 값 | type | visible | searchable | autocomplete | data.type | title | comment | comment (한글) |
|------|---------|------|---------|------------|--------------|-----------|-------|---------|---------------|
| complex.id | 0 | txt | 0 | 0 | 0 | complex.id | complex.id | TCR alpha and beta chain records having the same complex identifier belong to the same T-cell clone. | 동일한 복합체 식별자를 가진 TCR 알파 및 베타 체인 레코드는 동일한 T세포 클론에 속합니다. |
| gene | TRA | txt | 1 | 1 | 1 | factor | Gene | TCR chain: alpha or beta. | TCR 체인: 알파 또는 베타 |
| cdr3 | CAVNYGNTPLVF | seq | 1 | 1 | 0 | cdr3 | CDR3 | TCR complementarity determining region 3 (CDR3) amino acid sequence. | TCR 보체성 결정 영역 3 (CDR3) 아미노산 서열 |
| v.segm | TRAV2S1 | txt | 1 | 1 | 1 | factor | V | TCR Variable segment allele. | TCR 가변 영역 유전자 |
| j.segm | TRAJ29*01 | txt | 1 | 1 | 1 | factor | J | TCR Joining segment allele. | TCR 결합 영역 유전자 |
| species | HomoSapiens | txt | 1 | 1 | 1 | factor | Species | TCR parent species. | TCR 부모 종 |
| mhc.a | HLA-B*08:01 | txt | 1 | 1 | 1 | factor | MHC A | First MHC chain allele. | 첫 번째 MHC 체인 대립유전자 |
| mhc.b | B2M | txt | 1 | 1 | 1 | factor | MHC B | Second MHC chain allele (defaults to Beta2Microglobulin for MHC class I). | 두 번째 MHC 체인 대립유전자 (MHC 클래스 I의 경우 Beta2Microglobulin이 기본값) |
| mhc.class | MHCI | txt | 1 | 1 | 1 | factor | MHC class | MHC class (I or II). | MHC 클래스 (I 또는 II) |
| antigen.epitope | FLRGRAYGL | seq | 1 | 1 | 1 | peptide | Epitope | Amino acid sequence of the epitope. | 에피톱의 아미노산 서열 |
| antigen.gene | EBNA3A | txt | 1 | 1 | 1 | factor | Epitope gene | Representative parent gene of the epitope. | 에피톱의 대표 부모 유전자 |
| antigen.species | EBV | txt | 1 | 1 | 1 | factor | Epitope species | Representative parent species of the epitope. | 에피톱의 대표 부모 종 |
| reference.id | PMID:9862375 | txt | 1 | 1 | 1 | url | Reference | Pubmed reference / URL / or submitter details in case unpublished. | Pubmed 참조 / URL / 미발표의 경우 제출자 세부정보 |
| method | {...} | txt | 1 | 0 | 0 | method.json | Method | Details on method used to assay TCR specificity. | TCR 특이성 검정에 사용된 방법에 대한 세부사항 |
| meta | {...} | txt | 1 | 0 | 0 | meta.json | Meta | Various meta-information: cell subset, donor status, etc. | 다양한 메타 정보: 세포 하위집단, 공여자 상태 등 |
| cdr3fix | {...} | txt | 1 | 0 | 0 | fixer.json | CDR3fix | Details on CDR3 sequence fixing (if applied) and consistency between V, J and reported CDR3 sequence. | CDR3 서열 수정에 대한 세부사항 (적용된 경우) 및 V, J와 보고된 CDR3 서열 간의 일관성 |
| vdjdb.score | 3 | txt | 1 | 1 | 0 | uint | Score | VDJdb confidence score, the higher is the score the more confidence we have in the antigen specificity annotation of a given TCR clonotype/clone. Zero score indicates that there are insufficient method details to draw any conclusion. | VDJdb 신뢰도 점수, 점수가 높을수록 주어진 TCR 클론형/클론의 항원 특이성 주석에 대한 신뢰도가 높아집니다. 0점은 결론을 도출하기에 불충분한 방법 세부사항이 있음을 나타냅니다. |
| web.method | culture | txt | 0 | 0 | 1 | 0 | factor | Internal | 내부용 |
| web.method.seq | sanger | txt | 0 | 0 | 1 | 0 | factor | Internal | 내부용 |
| web.cdr3fix.nc | no | txt | 0 | 0 | 1 | 0 | factor | Internal | 내부용 |
| web.cdr3fix.unmp | yes | txt | 0 | 0 | 1 | 0 | factor | Internal | 내부용 |

**관련 링크:**
- [VDJdb 공식 사이트](https://vdjdb.cdr3.net/)
- [VDJdb GitHub Repository](https://github.com/antigenomics/vdjdb-db)
- [최신 릴리스 (2025-09-25)](https://github.com/antigenomics/vdjdb-db/releases/tag/pyvdjdb-2025-09-25)

In [15]:
df.columns

Index(['complex.id', 'gene', 'cdr3', 'v.segm', 'j.segm', 'species', 'mhc.a',
       'mhc.b', 'mhc.class', 'antigen.epitope', 'antigen.gene',
       'antigen.species', 'reference.id', 'vdjdb.score', 'method', 'meta',
       'cdr3fix', 'web.method', 'web.method.seq', 'web.cdr3fix.nc',
       'web.cdr3fix.unmp', 'vdjdb.pgen.score'],
      dtype='object')

In [13]:
print(df['vdjdb.score'].value_counts().sort_index())

vdjdb.score
0    190532
1      8727
2      4761
3     10392
Name: count, dtype: int64


In [None]:
print(df['gene'].value_counts().sort_index())

gene
TRA     95470
TRB    118942
Name: count, dtype: int64


### 데이터 정리
```python
gene == "TRB"
species == "HomoSapiens"
mhc.class == "MHCI"
```

In [36]:
trb_human_df = df[(df['gene'] == 'TRB') & \
    (df['species'] == 'HomoSapiens') & \
        (df['mhc.class'] == 'MHCI')].copy()

In [37]:
trb_human_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 110238 entries, 11 to 214411
Data columns (total 22 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   complex.id        110238 non-null  int64 
 1   gene              110238 non-null  object
 2   cdr3              110238 non-null  object
 3   v.segm            110238 non-null  object
 4   j.segm            110238 non-null  object
 5   species           110238 non-null  object
 6   mhc.a             110238 non-null  object
 7   mhc.b             110238 non-null  object
 8   mhc.class         110238 non-null  object
 9   antigen.epitope   110238 non-null  object
 10  antigen.gene      110223 non-null  object
 11  antigen.species   110238 non-null  object
 12  reference.id      109418 non-null  object
 13  vdjdb.score       110238 non-null  int64 
 14  method            110238 non-null  object
 15  meta              110238 non-null  object
 16  cdr3fix           110238 non-null  object


In [41]:
print(trb_human_df['cdr3'].value_counts().sort_values(ascending=False))

cdr3
CASSIRSSYEQYF        792
CASSLGQAYEQYF        530
CSVGTGGTNEKLFF       408
CASSSPNPGQGSNIQYF    271
CASSQDPGYNEQFF       248
                    ... 
CASSELGTWGELFF         1
CASSELGMVGELFF         1
CASSELGMPGELFF         1
CASSELGIFGELFF         1
CASSEQGGKGELFF         1
Name: count, Length: 81089, dtype: int64


In [42]:
# cdr3와 epitope의 조합 확인
cdr3_epitope_pairs = trb_human_df.groupby(['cdr3', 'antigen.epitope']).size().reset_index(name='count')

print("=== CDR3-Epitope 조합 통계 ===")
print(f"고유한 (cdr3, epitope) 조합 개수: {len(cdr3_epitope_pairs)}")
print(f"\n가장 많이 나타난 조합 Top 10:")
print(cdr3_epitope_pairs.sort_values('count', ascending=False).head(10))

# 여러 번 나타나는 조합
duplicated_pairs = cdr3_epitope_pairs[cdr3_epitope_pairs['count'] > 1]
print(f"\n여러 번 나타난 조합 (중복): {len(duplicated_pairs)}개")
print(f"중복 조합 비율: {len(duplicated_pairs)/len(cdr3_epitope_pairs)*100:.2f}%")

=== CDR3-Epitope 조합 통계 ===
고유한 (cdr3, epitope) 조합 개수: 84850

가장 많이 나타난 조합 Top 10:
                    cdr3 antigen.epitope  count
25815      CASSIRSSYEQYF       GILGFVFTL    776
31387      CASSLGQAYEQYF       FLRGRAYGL    519
84085     CSVGTGGTNEKLFF       GLCTLVAML    401
62538  CASSSPNPGQGSNIQYF      VISNDVCAQV    271
52434     CASSQDPGYNEQFF      VISNDVCAQV    248
28534     CASSLAVGEGPQHF        RAKFKQLL    243
25699      CASSIRSAYEQYF       GILGFVFTL    212
18089     CASSGDGMNTEAFF       CLGGLLTMV    212
52328   CASSQDLVKANYGYTF      VISNDVCAQV    185
69562     CASSWDRGKETQYF      VISNDVCAQV    184

여러 번 나타난 조합 (중복): 8175개
중복 조합 비율: 9.63%


In [38]:
print(trb_human_df['vdjdb.score'].value_counts().sort_index())

vdjdb.score
0    97906
1     4008
2     2267
3     6057
Name: count, dtype: int64


In [35]:
# TRB인 데이터 중 epitope 길이 확인

# TRB 데이터만 필터링
tmp_df = trb_human_df.copy()

# epitope 길이 계산
tmp_df['epitope_length'] = tmp_df['antigen.epitope'].str.len()

# 기본 통계
print("=== TRB Epitope 길이 통계 ===")
print(tmp_df['epitope_length'].describe())

# 상세 통계
print(f"\n최소: {tmp_df['epitope_length'].min()}")
print(f"최대: {tmp_df['epitope_length'].max()}")
print(f"평균: {tmp_df['epitope_length'].mean():.2f}")
print(f"중앙값: {tmp_df['epitope_length'].median()}")

# 길이별 분포
print("\n=== Epitope 길이별 개수 ===")
print(tmp_df['epitope_length'].value_counts().sort_index())

=== TRB Epitope 길이 통계 ===
count    110238.000000
mean          9.093833
std           0.439562
min           7.000000
25%           9.000000
50%           9.000000
75%           9.000000
max          20.000000
Name: epitope_length, dtype: float64

최소: 7
최대: 20
평균: 9.09
중앙값: 9.0

=== Epitope 길이별 개수 ===
epitope_length
7         3
8      4343
9     92426
10    12482
11      808
12      135
13       33
15        6
20        2
Name: count, dtype: int64


In [43]:
# score가 높은 순으로 정렬하고 중복 제거
# CDR3와 epitope이 같은 경우 score가 높은 것을 우선으로 유지

trb_human_df_no_dup = trb_human_df.sort_values('vdjdb.score', ascending=False).drop_duplicates(subset=['cdr3', 'antigen.epitope'], keep='first')

print("=== 중복 제거 결과 ===")
print(f"원본 데이터 크기: {len(trb_human_df)}")
print(f"중복 제거 후 크기: {len(trb_human_df_no_dup)}")
print(f"제거된 데이터: {len(trb_human_df) - len(trb_human_df_no_dup)}개")
print(f"유지율: {len(trb_human_df_no_dup)/len(trb_human_df)*100:.2f}%")

=== 중복 제거 결과 ===
원본 데이터 크기: 110238
중복 제거 후 크기: 84850
제거된 데이터: 25388개
유지율: 76.97%


In [44]:
# 제거 전후 비교
print("\n=== 제거 전후 비교 ===")
print(f"\n제거 전 (cdr3, epitope) 조합 개수: {len(cdr3_epitope_pairs)}")
print(f"제거 후 데이터 개수: {len(trb_human_df_no_dup)}")

# score 분포 비교
print(f"\n=== Score 분포 비교 ===")
print(f"\n제거 전 score 분포:")
print(trb_human_df['vdjdb.score'].value_counts().sort_index())

print(f"\n제거 후 score 분포:")
print(trb_human_df_no_dup['vdjdb.score'].value_counts().sort_index())


=== 제거 전후 비교 ===

제거 전 (cdr3, epitope) 조합 개수: 84850
제거 후 데이터 개수: 84850

=== Score 분포 비교 ===

제거 전 score 분포:
vdjdb.score
0    97906
1     4008
2     2267
3     6057
Name: count, dtype: int64

제거 후 score 분포:
vdjdb.score
0    79136
1     2525
2     1263
3     1926
Name: count, dtype: int64


In [45]:
# cdr3와 epitope의 조합 확인
tmp_df = trb_human_df_no_dup.groupby(['cdr3', 'antigen.epitope']).size().reset_index(name='count')

print("=== CDR3-Epitope 조합 통계 ===")
print(f"고유한 (cdr3, epitope) 조합 개수: {len(tmp_df)}")
print(f"\n가장 많이 나타난 조합 Top 10:")
print(tmp_df.sort_values('count', ascending=False).head(10))

# 여러 번 나타나는 조합
duplicated_pairs = tmp_df[tmp_df['count'] > 1]
print(f"\n여러 번 나타난 조합 (중복): {len(duplicated_pairs)}개")
print(f"중복 조합 비율: {len(duplicated_pairs)/len(tmp_df)*100:.2f}%")

=== CDR3-Epitope 조합 통계 ===
고유한 (cdr3, epitope) 조합 개수: 84850

가장 많이 나타난 조합 Top 10:
              cdr3 antigen.epitope  count
0  CAAADEEIGNQPQHF       ATDALMTGY      1
1    CAAAERNTGELFF       YLQPRTFLL      1
2   CAAAGTASTDTQYF        RAKFKQLL      1
3      CAAAQGYEQYF       NLVPMVATV      1
4     CAAATGLYGYTF       GILGFVFTL      1
5  CAACPGTENTGELFF      KLVALGINAV      1
6   CAAEDPEWGAEAFF       KLGGALQAK      1
7    CAAEPSGGTEAFF       KLKDCVMYA      1
8    CAAGAGLSYEQYF       NLVPMVATV      1
9    CAAGDANTGELFF       YLQPRTFLL      1

여러 번 나타난 조합 (중복): 0개
중복 조합 비율: 0.00%


In [49]:
# 논문에 사용된 데이터 확인

data_path = "../data/from_tcr_epidiff/VDJdb/VDJdb.tsv"
sample_df = pd.read_csv(data_path, sep='\t')
sample_df.info()
sample_df.head(1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86459 entries, 0 to 86458
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   complex.id       86459 non-null  int64 
 1   Gene             86459 non-null  object
 2   CDR3             86459 non-null  object
 3   V                86454 non-null  object
 4   J                85694 non-null  object
 5   Species          86459 non-null  object
 6   MHC A            86459 non-null  object
 7   MHC B            86459 non-null  object
 8   MHC class        86459 non-null  object
 9   Epitope          86459 non-null  object
 10  Epitope gene     86423 non-null  object
 11  Epitope species  86459 non-null  object
 12  Reference        84990 non-null  object
 13  Method           86459 non-null  object
 14  Meta             86459 non-null  object
 15  CDR3fix          86459 non-null  object
 16  Score            86459 non-null  int64 
dtypes: int64(2), object(15)
memory 

Unnamed: 0,complex.id,Gene,CDR3,V,J,Species,MHC A,MHC B,MHC class,Epitope,Epitope gene,Epitope species,Reference,Method,Meta,CDR3fix,Score
0,1,TRB,CASSARSGELFF,TRBV9*01,TRBJ2-2*01,HomoSapiens,HLA-B*35:01,B2M,MHCI,HPVGEADYFEY,EBNA1,EBV,PMID:17082594,"{""frequency"": """", ""identification"": ""antigen-l...","{""cell.subset"": """", ""clone.id"": ""TK3"", ""donor....","{""cdr3"": ""CASSARSGELFF"", ""cdr3_old"": ""CASSARSG...",1


In [50]:
sample_df['Score'].value_counts()

Score
0    75443
1     6388
2     2441
3     2187
Name: count, dtype: int64

In [51]:
trb_human_df_no_dup['vdjdb.score'].value_counts()

vdjdb.score
0    79136
1     2525
3     1926
2     1263
Name: count, dtype: int64