# 프로젝트 개요

유전자 발현 데이터를 활용한 질병 관련 유전자 탐색

본 프로젝트는 GSE65858 유전체 발현 데이터셋을 활용, **두경부암**에 걸린 세포와 건강한 세포 사이에 유젼자들의 발현량에 어떤 차이가 있는지 알아보는 것을 목표로 함.
생물 데이터의 특성을 이해하고, 통계와 코딩으로 분석하여 의미있는 결과를 찾아낼 것.
데이터는 NCBI(미국 국립생물정보센터)의 GEO라는 공공 데이터베이스에서 가져옴.


# 데이터셋 정보 확인 및 문제 정의

## 문제 정의: 파일 불러오기 실패

`pandas` 라이브러리의 `read_csv` 함수를 사용하여 파일 불러오는 과정에서 오류 직면. 일반적으로 CSV 파일은 첫 번째 행에 열 이름이 있고, 그 아래부터 데이터가 시작되므로 특별한 처리 없이 바로 불러올 수 있다고 생각함.
`df=pd.read_csv(file_path)` 코드를 실행한 결과, `ParseError` 발생.

In [4]:
import pandas as pd
import os

# 파일 경로를 지정합니다.
file_path = os.path.join("..", "data", "GSE65858_series_matrix.txt")
df= pd.read_csv(file_path)
df.info()

ParserError: Error tokenizing data. C error: Expected 3 fields in line 7, saw 8


### Raw 데이터 분석(텍스트 파일 형태로 열어 확인)
`ParseError`의 원인을 파악하기 위해 파일을 텍스트 모드로 열어 확인. 다음코드를 이용하여 상위 20줄 출력.

In [None]:
import pandas as pd
import os

file_path = os.path.join("..", "data", "GSE65858_series_matrix.txt")

with open(file_path, 'r', encoding='utf-8') as f:
    for i in range(20):
        print(f.readline(), end='')

!Series_title	"Gene expression patterns and TP53 mutations are associated with HPV RNA status, lymph node metastasis, and survival in head and neck cancer"
!Series_geo_accession	"GSE65858"
!Series_status	"Public on Jun 24 2015"
!Series_submission_date	"Feb 11 2015"
!Series_last_update_date	"Aug 13 2018"
!Series_pubmed_id	"26095926"
!Series_summary	"A growing proportion of head and neck squamous cell carcinomas (HNSCC) is associated with the human papilloma virus (HPV), particularly HPV16. We compare tumors with different HPV16 DNA and RNA (E6*I) status from 290 consecutively recruited HNSCC patients by gene expression profiling and targeted sequencing of 50 genes. We confirm that the HPV16 DNA+ RNA+ tumors are molecularly distinct from the HPV-negative (DNA-) HNSCC and have elevated expression of cell cycle genes and rare TP53 mutations (3.6%, 1/28). We show that tumors with non-transcriptionally active HPV16 (DNA+ RNA-) are similar to HPV DNA- tumors regarding gene expression and freq

### 오류 원인 분석
`ParseError`는 파일의 구조가 Pandas가 예상하는 CSV형식과 다르다는 것을 의미. 직접 파일을 열어 확인한 결과, 파일 상단에 `#`와 `!`로 시작하는 많은 부가 정보가 존재. Pandas는 이 부가 정보를 데이터의 일부로 잘못 인식하여 오류가 발생함.


`ParserError: Error tokenizing data. C error: Expected 3 fields in line 7, saw 8` : 7번째 줄에 데이터가 3개의 필드로 나뉘어야 하는데 8개의 필드가 발견

따라서 이 부가 정보를 건너뛰고, 실제 데이터가 시작되는 행부터 파일을 읽어와야 한다고 판단함.

### 해결 과정

`!`로 시작하는 메타데이터를 모두 건너뛰고, 실제 데이터가 시작되는 지점부터 파일을 읽도록 코드를 수정.

In [45]:
import pandas as pd
import os

file_path = os.path.join("..", "data", "GSE65858_series_matrix.txt")

with open(file_path, 'r', encoding='utf-8') as f:
    data_lines = 0
    for line in f:
        if not line.startswith('!'):
            print(line, end='')
            data_lines += 1

            if data_lines >=5:
                break



with open(file_path, 'r', encoding='utf-8') as f:
    data_lines = 0
    for line in f:
        # if line.startswith('!Sample_title'):
        if 'normal' in line:
            print(line, end='')
        
            




"ID_REF"	"GSM1607684"	"GSM1607685"	"GSM1607686"	"GSM1607687"	"GSM1607688"	"GSM1607689"	"GSM1607690"	"GSM1607691"	"GSM1607692"	"GSM1607693"	"GSM1607694"	"GSM1607695"	"GSM1607696"	"GSM1607697"	"GSM1607698"	"GSM1607699"	"GSM1607700"	"GSM1607701"	"GSM1607702"	"GSM1607703"	"GSM1607704"	"GSM1607705"	"GSM1607706"	"GSM1607707"	"GSM1607708"	"GSM1607709"	"GSM1607710"	"GSM1607711"	"GSM1607712"	"GSM1607713"	"GSM1607714"	"GSM1607715"	"GSM1607716"	"GSM1607717"	"GSM1607718"	"GSM1607719"	"GSM1607720"	"GSM1607721"	"GSM1607722"	"GSM1607723"	"GSM1607724"	"GSM1607725"	"GSM1607726"	"GSM1607727"	"GSM1607728"	"GSM1607729"	"GSM1607730"	"GSM1607731"	"GSM1607732"	"GSM1607733"	"GSM1607734"	"GSM1607735"	"GSM1607736"	"GSM1607737"	"GSM1607738"	"GSM1607739"	"GSM1607740"	"GSM1607741"	"GSM1607742"	"GSM1607743"	"GSM1607744"	"GSM1607745"	"GSM1607746"	"GSM1607747"	"GSM1607748"	"GSM1607749"	"GSM1607750"	"GSM1607751"	"GSM1607752"	"GSM1607753"	"GSM1607754"	"GSM1607755"	"GSM1607756"	"GSM1607757"	"GSM1607758"	"GSM1607759"	"G

In [50]:
# 필요한 라이브러리를 불러옵니다.
import os

# 데이터 파일 경로를 지정합니다.
file_path = os.path.join("..","data", "GSE65858_series_matrix.txt")

print(f"파일 경로: {file_path}\n")

try:
    with open(file_path, 'r', encoding='utf-8') as f:
        # 이 변수는 !Sample_characteristics_ch1 행에서 추출한 그룹 정보를 저장할 것입니다.
        group_info = []
        found_line = False

        # 파일의 모든 행을 순회합니다.
        for line in f:
            # '!Sample_characteristics_ch1' 행을 찾습니다.
            if "!Sample_characteristics_ch1" in line:
                print(line)
                print("`!Sample_characteristics_ch1` 행을 찾았습니다.")
                found_line = True
                
                # 탭으로 구분된 값을 리스트로 변환합니다.
                # strip() 함수를 사용해 양쪽 공백을 제거하고,
                # strip('"')을 사용해 큰따옴표를 제거합니다.
                group_info = [x.strip().strip('"') for x in line.split('\t')]
                
                # 첫 번째 항목인 '!Sample_characteristics_ch1'은 샘플 그룹이 아니므로 제거합니다.
                group_info.pop(0)

                # 추출한 샘플 그룹 정보를 출력합니다.
                print(f"파일에서 추출된 모든 샘플의 총 개수: {len(group_info)}개")
                
                # 'normal'과 'carcinoma' 샘플을 분리합니다.
                # 이 행은 'tissue: normal' 또는 'tissue: carcinoma'와 같은 형식일 수 있습니다.
                normal_samples = [group for group in group_info if 'normal' in group.lower()]
                carcinoma_samples = [group for group in group_info if 'carcinoma' in group.lower()]
                
                if normal_samples:
                    print(f"\n성공: 총 {len(normal_samples)}개의 'normal' 샘플을 찾았습니다.")
                    print(f"성공: 총 {len(carcinoma_samples)}개의 'carcinoma' 샘플을 찾았습니다.")
                    
                    print("\n정상 샘플 예시:")
                    for sample in normal_samples[:5]:
                        print(f" - {sample}")
                        
                    print("\n암 샘플 예시:")
                    for sample in carcinoma_samples[:5]:
                        print(f" - {sample}")
                else:
                    print("\n오류: 'normal' 샘플을 찾을 수 없습니다.")
                
                # 목적을 달성했으므로 반복문을 종료합니다.
                break
        
        if not found_line:
            print("오류: `!Sample_characteristics_ch1` 행을 찾지 못했습니다.")

except FileNotFoundError:
    print(f"오류: `{file_path}` 파일을 찾을 수 없습니다. 파일 경로를 다시 확인해 주세요.")


파일 경로: ..\data\GSE65858_series_matrix.txt

!Sample_characteristics_ch1	"ID: GW_001"	"ID: GW_003"	"ID: GW_004"	"ID: GW_005"	"ID: GW_006"	"ID: GW_007"	"ID: GW_008"	"ID: GW_009"	"ID: GW_010"	"ID: GW_011"	"ID: GW_012"	"ID: GW_013"	"ID: GW_014"	"ID: GW_015"	"ID: GW_016"	"ID: GW_017"	"ID: GW_018"	"ID: GW_020"	"ID: GW_021"	"ID: GW_022"	"ID: GW_023"	"ID: GW_025"	"ID: GW_026"	"ID: GW_027"	"ID: GW_028"	"ID: GW_029"	"ID: GW_030"	"ID: GW_031"	"ID: GW_032"	"ID: GW_033"	"ID: GW_034"	"ID: GW_035"	"ID: GW_036"	"ID: GW_037"	"ID: GW_038"	"ID: GW_039"	"ID: GW_040"	"ID: GW_041"	"ID: GW_042"	"ID: GW_043"	"ID: GW_044"	"ID: GW_045"	"ID: GW_046"	"ID: GW_047"	"ID: GW_049"	"ID: GW_051"	"ID: GW_052"	"ID: GW_053"	"ID: GW_054"	"ID: GW_056"	"ID: GW_057"	"ID: GW_058"	"ID: GW_059"	"ID: GW_060"	"ID: GW_061"	"ID: GW_062"	"ID: GW_063"	"ID: GW_064"	"ID: GW_065"	"ID: GW_066"	"ID: GW_067"	"ID: GW_068"	"ID: GW_069"	"ID: GW_070"	"ID: GW_071"	"ID: GW_072"	"ID: GW_073"	"ID: GW_074"	"ID: GW_075"	"ID: GW_076"	"ID: GW_077"	"ID: G

파일의 모든 메타데이터 행이 `!`로 시작하고, 이 행들만 무시하고 넘어가면 데이터 행을 바로 읽을 수 있음을 확인.

In [15]:
import pandas as pd
import os

# 파일 경로를 지정
file_path = os.path.join("..", "data", "GSE65858_series_matrix.txt")

try:
    # '!'로 시작하는 모든 주석 줄을 건너뛰고 데이터를 불러옴.
    df = pd.read_csv(file_path, sep='\t', comment='!', encoding='utf-8')
    print("파일을 성공적으로 불러왔습니다.")
    print(df.head())
    # 데이터 정보 확인
    print("\n--- 데이터프레임 정보 ---")
    df.info()

    # 데이터 통계량 요약
    print("\n--- 데이터프레임 통계 요약 ---")
    print(df.describe())

except FileNotFoundError:
    print(f"오류: '{file_path}' 경로에 파일이 존재하지 않습니다. 경로를 다시 확인해주세요.")
except Exception as e:
    print(f"알 수 없는 오류가 발생했습니다: {e}")

파일을 성공적으로 불러왔습니다.
         ID_REF  GSM1607684  GSM1607685  GSM1607686  GSM1607687  GSM1607688  \
0  ILMN_1343291     13.1886     13.4787     13.2263     13.4400     13.2678   
1  ILMN_1343295     11.5546     11.1959     11.0929     11.7418     10.4042   
2  ILMN_1651209      6.4138      6.4093      6.3680      6.3737      6.4413   
3  ILMN_1651221      6.4520      6.4427      6.4834      6.4753      6.4617   
4  ILMN_1651228     12.4126     12.3789     12.5750     12.4906     12.0646   

   GSM1607689  GSM1607690  GSM1607691  GSM1607692  ...  GSM1607944  \
0     13.4199     13.3665     13.7561     13.3718  ...     13.5946   
1     11.7005     11.1597     11.4082     11.9006  ...     10.9917   
2      6.4673      6.5391      6.3631      6.4349  ...      6.4887   
3      6.5220      6.4703      6.4411      6.5209  ...      6.4846   
4     12.4749     12.2534     12.1751     12.0844  ...     12.3579   

   GSM1607945  GSM1607946  GSM1607947  GSM1607948  GSM1607949  GSM1607950  \
0     13.

이제 이 코드를 실행하면 Pandas가 데이터를 성공적으로 불러오는 것을 확인할 수 있음.


## 데이터 전처리 및 가공

통계 분석에 바로 사용할 수 있도록 데이터를 깔끔하게 정리 가공해야함. 현재 데이터는 유전자 발현량과 샘플 정보가 뒤섞여 있어서 그대로 사용하기 어렵기 때문에 다음과 같은 작업을 진행.
1. 샘플 정보 추출: `!Sample_title`이라는 열에서 '두경부암(cancer)'과 '건강한 샘플(control)' 정보를 추출해 별도의 컬럼으로 만들고, 해당 컬럼을 **group**으로 명명.
2. 통계 분석이나 머신러닝을 할 때 사용하는 scikit-learn이나 statsmodels 같은 파이썬 라이브러리들은 **'행이 샘플, 열이 특징'**인 구조의 데이터를 기대하지만, 해당 데이터는 행이 유전자, 열이 샘플인 형태. 때문에 전치가 필요.


1단계: 원본 데이터 (Raw Data)
| ID_REF | GSM1578505 | GSM1578506 | ... |
| :--- | :--- | :--- | :--- |
| !Sample_title | head and neck cancer | normal control | ... |
| ILMN_1311 | 12.5 | 13.1 | ... |
| ILMN_1524 | 10.2 | 11.5 | ... |

대략 이런형태를 가지고 있고, ID_REF는 유전자의 고유한 시별자, 이름표 개념이다.
ILMN은 Illumina의 약자로 유전자 분석하는 칩을 만드는 유명한 회사로, 해당 회사의 칩에 있는 ㅇ전자들은 ILMN이라는 고유한 번호를 사용. GEO는 Gene Expression Omnibus의 약자로 NCBI가 운영하는 공개 유전체 데이터베이스.
