# [마블 분석을 위한 데이터 수집]

*   기간: 2023-05-12 ~ 2023-05-15 (총 4일)
*   리더: 장예지
*   정의: 마블 코믹스 분석을 위한 데이터 수집
*   활용 목적: 
     1) 마블 캐릭터 중 가장 시리즈에 많이 출연한 캐릭터 top10   
     2) 맨 처음 제작된 시리즈    
     3) 마블 시리즈 중 가장 많은 만화를 출판한 시리즈            
*   범위: 마블 전체 캐릭터, 만화, 제작자, 시리즈

## [할 일 목록]

* ~~데이터 선정~~
* ~~MARVEL OPEN API 사용 승인요청~~ 
* ~~마블 캐릭터 데이터 수집~~
* ~~마블 만화 데이터 수집~~
* ~~마블 제작자 데이터 수집~~
* ~~마블 시리즈 데이터 수집~~
* ~~수집된 데이터를 가지고 데이터프레임 만들기~~
* ~~json으로 저장~~
* ~~DB 생성~~
* ~~table 생성~~
* ~~data 이관~~

### [1일차]

#### **1. 데이터 선정 - 마블 코믹스**
#### **2. 마블 코믹스 OPEN API 사용 승인요청**

### [2일차]

#### **1. 마블 관련 데이터 수집 (캐릭터, 만화, 제작자, 시리즈)**
#### **2. 수집된 데이터 DataFrame -> json으로 저장**

### [3일차]

#### **1. pymysql 모듈 import**
#### **2. DB 생성**
#### **3. 생성된 DB에 table 만들기**
#### **4. 생성된 table에 데이터 insert**

### [4일차]

#### **1. LIMIT 100 -> total 데이터 새로 수집**
#### **2. 수집된 데이터 DB 이관**
#### **3. 최종 데이터 확인 및 데이터 관련 문서작성**

## [이슈 항목]

1. DB에 테이블 생성시 외래키를 설정하는 과정에서 발생한 오류

~~~
marvel_comics_sql = '''
            CREATE TABLE marvel_comics (
                idx int auto_increment NOT NULL PRIMARY KEY,
                comics_id int NOT NULL PRIMARY KEY,
                title varchar(255) NOT NULL,
                description TEXT,
                series_id int,
                foreign key (series_id) references marvel_series(series_id)
            )
            '''
~~~
를 사용 하지 못했습니다. 그 오류는 

~~~
OperationalError: (1822, "Failed to add the foreign key constraint. Missing index for constraint 'marvel_comics_ibfk_1' in the referenced table 'marvel_series'")
~~~

해당 오류는 marvel_series 테이블의 series_id 가 유니크한 키가 아니기 때문인데

해당 컬럼을 기본키로 설정하지 못한 이유는 
수집한 데이터의 series_id가 중복된 값이 존재하기 때문입니다.

오류내용은 다음과 같습니다.

~~~
=> IntegrityError: (1062, "Duplicate entry '7601' for key 'marvel_series.PRIMARY'")
~~~

때문에 아래와 같이 외래키 설정을 제외하여, 테이블 생성을 하였고, 
DB에 생성한 원본 테이블을 SELECT DISTINCT 문을 사용해 중복값이 제거된 새로운 테이블을 생성하였습니다.


~~~
marvel_comics_sql = '''
            CREATE TABLE marvel_comics (
                idx int auto_increment NOT NULL PRIMARY KEY,
                comics_id int NOT NULL PRIMARY KEY,
                title varchar(255) NOT NULL,
                description TEXT,
                series_id int
            )
            '''
~~~