In [2]:
import warnings
warnings.filterwarnings('ignore')

import os
import pandas as pd
import numpy as np
import re

from tqdm.notebook import tqdm
tqdm.pandas()

import matplotlib.pyplot as plt
import seaborn as sns

import sys
import csv
csv.field_size_limit(sys.maxsize)

131072

## 01 데이터 수집
#### 01 - 01 청구항

In [3]:
PATH = './Data/Raw/'
claim_df = pd.read_csv(PATH + 'Claim.txt', sep='¶')
claim_df.head()

Unnamed: 0,출원번호,청구항
0,1009880005252,<SDOCL><CLAIM N=1><P>황화수소를 포함하는 제1가스 스트림을 제1연소...
1,1009890015702,"<SDOCL><CLAIM N=1><P>경사지게 형성한 활주면과, 이 활주면 위를 활..."
2,1009940008104,<SDOCL><CLAIM N=1><P>내부 전원과 외부로부터 전력을 공급받는 외부 ...
3,1011920014920,<SDOCL><CLAIM N=1><P>전원전압의 변화량을 감지하도록 한 전원전압감지...
4,1018830001360,<SDOCL><CLAIM N=1><P>방사 펄스가 단위 기록 마크를 기록 캐리어상에...


In [4]:
def clean_claim(data):
    final_data = list()
    new_data = data.split('</CLAIM>')

    for d in new_data:
        final = re.sub(r'\<[^>]*\>', '', d).strip()
        final_data.append(final)

    return final_data

In [5]:
claim_df['청구항'] = claim_df['청구항'].progress_apply(clean_claim)
claim_df.head()

  0%|          | 0/4695921 [00:00<?, ?it/s]

Unnamed: 0,출원번호,청구항
0,1009880005252,[황화수소를 포함하는 제1가스 스트림을 제1연소대역속으로 통과시켜서 그 속에서 이 ...
1,1009890015702,"[경사지게 형성한 활주면과, 이 활주면 위를 활주하는 활주체와, 상기 활주면에 배설..."
2,1009940008104,[내부 전원과 외부로부터 전력을 공급받는 외부 전원을 선택하여 주전원으로 사용할 수...
3,1011920014920,"[전원전압의 변화량을 감지하도록 한 전원전압감지입력부(33)와, 상기 전원전압감지입..."
4,1018830001360,[방사 펄스가 단위 기록 마크를 기록 캐리어상에 형성되도록 하는 에너지를 갖고 있으...


In [6]:
claim_df.to_csv('./Data/Preprocessing/Claim.csv', index= False, encoding= 'utf-8-sig')

#### 01 - 02 CPC(Cooperate Patent Classification)

In [7]:
cpc_df = pd.read_csv(PATH + 'CPC.txt', sep='¶')
cpc_df.head()

Unnamed: 0,출원번호,특허분류일련번호,cpc코드,cpc개정일자
0,1019470000003,1,C21B 15/00,(2013.01)
1,1019470000187,1,C01G 21/12,(2013.01)
2,1019470000188,1,C09C 1/00,(2013.01)
3,1019470000200,1,A23L 11/20,(2013.01)
4,1019470000200,2,A23L 5/43,(2013.01)


In [27]:
cpc_df = cpc_df[cpc_df['특허분류일련번호'] == 1]
new_cpc_df = cpc_df[['출원번호', 'cpc코드']]
new_cpc_df.head()

Unnamed: 0,출원번호,cpc코드
0,1019470000003,C21B 15/00
1,1019470000187,C01G 21/12
2,1019470000188,C09C 1/00
3,1019470000200,A23L 11/20
5,1019470000220,A62C 11/00


In [28]:
new_cpc_df.to_csv('./Data/Preprocessing/CPC.csv', index= False, encoding= 'utf-8-sig')

#### 01 - 03 IPC(International Patent Classification)

In [8]:
ipc_df = pd.read_csv(PATH + 'IPC.txt', sep='¶')
ipc_df.head()

Unnamed: 0,출원번호,특허분류일련번호,ipc코드,ipc개정일자
0,1009880005252,1,C01B 17/04,(2006.01.01)
1,1009890015702,1,A63G 29/00,(2006.01.01)
2,1009940008104,1,G05F 1/10,(2006.01.01)
3,1009940008104,2,G05F 1/02,(2006.01.01)
4,1011920014920,1,H02M 1/00,(2006.01.01)


In [24]:
ipc_df = ipc_df[ipc_df['특허분류일련번호'] == 1]
ipc_df.head()

Unnamed: 0,출원번호,특허분류일련번호,ipc코드,ipc개정일자
0,1009880005252,1,C01B 17/04,(2006.01.01)
1,1009890015702,1,A63G 29/00,(2006.01.01)
2,1009940008104,1,G05F 1/10,(2006.01.01)
4,1011920014920,1,H02M 1/00,(2006.01.01)
5,1018830001360,1,G11B 7/00,(2006.01.01)


In [25]:
new_ipc_df = ipc_df[['출원번호', 'ipc코드']]
new_ipc_df.head()

Unnamed: 0,출원번호,ipc코드
0,1009880005252,C01B 17/04
1,1009890015702,A63G 29/00
2,1009940008104,G05F 1/10
4,1011920014920,H02M 1/00
5,1018830001360,G11B 7/00


In [26]:
new_ipc_df.to_csv('./Data/Preprocessing/IPC.csv', index= False, encoding= 'utf-8-sig')

#### 01 - 04 Title

In [9]:
bibliographic_df = pd.read_csv(PATH + 'Bibliographic.txt', sep='¶')
bibliographic_df.head()

Unnamed: 0,출원번호,출원일자,공개번호,공개일자,등록번호,등록일자,공고번호,공고일자,원출원번호,원출원일자,...,발명의명칭(영문),최종처분내용,등록사항,심사청구여부,심사청구일자,청구항수,변경청구항수,출원구분,기술양도희망유무,기술지도희망유무
0,1009880005252,19880506,1019880013604,19881221,,,,19970101.0,,,...,,,,,,,0,,N,N
1,1009890015702,19891030,1019910002484,19910225,,,,19970101.0,,,...,,,,,,,0,,N,N
2,1009940008104,19940418,1019950029892,19951124,,,,19970101.0,,,...,,,,,,,0,,N,N
3,1011920014920,19920819,1019940004917,19940316,,,,,,,...,,,,,,,0,,N,N
4,1018830001360,19830401,1019840004808,19841024,,,1019890001465.0,19890504.0,,,...,,,,,,,0,,N,N


In [17]:
bibliographic_df.columns

Index(['출원번호', '출원일자', '공개번호', '공개일자', '등록번호', '등록일자', '공고번호', '공고일자', '원출원번호',
       '원출원일자', '번역문제출일자', '국제출원번호', '국제출원일자', '국제공개번호', '국제공개일', '발명의명칭(국문)',
       '발명의명칭(영문)', '최종처분내용', '등록사항', '심사청구여부', '심사청구일자', '청구항수', '변경청구항수',
       '출원구분', '기술양도희망유무', '기술지도희망유무'],
      dtype='object')

In [21]:
new_bibliographic_df = bibliographic_df[['출원번호', '출원일자', '발명의명칭(국문)', '발명의명칭(영문)']]
new_bibliographic_df.head()

Unnamed: 0,출원번호,출원일자,발명의명칭(국문),발명의명칭(영문)
0,1009880005252,19880506,가스 스트림의 처리,
1,1009890015702,19891030,회전활강장치,
2,1009940008104,19940418,주행 로보트 전력 제어 장치,
3,1011920014920,19920819,냉장고 팬모터의 속도 안정화회로 및 그 방법,
4,1018830001360,19830401,디지탈 정보신호 기록방법과 장치 및 기록 캐리어,


In [22]:
new_bibliographic_df.to_csv('./Data/Preprocessing/Bibliographic.csv', index= False, encoding= 'utf-8-sig')

#### 01 - 05 Abstract

In [10]:
abstract_df = pd.read_csv(PATH + 'Abstract.txt', sep='¶')
abstract_df.head()

Unnamed: 0,출원번호,초록
0,1018830001360,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY><ABDR><...
1,1019400001417,<SDOAB><SUMMARY><P>내용없음.</P></SUMMARY></SDOAB>
2,1019680001355,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY><ABDR><...
3,1019690000157,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY></SDOAB>
4,1019690000526,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY></SDOAB>


In [11]:
def is_empty(data):
    new_data = re.sub(r'\<[^>]*\>', '', data).strip()
        
    if len(new_data) < 10:
        return np.nan
    
    else:
        return new_data

In [12]:
abstract_df['preprocess_abstract'] = abstract_df["초록"].progress_apply(is_empty)

  0%|          | 0/4695827 [00:00<?, ?it/s]

In [13]:
abstract_df.head()

Unnamed: 0,출원번호,초록,preprocess_abstract
0,1018830001360,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY><ABDR><...,
1,1019400001417,<SDOAB><SUMMARY><P>내용없음.</P></SUMMARY></SDOAB>,
2,1019680001355,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY><ABDR><...,
3,1019690000157,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY></SDOAB>,
4,1019690000526,<SDOAB><SUMMARY><P>내용 없음.</P></SUMMARY></SDOAB>,


In [14]:
new_abstract_df = abstract_df.dropna(inplace= False)
new_abstract_df.head()

Unnamed: 0,출원번호,초록,preprocess_abstract
4952,1019780001915,<SDOAB><SUMMARY><목적>조미료 제조시에 부산물로 얻어지는 발효 폐액과 ...,조미료 제조시에 부산물로 얻어지는 발효 폐액과 인산암모니움염의 혼합 현탁액을 이용하...
5294,1019780002509,"<SDOAB><SUMMARY>[구성]본문에 설명하고 도면에 예시한 바와 같이, 기록...","[구성]본문에 설명하고 도면에 예시한 바와 같이, 기록매체로 형성한 정전 잠상을 ..."
5337,1019780002593,"<SDOAB><SUMMARY>[구성]불포화 폴리에스테르 수지(A), 진주 광택 안료...","[구성]불포화 폴리에스테르 수지(A), 진주 광택 안료(B), 경화 촉매(C), 알..."
6065,1019780003870,"<SDOAB><SUMMARY><목적>2',4'-디플루오로-4-아세톡시비페닐을 출발물...","2',4'-디플루오로-4-아세톡시비페닐을 출발물질로하여 2',4'-디플루오로-4-히..."
6794,1019790001108,<SDOAB><SUMMARY><P>&quot;내용 없음&quot;</P></SUMM...,&quot;내용 없음&quot;


In [15]:
new_abstract_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4431009 entries, 4952 to 4695826
Data columns (total 3 columns):
출원번호                   int64
초록                     object
preprocess_abstract    object
dtypes: int64(1), object(2)
memory usage: 135.2+ MB


In [16]:
new_abstract_df.to_csv('./Data/Preprocessing/Abstract.csv', index= False, encoding= 'utf-8-sig')

#### 01 - 06 데이터 합치기

In [29]:
patent_df = pd.merge(new_bibliographic_df, new_abstract_df, how='outer',on='출원번호')
patent_df = pd.merge(patent_df, claim_df, how='outer',on='출원번호')
patent_df = pd.merge(patent_df, new_ipc_df, how='outer',on='출원번호')
patent_df = pd.merge(patent_df, new_cpc_df, how='outer',on='출원번호')
patent_df.head()

Unnamed: 0,출원번호,출원일자,발명의명칭(국문),발명의명칭(영문),초록,preprocess_abstract,청구항,ipc코드,cpc코드
0,1009880005252,19880506,가스 스트림의 처리,,,,[황화수소를 포함하는 제1가스 스트림을 제1연소대역속으로 통과시켜서 그 속에서 이 ...,C01B 17/04,
1,1009890015702,19891030,회전활강장치,,,,"[경사지게 형성한 활주면과, 이 활주면 위를 활주하는 활주체와, 상기 활주면에 배설...",A63G 29/00,
2,1009940008104,19940418,주행 로보트 전력 제어 장치,,,,[내부 전원과 외부로부터 전력을 공급받는 외부 전원을 선택하여 주전원으로 사용할 수...,G05F 1/10,
3,1011920014920,19920819,냉장고 팬모터의 속도 안정화회로 및 그 방법,,,,"[전원전압의 변화량을 감지하도록 한 전원전압감지입력부(33)와, 상기 전원전압감지입...",H02M 1/00,
4,1018830001360,19830401,디지탈 정보신호 기록방법과 장치 및 기록 캐리어,,,,[방사 펄스가 단위 기록 마크를 기록 캐리어상에 형성되도록 하는 에너지를 갖고 있으...,G11B 7/00,


In [33]:
patent_df['발명의명칭(영문)'] = patent_df['발명의명칭(영문)'].apply(lambda x : str(x).strip())

In [36]:
def cleaning_en_title(data):
    if len(data) == 0:
        return np.nan

    else:
        return data

In [37]:
patent_df['발명의명칭(영문)'] = patent_df['발명의명칭(영문)'].progress_apply(cleaning_en_title)
patent_df['발명의명칭(영문)'].isna().sum()

  0%|          | 0/4862455 [00:00<?, ?it/s]

704495

In [41]:
patent_df.to_csv('./Data/Preprocessing/Final_Patent_Info.csv', index= False, encoding= 'utf-8-sig')

In [42]:
patent_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4862455 entries, 0 to 4862454
Data columns (total 9 columns):
출원번호                   int64
출원일자                   object
발명의명칭(국문)              object
발명의명칭(영문)              object
초록                     object
preprocess_abstract    object
청구항                    object
ipc코드                  object
cpc코드                  object
dtypes: int64(1), object(8)
memory usage: 371.0+ MB
