# DART mapping 된 소부장 기업
- `dart_corp_code` 가 null 인 기업명은 날리기
- 기업명(`title`)로 특허 매핑 시키기

In [None]:
import pandas as pd
#=====================

company_df = pd.read_csv('./data/소부장_기업_DART매핑_기업명정제.csv', encoding='cp949')
company_df.head()

In [None]:
remove_nan = company_df[company_df['dart_corp_code'].notna()]
remove_nan.shape[0] # DART에 나와있는 기업은 총 478 개임

In [None]:
remove_nan["title"].nunique()   # 469 개

In [None]:
# title 기준 중복된 기업명만 추출
duplicate_titles = remove_nan[
    remove_nan["title"].duplicated(keep=False)
].sort_values("title")

duplicate_titles[["title", "dart_corp_code"]]

# 특허·실용 공개·등록공보
- applicantName과 company_name 일치하게
- 앞뒤 공백 제거, 모든 공백 제거, 대소문자 통일

In [None]:
import os
import requests
import xmltodict
import pandas as pd
from dotenv import load_dotenv
import re

#====================================
# 1. 기본 설정
#====================================
load_dotenv()

API_KEY = os.getenv("KIPRIS_API_KEY")

BASE_URL = (
    "http://plus.kipris.or.kr/kipo-api/"
    "kipi/patUtiModInfoSearchSevice/getAdvancedSearch"
)

#====================================
# 2. 기업명 정규화 함수 (공백, (주) 제거용)
#====================================
def normalize_name_for_match(name):
    if pd.isna(name):
        return ""
    name = name.lower()
    name = name.strip()
    name = re.sub(r"\s+", "", name)              # 모든 공백 제거
    name = re.sub(r"\(주\)|㈜|주식회사", "", name)
    return name

#====================================
# 3. 기업의 한 곳 특허 정보 가져오는 함수
#====================================
def fetch_patent_by_company(company_name, page_no=1, num_rows=50):
    params = {
        "ServiceKey": API_KEY,          
        "applicant": company_name,      # 검색 기준 기업명
        "patent": "true",
        "utility": "true",
        "numOfRows": num_rows,
        "pageNo": page_no
    }

    response = requests.get(BASE_URL, params=params)
    response.raise_for_status()

    data = xmltodict.parse(response.text)

    try:
        items = data["response"]["body"]["items"]["item"]
    except (KeyError, TypeError):
        return []

    if isinstance(items, dict):
        items = [items]

    return items

#====================================
# 4. 기업명 전체 순회
#====================================
all_results = []

for company in remove_nan["title"].unique():
    print(f"수집 중: {company}")

    patents = fetch_patent_by_company(company)

    for p in patents:
        p["company_name"] = company
        all_results.append(p)

#====================================
# 5. DataFrame 생성
#====================================
patent_df = pd.DataFrame(all_results)

#====================================
# 6. company_name / applicantName 정규화 컬럼 추가
#====================================
patent_df["company_norm"] = patent_df["company_name"].apply(normalize_name_for_match)
patent_df["applicant_norm"] = patent_df["applicantName"].apply(normalize_name_for_match)

#====================================
# 7. 동일 기업 특허만 필터링
#====================================
matched_df = patent_df[
    patent_df["company_norm"] == patent_df["applicant_norm"]
].copy()

#====================================
# 8. 결과 확인
#====================================
print("전체 수집 특허 수:", len(patent_df))
print("동일 기업 특허 수:", len(matched_df))

matched_df[["company_name", "applicantName"]].head()


In [None]:
matched_df.shape[0]

In [None]:
#====================================
# 6. CSV 로 저장 
#====================================
matched_df.to_csv("./preprocessed_data/company_patent_raw_3.csv", index=False, encoding="utf-8-sig")


In [None]:
#====================================
# 7. Excel 로 저장 
#====================================
matched_df.to_excel(
    "./preprocessed_data/company_patent_raw_3.xlsx",
    index=False
)


## dart nan 인 값 적용

In [None]:
import os
import requests
import xmltodict
import pandas as pd
from dotenv import load_dotenv
import re

# =========================================================
# 1. 기본 설정
# =========================================================
load_dotenv()

API_KEY = os.getenv("KIPRIS_API_KEY")
if not API_KEY:
    raise RuntimeError("KIPRIS_API_KEY가 설정되어 있지 않습니다.")

BASE_URL = (
    "http://plus.kipris.or.kr/kipo-api/"
    "kipi/patUtiModInfoSearchSevice/getAdvancedSearch"
)

# =========================================================
# 2. DART 등록 기업만 필터링 (company_df 적용)
# =========================================================
company_df = pd.read_csv('./data/소부장_기업_DART매핑_기업명정제.csv', encoding='cp949')
remove_nan = company_df[company_df["dart_corp_code"].notna()].copy()    # dart_corp_code 가 있는 것들만 살려둠

print("DART 등록 기업 수:", remove_nan.shape[0])  # 478

# =========================================================
# 3. 기업명 정규화 함수
#    - 공백 제거
#    - (주), 주식회사, ㈜ 제거
#    - 대소문자 통일
# =========================================================
def normalize_name_for_match(name):
    if pd.isna(name):
        return ""
    name = name.lower()
    name = name.strip()
    name = re.sub(r"\s+", "", name)
    name = re.sub(r"\(주\)|㈜|주식회사", "", name)
    return name

# =========================================================
# 4. 기업 1곳 특허 정보 수집 함수 (KIPRIS)
# =========================================================
def fetch_patent_by_company(company_name, page_no=1, num_rows=50):
    params = {
        "ServiceKey": API_KEY,     
        "applicant": company_name,
        "patent": "true",
        "utility": "true",
        "numOfRows": num_rows,
        "pageNo": page_no
    }

    response = requests.get(BASE_URL, params=params, timeout=10)
    response.raise_for_status()

    data = xmltodict.parse(response.text)

    try:
        items = data["response"]["body"]["items"]["item"]
    except (KeyError, TypeError):
        return []

    if isinstance(items, dict):
        items = [items]

    return items

# =========================================================
# 5. 기업 리스트 순회 (DART 등록 기업만)
# =========================================================
all_results = []

for company in remove_nan["title"].unique():
    print(f"수집 중: {company}")

    patents = fetch_patent_by_company(company)

    for p in patents:
        p["company_name"] = company  # 검색 기준 기업명
        all_results.append(p)

# =========================================================
# 6. DataFrame 생성
# =========================================================
patent_df = pd.DataFrame(all_results)

print("특허 수집 대상 기업 수:", patent_df["company_name"].nunique())
print("전체 수집 특허 수:", len(patent_df))

# =========================================================
# 7. company_name / applicantName 정규화 컬럼 추가
# =========================================================
patent_df["company_norm"] = patent_df["company_name"].apply(normalize_name_for_match)
patent_df["applicant_norm"] = patent_df["applicantName"].apply(normalize_name_for_match)

# =========================================================
# 8. 동일 기업 특허만 필터링
#    (공백·회사형태 차이만 허용)
# =========================================================
matched_df = patent_df[
    patent_df["company_norm"] == patent_df["applicant_norm"]
].copy()

# =========================================================
# 9. 결과 확인
# =========================================================
print("동일 기업 특허 수:", len(matched_df))

matched_df[["company_name", "applicantName"]].head()


In [None]:
matched_df["applicantName"].nunique()

In [None]:
#====================================
# 6. CSV 로 저장 
#====================================
matched_df.to_csv("./preprocessed_data/company_patent_raw_4.csv", index=False, encoding="utf-8-sig")


In [None]:
#====================================
# 7. Excel 로 저장 
#====================================
matched_df.to_excel("./preprocessed_data/company_patent_raw_4.xlsx",index=False)


In [None]:
len(matched_df['company_name'].unique())