In [1]:
!pip install pandas sqlalchemy pymysql requests tqdm



In [2]:
from sqlalchemy import create_engine

engine = create_engine("mysql+pymysql://root:1234@localhost:3306/pillbot")
engine

Engine(mysql+pymysql://root:***@localhost:3306/pillbot)

In [8]:
from sqlalchemy import text

create_table_sql = """
CREATE TABLE IF NOT EXISTS drug (
    id INT AUTO_INCREMENT PRIMARY KEY,
    code VARCHAR(100) UNIQUE,
    name TEXT,
    manufacturer TEXT,
    efficacy TEXT,
    use_method TEXT,
    warning TEXT,
    precaution TEXT,
    interaction TEXT,
    side_effect TEXT,
    storage TEXT,
    openDe DATETIME,
    updateDe DATETIME,
    bizrno VARCHAR(50),
    image_url VARCHAR(500),
    updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
    composition TEXT NULL,
    additives TEXT NULL,
    appearance TEXT NULL,
    shape TEXT NULL
) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
"""

with engine.begin() as conn:
    conn.execute(text(create_table_sql))

In [9]:
import requests
import pandas as pd
from tqdm import tqdm

url = "http://apis.data.go.kr/1471000/DrbEasyDrugInfoService/getDrbEasyDrugList"
service_key = "8dbe08cc89b97b4d5d7e4124c3d7b61e3f018b6116c0f0fdaab76876175a26f9"

total_pages = 60
all_data = []

for page in tqdm(range(1, total_pages + 1)):
    params = {
        "serviceKey": service_key,
        "pageNo": page,
        "numOfRows": 100,
        "type": "json"
    }
    try:
        response = requests.get(url, params=params, timeout=10)
        response.raise_for_status()
        data = response.json()

        body = data.get("body", {})
        items = body.get("items", [])

        if not items:
            print(f"{page}페이지: 데이터x, 중단")
            break

        all_data.extend(items)

    except Exception as e:
        print(f"{page}페이지 오류:", e)
        continue

print(f"\nAPI데이터 개수: {len(all_data)}")

if not all_data:
    print("API 데이터x, 다음 셀에서 df_api를 빈 DataFrame으로 처리")
    df_api = pd.DataFrame()
else:
    df_api = pd.DataFrame(all_data)

    # 컬럼 이름 매핑
    df_api.rename(columns={
        "itemSeq": "code",
        "itemName": "name",
        "entpName": "manufacturer",
        "efcyQesitm": "efficacy",
        "useMethodQesitm": "use_method",
        "atpnWarnQesitm": "warning",
        "atpnQesitm": "precaution",
        "intrcQesitm": "interaction",
        "seQesitm": "side_effect",
        "depositMethodQesitm": "storage",
        "itemImage": "image_url"
    }, inplace=True)

    df_api = df_api.drop_duplicates(subset=["code"])
    df_api["code"] = df_api["code"].astype(str)
    df_api.reset_index(drop=True, inplace=True)

    print("API 데이터 정리 완료")
    display(df_api.head())
    print("API 행 수:", len(df_api))

 80%|█████████████████████████████████████████████████████████████████▌                | 48/60 [00:44<00:11,  1.09it/s]

49페이지: 데이터x, 중단

API데이터 개수: 4779
API 데이터 정리 완료





Unnamed: 0,manufacturer,name,code,efficacy,use_method,warning,precaution,interaction,side_effect,storage,openDe,updateDe,image_url,bizrno
0,동화약품(주),활명수,195700020,"이 약은 식욕감퇴(식욕부진), 위부팽만감, 소화불량, 과식, 체함, 구역, 구토에 ...","만 15세 이상 및 성인은 1회 1병(75 mL), 만 11세이상~만 15세미만은 ...",,만 3개월 미만의 젖먹이는 이 약을 복용하지 마십시오.\n\n이 약을 복용하기 전에...,,,습기와 빛을 피해 실온에서 보관하십시오.\n\n어린이의 손이 닿지 않는 곳에 보관하...,2021-01-29 00:00:00,2024-05-09,,1108100102
1,신신제약(주),신신티눈고(살리실산반창고)(수출명:SINSINCORNPLASTER),195900034,"이 약은 티눈, 못(굳은살), 사마귀에 사용합니다. \n",이형지로부터 벗겨 이 약제면을 환부(질환 부위)에 대고 테이프로 고정하고 2~5일마...,,"이 약에 과민증 환자, 당뇨병, 혈액순환장애 환자는 이 약을 사용하지 마십시오.\n...","메토트렉세이트, 설포닐우레아, 다른 국소 적용 약물과 함께 사용 시 의사 또는 약사...","발진, 발적(충혈되어 붉어짐), 홍반(붉은 반점), 가려움, 정상 피부에 닿았을 경...",습기와 빛을 피해 보관하십시오.\n\n어린이의 손이 닿지 않는 곳에 보관하십시오.\n,2021-01-29 00:00:00,2021-11-25,,1188104136
2,삼진제약(주),아네모정,195900043,"이 약은 위산과다, 속쓰림, 위부불쾌감, 위부팽만감, 체함, 구역, 구토, 위통, ...","성인 1회 2정, 1일 3회 식간(식사와 식사때 사이) 및 취침시에 복용합니다.",,"투석요법을 받고 있는 환자, 수유부, 만 7세 이하의 어린이, 갈락토오스 불내성, ...","위장진통ㆍ진경제, 테트라사이클린계 항생제와 함께 복용하지 마십시오.","발진, 충혈되어 붉어짐, 가려움, 드물게 입이 마르는 증상, 변비 또는 설사 등이 ...",습기와 빛을 피해 보관하십시오.어린이의 손이 닿지 않는 곳에 보관하십시오.,2021-01-29 00:00:00,2021-01-29,https://nedrug.mfds.go.kr/pbp/cmn/itemImageDow...,1248531621
3,동아제약(주),타치온정50밀리그램(글루타티온(환원형)),197100015,"이 약은 약물중독, 자가중독에 사용합니다.\n","성인은 1회 1~2정(50~100 mg), 1일 1~3회 복용합니다.\n\n연령, ...",,,,"드물게 발진, 식욕부진, 구역, 구토, 위통 등이 나타나는 경우 복용을 즉각 중지하...",실온에서 보관하십시오.\n\n어린이의 손이 닿지 않는 곳에 보관하십시오.\n,2021-10-01 00:00:00,2024-01-11,https://nedrug.mfds.go.kr/pbp/cmn/itemImageDow...,2048640118
4,(주)보령,겔포스현탁액(인산알루미늄겔),197400207,"이 약은 위·십이지장 궤양, 위염, 위산과다(속쓰림, 위통, 구역, 구토)의 제산작...","성인은 1회 1포씩, 1일 3~4회 식간(식사 때와 식사 때 사이) 및 취침 시 복...",,"이 약을 복용하기 전에 신장장애, 변비 환자는 의사 또는 약사와 상의하십시오.\n",테트라사이클린계 항생물질과 함께 사용하지 마십시오.\n,변비 등이 나타날 수 있습니다.\n,빛을 피해 실온에서 보관하십시오.\n,2021-02-25 00:00:00,2024-11-29,,2088100281


API 행 수: 4779


In [44]:
import pandas as pd

excel_path = r"C:\Users\ming0\OneDrive\바탕 화면\캡스톤\med.xlsx"

df_excel_raw = pd.read_excel(excel_path)
print("원본 엑셀 컬럼:", df_excel_raw.columns.tolist())

df_excel = df_excel_raw.copy()

# 번호 컬럼 삭제
df_excel = df_excel.drop(columns=["번호"], errors="ignore")

rename_map = {
    "이름": "name",
    "제조/수입사": "manufacturer",
    "효능": "efficacy",
    "복용 전 주의사항": "warning",
    "일반주의사항": "precaution",
    "상호작용": "interaction",
    "부작용": "side_effect",
    "보관방법": "storage",
    "성분/함량": "composition",
    "첨가물": "additives",
    "성상": "appearance",
    "모양": "shape",
}

df_excel.rename(columns=rename_map, inplace=True)

if "성분/함량, 첨가물" in df_excel_raw.columns:
    df_excel["composition"] = df_excel_raw["성분/함량, 첨가물"]
    df_excel["additives"] = df_excel_raw["성분/함량, 첨가물"]

if "일반 주의사항" in df_excel.columns and "precaution" not in df_excel.columns:
    df_excel["precaution"] = df_excel["일반 주의사항"]

df_excel.reset_index(drop=True, inplace=True)
df_excel["code"] = "local_" + df_excel.index.astype(str)

print("\n엑셀 데이터 정리 후 컬럼:", df_excel.columns.tolist())
print("엑셀 행 수:", len(df_excel))
display(df_excel.head())

원본 엑셀 컬럼: ['번호', '이름', '제조/수입사', '성분/함량, 첨가물', '성상', '모양', '효능', '복용 전 주의사항', '일반 주의사항', '상호작용', '부작용', '보관방법']

엑셀 행 수: 150


Unnamed: 0,name,manufacturer,"성분/함량, 첨가물",appearance,shape,efficacy,warning,일반 주의사항,interaction,side_effect,storage,composition,additives,precaution,code
0,타이레놀정 500밀리그램,한국얀센(유),"아세트아미노펜 500mg, 전분글리콜산나트륨, 옥수수전분",흰색 또는 거의 흰색,타원형 정제,"감기발열 및 통증, 두통, 신경통, 월경통, 염좌통 등 진통/해열","중증 간장애 환자, 알코올 중독자 복용 금지. 매일 술 마시는 사람 상의.",정해진 용량 초과 금지. 다른 아세트아미노펜 제제와 병용 금지.,"바르비탈계 약물, 삼환계 항우울제, 알코올 등.","쇽, 아나필락시스, 천식, 발진, 간독성 (과량 복용 시).",,"아세트아미노펜 500mg, 전분글리콜산나트륨, 옥수수전분","아세트아미노펜 500mg, 전분글리콜산나트륨, 옥수수전분",정해진 용량 초과 금지. 다른 아세트아미노펜 제제와 병용 금지.,local_0
1,게보린정,(주)삼진제약,"아세트아미노펜 300mg, 이소프로필안티피린 150mg, 카페인무수물 50mg, 미...",흰색,원형 정제,"두통, 치통, 생리통, 근육통, 관절통 등 진통 및 해열","이 약 또는 성분에 과민증 병력자, 다른 해열진통제 복용 시 주의. 14세 미만 복...",장기 복용 피할 것. 졸음이 올 수 있으므로 운전 등 기계 조작 주의.,"다른 NSAIDs, 스테로이드제, 항응고제, 알코올 등.","쇽, 피부점막안증후군, 재생불량빈혈, 오심, 구토 등.",,"아세트아미노펜 300mg, 이소프로필안티피린 150mg, 카페인무수물 50mg, 미...","아세트아미노펜 300mg, 이소프로필안티피린 150mg, 카페인무수물 50mg, 미...",장기 복용 피할 것. 졸음이 올 수 있으므로 운전 등 기계 조작 주의.,local_1
2,이지엔6 이브 연질캡슐,(주)대웅제약,"이부프로펜 200mg, 파마브롬 25mg",담청색의 투명한 내용물,타원형 연질캡슐,"월경통(생리통), 두통, 치통, 신경통, 근육통 등 진통 및 해열","위장관 궤양 환자, 심한 혈액이상/신장애 환자 복용 금지. 임신 후기 2개월 임부 ...",최소 유효 용량으로 최단 기간 복용. 위장관 출혈/궤양/천공 위험.,"아스피린, 다른 NSAIDs, 항응고제, 리튬, ACE 저해제 등.","소화불량, 속쓰림, 구역, 위장출혈, 발진, 졸음, 현기증 등.",,"이부프로펜 200mg, 파마브롬 25mg","이부프로펜 200mg, 파마브롬 25mg",최소 유효 용량으로 최단 기간 복용. 위장관 출혈/궤양/천공 위험.,local_2
3,훼스탈플러스정,한독,"리파아제 78.75mg, 브로멜라인 10mg, 유당수화물, 카르나우바납, 산화티탄",미황색,이중정,"소화불량, 식욕감퇴, 과식, 체함, 소화촉진, 위부팽만감",만 6세 이하 어린이 복용 금지. 임부 또는 임신 가능성 여성은 상의.,1주 정도 복용하여도 증상 개선이 없을 경우 전문가와 상의.,(특이사항 없음),"알레르기 증상(드물게), 설사, 변비 등.",,"리파아제 78.75mg, 브로멜라인 10mg, 유당수화물, 카르나우바납, 산화티탄","리파아제 78.75mg, 브로멜라인 10mg, 유당수화물, 카르나우바납, 산화티탄",1주 정도 복용하여도 증상 개선이 없을 경우 전문가와 상의.,local_3
4,베아제정,대웅제약,"판크레아틴 300mg, 비오디아스타제 2000III50mg, 탄산칼슘, 크로스카르멜...",흰색,원형 필름코팅정,"소화불량, 식욕감퇴, 과식, 체함, 소화촉진, 위부팽만감",만 6세 이하 소아 복용 금지. 다른 약물 복용 중인 경우 의사/약사와 상의.,1주 정도 복용하여도 증상 개선이 없을 경우 복용 중지 후 전문가와 상의.,(특이사항 없음),"알레르기 증상(드물게), 설사, 변비 등.",,"판크레아틴 300mg, 비오디아스타제 2000III50mg, 탄산칼슘, 크로스카르멜...","판크레아틴 300mg, 비오디아스타제 2000III50mg, 탄산칼슘, 크로스카르멜...",1주 정도 복용하여도 증상 개선이 없을 경우 복용 중지 후 전문가와 상의.,local_4


In [46]:
db_cols = [
    "code",
    "name",
    "manufacturer",
    "efficacy",
    "use_method",
    "warning",
    "precaution",
    "interaction",
    "side_effect",
    "storage",
    "openDe",
    "updateDe",
    "bizrno",
    "image_url",
    "composition",
    "additives",
    "appearance",
    "shape",
]

# 1) API 쪽 df
if df_api is None or df_api.empty:
    df_api_db = pd.DataFrame(columns=db_cols)
else:
    df_api_db = df_api.copy()
    for col in db_cols:
        if col not in df_api_db.columns:
            df_api_db[col] = None
    df_api_db = df_api_db[db_cols]

# 2) 엑셀 쪽 df 
df_excel_db = df_excel.copy()
for col in db_cols:
    if col not in df_excel_db.columns:
        df_excel_db[col] = None
df_excel_db = df_excel_db[db_cols]

print("API 정리 후 행 수:", len(df_api_db))
print("엑셀 정리 후 행 수:", len(df_excel_db))

# 3) 합치기
df_total = pd.concat([df_api_db, df_excel_db], ignore_index=True)
df_total = df_total.drop_duplicates(subset=["code"])
df_total.reset_index(drop=True, inplace=True)

print("\n합친 df_total 행 수:", len(df_total))

# 4) 이미 DB에 있는 code는 제거 (중복 INSERT 방지)
try:
    existing = pd.read_sql("SELECT code FROM drug", con=engine)
    existing_codes = set(existing["code"].astype(str))
    print("DB에 이미 있는 code 개수:", len(existing_codes))
except Exception:
    existing_codes = set()
    print("drug 테이블이 비어있거나 아직 없음 -> 전체를 신규로 넣음")

df_total["code"] = df_total["code"].astype(str)
df_save = df_total[~df_total["code"].isin(existing_codes)]

print("실제로 INSERT 할 행 수:", len(df_save))

# 5) DB에 저장
if len(df_save) > 0:
    df_save.to_sql("drug", con=engine, if_exists="append", index=False)
    print("drug 테이블에 데이터 저장")
else:
    print("새로 저장할 데이터 없음")

API 정리 후 행 수: 4792
엑셀 정리 후 행 수: 150

합친 df_total 행 수: 4942
DB에 이미 있는 code 개수: 4942
실제로 INSERT 할 행 수: 0
새로 저장할 데이터 없음


In [52]:
import requests
from bs4 import BeautifulSoup

DETAIL_URL = "https://nedrug.mfds.go.kr/pbp/CCBBB01/getItemDetail?itemSeq={code}"

def fetch_detail_info(code: str):
    url = DETAIL_URL.format(code=code)
    result = {
        "code": code,
        "composition": None,
        "additives": None,
        "appearance": None,
        "shape": None,
    }

    try:
        resp = requests.get(url, timeout=10)
        if resp.status_code != 200:
            print(f"[실패] 코드 {code} 상태코드:", resp.status_code)
            return result

        soup = BeautifulSoup(resp.text, "lxml")
        text = soup.get_text("\n", strip=True)

        # 성상 (appearance) – "성상 "으로 시작하는 라인 찾기
        for line in text.splitlines():
            if line.startswith("성상 "):
                result["appearance"] = line.strip()
                break

        # 첨가제 (additives) – "첨가제 :" 포함된 라인
        for line in text.splitlines():
            if "첨가제 :" in line:
                result["additives"] = line.strip()
                break

        # 원료약품 및 분량 (composition)
        idx = text.find("원료약품 및 분량")
        if idx != -1:
            end_candidates = []
            for kw in ["첨가제", "이 약의 효능은 무엇입니까", "e약은요 정보"]:
                p = text.find(kw, idx + 1)
                if p != -1:
                    end_candidates.append(p)
            end_idx = min(end_candidates) if end_candidates else None
            if end_idx:
                comp_section = text[idx:end_idx]
            else:
                comp_section = text[idx:]
            result["composition"] = comp_section.strip()

        return result

    except Exception as e:
        print(f"[오류] 코드 {code}:", e)
        return result

# ====== 테스트 ======
# API 데이터가 있다면 아무 code 하나 골라서 테스트
if not df_api_db.empty:
    sample_code = df_api_db["code"].iloc[0]
    print("테스트 code:", sample_code)
    detail = fetch_detail_info(sample_code)
    print(detail)
else:
    print("API 데이터가 없어서 크롤링 테스트를 건너뜁니다.")

테스트 code: 195700020
{'code': '195700020', 'composition': '원료약품 및 분량\n이 약 75mL 중\n원료약품 및 분량 - 원료약품 및 분량으로 순번, 성분명, 분량, 단위, 규격, 성분정보, 비교의 정보를 제공\n순번\n성분명\n분량\n단위\n규격\n성분정보\n비교\n1\n아선약\n100.0\n밀리그램\nKP\n2\nL-멘톨\n21.0\n밀리그램\nKP\n3\n고추틴크\n0.06\n밀리리터\nKP\n4\n현호색\n180.0\n밀리그램\nKP\n5\n육계\n30.0\n밀리그램\nKP\n신남산으로서9.0㎍\n6\n정향\n12.0\n밀리그램\nKP\n오이게놀로서1.3mg\n7\n건강\n12.0\n밀리그램\nKP\n8\n육두구\n6.0\n밀리그램\nKP\n9\n창출\n3.0\n밀리그램\nKP\n10\n진피\n150.0\n밀리그램\nKP\n헤스페리딘으로서0.14mg\n11\n후박\n50.0\n밀리그램\nKP', 'additives': '첨가제 : 효소처리스테비아,정제수,시트르산나트륨수화물,시트르산수화물,바나나향 51-2054,카라멜,이성화당,에탄올(95),사이다후레바(오일),프로필렌글리콜', 'appearance': None, 'shape': None}
