## 데이터 api로 가져오고 csv파일로 저장

#### 공공데이터 포털에서 본인의 apikey 가져오면 됨

In [None]:
api_key = ''

In [1]:
import requests
import pandas as pd
import os
import math

# API 키 및 기본 URL 설정
api_key = 'Your_API_KEY'
base_url = 'http://apis.data.go.kr/1471000/HtfsInfoService03/getHtfsItem01'

# 데이터 저장 폴더 설정
save_folder = 'data'  # 주피터 노트북에서는 현재 디렉토리에 저장됩니다.
if not os.path.exists(save_folder):
    os.makedirs(save_folder)

# 페이지 번호 및 데이터 설정
num_of_rows = 100
page_no = 1
total_pages = 1

while page_no <= total_pages:
    # 요청 파라미터 설정
    params = {
        'serviceKey': api_key,
        'numOfRows': num_of_rows,
        'pageNo': page_no,
        'type': 'json'
    }

    # API 호출
    try:
        response = requests.get(base_url, params=params)
        if response.status_code == 200:
            try:
                data = response.json()
                items = data.get('body', {}).get('items', [])

                if not items and page_no == 1:
                    print("데이터가 없습니다. 확인해주세요.")
                    break

                # Total pages 정보 업데이트
                total_pages = math.ceil(data.get('body', {}).get('totalCount', 0) / num_of_rows)
                
                # DataFrame으로 변환 후 저장
                df = pd.DataFrame(items)
                file_path = os.path.join(save_folder, f'data_page_{page_no}.csv')
                df.to_csv(file_path, index=False, encoding='utf-8-sig')
                print(f"페이지 {page_no} 데이터 저장 완료: {file_path}")

                # 다음 페이지로 이동
                page_no += 1

            except ValueError as e:
                print(f"JSON 파싱 실패: {e}, 페이지: {page_no}")
                break
        else:
            print(f"API 요청 실패: {response.status_code}, 페이지: {page_no}, 이유: {response.text}")
            break
    except requests.exceptions.RequestException as e:
        print(f"요청 오류 발생: {e}, 페이지: {page_no}")
        break

print("데이터 저장 완료")


페이지 1 데이터 저장 완료: data\data_page_1.csv
페이지 2 데이터 저장 완료: data\data_page_2.csv
페이지 3 데이터 저장 완료: data\data_page_3.csv
페이지 4 데이터 저장 완료: data\data_page_4.csv
페이지 5 데이터 저장 완료: data\data_page_5.csv
페이지 6 데이터 저장 완료: data\data_page_6.csv
페이지 7 데이터 저장 완료: data\data_page_7.csv
페이지 8 데이터 저장 완료: data\data_page_8.csv
페이지 9 데이터 저장 완료: data\data_page_9.csv
페이지 10 데이터 저장 완료: data\data_page_10.csv
페이지 11 데이터 저장 완료: data\data_page_11.csv
페이지 12 데이터 저장 완료: data\data_page_12.csv
페이지 13 데이터 저장 완료: data\data_page_13.csv
페이지 14 데이터 저장 완료: data\data_page_14.csv
페이지 15 데이터 저장 완료: data\data_page_15.csv
페이지 16 데이터 저장 완료: data\data_page_16.csv
페이지 17 데이터 저장 완료: data\data_page_17.csv
페이지 18 데이터 저장 완료: data\data_page_18.csv
페이지 19 데이터 저장 완료: data\data_page_19.csv
페이지 20 데이터 저장 완료: data\data_page_20.csv
페이지 21 데이터 저장 완료: data\data_page_21.csv
페이지 22 데이터 저장 완료: data\data_page_22.csv
페이지 23 데이터 저장 완료: data\data_page_23.csv
페이지 24 데이터 저장 완료: data\data_page_24.csv
페이지 25 데이터 저장 완료: data\data_page_25.csv
페이지 26 데이터 저장 완료: 

## csv 파일 병합

In [2]:
import pandas as pd
import os

# 데이터 저장 폴더
save_folder = 'data'
merged_file = 'merged_data.csv'
chunk_size = 10000  # Chunk size for processing large files

# 데이터 병합 및 파일 저장
def process_and_save_csv(file_list, output_file):
    chunks = []
    for file in file_list:
        for chunk in pd.read_csv(file, chunksize=chunk_size):
            chunks.append(chunk)
    
    # Concatenate all chunks
    all_data = pd.concat(chunks, ignore_index=True)
    all_data.to_csv(output_file, index=False, encoding='utf-8-sig')
    print(f"모든 데이터를 병합하여 '{output_file}'로 저장하였습니다.")

# 모든 CSV 파일 경로 가져오기
all_files = [os.path.join(save_folder, f) for f in os.listdir(save_folder) if f.endswith('.csv')]

# 데이터 병합 및 저장
process_and_save_csv(all_files, merged_file)


모든 데이터를 병합하여 'merged_data.csv'로 저장하였습니다.


## csv파일 불러오기

In [3]:
import pandas as pd

# 병합된 CSV 파일 경로
merged_file = 'merged_data.csv'

# CSV 파일을 DataFrame으로 불러오기
data = pd.read_csv(merged_file, encoding='utf-8-sig')

# 데이터 확인
print(f"전체 데이터 수: {len(data)}")
print("데이터의 처음 몇 행:")
print(data.head())
print("데이터의 기본 정보:")
print(data.info())


전체 데이터 수: 41639
데이터의 처음 몇 행:
                                                item
0  {'ENTRPS': '코스맥스바이오(주)', 'PRDUCT': ' +프리맥', 'S...
1  {'ENTRPS': '일동바이오사이언스(주)', 'PRDUCT': ' 11종 혼합유...
2  {'ENTRPS': '주식회사 성윤 에프엔지(F&G)', 'PRDUCT': ' 6년...
3  {'ENTRPS': '(주)일화', 'PRDUCT': ' 6년근 홍삼 자신만만 홍삼...
4  {'ENTRPS': '콜마비앤에이치(주)세종3공장', 'PRDUCT': ' ATOM...
데이터의 기본 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41639 entries, 0 to 41638
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   item    41639 non-null  object
dtypes: object(1)
memory usage: 325.4+ KB
None


In [4]:
print(data)

                                                    item
0      {'ENTRPS': '코스맥스바이오(주)', 'PRDUCT': ' +프리맥', 'S...
1      {'ENTRPS': '일동바이오사이언스(주)', 'PRDUCT': ' 11종 혼합유...
2      {'ENTRPS': '주식회사 성윤 에프엔지(F&G)', 'PRDUCT': ' 6년...
3      {'ENTRPS': '(주)일화', 'PRDUCT': ' 6년근 홍삼 자신만만 홍삼...
4      {'ENTRPS': '콜마비앤에이치(주)세종3공장', 'PRDUCT': ' ATOM...
...                                                  ...
41634  {'ENTRPS': '코스맥스바이오(주)', 'PRDUCT': '데커신더블업', '...
41635  {'ENTRPS': '(주)서흥', 'PRDUCT': '덴디돌', 'STTEMNT_...
41636  {'ENTRPS': '주식회사 노바렉스', 'PRDUCT': '덴마크 락토지지(La...
41637  {'ENTRPS': '엠에스바이오텍(주)', 'PRDUCT': '덴마크 유산균 이뮨...
41638  {'ENTRPS': '(주)비오팜', 'PRDUCT': '덴마크 유산균이야기 다이어...

[41639 rows x 1 columns]


In [11]:
import pandas as pd
import ast

# CSV 파일 경로
file_path = 'merged_data.csv'

# CSV 파일을 DataFrame으로 불러오기
data = pd.read_csv(file_path, encoding='utf-8-sig')

# 데이터의 첫 번째 열에서 JSON 데이터를 추출하여 DataFrame으로 변환
def json_to_df(row):
    # 문자열을 딕셔너리로 변환
    json_data = ast.literal_eval(row)
    return pd.DataFrame([json_data])

# DataFrame 생성
df_list = []
for index, row in data.iloc[:, 0].items():  # items() 메서드로 수정
    df_list.append(json_to_df(row))

# 모든 DataFrame을 하나로 병합
final_df = pd.concat(df_list, ignore_index=True)

# 'PRDUCT' 열의 값들을 열 이름으로 사용하여 DataFrame을 변환
# 이 부분은 데이터에 맞게 조정해야 할 수 있습니다.
# 예를 들어, 아래 코드는 'PRDUCT' 값을 열로 변환합니다.
# final_df = final_df.pivot(columns='PRDUCT', values=['ENTRPS', 'STTEMNT_', 'ETC'])

# NaN 값 채우기 (필요시)
final_df = final_df.fillna('')

# 데이터 확인
print(final_df.head())

# 최종 DataFrame을 CSV 파일로 저장
final_df.to_csv('final_data.csv', index=False, encoding='utf-8-sig')


                                 ENTRPS       STTEMNT_NO REGIST_DT  \
PRDUCT                                                               
+프리맥                         코스맥스바이오(주)  200400200021640  20150624   
11종 혼합유산균                  일동바이오사이언스(주)   20140017002183  20201027   
6년근 고려홍삼정 PREMIUM     주식회사 성윤 에프엔지(F&G)     201100200015  20150522   
6년근 홍삼 자신만만 홍삼스틱                  (주)일화   20040015100230  20200813   
ATOMY VITAMIN C(브라질)    콜마비앤에이치(주)세종3공장    2024002808071  20240522   

                             DISTB_PD  \
PRDUCT                                  
+프리맥                        제조일로부터 2년   
11종 혼합유산균               제조일로부터 24개월까지   
6년근 고려홍삼정 PREMIUM         제조일로부터 24개월   
6년근 홍삼 자신만만 홍삼스틱      제조일부터      2  년   
ATOMY VITAMIN C(브라질)      제조일로부터 24개월   

                                                               SUNGSANG  \
PRDUCT                                                                    
+프리맥                  고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐

TypeError: NDFrame.to_excel() got an unexpected keyword argument 'encoding'

In [9]:
print(final_df)

                                  ENTRPS       STTEMNT_NO REGIST_DT  \
PRDUCT                                                                
 +프리맥                         코스맥스바이오(주)  200400200021640  20150624   
 11종 혼합유산균                  일동바이오사이언스(주)   20140017002183  20201027   
 6년근 고려홍삼정 PREMIUM     주식회사 성윤 에프엔지(F&G)     201100200015  20150522   
 6년근 홍삼 자신만만 홍삼스틱                  (주)일화   20040015100230  20200813   
 ATOMY VITAMIN C(브라질)    콜마비앤에이치(주)세종3공장    2024002808071  20240522   
...                                  ...              ...       ...   
데커신더블업                        코스맥스바이오(주)  200400200022951  20210719   
덴디돌                                (주)서흥  200400200061334  20181127   
덴마크 락토지지(LactoGG) 유산균          주식회사 노바렉스  200400200082560  20220727   
덴마크 유산균 이뮨 플러스                엠에스바이오텍(주)  200400200201210  20231108   
덴마크 유산균이야기 다이어트                   (주)비오팜  200400170211547  20230821   

                              DISTB_PD  \
PRDUCT                            

In [12]:
import pandas as pd
import ast

# CSV 파일 경로
file_path = 'merged_data.csv'

# CSV 파일을 DataFrame으로 불러오기
data = pd.read_csv(file_path, encoding='utf-8-sig')

# 데이터의 첫 번째 열에서 JSON 데이터를 추출하여 DataFrame으로 변환
def json_to_df(row):
    # 문자열을 딕셔너리로 변환
    json_data = ast.literal_eval(row)
    return pd.DataFrame([json_data])

# DataFrame 생성
df_list = []
for index, row in data.iloc[:, 0].items():  # items() 메서드로 수정
    df_list.append(json_to_df(row))

# 모든 DataFrame을 하나로 병합
final_df = pd.concat(df_list, ignore_index=True)

# 'PRDUCT' 열을 인덱스로 설정하고 나머지 데이터를 유지
final_df.set_index('PRDUCT', inplace=True)

# NaN 값 채우기 (필요시)
final_df = final_df.fillna('')

# 데이터 확인
print(final_df.head())

# 최종 DataFrame을 XLSX 파일로 저장
final_df.to_excel('final_data.xlsx', index=True, engine='openpyxl')
print("XLSX 파일 저장 완료: final_data.xlsx")


                                 ENTRPS       STTEMNT_NO REGIST_DT  \
PRDUCT                                                               
+프리맥                         코스맥스바이오(주)  200400200021640  20150624   
11종 혼합유산균                  일동바이오사이언스(주)   20140017002183  20201027   
6년근 고려홍삼정 PREMIUM     주식회사 성윤 에프엔지(F&G)     201100200015  20150522   
6년근 홍삼 자신만만 홍삼스틱                  (주)일화   20040015100230  20200813   
ATOMY VITAMIN C(브라질)    콜마비앤에이치(주)세종3공장    2024002808071  20240522   

                             DISTB_PD  \
PRDUCT                                  
+프리맥                        제조일로부터 2년   
11종 혼합유산균               제조일로부터 24개월까지   
6년근 고려홍삼정 PREMIUM         제조일로부터 24개월   
6년근 홍삼 자신만만 홍삼스틱      제조일부터      2  년   
ATOMY VITAMIN C(브라질)      제조일로부터 24개월   

                                                               SUNGSANG  \
PRDUCT                                                                    
+프리맥                  고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐

IllegalCharacterError: [연질캡슐D]
1. 성상 : 고유의 향미가 있고 이미 이취가 없는 흰노란색의 유동성이 있는 내용물을 함유한 적색의 장방형 연질캡슐
2. 붕해 : 물을 시험액으로 20분 이내 적합
3. 대장균군 : 음성
4. 히알루론산 : 표시량 120 mg / 3,000 mg의 80~120 %
5. EPA와 DHA의 합 : 표시량 900 mg / 3,000 mg의 80~120 %
6. 납(mg/kg) : 2.9 이하
7. 카드뮴(mg/kg) : 1.0 이하
8. 수은(mg/kg) : 0.5 이하
9. 비소(mg/kg) : 1.0 이하

[정제H]
1. 성상: 고유의 향미가 있고 이미, 이취가 없는 점박이가 있는 회황색의 장방형 제피정제
2. 붕해: 물을 시험액으로 60분 이내 적합
3. 대장균군: 음성
4. 3-Acetyl-11-ketoβ-boswellic acid(AKBA)와 11-keto-β-boswellic acid(KBA) : 표시량 32.8 mg / 3,000 mg의 80~120%
5. 총 아플라톡신(ug/kg) : B1, B2, G1 및 G2의 합 : 15.0이하(B1은 10.0 이하)
6. 초산에틸(mg/kg) : 0.05 이하
7.  납(mg/kg) : 0.4 이하
8. 카드뮴(mg/kg) : 0.1 이하
9. 수은(mg/kg) : 0.1 이하
10. 비소(mg/kg) : 0.1 이하 cannot be used in worksheets.

In [13]:
import pandas as pd
import ast
import re

# CSV 파일 경로
file_path = 'merged_data.csv'

# CSV 파일을 DataFrame으로 불러오기
data = pd.read_csv(file_path, encoding='utf-8-sig')

# 데이터의 첫 번째 열에서 JSON 데이터를 추출하여 DataFrame으로 변환
def json_to_df(row):
    # 문자열을 딕셔너리로 변환
    json_data = ast.literal_eval(row)
    return pd.DataFrame([json_data])

# 불법 문자 제거 함수
def clean_text(text):
    # 불법 문자 정규 표현식
    illegal_chars = re.compile(r'[^\w\s.,-]')
    # 불법 문자 제거
    return illegal_chars.sub('', text)

# DataFrame 생성
df_list = []
for index, row in data.iloc[:, 0].items():  # items() 메서드로 수정
    df_list.append(json_to_df(row))

# 모든 DataFrame을 하나로 병합
final_df = pd.concat(df_list, ignore_index=True)

# 'PRDUCT' 열을 인덱스로 설정하고 나머지 데이터를 유지
final_df.set_index('PRDUCT', inplace=True)

# NaN 값 채우기 (필요시)
final_df = final_df.fillna('')

# 불법 문자 제거
final_df = final_df.applymap(lambda x: clean_text(str(x)))

# 데이터 확인
print(final_df.head())

# 최종 DataFrame을 XLSX 파일로 저장
final_df.to_excel('final_data1.xlsx', index=True, engine='openpyxl')
print("XLSX 파일 저장 완료: final_data.xlsx")


  final_df = final_df.applymap(lambda x: clean_text(str(x)))


                              ENTRPS       STTEMNT_NO REGIST_DT  \
PRDUCT                                                            
+프리맥                        코스맥스바이오주  200400200021640  20150624   
11종 혼합유산균                 일동바이오사이언스주   20140017002183  20201027   
6년근 고려홍삼정 PREMIUM     주식회사 성윤 에프엔지FG     201100200015  20150522   
6년근 홍삼 자신만만 홍삼스틱                 주일화   20040015100230  20200813   
ATOMY VITAMIN C(브라질)   콜마비앤에이치주세종3공장    2024002808071  20240522   

                             DISTB_PD  \
PRDUCT                                  
+프리맥                        제조일로부터 2년   
11종 혼합유산균               제조일로부터 24개월까지   
6년근 고려홍삼정 PREMIUM         제조일로부터 24개월   
6년근 홍삼 자신만만 홍삼스틱      제조일부터      2  년   
ATOMY VITAMIN C(브라질)      제조일로부터 24개월   

                                                               SUNGSANG  \
PRDUCT                                                                    
+프리맥                  고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐   
11종 혼합유산균        

## Excel 파일 불러오기

In [1]:
import pandas as pd

# 엑셀 파일을 불러옵니다.
df = pd.read_excel('final_data.xlsx')

# 데이터프레임의 내용을 출력합니다.
print(df)

                      PRDUCT             ENTRPS       STTEMNT_NO  REGIST_DT  \
0                       +프리맥         코스맥스바이오(주)  200400200021640   20150624   
1                  11종 혼합유산균       일동바이오사이언스(주)   20140017002183   20201027   
2          6년근 고려홍삼정 PREMIUM  주식회사 성윤 에프엔지(F&G)     201100200015   20150522   
3           6년근 홍삼 자신만만 홍삼스틱              (주)일화   20040015100230   20200813   
4       ATOMY VITAMIN C(브라질)    콜마비앤에이치(주)세종3공장    2024002808071   20240522   
...                      ...                ...              ...        ...   
41634                 데커신더블업         코스맥스바이오(주)  200400200022951   20210719   
41635                    덴디돌              (주)서흥  200400200061334   20181127   
41636  덴마크 락토지지(LactoGG) 유산균          주식회사 노바렉스  200400200082560   20220727   
41637         덴마크 유산균 이뮨 플러스         엠에스바이오텍(주)  200400200201210   20231108   
41638        덴마크 유산균이야기 다이어트             (주)비오팜  200400170211547   20230821   

              DISTB_PD                             

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41639 entries, 0 to 41638
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   PRDUCT         41639 non-null  object
 1   ENTRPS         38334 non-null  object
 2   STTEMNT_NO     41639 non-null  int64 
 3   REGIST_DT      41639 non-null  int64 
 4   DISTB_PD       41637 non-null  object
 5   SUNGSANG       41605 non-null  object
 6   SRV_USE        41201 non-null  object
 7   PRSRV_PD       41143 non-null  object
 8   INTAKE_HINT1   39859 non-null  object
 9   MAIN_FNCTN     41629 non-null  object
 10  BASE_STANDARD  16423 non-null  object
dtypes: int64(2), object(9)
memory usage: 3.5+ MB


In [3]:
df

Unnamed: 0,PRDUCT,ENTRPS,STTEMNT_NO,REGIST_DT,DISTB_PD,SUNGSANG,SRV_USE,PRSRV_PD,INTAKE_HINT1,MAIN_FNCTN,BASE_STANDARD
0,+프리맥,코스맥스바이오(주),200400200021640,20150624,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐","1일 1회, 1회 2캡슐을 충분한 물과 함께 섭취하십시오. 1일 2회, 1회 1캡슐...","수분, 열에 의해 품질에 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관...","임산부, 수유부, 청소년 및 어린이는 섭취를 피하십시오.\n심혈관약 등 복용, 혈액...",혈중 콜레스테롤 수치 개선에 도움을 줄 수 있음.,"1) 성상 : 고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑..."
1,11종 혼합유산균,일동바이오사이언스(주),20140017002183,20201027,제조일로부터 24개월까지,고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분말,건강기능식품 원료로 사용,냉장조건,1. 질환이 있거나 의약품 복용 시 전문가와 상담하십시오.\n2. 알레르기 체질 등...,유산균 증식 및 유해균 억제·배변활동 원활에 도움을 줄 수 있음,1. 성상 : 고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분...
2,6년근 고려홍삼정 PREMIUM,주식회사 성윤 에프엔지(F&G),201100200015,20150522,제조일로부터 24개월,암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다._x000D_\n,"1일 3회, 1회 1스푼(3.2g)씩 물에 녹여 섭취 하십시요._x000D_\n",직사광선을 피해 건조하고 서늘한 곳에서 보관한다._x000D_\n,"[홍삼제품]의약품(당뇨치료제, 혈액항응고제) 복용 시 섭취에 주의_x000D_\n2...",①면역력 증진②피로개선③혈소판 응집 억제를 통한 혈액흐름에 도움④기억력 개선⑤항산화...,① 성상 : 암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다...
3,6년근 홍삼 자신만만 홍삼스틱,(주)일화,20040015100230,20200813,제조일부터 2 년,고유의 색택과 향미를 가지며 이미와 이취가 없는 액상,"1일 1회, 1회 1포를 섭취하십시오.","습기와 직사광선을 피하여 실온에 보관하시고, 개봉 후에는 반드시 냉장 보관하십시오.",⑴ 특수체질이거나 알레르기 체질인 경우에는 섭취 전에 반드시 원료명 및 함량을 확인...,⑴ 면역력 증진에 도움을 줄 수 있음\n ⑵ 피로개선에 도움을 줄 수 있음\n...,⑴ 성상: 고유의 색택과 향미를 가지며 이미와 이취가 없는 액상\n⑵ 진세노사이드 ...
4,ATOMY VITAMIN C(브라질),콜마비앤에이치(주)세종3공장,2024002808071,20240522,제조일로부터 24개월,"고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물을 포함한 흰 ...","1일 1회, 1회 1포를 섭취하십시오.","습기가 적고 직사광선을 받지 않는 실온에 보관하시고, 어린이의 손에 닿지 않도록 주...","- 특이체질, 알레르기 체질의 경우에는 개인에 따라 과민반응을 나타낼 수 있으므로 ...",[비타민C] ①결합조직 형성과 기능유지에 필요 ②철의 흡수에 필요 ③항산화 작용을 ...,"1) 성상 : 고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물..."
...,...,...,...,...,...,...,...,...,...,...,...
41634,데커신더블업,코스맥스바이오(주),200400200022951,20210719,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 점박이가 있는 밝은 회황색의 장방형 제피정제","1일 1회, 1회 2정을 충분한 물과 함께 섭취하십시오.1일 2회, 1회 1정을 충...",수분 및 열에 의해 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관하십시...,섭취 시 목에 걸리거나 불편할 수 있으므로 반드시 물과 함께 섭취하십시오. \n섭취...,1) 참당귀추출분말(Nutragen) : 노화로 저하된 인지기능 개선에 도움을 줄 ...,
41635,덴디돌,(주)서흥,200400200061334,20181127,제조일로부터 24개월,탁한 분홍 ~ 흐린 자주색의 제피정제,"1일 1회, 1회 1정(1.3g)을 충분한 물과 함께 섭취하십시오.",① 제품은 직사광선을 피하고 실온에서 보관 유통하십시오. ② 제품 개봉 후에는 ...,"① 프로폴리스에 알레르기를 나타내는 사람은 섭취에 주의. \n② 임산부, 수유...",칼슘 : ① 뼈와 치아 형성에 필요\n ② 신경과 근육 기능 유지...,
41636,덴마크 락토지지(LactoGG) 유산균,주식회사 노바렉스,200400200082560,20220727,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 노란 하얀색의 분말,"1일 1회, 1회 1포를 섭취하십시오.",1. 구입 후 반드시 냉장보관 하십시오. 2. 개봉 후에는 공기의 노출을 최대한 차...,"특정질환, 특이체질, 알레르기체질, 임산부의 경우에는 간혹 개인에 따라 과민반응이 ...",유산균 증식 및 유해균 억제･배변활동 원활･장 건강에 도움을 줄 수 있음\n①칼슘과...,
41637,덴마크 유산균 이뮨 플러스,엠에스바이오텍(주),200400200201210,20231108,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 흰노랑색 분말을 함유한 투명경질캡슐,"1일 1회, 1회 1캡슐씩 충분한 물과 함께 섭취","습기가 적고 직사광선을 피하여 서늘한 곳에 보관하며, 어린이 손에 닿지 않도록 주의",비타민D\n1. 고칼슘혈증이 있거나 의약품 복용 시 전문가와 상담할 것\n2. 이상...,비타민D\n1. 칼슘과 인이 흡수되고 이용되는데 필요\n2. 뼈의 형성과 유지에 필...,


## MAIN_FNCTN가 빈 값인것 제거

In [2]:
# MAIN_FNCTN 열에 빈 값이 있는 행을 제거합니다.
df = df.dropna(subset=['MAIN_FNCTN'])

# 결과를 확인합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 41629 entries, 0 to 41638
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   PRDUCT         41629 non-null  object
 1   ENTRPS         38326 non-null  object
 2   STTEMNT_NO     41629 non-null  int64 
 3   REGIST_DT      41629 non-null  int64 
 4   DISTB_PD       41627 non-null  object
 5   SUNGSANG       41595 non-null  object
 6   SRV_USE        41191 non-null  object
 7   PRSRV_PD       41136 non-null  object
 8   INTAKE_HINT1   39852 non-null  object
 9   MAIN_FNCTN     41629 non-null  object
 10  BASE_STANDARD  16421 non-null  object
dtypes: int64(2), object(9)
memory usage: 3.8+ MB


In [5]:
df

Unnamed: 0,PRDUCT,ENTRPS,STTEMNT_NO,REGIST_DT,DISTB_PD,SUNGSANG,SRV_USE,PRSRV_PD,INTAKE_HINT1,MAIN_FNCTN,BASE_STANDARD
0,+프리맥,코스맥스바이오(주),200400200021640,20150624,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐","1일 1회, 1회 2캡슐을 충분한 물과 함께 섭취하십시오. 1일 2회, 1회 1캡슐...","수분, 열에 의해 품질에 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관...","임산부, 수유부, 청소년 및 어린이는 섭취를 피하십시오.\n심혈관약 등 복용, 혈액...",혈중 콜레스테롤 수치 개선에 도움을 줄 수 있음.,"1) 성상 : 고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑..."
1,11종 혼합유산균,일동바이오사이언스(주),20140017002183,20201027,제조일로부터 24개월까지,고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분말,건강기능식품 원료로 사용,냉장조건,1. 질환이 있거나 의약품 복용 시 전문가와 상담하십시오.\n2. 알레르기 체질 등...,유산균 증식 및 유해균 억제·배변활동 원활에 도움을 줄 수 있음,1. 성상 : 고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분...
2,6년근 고려홍삼정 PREMIUM,주식회사 성윤 에프엔지(F&G),201100200015,20150522,제조일로부터 24개월,암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다._x000D_\n,"1일 3회, 1회 1스푼(3.2g)씩 물에 녹여 섭취 하십시요._x000D_\n",직사광선을 피해 건조하고 서늘한 곳에서 보관한다._x000D_\n,"[홍삼제품]의약품(당뇨치료제, 혈액항응고제) 복용 시 섭취에 주의_x000D_\n2...",①면역력 증진②피로개선③혈소판 응집 억제를 통한 혈액흐름에 도움④기억력 개선⑤항산화...,① 성상 : 암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다...
3,6년근 홍삼 자신만만 홍삼스틱,(주)일화,20040015100230,20200813,제조일부터 2 년,고유의 색택과 향미를 가지며 이미와 이취가 없는 액상,"1일 1회, 1회 1포를 섭취하십시오.","습기와 직사광선을 피하여 실온에 보관하시고, 개봉 후에는 반드시 냉장 보관하십시오.",⑴ 특수체질이거나 알레르기 체질인 경우에는 섭취 전에 반드시 원료명 및 함량을 확인...,⑴ 면역력 증진에 도움을 줄 수 있음\n ⑵ 피로개선에 도움을 줄 수 있음\n...,⑴ 성상: 고유의 색택과 향미를 가지며 이미와 이취가 없는 액상\n⑵ 진세노사이드 ...
4,ATOMY VITAMIN C(브라질),콜마비앤에이치(주)세종3공장,2024002808071,20240522,제조일로부터 24개월,"고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물을 포함한 흰 ...","1일 1회, 1회 1포를 섭취하십시오.","습기가 적고 직사광선을 받지 않는 실온에 보관하시고, 어린이의 손에 닿지 않도록 주...","- 특이체질, 알레르기 체질의 경우에는 개인에 따라 과민반응을 나타낼 수 있으므로 ...",[비타민C] ①결합조직 형성과 기능유지에 필요 ②철의 흡수에 필요 ③항산화 작용을 ...,"1) 성상 : 고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물..."
...,...,...,...,...,...,...,...,...,...,...,...
41634,데커신더블업,코스맥스바이오(주),200400200022951,20210719,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 점박이가 있는 밝은 회황색의 장방형 제피정제","1일 1회, 1회 2정을 충분한 물과 함께 섭취하십시오.1일 2회, 1회 1정을 충...",수분 및 열에 의해 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관하십시...,섭취 시 목에 걸리거나 불편할 수 있으므로 반드시 물과 함께 섭취하십시오. \n섭취...,1) 참당귀추출분말(Nutragen) : 노화로 저하된 인지기능 개선에 도움을 줄 ...,
41635,덴디돌,(주)서흥,200400200061334,20181127,제조일로부터 24개월,탁한 분홍 ~ 흐린 자주색의 제피정제,"1일 1회, 1회 1정(1.3g)을 충분한 물과 함께 섭취하십시오.",① 제품은 직사광선을 피하고 실온에서 보관 유통하십시오. ② 제품 개봉 후에는 ...,"① 프로폴리스에 알레르기를 나타내는 사람은 섭취에 주의. \n② 임산부, 수유...",칼슘 : ① 뼈와 치아 형성에 필요\n ② 신경과 근육 기능 유지...,
41636,덴마크 락토지지(LactoGG) 유산균,주식회사 노바렉스,200400200082560,20220727,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 노란 하얀색의 분말,"1일 1회, 1회 1포를 섭취하십시오.",1. 구입 후 반드시 냉장보관 하십시오. 2. 개봉 후에는 공기의 노출을 최대한 차...,"특정질환, 특이체질, 알레르기체질, 임산부의 경우에는 간혹 개인에 따라 과민반응이 ...",유산균 증식 및 유해균 억제･배변활동 원활･장 건강에 도움을 줄 수 있음\n①칼슘과...,
41637,덴마크 유산균 이뮨 플러스,엠에스바이오텍(주),200400200201210,20231108,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 흰노랑색 분말을 함유한 투명경질캡슐,"1일 1회, 1회 1캡슐씩 충분한 물과 함께 섭취","습기가 적고 직사광선을 피하여 서늘한 곳에 보관하며, 어린이 손에 닿지 않도록 주의",비타민D\n1. 고칼슘혈증이 있거나 의약품 복용 시 전문가와 상담할 것\n2. 이상...,비타민D\n1. 칼슘과 인이 흡수되고 이용되는데 필요\n2. 뼈의 형성과 유지에 필...,


## 이미지 url 넣어보기

#### 데이터 반으로 나눠서 작업

In [2]:
client_id = ''
client_secret = ''

#### 네이버 개발자 센터에 로그인 -> 내 애플리케이션 -> Application 등록 (이 pjt에서는 검색 API 활용) -> client_id, client_secret 가져오기 

In [4]:
import requests
import pandas as pd

# 네이버 API 정보 입력
# client_id = 'YOUR_CLIENT_ID'
# client_secret = 'YOUR_CLIENT_SECRET'

def get_naver_image_url(product_name):
    url = f"https://openapi.naver.com/v1/search/shop.json?query={product_name}&display=1"
    headers = {
        "X-Naver-Client-Id": client_id,
        "X-Naver-Client-Secret": client_secret
    }
    
    response = requests.get(url, headers=headers)
    
    if response.status_code == 200:
        data = response.json()
        if data['items']:
            return data['items'][0]['image']  # 첫 번째 결과의 이미지 URL 반환
        else:
            return None
    else:
        print(f"Error fetching image for {product_name}: {response.status_code}")
        return None

# # 엑셀 파일 경로
# file_path = 'final_data.xlsx'

# # 엑셀 파일 로드
# df = pd.read_excel(file_path)

# # 네이버 쇼핑 검색을 통해 이미지 URL 추가
# df['IMAGE_URL'] = df['PRDUCT'].apply(get_naver_image_url)

# # 수정된 데이터를 엑셀 파일로 저장
# df.to_excel('updated_final_data_with_naver_images.xlsx', index=False)


In [12]:
import pandas as pd

# 엑셀 파일 로드
file_path = 'final_data.xlsx'
df = pd.read_excel(file_path)

# 데이터 반으로 나누기
mid_index = len(df) // 2
df_first_half = df.iloc[:mid_index]

# 네이버 API를 사용하여 이미지 URL 추가 (첫 번째 반 데이터)
df_first_half['IMAGE_URL'] = df_first_half['PRDUCT'].apply(get_naver_image_url)

# 첫 번째 절반 저장
df_first_half.to_excel('updated_first_half_with_naver_images.xlsx', index=False)


Error fetching image for 멀티비타민&미네랄 12 : 429
Error fetching image for 멀티비타민&미네랄 구미덕: 429
Error fetching image for 멀티비타민&미네랄 맨케어: 429
Error fetching image for 멀티비타민&미네랄 베베구미젤리: 429
Error fetching image for 멀티비타민&미네랄 블루베리맛: 429
Error fetching image for 멀티비타민&미네랄 블루베리맛: 429
Error fetching image for 멀티비타민&미네랄.키즈: 429
Error fetching image for 멀티비타민&미네랄15: 429
Error fetching image for 멀티비타민&미네랄21: 429
Error fetching image for 멀티비타민&미네랄21: 429
Error fetching image for 멀티비타민&미네랄23: 429
Error fetching image for 멀티비타민&미네랄앰플: 429
Error fetching image for 밀크씨슬 10종복합기능성: 429
Error fetching image for 밀크씨슬 11종복합기능성: 429
Error fetching image for 밀크씨슬 130: 429
Error fetching image for 밀크씨슬 130: 429
Error fetching image for 발효홍삼농축액: 429
Error fetching image for 쏘팔메토 28청춘: 429


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_first_half['IMAGE_URL'] = df_first_half['PRDUCT'].apply(get_naver_image_url)


In [5]:
# 데이터 반으로 나누기
mid_index = len(df) // 2
# 두 번째 절반 데이터 처리
df_second_half = df.iloc[mid_index:]

# 네이버 API를 사용하여 이미지 URL 추가 (두 번째 반 데이터)
df_second_half['IMAGE_URL'] = df_second_half['PRDUCT'].apply(get_naver_image_url)

# 두 번째 절반 저장
df_second_half.to_excel('updated_second_half_with_naver_images.xlsx', index=False)


Error fetching image for 초임계 알티지 오메가3  비타민 ADE: 429
Error fetching image for 초임계 알티지 오메가3 & 루테인 듀얼케어: 429
Error fetching image for 초임계 알티지 오메가3 +A: 429
Error fetching image for 프로폴리스: 429
Error fetching image for 프로폴리스: 429
Error fetching image for 프로폴리스 診膏(진고): 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액: 429
Error fetching image for 홍삼농축액골드플러스: 429
Error fetching image for 홍삼분말: 429
Error fetching image for 홍삼분말 12: 429
Error fetching image for 홍삼분말(6mg): 429
Error fetching image for 홍삼분말(IS): 429
Error fetching image for 홍삼정골드: 429
Error fetching image for 홍삼정골드: 429


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_second_half['IMAGE_URL'] = df_second_half['PRDUCT'].apply(get_naver_image_url)


In [21]:
# 두 파일 로드
df_first_half = pd.read_excel('updated_first_half_with_naver_images.xlsx')
df_second_half = pd.read_excel('updated_second_half_with_naver_images.xlsx')

# 두 데이터프레임 결합
df_combined = pd.concat([df_first_half, df_second_half])

# 최종 파일로 저장
df_combined.to_excel('final_data_with_naver_images.xlsx', index=False)


PermissionError: [Errno 13] Permission denied: 'final_data_with_naver_images.xlsx'

## 최종 파일 불러오기

In [25]:
df_combined = pd.read_excel('final_data_with_naver_images.xlsx')

In [26]:
df_combined.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41634 entries, 0 to 41633
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   PRDUCT         41634 non-null  object
 1   ENTRPS         38331 non-null  object
 2   STTEMNT_NO     41634 non-null  int64 
 3   REGIST_DT      41634 non-null  int64 
 4   DISTB_PD       41632 non-null  object
 5   SUNGSANG       41600 non-null  object
 6   SRV_USE        41196 non-null  object
 7   PRSRV_PD       41141 non-null  object
 8   INTAKE_HINT1   39856 non-null  object
 9   MAIN_FNCTN     41632 non-null  object
 10  BASE_STANDARD  16423 non-null  object
 11  IMAGE_URL      33470 non-null  object
dtypes: int64(2), object(10)
memory usage: 3.8+ MB


In [27]:
df_combined

Unnamed: 0,PRDUCT,ENTRPS,STTEMNT_NO,REGIST_DT,DISTB_PD,SUNGSANG,SRV_USE,PRSRV_PD,INTAKE_HINT1,MAIN_FNCTN,BASE_STANDARD,IMAGE_URL
0,+프리맥,코스맥스바이오(주),200400200021640,20150624,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐","1일 1회, 1회 2캡슐을 충분한 물과 함께 섭취하십시오. 1일 2회, 1회 1캡슐...","수분, 열에 의해 품질에 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관...","임산부, 수유부, 청소년 및 어린이는 섭취를 피하십시오.\n심혈관약 등 복용, 혈액...",혈중 콜레스테롤 수치 개선에 도움을 줄 수 있음.,"1) 성상 : 고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑...",https://shopping-phinf.pstatic.net/main_500684...
1,11종 혼합유산균,일동바이오사이언스(주),20140017002183,20201027,제조일로부터 24개월까지,고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분말,건강기능식품 원료로 사용,냉장조건,1. 질환이 있거나 의약품 복용 시 전문가와 상담하십시오.\n2. 알레르기 체질 등...,유산균 증식 및 유해균 억제·배변활동 원활에 도움을 줄 수 있음,1. 성상 : 고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분...,https://shopping-phinf.pstatic.net/main_855213...
2,6년근 고려홍삼정 PREMIUM,주식회사 성윤 에프엔지(F&G),201100200015,20150522,제조일로부터 24개월,암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다._x000D_\n,"1일 3회, 1회 1스푼(3.2g)씩 물에 녹여 섭취 하십시요._x000D_\n",직사광선을 피해 건조하고 서늘한 곳에서 보관한다._x000D_\n,"[홍삼제품]의약품(당뇨치료제, 혈액항응고제) 복용 시 섭취에 주의_x000D_\n2...",①면역력 증진②피로개선③혈소판 응집 억제를 통한 혈액흐름에 도움④기억력 개선⑤항산화...,① 성상 : 암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다...,https://shopping-phinf.pstatic.net/main_823383...
3,6년근 홍삼 자신만만 홍삼스틱,(주)일화,20040015100230,20200813,제조일부터 2 년,고유의 색택과 향미를 가지며 이미와 이취가 없는 액상,"1일 1회, 1회 1포를 섭취하십시오.","습기와 직사광선을 피하여 실온에 보관하시고, 개봉 후에는 반드시 냉장 보관하십시오.",⑴ 특수체질이거나 알레르기 체질인 경우에는 섭취 전에 반드시 원료명 및 함량을 확인...,⑴ 면역력 증진에 도움을 줄 수 있음\n ⑵ 피로개선에 도움을 줄 수 있음\n...,⑴ 성상: 고유의 색택과 향미를 가지며 이미와 이취가 없는 액상\n⑵ 진세노사이드 ...,https://shopping-phinf.pstatic.net/main_421553...
4,ATOMY VITAMIN C(브라질),콜마비앤에이치(주)세종3공장,2024002808071,20240522,제조일로부터 24개월,"고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물을 포함한 흰 ...","1일 1회, 1회 1포를 섭취하십시오.","습기가 적고 직사광선을 받지 않는 실온에 보관하시고, 어린이의 손에 닿지 않도록 주...","- 특이체질, 알레르기 체질의 경우에는 개인에 따라 과민반응을 나타낼 수 있으므로 ...",[비타민C] ①결합조직 형성과 기능유지에 필요 ②철의 흡수에 필요 ③항산화 작용을 ...,"1) 성상 : 고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물...",https://shopping-phinf.pstatic.net/main_834438...
...,...,...,...,...,...,...,...,...,...,...,...,...
41629,데커신더블업,코스맥스바이오(주),200400200022951,20210719,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 점박이가 있는 밝은 회황색의 장방형 제피정제","1일 1회, 1회 2정을 충분한 물과 함께 섭취하십시오.1일 2회, 1회 1정을 충...",수분 및 열에 의해 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관하십시...,섭취 시 목에 걸리거나 불편할 수 있으므로 반드시 물과 함께 섭취하십시오. \n섭취...,1) 참당귀추출분말(Nutragen) : 노화로 저하된 인지기능 개선에 도움을 줄 ...,,https://shopping-phinf.pstatic.net/main_494333...
41630,덴디돌,(주)서흥,200400200061334,20181127,제조일로부터 24개월,탁한 분홍 ~ 흐린 자주색의 제피정제,"1일 1회, 1회 1정(1.3g)을 충분한 물과 함께 섭취하십시오.",① 제품은 직사광선을 피하고 실온에서 보관 유통하십시오. ② 제품 개봉 후에는 ...,"① 프로폴리스에 알레르기를 나타내는 사람은 섭취에 주의. \n② 임산부, 수유...",칼슘 : ① 뼈와 치아 형성에 필요\n ② 신경과 근육 기능 유지...,,https://shopping-phinf.pstatic.net/main_462200...
41631,덴마크 락토지지(LactoGG) 유산균,주식회사 노바렉스,200400200082560,20220727,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 노란 하얀색의 분말,"1일 1회, 1회 1포를 섭취하십시오.",1. 구입 후 반드시 냉장보관 하십시오. 2. 개봉 후에는 공기의 노출을 최대한 차...,"특정질환, 특이체질, 알레르기체질, 임산부의 경우에는 간혹 개인에 따라 과민반응이 ...",유산균 증식 및 유해균 억제･배변활동 원활･장 건강에 도움을 줄 수 있음\n①칼슘과...,,https://shopping-phinf.pstatic.net/main_494241...
41632,덴마크 유산균 이뮨 플러스,엠에스바이오텍(주),200400200201210,20231108,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 흰노랑색 분말을 함유한 투명경질캡슐,"1일 1회, 1회 1캡슐씩 충분한 물과 함께 섭취","습기가 적고 직사광선을 피하여 서늘한 곳에 보관하며, 어린이 손에 닿지 않도록 주의",비타민D\n1. 고칼슘혈증이 있거나 의약품 복용 시 전문가와 상담할 것\n2. 이상...,비타민D\n1. 칼슘과 인이 흡수되고 이용되는데 필요\n2. 뼈의 형성과 유지에 필...,,https://shopping-phinf.pstatic.net/main_469471...


## null값 제거 (전처리)

In [34]:
# 불필요한 열 제거
df_cleaned = df_combined.drop(columns=['BASE_STANDARD', 'ENTRPS', 'STTEMNT_NO', 'REGIST_DT'])

# null 값이 포함된 행 제거
df_cleaned = df_cleaned.dropna()

# 결과 확인
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 31345 entries, 0 to 41633
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   PRDUCT        31345 non-null  object
 1   DISTB_PD      31345 non-null  object
 2   SUNGSANG      31345 non-null  object
 3   SRV_USE       31345 non-null  object
 4   PRSRV_PD      31345 non-null  object
 5   INTAKE_HINT1  31345 non-null  object
 6   MAIN_FNCTN    31345 non-null  object
 7   IMAGE_URL     31345 non-null  object
dtypes: object(8)
memory usage: 2.2+ MB


In [35]:
df_cleaned

Unnamed: 0,PRDUCT,DISTB_PD,SUNGSANG,SRV_USE,PRSRV_PD,INTAKE_HINT1,MAIN_FNCTN,IMAGE_URL
0,+프리맥,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐","1일 1회, 1회 2캡슐을 충분한 물과 함께 섭취하십시오. 1일 2회, 1회 1캡슐...","수분, 열에 의해 품질에 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관...","임산부, 수유부, 청소년 및 어린이는 섭취를 피하십시오.\n심혈관약 등 복용, 혈액...",혈중 콜레스테롤 수치 개선에 도움을 줄 수 있음.,https://shopping-phinf.pstatic.net/main_500684...
1,11종 혼합유산균,제조일로부터 24개월까지,고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분말,건강기능식품 원료로 사용,냉장조건,1. 질환이 있거나 의약품 복용 시 전문가와 상담하십시오.\n2. 알레르기 체질 등...,유산균 증식 및 유해균 억제·배변활동 원활에 도움을 줄 수 있음,https://shopping-phinf.pstatic.net/main_855213...
2,6년근 고려홍삼정 PREMIUM,제조일로부터 24개월,암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다._x000D_\n,"1일 3회, 1회 1스푼(3.2g)씩 물에 녹여 섭취 하십시요._x000D_\n",직사광선을 피해 건조하고 서늘한 곳에서 보관한다._x000D_\n,"[홍삼제품]의약품(당뇨치료제, 혈액항응고제) 복용 시 섭취에 주의_x000D_\n2...",①면역력 증진②피로개선③혈소판 응집 억제를 통한 혈액흐름에 도움④기억력 개선⑤항산화...,https://shopping-phinf.pstatic.net/main_823383...
3,6년근 홍삼 자신만만 홍삼스틱,제조일부터 2 년,고유의 색택과 향미를 가지며 이미와 이취가 없는 액상,"1일 1회, 1회 1포를 섭취하십시오.","습기와 직사광선을 피하여 실온에 보관하시고, 개봉 후에는 반드시 냉장 보관하십시오.",⑴ 특수체질이거나 알레르기 체질인 경우에는 섭취 전에 반드시 원료명 및 함량을 확인...,⑴ 면역력 증진에 도움을 줄 수 있음\n ⑵ 피로개선에 도움을 줄 수 있음\n...,https://shopping-phinf.pstatic.net/main_421553...
4,ATOMY VITAMIN C(브라질),제조일로부터 24개월,"고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물을 포함한 흰 ...","1일 1회, 1회 1포를 섭취하십시오.","습기가 적고 직사광선을 받지 않는 실온에 보관하시고, 어린이의 손에 닿지 않도록 주...","- 특이체질, 알레르기 체질의 경우에는 개인에 따라 과민반응을 나타낼 수 있으므로 ...",[비타민C] ①결합조직 형성과 기능유지에 필요 ②철의 흡수에 필요 ③항산화 작용을 ...,https://shopping-phinf.pstatic.net/main_834438...
...,...,...,...,...,...,...,...,...
41629,데커신더블업,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 점박이가 있는 밝은 회황색의 장방형 제피정제","1일 1회, 1회 2정을 충분한 물과 함께 섭취하십시오.1일 2회, 1회 1정을 충...",수분 및 열에 의해 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관하십시...,섭취 시 목에 걸리거나 불편할 수 있으므로 반드시 물과 함께 섭취하십시오. \n섭취...,1) 참당귀추출분말(Nutragen) : 노화로 저하된 인지기능 개선에 도움을 줄 ...,https://shopping-phinf.pstatic.net/main_494333...
41630,덴디돌,제조일로부터 24개월,탁한 분홍 ~ 흐린 자주색의 제피정제,"1일 1회, 1회 1정(1.3g)을 충분한 물과 함께 섭취하십시오.",① 제품은 직사광선을 피하고 실온에서 보관 유통하십시오. ② 제품 개봉 후에는 ...,"① 프로폴리스에 알레르기를 나타내는 사람은 섭취에 주의. \n② 임산부, 수유...",칼슘 : ① 뼈와 치아 형성에 필요\n ② 신경과 근육 기능 유지...,https://shopping-phinf.pstatic.net/main_462200...
41631,덴마크 락토지지(LactoGG) 유산균,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 노란 하얀색의 분말,"1일 1회, 1회 1포를 섭취하십시오.",1. 구입 후 반드시 냉장보관 하십시오. 2. 개봉 후에는 공기의 노출을 최대한 차...,"특정질환, 특이체질, 알레르기체질, 임산부의 경우에는 간혹 개인에 따라 과민반응이 ...",유산균 증식 및 유해균 억제･배변활동 원활･장 건강에 도움을 줄 수 있음\n①칼슘과...,https://shopping-phinf.pstatic.net/main_494241...
41632,덴마크 유산균 이뮨 플러스,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 흰노랑색 분말을 함유한 투명경질캡슐,"1일 1회, 1회 1캡슐씩 충분한 물과 함께 섭취","습기가 적고 직사광선을 피하여 서늘한 곳에 보관하며, 어린이 손에 닿지 않도록 주의",비타민D\n1. 고칼슘혈증이 있거나 의약품 복용 시 전문가와 상담할 것\n2. 이상...,비타민D\n1. 칼슘과 인이 흡수되고 이용되는데 필요\n2. 뼈의 형성과 유지에 필...,https://shopping-phinf.pstatic.net/main_469471...


In [39]:
# 열 이름을 대문자로 변경
df_cleaned.columns = ['PILL_NAME', 'EXPIRATION_DATE', 'APPEARANCE', 'DOSE_AMOUNT', 'STORAGE_METHOD', 'DOSE_GUIDE', 'FUNCTIONALITY', 'IMAGE_URL']

df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 31345 entries, 0 to 41633
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   PILL_NAME        31345 non-null  object
 1   EXPIRATION_DATE  31345 non-null  object
 2   APPEARANCE       31345 non-null  object
 3   DOSE_AMOUNT      31345 non-null  object
 4   STORAGE_METHOD   31345 non-null  object
 5   DOSE_GUIDE       31345 non-null  object
 6   FUNCTIONALITY    31345 non-null  object
 7   IMAGE_URL        31345 non-null  object
dtypes: object(8)
memory usage: 2.2+ MB


In [40]:
df_cleaned

Unnamed: 0,PILL_NAME,EXPIRATION_DATE,APPEARANCE,DOSE_AMOUNT,STORAGE_METHOD,DOSE_GUIDE,FUNCTIONALITY,IMAGE_URL
0,+프리맥,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐","1일 1회, 1회 2캡슐을 충분한 물과 함께 섭취하십시오. 1일 2회, 1회 1캡슐...","수분, 열에 의해 품질에 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관...","임산부, 수유부, 청소년 및 어린이는 섭취를 피하십시오.\n심혈관약 등 복용, 혈액...",혈중 콜레스테롤 수치 개선에 도움을 줄 수 있음.,https://shopping-phinf.pstatic.net/main_500684...
1,11종 혼합유산균,제조일로부터 24개월까지,고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분말,건강기능식품 원료로 사용,냉장조건,1. 질환이 있거나 의약품 복용 시 전문가와 상담하십시오.\n2. 알레르기 체질 등...,유산균 증식 및 유해균 억제·배변활동 원활에 도움을 줄 수 있음,https://shopping-phinf.pstatic.net/main_855213...
2,6년근 고려홍삼정 PREMIUM,제조일로부터 24개월,암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다._x000D_\n,"1일 3회, 1회 1스푼(3.2g)씩 물에 녹여 섭취 하십시요._x000D_\n",직사광선을 피해 건조하고 서늘한 곳에서 보관한다._x000D_\n,"[홍삼제품]의약품(당뇨치료제, 혈액항응고제) 복용 시 섭취에 주의_x000D_\n2...",①면역력 증진②피로개선③혈소판 응집 억제를 통한 혈액흐름에 도움④기억력 개선⑤항산화...,https://shopping-phinf.pstatic.net/main_823383...
3,6년근 홍삼 자신만만 홍삼스틱,제조일부터 2 년,고유의 색택과 향미를 가지며 이미와 이취가 없는 액상,"1일 1회, 1회 1포를 섭취하십시오.","습기와 직사광선을 피하여 실온에 보관하시고, 개봉 후에는 반드시 냉장 보관하십시오.",⑴ 특수체질이거나 알레르기 체질인 경우에는 섭취 전에 반드시 원료명 및 함량을 확인...,⑴ 면역력 증진에 도움을 줄 수 있음\n ⑵ 피로개선에 도움을 줄 수 있음\n...,https://shopping-phinf.pstatic.net/main_421553...
4,ATOMY VITAMIN C(브라질),제조일로부터 24개월,"고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물을 포함한 흰 ...","1일 1회, 1회 1포를 섭취하십시오.","습기가 적고 직사광선을 받지 않는 실온에 보관하시고, 어린이의 손에 닿지 않도록 주...","- 특이체질, 알레르기 체질의 경우에는 개인에 따라 과민반응을 나타낼 수 있으므로 ...",[비타민C] ①결합조직 형성과 기능유지에 필요 ②철의 흡수에 필요 ③항산화 작용을 ...,https://shopping-phinf.pstatic.net/main_834438...
...,...,...,...,...,...,...,...,...
41629,데커신더블업,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 점박이가 있는 밝은 회황색의 장방형 제피정제","1일 1회, 1회 2정을 충분한 물과 함께 섭취하십시오.1일 2회, 1회 1정을 충...",수분 및 열에 의해 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관하십시...,섭취 시 목에 걸리거나 불편할 수 있으므로 반드시 물과 함께 섭취하십시오. \n섭취...,1) 참당귀추출분말(Nutragen) : 노화로 저하된 인지기능 개선에 도움을 줄 ...,https://shopping-phinf.pstatic.net/main_494333...
41630,덴디돌,제조일로부터 24개월,탁한 분홍 ~ 흐린 자주색의 제피정제,"1일 1회, 1회 1정(1.3g)을 충분한 물과 함께 섭취하십시오.",① 제품은 직사광선을 피하고 실온에서 보관 유통하십시오. ② 제품 개봉 후에는 ...,"① 프로폴리스에 알레르기를 나타내는 사람은 섭취에 주의. \n② 임산부, 수유...",칼슘 : ① 뼈와 치아 형성에 필요\n ② 신경과 근육 기능 유지...,https://shopping-phinf.pstatic.net/main_462200...
41631,덴마크 락토지지(LactoGG) 유산균,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 노란 하얀색의 분말,"1일 1회, 1회 1포를 섭취하십시오.",1. 구입 후 반드시 냉장보관 하십시오. 2. 개봉 후에는 공기의 노출을 최대한 차...,"특정질환, 특이체질, 알레르기체질, 임산부의 경우에는 간혹 개인에 따라 과민반응이 ...",유산균 증식 및 유해균 억제･배변활동 원활･장 건강에 도움을 줄 수 있음\n①칼슘과...,https://shopping-phinf.pstatic.net/main_494241...
41632,덴마크 유산균 이뮨 플러스,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 흰노랑색 분말을 함유한 투명경질캡슐,"1일 1회, 1회 1캡슐씩 충분한 물과 함께 섭취","습기가 적고 직사광선을 피하여 서늘한 곳에 보관하며, 어린이 손에 닿지 않도록 주의",비타민D\n1. 고칼슘혈증이 있거나 의약품 복용 시 전문가와 상담할 것\n2. 이상...,비타민D\n1. 칼슘과 인이 흡수되고 이용되는데 필요\n2. 뼈의 형성과 유지에 필...,https://shopping-phinf.pstatic.net/main_469471...


In [42]:
# 'PILL_NAME' 열에서 중복된 행 제거
df_cleaned = df_cleaned.drop_duplicates(subset=['PILL_NAME'])

In [43]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 28267 entries, 0 to 41633
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   PILL_NAME        28267 non-null  object
 1   EXPIRATION_DATE  28267 non-null  object
 2   APPEARANCE       28267 non-null  object
 3   DOSE_AMOUNT      28267 non-null  object
 4   STORAGE_METHOD   28267 non-null  object
 5   DOSE_GUIDE       28267 non-null  object
 6   FUNCTIONALITY    28267 non-null  object
 7   IMAGE_URL        28267 non-null  object
dtypes: object(8)
memory usage: 1.9+ MB


In [44]:
df_cleaned

Unnamed: 0,PILL_NAME,EXPIRATION_DATE,APPEARANCE,DOSE_AMOUNT,STORAGE_METHOD,DOSE_GUIDE,FUNCTIONALITY,IMAGE_URL
0,+프리맥,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 흑갈색의 내용물을 함유한 갈흑색의 타원형 연질캡슐","1일 1회, 1회 2캡슐을 충분한 물과 함께 섭취하십시오. 1일 2회, 1회 1캡슐...","수분, 열에 의해 품질에 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관...","임산부, 수유부, 청소년 및 어린이는 섭취를 피하십시오.\n심혈관약 등 복용, 혈액...",혈중 콜레스테롤 수치 개선에 도움을 줄 수 있음.,https://shopping-phinf.pstatic.net/main_500684...
1,11종 혼합유산균,제조일로부터 24개월까지,고유의 향미가 있고 이미·이취가 없는 노랑 하양색의 입자성이 있는 분말,건강기능식품 원료로 사용,냉장조건,1. 질환이 있거나 의약품 복용 시 전문가와 상담하십시오.\n2. 알레르기 체질 등...,유산균 증식 및 유해균 억제·배변활동 원활에 도움을 줄 수 있음,https://shopping-phinf.pstatic.net/main_855213...
2,6년근 고려홍삼정 PREMIUM,제조일로부터 24개월,암갈색의 액상으로 고유의 색택과 향미를 가지며 이미·이취가 없어야 한다._x000D_\n,"1일 3회, 1회 1스푼(3.2g)씩 물에 녹여 섭취 하십시요._x000D_\n",직사광선을 피해 건조하고 서늘한 곳에서 보관한다._x000D_\n,"[홍삼제품]의약품(당뇨치료제, 혈액항응고제) 복용 시 섭취에 주의_x000D_\n2...",①면역력 증진②피로개선③혈소판 응집 억제를 통한 혈액흐름에 도움④기억력 개선⑤항산화...,https://shopping-phinf.pstatic.net/main_823383...
3,6년근 홍삼 자신만만 홍삼스틱,제조일부터 2 년,고유의 색택과 향미를 가지며 이미와 이취가 없는 액상,"1일 1회, 1회 1포를 섭취하십시오.","습기와 직사광선을 피하여 실온에 보관하시고, 개봉 후에는 반드시 냉장 보관하십시오.",⑴ 특수체질이거나 알레르기 체질인 경우에는 섭취 전에 반드시 원료명 및 함량을 확인...,⑴ 면역력 증진에 도움을 줄 수 있음\n ⑵ 피로개선에 도움을 줄 수 있음\n...,https://shopping-phinf.pstatic.net/main_421553...
4,ATOMY VITAMIN C(브라질),제조일로부터 24개월,"고유의 향미가 있고 이미, 이취가 없는 빨강색의 입자성이 있는 내용물을 포함한 흰 ...","1일 1회, 1회 1포를 섭취하십시오.","습기가 적고 직사광선을 받지 않는 실온에 보관하시고, 어린이의 손에 닿지 않도록 주...","- 특이체질, 알레르기 체질의 경우에는 개인에 따라 과민반응을 나타낼 수 있으므로 ...",[비타민C] ①결합조직 형성과 기능유지에 필요 ②철의 흡수에 필요 ③항산화 작용을 ...,https://shopping-phinf.pstatic.net/main_834438...
...,...,...,...,...,...,...,...,...
41629,데커신더블업,제조일로부터 2년,"고유의 향미가 있고 이미, 이취가 없는 점박이가 있는 밝은 회황색의 장방형 제피정제","1일 1회, 1회 2정을 충분한 물과 함께 섭취하십시오.1일 2회, 1회 1정을 충...",수분 및 열에 의해 영향을 받을 수 있으므로 직사광선을 피해 서늘한 곳에 보관하십시...,섭취 시 목에 걸리거나 불편할 수 있으므로 반드시 물과 함께 섭취하십시오. \n섭취...,1) 참당귀추출분말(Nutragen) : 노화로 저하된 인지기능 개선에 도움을 줄 ...,https://shopping-phinf.pstatic.net/main_494333...
41630,덴디돌,제조일로부터 24개월,탁한 분홍 ~ 흐린 자주색의 제피정제,"1일 1회, 1회 1정(1.3g)을 충분한 물과 함께 섭취하십시오.",① 제품은 직사광선을 피하고 실온에서 보관 유통하십시오. ② 제품 개봉 후에는 ...,"① 프로폴리스에 알레르기를 나타내는 사람은 섭취에 주의. \n② 임산부, 수유...",칼슘 : ① 뼈와 치아 형성에 필요\n ② 신경과 근육 기능 유지...,https://shopping-phinf.pstatic.net/main_462200...
41631,덴마크 락토지지(LactoGG) 유산균,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 노란 하얀색의 분말,"1일 1회, 1회 1포를 섭취하십시오.",1. 구입 후 반드시 냉장보관 하십시오. 2. 개봉 후에는 공기의 노출을 최대한 차...,"특정질환, 특이체질, 알레르기체질, 임산부의 경우에는 간혹 개인에 따라 과민반응이 ...",유산균 증식 및 유해균 억제･배변활동 원활･장 건강에 도움을 줄 수 있음\n①칼슘과...,https://shopping-phinf.pstatic.net/main_494241...
41632,덴마크 유산균 이뮨 플러스,제조일로부터 18개월,고유의 향미가 있고 이미·이취가 없는 흰노랑색 분말을 함유한 투명경질캡슐,"1일 1회, 1회 1캡슐씩 충분한 물과 함께 섭취","습기가 적고 직사광선을 피하여 서늘한 곳에 보관하며, 어린이 손에 닿지 않도록 주의",비타민D\n1. 고칼슘혈증이 있거나 의약품 복용 시 전문가와 상담할 것\n2. 이상...,비타민D\n1. 칼슘과 인이 흡수되고 이용되는데 필요\n2. 뼈의 형성과 유지에 필...,https://shopping-phinf.pstatic.net/main_469471...


In [45]:
# 최종 파일로 저장
df_cleaned.to_excel('pill_data.xlsx', index=False)