In [1]:
import pandas as pd

In [3]:
path = 'data/식품원재료정보.csv'
df = pd.read_csv(path, encoding='utf-8', low_memory=False)

#### 기본 정보 파악

In [6]:
df.shape

(18463, 9)

In [8]:
df.columns

Index(['LCLAS_NM', 'MLSFC_NM', 'RPRSNT_RAWMTRL_NM', 'RAWMTRL_NCKNM', 'ENG_NM',
       'SCNM', 'REGN_CD_NM', 'RAWMTRL_STATS_CD_NM', 'USE_CND_NM'],
      dtype='object')

In [10]:
df.dtypes

LCLAS_NM                object
MLSFC_NM                object
RPRSNT_RAWMTRL_NM       object
RAWMTRL_NCKNM           object
ENG_NM                  object
SCNM                    object
REGN_CD_NM              object
RAWMTRL_STATS_CD_NM    float64
USE_CND_NM              object
dtype: object

In [12]:
df.head()

Unnamed: 0,LCLAS_NM,MLSFC_NM,RPRSNT_RAWMTRL_NM,RAWMTRL_NCKNM,ENG_NM,SCNM,REGN_CD_NM,RAWMTRL_STATS_CD_NM,USE_CND_NM
0,식품원료(A코드),식물,Abiu열매,,"Yellow star apple, Caimito, Caimo, Luma",Pouteria caimito Radlk / Lucuma caimito Roem. ...,열매,,사용가능부위 : 열매
1,식품원료(A코드),식물,Abiu열매분말,,"Yellow star apple, Caimito, Caimo, Luma",Pouteria caimito Radlk / Lucuma caimito Roem. ...,열매,,사용가능부위 : 열매
2,식품원료(A코드),식물,Agathi꽃,,Acham,Sesbania grandiflora,꽃,,"사용가능부위 : 잎, 꽃"
3,식품원료(A코드),식물,Agathi잎,,Acham,Sesbania grandiflora,잎,,"사용가능부위 : 잎, 꽃"
4,식품원료(A코드),식물,Alder Buckthorn,,"Frangula bark, Frangula alnus (Mill.), Black d...",Rhamnus frangula (L),전체,,


#### 결측치 확인

In [15]:
df.isnull().sum().sort_values(ascending=False)

RAWMTRL_STATS_CD_NM    18463
USE_CND_NM              7702
SCNM                    4746
RAWMTRL_NCKNM           4021
ENG_NM                  1837
REGN_CD_NM               302
LCLAS_NM                   0
MLSFC_NM                   0
RPRSNT_RAWMTRL_NM          0
dtype: int64

#### 중복 여부 확인

In [18]:
df.duplicated().sum()

0

In [20]:
df['LCLAS_NM'].duplicated().sum()

18459

In [None]:
import pandas as pd

# -------------------------------
# 1. 데이터 불러오기 (한글 깨짐 방지)
# -------------------------------
path = 'data/식품원재료정보.csv'
df = pd.read_csv(path, encoding='utf-8-sig', low_memory=False)

# -------------------------------
# 2. 완전 결측 컬럼 제거
# -------------------------------
df = df.dropna(axis=1, how='all')  # e.g. RAWMTRL_STATS_CD_NM

# -------------------------------
# 3. '사용가능부위 :' 문자열 제거 (새로운 컬럼에 저장)
# -------------------------------
df['USE_CND'] = df['USE_CND_NM'].str.replace(r'사용가능부위\s*:\s*', '', regex=True)

# -------------------------------
# 4. 주요 컬럼 선택 및 재배열
# -------------------------------
selected_cols = [
    'RPRSNT_RAWMTRL_NM',   # 대표 원재료명
    'RAWMTRL_NCKNM',       # 별칭
    'ENG_NM',              # 영문명
    'SCNM',                # 학명
    'REGN_CD_NM',          # 부위
    'USE_CND',             # 사용가능 부위 (정제됨)
    'LCLAS_NM',            # 대분류명
    'MLSFC_NM'             # 중분류명
]
df_clean = df[selected_cols]

# -------------------------------
# 5. 컬럼명 한글로 rename (선택적)
# -------------------------------
df_clean = df_clean.rename(columns={
    'RPRSNT_RAWMTRL_NM': '원재료명',
    'RAWMTRL_NCKNM': '별칭',
    'ENG_NM': '영문명',
    'SCNM': '학명',
    'REGN_CD_NM': '부위',
    'USE_CND': '사용가능부위',
    'LCLAS_NM': '대분류',
    'MLSFC_NM': '중분류'
})

# -------------------------------
# 6. 결과 저장
# -------------------------------
output_path = 'data/식품원재료정보_전처리.csv'
df_clean.to_csv(output_path, index=False, encoding='utf-8-sig')
