In [1]:
import pandas as pd

In [4]:
# !pip install xlrd>=2.0.1

In [2]:
# XLS 파일 불러오기
file_path = r"../data/raw/agromarket/서울가락_20190801_20190830.xls"
data = pd.read_excel(file_path)

In [3]:
data.head()

Unnamed: 0,일자,부류,품목,품종,도매시장,법인,물량(kg),금액(원)
0,20190830,신선 해조류,파래,갈파래,서울가락,한국청과㈜,80.0,160000
1,20190830,신선 해조류,파래,파래,서울가락,㈜중앙청과,60.0,126000
2,20190830,관엽식물류,안스리움,베이비마일,서울가락,서울청과㈜,123.0,1028200
3,20190830,약용작물류,참당귀,당귀잎,서울가락,㈜중앙청과,149.0,1552500
4,20190830,약용작물류,참당귀,당귀잎,서울가락,동화청과㈜,717.0,9328600


In [4]:
# 1. 날짜를 연, 월, 일로 분리
data["일자"] = pd.to_datetime(data["일자"], format="%Y%m%d")  # 날짜 형식 변환
data["연도"] = data["일자"].dt.year
data["월"] = data["일자"].dt.month
data["일"] = data["일자"].dt.day

In [5]:
data.head()

Unnamed: 0,일자,부류,품목,품종,도매시장,법인,물량(kg),금액(원),연도,월,일
0,2019-08-30,신선 해조류,파래,갈파래,서울가락,한국청과㈜,80.0,160000,2019,8,30
1,2019-08-30,신선 해조류,파래,파래,서울가락,㈜중앙청과,60.0,126000,2019,8,30
2,2019-08-30,관엽식물류,안스리움,베이비마일,서울가락,서울청과㈜,123.0,1028200,2019,8,30
3,2019-08-30,약용작물류,참당귀,당귀잎,서울가락,㈜중앙청과,149.0,1552500,2019,8,30
4,2019-08-30,약용작물류,참당귀,당귀잎,서울가락,동화청과㈜,717.0,9328600,2019,8,30


In [6]:
# 소수점 제한 디스플레이 설정
pd.options.display.float_format = "{:.2f}".format

In [7]:
# 물량과 금액의 합계 및 평균 계산 후 컬럼 추가
data["총물량(kg)"] = data.groupby(["일자", "부류", "품목", "품종", "도매시장"])["물량(kg)"].transform("sum")
data["평균물량(kg)"] = data.groupby(["일자", "부류", "품목", "품종", "도매시장"])["물량(kg)"].transform("mean")
data["총금액(원)"] = data.groupby(["일자", "부류", "품목", "품종", "도매시장"])["금액(원)"].transform("sum")
data["평균금액(원)"] = data.groupby(["일자", "부류", "품목", "품종", "도매시장"])["금액(원)"].transform("mean")


In [8]:
data.head()

Unnamed: 0,일자,부류,품목,품종,도매시장,법인,물량(kg),금액(원),연도,월,일,총물량(kg),평균물량(kg),총금액(원),평균금액(원)
0,2019-08-30,신선 해조류,파래,갈파래,서울가락,한국청과㈜,80.0,160000,2019,8,30,80.0,80.0,160000.0,160000.0
1,2019-08-30,신선 해조류,파래,파래,서울가락,㈜중앙청과,60.0,126000,2019,8,30,60.0,60.0,126000.0,126000.0
2,2019-08-30,관엽식물류,안스리움,베이비마일,서울가락,서울청과㈜,123.0,1028200,2019,8,30,123.0,123.0,1028200.0,1028200.0
3,2019-08-30,약용작물류,참당귀,당귀잎,서울가락,㈜중앙청과,149.0,1552500,2019,8,30,913.0,304.33,11511700.0,3837233.33
4,2019-08-30,약용작물류,참당귀,당귀잎,서울가락,동화청과㈜,717.0,9328600,2019,8,30,913.0,304.33,11511700.0,3837233.33


In [9]:
# 총단가 및 평균단가 계산
data["총단가(원/kg)"] = data["총금액(원)"] / data["총물량(kg)"]
data["평균단가(원/kg)"] = data["평균금액(원)"] / data["평균물량(kg)"]


In [10]:
# 중복 제거 (같은 그룹 기준으로 하나만 남기기)
data = data.drop_duplicates(subset=["일자", "부류", "품목", "품종", "도매시장"], keep="first")


In [11]:
data.head()

Unnamed: 0,일자,부류,품목,품종,도매시장,법인,물량(kg),금액(원),연도,월,일,총물량(kg),평균물량(kg),총금액(원),평균금액(원),총단가(원/kg),평균단가(원/kg)
0,2019-08-30,신선 해조류,파래,갈파래,서울가락,한국청과㈜,80.0,160000,2019,8,30,80.0,80.0,160000.0,160000.0,2000.0,2000.0
1,2019-08-30,신선 해조류,파래,파래,서울가락,㈜중앙청과,60.0,126000,2019,8,30,60.0,60.0,126000.0,126000.0,2100.0,2100.0
2,2019-08-30,관엽식물류,안스리움,베이비마일,서울가락,서울청과㈜,123.0,1028200,2019,8,30,123.0,123.0,1028200.0,1028200.0,8359.35,8359.35
3,2019-08-30,약용작물류,참당귀,당귀잎,서울가락,㈜중앙청과,149.0,1552500,2019,8,30,913.0,304.33,11511700.0,3837233.33,12608.65,12608.65
6,2019-08-30,버섯류,기타,버섯류(기타),서울가락,동화청과㈜,20.0,220000,2019,8,30,20.0,20.0,220000.0,220000.0,11000.0,11000.0


In [9]:
# # 단가(1kg당 가격) 계산
# data["단가(원/kg)"] = data["금액(원)"] / data["물량(kg)"]

In [12]:
# 결측치 확인 후 제거
print("결측값 개수:\n", data.isnull().sum())
data = data.dropna()  

결측값 개수:
 일자              0
부류              0
품목              0
품종             13
도매시장            0
법인              0
물량(kg)          0
금액(원)           0
연도              0
월               0
일               0
총물량(kg)        13
평균물량(kg)       13
총금액(원)         13
평균금액(원)        13
총단가(원/kg)     154
평균단가(원/kg)    154
dtype: int64


In [13]:
data.isnull().sum()

일자            0
부류            0
품목            0
품종            0
도매시장          0
법인            0
물량(kg)        0
금액(원)         0
연도            0
월             0
일             0
총물량(kg)       0
평균물량(kg)      0
총금액(원)        0
평균금액(원)       0
총단가(원/kg)     0
평균단가(원/kg)    0
dtype: int64

In [14]:
# 중복 데이터 제거
data = data.drop_duplicates()  # 완전 동일한 행 제거

In [16]:
# 숫자형 데이터 형식 통일: 소수점 둘째 자리까지
for col in ["총물량(kg)", "평균물량(kg)", "총금액(원)", "평균금액(원)", "총단가(원/kg)", "평균단가(원/kg)"]:
    if col in data.columns:  # 열이 존재하는 경우에만 처리
        data[col] = data[col].round(2)

# 날짜 데이터 형식 통일 (YYYY-MM-DD 형식으로 설정)
if "일자" in data.columns:
    data["일자"] = pd.to_datetime(data["일자"]).dt.strftime("%Y-%m-%d")

# 문자열 데이터 형식 통일 (앞뒤 공백 제거)
string_columns = ["부류", "품목", "품종", "도매시장", "법인"]  # 문자열로 예상되는 열
for col in string_columns:
    if col in data.columns:  # 열이 존재하는 경우에만 처리
        data[col] = data[col].astype(str).str.strip()

In [18]:
data.head()

Unnamed: 0,일자,부류,품목,품종,도매시장,법인,물량(kg),금액(원),연도,월,일,총물량(kg),평균물량(kg),총금액(원),평균금액(원),총단가(원/kg),평균단가(원/kg)
0,2019-08-30,신선 해조류,파래,갈파래,서울가락,한국청과㈜,80.0,160000,2019,8,30,80.0,80.0,160000.0,160000.0,2000.0,2000.0
1,2019-08-30,신선 해조류,파래,파래,서울가락,㈜중앙청과,60.0,126000,2019,8,30,60.0,60.0,126000.0,126000.0,2100.0,2100.0
2,2019-08-30,관엽식물류,안스리움,베이비마일,서울가락,서울청과㈜,123.0,1028200,2019,8,30,123.0,123.0,1028200.0,1028200.0,8359.35,8359.35
3,2019-08-30,약용작물류,참당귀,당귀잎,서울가락,㈜중앙청과,149.0,1552500,2019,8,30,913.0,304.33,11511700.0,3837233.33,12608.65,12608.65
6,2019-08-30,버섯류,기타,버섯류(기타),서울가락,동화청과㈜,20.0,220000,2019,8,30,20.0,20.0,220000.0,220000.0,11000.0,11000.0


In [19]:
data.columns

Index(['일자', '부류', '품목', '품종', '도매시장', '법인', '물량(kg)', '금액(원)', '연도', '월', '일',
       '총물량(kg)', '평균물량(kg)', '총금액(원)', '평균금액(원)', '총단가(원/kg)', '평균단가(원/kg)'],
      dtype='object')

In [20]:
# 컬럼 순서 재정렬
columns_order = [
    "일자", "연도", "월", "일", 
    "부류", "품목", "품종", "도매시장", "법인",
    "물량(kg)", "금액(원)", 
    "총물량(kg)", "평균물량(kg)", 
    "총금액(원)", "평균금액(원)", 
    "총단가(원/kg)", "평균단가(원/kg)"
]

data = data[columns_order]

In [21]:
data.columns

Index(['일자', '연도', '월', '일', '부류', '품목', '품종', '도매시장', '법인', '물량(kg)', '금액(원)',
       '총물량(kg)', '평균물량(kg)', '총금액(원)', '평균금액(원)', '총단가(원/kg)', '평균단가(원/kg)'],
      dtype='object')

In [22]:
# 처리된 데이터 저장
output_file = r"../data/processed_agromarket_data.csv"
data.to_csv(output_file, index=False, encoding="utf-8-sig", float_format="%.2f")

print(f"전처리된 데이터가 {output_file}에 저장되었습니다.")

전처리된 데이터가 ../data/processed_agromarket_data.csv에 저장되었습니다.
