In [1]:
import os
from pymongo import MongoClient
from dotenv import load_dotenv

# .env 파일 로드
load_dotenv()

# 환경 변수 읽기
MONGO_URI = os.getenv('MONGO_URI')  # MongoDB URI
MONGO_DB_NAME = os.getenv('MONGO_DB_NAME')  # MongoDB 데이터베이스 이름

# MongoDB 연결
client = MongoClient(MONGO_URI)
db = client[MONGO_DB_NAME]  # 데이터베이스 선택

print(f"데이터베이스 '{MONGO_DB_NAME}'에 연결되었습니다.")

데이터베이스 'auction_price'에 연결되었습니다.


In [2]:
import pandas as pd

# 컬렉션 선택
collection = db['agromarket']  

data = list(collection.find())  # MongoDB 데이터를 리스트로 변환

df = pd.DataFrame(data)

In [3]:
df.head()

Unnamed: 0,_id,일자,연도,월,일,계절,부류,품목,도매시장,총물량(kg),총금액(원),총단가(원/kg),평균물량(kg),평균금액(원),평균단가(원/kg)
0,6767f933080db7fd29c186db,2019-09-02,2019,9,2,가을,과실류,감귤,강릉,650.0,2670000.0,4107.692308,650.0,2670000.0,4107.692308
1,6767f933080db7fd29c186dc,2019-09-02,2019,9,2,가을,과실류,곶감,강릉,48.0,132000.0,2750.0,48.0,132000.0,2750.0
2,6767f933080db7fd29c186dd,2019-09-02,2019,9,2,가을,과실류,무화과,강릉,20.0,90000.0,4500.0,20.0,90000.0,4500.0
3,6767f933080db7fd29c186de,2019-09-02,2019,9,2,가을,과실류,바나나,강릉,1404.0,2938000.0,2092.592593,702.0,1469000.0,2092.592593
4,6767f933080db7fd29c186df,2019-09-02,2019,9,2,가을,과실류,배,강릉,10657.5,34569400.0,3243.668778,3552.5,11523130.0,3243.668778


In [4]:
df.describe()

Unnamed: 0,연도,월,일,총물량(kg),총금액(원),총단가(원/kg),평균물량(kg),평균금액(원),평균단가(원/kg)
count,5643209.0,5643209.0,5643209.0,5643209.0,5643209.0,5643209.0,5643209.0,5643209.0,5643209.0
mean,2021.524,6.552971,15.78309,5862.736,12271400.0,4967.866,1301.181,2626121.0,4967.866
std,1.712992,3.421168,8.737152,33671.84,61185570.0,20218.88,5480.042,7493261.0,20218.88
min,2019.0,1.0,1.0,0.001,2.0,0.4525403,0.001,2.0,0.4525403
25%,2020.0,4.0,8.0,46.5,175000.0,1729.129,30.0,115025.0,1729.129
50%,2022.0,7.0,16.0,330.0,1032000.0,3043.085,162.7636,511900.0,3043.085
75%,2023.0,10.0,23.0,2195.0,5769700.0,5600.0,786.0,2160000.0,5600.0
max,2024.0,12.0,31.0,20652540.0,7725156000.0,30000000.0,4401350.0,1279800000.0,30000000.0


In [5]:
# 데이터 내 유효하지 않은 값 확인
print("NaN 값 개수:")
print(df.isna().sum())  # NaN 값 개수 확인

print("\ninf 값 개수:")
print((df == float('inf')).sum())  # inf 값 개수 확인

print("\n-inf 값 개수:")
print((df == float('-inf')).sum())  # -inf 값 개수 확인


NaN 값 개수:
_id             0
일자              0
연도              0
월               0
일               0
계절              0
부류              0
품목              0
도매시장            0
총물량(kg)         0
총금액(원)          0
총단가(원/kg)     980
평균물량(kg)        0
평균금액(원)         0
평균단가(원/kg)    980
dtype: int64

inf 값 개수:
_id             0
일자              0
연도              0
월               0
일               0
계절              0
부류              0
품목              0
도매시장            0
총물량(kg)         0
총금액(원)          0
총단가(원/kg)     123
평균물량(kg)        0
평균금액(원)         0
평균단가(원/kg)    123
dtype: int64

-inf 값 개수:
_id             0
일자              0
연도              0
월               0
일               0
계절              0
부류              0
품목              0
도매시장            0
총물량(kg)         0
총금액(원)          0
총단가(원/kg)     220
평균물량(kg)        0
평균금액(원)         0
평균단가(원/kg)    220
dtype: int64


In [6]:
# 총물량(kg)이 0인 행 확인
print(df[df['총물량(kg)'] == 0])

# 평균물량(kg)이 0인 행 확인
print(df[df['평균물량(kg)'] == 0])


                              _id          일자    연도   월   일  계절     부류    품목  \
1492     67670ebad0230abe8a2930f2  2019-09-20  2019   9  20  가을   엽경채류    고수   
6771     67670ebad0230abe8a294591  2019-11-20  2019  11  20  가을   엽경채류    깻잎   
7307     67670ebbd0230abe8a2947a9  2019-11-26  2019  11  26  가을  조미채소류   건고추   
41084    67670ebbd0230abe8a29cb9a  2019-11-15  2019  11  15  가을    과실류    석류   
46927    67670ebbd0230abe8a29e26d  2019-10-22  2019  10  22  가을    과실류   오렌지   
...                           ...         ...   ...  ..  ..  ..    ...   ...   
5601628  67670ef2d0230abe8a7ea47a  2024-01-27  2024   1  27  겨울    근채류    우엉   
5602753  67670ef2d0230abe8a7ea8df  2024-02-13  2024   2  13  겨울    과실류    용과   
5615352  67670ef2d0230abe8a7eda16  2024-02-02  2024   2   2  겨울    양채류    적채   
5640102  67670ef2d0230abe8a7f3ac4  2024-02-17  2024   2  17  겨울    과실류  블루베리   
5640926  67670ef2d0230abe8a7f3dfc  2024-02-27  2024   2  27  겨울    과실류    체리   

         도매시장  총물량(kg)    총금액(원)  총단가(원

In [None]:
# 총단가(원/kg)와 평균단가(원/kg) 다시 계산
df['총단가(원/kg)'] = df.apply(
    lambda row: row['총금액(원)'] / row['총물량(kg)'] if row['총물량(kg)'] != 0 else 0, axis=1
)

df['평균단가(원/kg)'] = df.apply(
    lambda row: row['평균금액(원)'] / row['평균물량(kg)'] if row['평균물량(kg)'] != 0 else 0, axis=1
)
