In [1]:
import pandas as pd
import numpy as np


file_path = "data/25년_수확량 통계.csv"
# xls = pd.ExcelFile(file_path)
# sheet_names = xls.sheet_names
# print(sheet_names)

# df = pd.read_excel(xls, sheet_name='Sheet1')
df= pd.read_csv(file_path)
print(df.head())

print("--- [시작] 데이터 전처리(공백 및 타입 정리)를 시작합니다. ---")

# 2. [문자형] 컬럼 공백 제거 (앞/뒤 공백)
# 분석에 주로 사용되는 범주형 컬럼들
categorical_cols = [
    '지역', '코드번호', '경작자', '구분', 'CASE', '시비 처리', '작물', '품종'
]

for col in categorical_cols:
    if col in df.columns:
        df[col] = df[col].astype(str).str.strip()

# 2-1. [문자형] '품종' 컬럼의 *중간* 공백도 모두 제거
if '품종' in df.columns:
    df['품종'] = df['품종'].str.replace(r'\s+', '', regex=True)

print("범주형(문자) 컬럼 공백 정리 완료.")

# 3. [숫자형] 문자열로 저장된 숫자 컬럼 정리
# (쉼표, 공백이 포함된 컬럼들)
numeric_object_cols = [
    '면적(m2)', '면적(평)', '수확량(kg)', '건중량(kg)',
    '평당 수확량', '건조 수확량(kg/10a)', '총 질소 살포량(kg/10a)'
]

for col in numeric_object_cols:
    if col in df.columns:
        # 1. 문자로 변환 (결측치는 'nan' 문자열이 됨)
        s = df[col].astype(str)
        # 2. 쉼표(,) 제거
        s = s.str.replace(',', '', regex=False)
        # 3. 모든 공백(앞/뒤/중간) 제거
        s = s.str.replace(r'\s+', '', regex=True)

        # 4. 숫자로 변환 (변환 안되는 값은 NaN 처리)
        df[col] = pd.to_numeric(s, errors='coerce')

print("숫자형(문자) 컬럼 숫자 타입 변환 완료.")

print("--- [완료] 데이터 전처리 완료. ---")

# 4. [확인] 전처리 후 데이터 정보 출력
print("\n--- [처리 후] 데이터 정보 (df.info()) ---")
df.info()

   지역    년도   코드번호                         주소  경작자   면적(m2)    면적(평)    구분  \
0  김제  2025  GJ-R1  전북특별자치도 김제시 부량면 용성리 22-11  장수용   4,000    1,210    실증    
1  김제  2025  GJ-R2     전북특별자치도 김제시 부량면 신용리 12  장수용   4,000    1,210    실증    
2  김제  2025  GJ-R3   전북특별자치도 김제시 부량면 신용리 12-1  장수용   4,000    1,210    실증    
3  김제  2025  GJ-R4   전북특별자치도 김제시 부량면 신용리 12-2  장수용   3,980    1,204    실증    
4  김제  2025  GJ-R5   전북특별자치도 김제시 부량면 신용리 12-3  장수용   4,000    1,210    실증    

  CASE             시비 처리  ... 포대당 질소 무게(kg) 밑거름 살포량(kg/면적)  밑거름 살포량(kg/10a)  \
0   1    밑거름 정량, 웃거름 변량   ...          4.95          54.45           13.61    
1   1    밑거름 정량, 웃거름 변량   ...          4.95          54.45           13.61    
2   2    밑거름 정량, 웃거름 변량   ...          4.95          54.45           13.61    
3   2    밑거름 정량, 웃거름 변량   ...          4.95          49.50           12.44    
4   2    밑거름 정량, 웃거름 변량   ...          4.95          54.45           13.61    

   밑거름 살포량-필요질소량  웃거름 살포수량  웃거름 포대당 무게(kg)  웃거름 비료 질소 함량

In [15]:
df_hw = df[df['지역'] == '화성'].reset_index(drop=True)
df_hw = df_hw[df_hw['코드번호'] != 'nan']
df_hw

Unnamed: 0,지역,년도,코드번호,주소,경작자,면적(m2),면적(평),구분,CASE,시비 처리,...,포대당 질소 무게(kg),밑거름 살포량(kg/면적),밑거름 살포량(kg/10a),밑거름 살포량-필요질소량,웃거름 살포수량,웃거름 포대당 무게(kg),웃거름 비료 질소 함량,웃거름 질소 살포량(kg/면적),총 질소 살포량(kg/면적),총 질소 살포량(kg/10a)
0,화성,2025,HS-R1,경기도 화성시 장안면 수촌리 1167,배선문,5155.0,1559.0,실증,1,"밑거름 정량, 웃거름 변량",...,5.6,67.2,13.04,-0.18,3.0,20.0,0.28,16.8,84.0,16.29
1,화성,2025,HS-R2,경기도 화성시 장안면 수촌리 1168,배선문,4996.0,1511.0,실증,1,"밑거름 정량, 웃거름 변량",...,5.6,67.2,13.45,-1.7,3.4,20.0,0.28,19.04,86.24,17.26
2,화성,2025,HS-R3,경기도 화성시 장안면 수촌리 1254,이상린(호영찬),4911.0,1486.0,실증,2,"밑거름 미달, 웃거름 변량",...,3.6,32.4,6.6,-10.34,1.0,20.0,0.28,5.6,38.0,7.74
3,화성,2025,HS-R4,경기도 화성시 장안면 수촌리 1253,이상린(호영찬),4929.0,1491.0,실증,3,"밑거름 미달, 웃거름 관행",...,3.6,43.2,8.76,-6.57,0.0,20.0,0.28,0.0,43.2,8.76
4,화성,2025,HS-R5,경기도 화성시 장안면 장안리 1655,서장식,4917.0,1487.0,실증,2,"밑거름 정량, 웃거름 변량",...,5.6,61.6,12.53,-4.65,3.0,20.0,0.46,27.6,89.2,18.14
5,화성,2025,HS-R6,경기도 화성시 장안면 장안리 1654,서장식,4799.0,1452.0,실증,3,"밑거름 과다, 웃거름 관행",...,5.6,64.4,13.42,2.63,3.0,20.0,0.46,27.6,92.0,19.17
6,화성,2025,HS-R7,경기도 화성시 장안면 장안리 1653,서장식,5111.0,1546.0,실증,2,"밑거름 정량, 웃거름 변량",...,5.6,67.2,13.15,-3.01,3.0,20.0,0.46,27.6,94.8,18.55
7,화성,2025,HS-R8,경기도 화성시 장안면 장안리 1652,서장식,4980.0,1506.0,실증,3,"밑거름 미달, 웃거름 관행",...,5.6,61.6,12.37,-27.87,3.0,20.0,0.46,27.6,89.2,17.91
8,화성,2025,HS-R9,경기도 화성시 장안면 장안리 1632,안일기,5180.0,1567.0,실증,2,"밑거름 미달, 웃거름 변량",...,4.4,44.0,8.49,-22.23,2.0,20.0,0.46,18.4,62.4,12.05
9,화성,2025,HS-R10,경기도 화성시 장안면 장안리 1625,안일기,5027.0,1521.0,실증,3,"밑거름 미달, 웃거름 관행",...,4.4,44.0,8.75,-13.9,2.0,20.0,0.46,18.4,62.4,12.41


In [18]:
import pandas as pd
import plotly.express as px

In [21]:
code_order = list(df_hw['코드번호'])

In [24]:
fig = px.bar(
    df_hw,             # 사용할 집계 데이터
    x='코드번호',                  # X축: CASE
    y='건조 수확량(kg/10a)', # Y축: 평균 수확량
    color='시비 처리',                # [수정] 색상: '품종'별로
    text='건조 수확량(kg/10a)', # 막대 위에 값 표시
    title="필지별 건조 수확량 (2025년)",
    category_orders={"코드번호": code_order}
   )
max_yield = df_hw['건조 수확량(kg/10a)'].max()

# 6. 레이아웃 업데이트
fig.update_layout(
    height=600,
    font=dict(family="Malgun Gothic, AppleGGothic, sans-serif"),
    bargap=0.1,         # 그룹 내 막대 간격
    bargroupgap=0.1,    # 그룹 간 간격
    title_x=0.5,         # 제목 가운데 정렬
    uniformtext_minsize=10, # [NEW] 텍스트 최소 크기를 25로 강제
    uniformtext_mode='show'
)
fig.update_xaxes(title_text='CASE')
fig.update_yaxes(range=[0, None]) # Y축 0부터 시작
# fig.update_traces(texttemplate='%{y:.1f}', textposition='outside') # 텍스트 포맷

# 8. [수정 2] Y축 범위 설정 (최대값의 115%로 설정하여 상단 여유 공간 확보)
fig.update_yaxes(range=[0, max_yield * 1.15])
# 7. [수정] 텍스트 폰트 크기 및 색상 지정
fig.update_traces(
    texttemplate='%{y:.1f}',
    textposition='outside',
    textfont=dict(
        # size=25,      # 폰트 크기를 14로 설정
        color='white' # 폰트 색상을 검은색으로 설정
    )
)

# 제목 가운데 정렬
fig.update_layout(title_x=0.5,
                      # --- 범례 위치 설정 ---
    legend=dict(
        orientation="h",   # 범례 수직 정렬
        yanchor="top",     # Y축 기준: 위쪽
        y=-0.2,               # Y 위치: 맨 위
        xanchor="center",   # X축 기준: 오른쪽
        x=0.5# X 위치 (차트 영역 오른쪽)
 )
                  )
fig.show()

In [25]:
# --- 4. 이미지(PNG)로 저장 ---
try:
    image_filename = "화성 필지별 수확량.png"
    fig.write_image(
        image_filename,
        width=1200,
        height=600,
        scale=2  # 2배 해상도
    )
    print(f"\n성공: 그래프를 '{image_filename}' 파일로 저장했습니다.")
except Exception as e:
    print(f"\n오류: {e}")
    print("PC에 'kaleido'가 설치되었는지 확인해주세요. (pip install -U kaleido)")


성공: 그래프를 '화성 필지별 수확량.png' 파일로 저장했습니다.


In [34]:

region_yield = df.groupby(['지역'])['건조 수확량(kg/10a)'].mean().reset_index()
region_graph = region_yield[region_yield['지역'].isin(['구례', '김제', '순창', '진천', '화성'])]
region_graph

Unnamed: 0,지역,건조 수확량(kg/10a)
1,구례,590.135714
2,김제,666.316538
3,순창,854.334545
6,진천,786.44
9,화성,875.434167


In [36]:
fig = px.bar(
    region_graph,             # 사용할 집계 데이터
    x='지역',                  # X축: CASE
    y='건조 수확량(kg/10a)', # Y축: 평균 수확량
    text='건조 수확량(kg/10a)', # 막대 위에 값 표시,
    color='지역',
    title="지역별 평균 수확량(kg/10a) (2025년)",
   )
max_yield = region_graph['건조 수확량(kg/10a)'].max()

# 6. 레이아웃 업데이트
fig.update_layout(
    height=600,
    font=dict(family="Malgun Gothic, AppleGGothic, sans-serif"),
    bargap=0.1,         # 그룹 내 막대 간격
    bargroupgap=0.1,    # 그룹 간 간격
    title_x=0.5,         # 제목 가운데 정렬
    uniformtext_minsize=10, # [NEW] 텍스트 최소 크기를 25로 강제
    uniformtext_mode='show'
)

fig.update_yaxes(range=[0, max_yield * 1.15])
# 7. [수정] 텍스트 폰트 크기 및 색상 지정
fig.update_traces(
    texttemplate='%{y:.1f}',
    textposition='outside',
    textfont=dict(
        # size=25,      # 폰트 크기를 14로 설정
        color='white' # 폰트 색상을 검은색으로 설정
    )
)

# 제목 가운데 정렬

fig.show()

In [37]:
# --- 4. 이미지(PNG)로 저장 ---
try:
    image_filename = "지역별 평균 수확량.png"
    fig.write_image(
        image_filename,
        width=1200,
        height=600,
        scale=2  # 2배 해상도
    )
    print(f"\n성공: 그래프를 '{image_filename}' 파일로 저장했습니다.")
except Exception as e:
    print(f"\n오류: {e}")
    print("PC에 'kaleido'가 설치되었는지 확인해주세요. (pip install -U kaleido)")


성공: 그래프를 '지역별 평균 수확량.png' 파일로 저장했습니다.
