In [1]:
import pandas as pd
import numpy as np

In [3]:
file_path = "../data/25년_수확량 통계.csv"
# xls = pd.ExcelFile(file_path)
# sheet_names = xls.sheet_names
# print(sheet_names)

df= pd.read_csv(file_path)


print("--- [시작] 데이터 전처리(공백 및 타입 정리)를 시작합니다. ---")

# 2. [문자형] 컬럼 공백 제거 (앞/뒤 공백)
# 분석에 주로 사용되는 범주형 컬럼들
categorical_cols = [
    '지역', '코드번호', '경작자', '구분', 'CASE', '시비 처리', '작물', '품종'
]

for col in categorical_cols:
    if col in df.columns:
        df[col] = df[col].astype(str).str.strip()

# 2-1. [문자형] '품종' 컬럼의 *중간* 공백도 모두 제거
if '품종' in df.columns:
    df['품종'] = df['품종'].str.replace(r'\s+', '', regex=True)

print("범주형(문자) 컬럼 공백 정리 완료.")

# 3. [숫자형] 문자열로 저장된 숫자 컬럼 정리
# (쉼표, 공백이 포함된 컬럼들)
numeric_object_cols = [
    '면적(m2)', '면적(평)', '수확량(kg)', '건중량(kg)',
    '평당 수확량', '건조 수확량(kg/10a)', '총 질소 살포량(kg/10a)'
]

for col in numeric_object_cols:
    if col in df.columns:
        # 1. 문자로 변환 (결측치는 'nan' 문자열이 됨)
        s = df[col].astype(str)
        # 2. 쉼표(,) 제거
        s = s.str.replace(',', '', regex=False)
        # 3. 모든 공백(앞/뒤/중간) 제거
        s = s.str.replace(r'\s+', '', regex=True)

        # 4. 숫자로 변환 (변환 안되는 값은 NaN 처리)
        df[col] = pd.to_numeric(s, errors='coerce')

print("숫자형(문자) 컬럼 숫자 타입 변환 완료.")

print("--- [완료] 데이터 전처리 완료. ---")

# 4. [확인] 전처리 후 데이터 정보 출력
print("\n--- [처리]")

print(df.head())

--- [시작] 데이터 전처리(공백 및 타입 정리)를 시작합니다. ---
범주형(문자) 컬럼 공백 정리 완료.
숫자형(문자) 컬럼 숫자 타입 변환 완료.
--- [완료] 데이터 전처리 완료. ---

--- [처리]
   지역    년도   코드번호                         주소  경작자  면적(m2)   면적(평)  구분 CASE  \
0  김제  2025  GJ-R1  전북특별자치도 김제시 부량면 용성리 22-11  장수용  4000.0  1210.0  실증    1   
1  김제  2025  GJ-R2     전북특별자치도 김제시 부량면 신용리 12  장수용  4000.0  1210.0  실증    1   
2  김제  2025  GJ-R3   전북특별자치도 김제시 부량면 신용리 12-1  장수용  4000.0  1210.0  실증    2   
3  김제  2025  GJ-R4   전북특별자치도 김제시 부량면 신용리 12-2  장수용  3980.0  1204.0  실증    2   
4  김제  2025  GJ-R5   전북특별자치도 김제시 부량면 신용리 12-3  장수용  4000.0  1210.0  실증    2   

            시비 처리  ... 밑거름 살포수량(포대) 밑거름 포대당 무게(kg)  포대당 질소 무게(kg)  \
0  밑거름 정량, 웃거름 변량  ...         11.0           15.0           4.95   
1  밑거름 정량, 웃거름 변량  ...         11.0           15.0           4.95   
2  밑거름 정량, 웃거름 변량  ...         11.0           15.0           4.95   
3  밑거름 정량, 웃거름 변량  ...         10.0           15.0           4.95   
4  밑거름 정량, 웃거름 변량  ...         11.0           15.0         

In [4]:
df_gr = df[df['지역'] == '구례'].reset_index(drop=True)
df_gr = df_gr.dropna(subset='코드번호')
df_sc = df[df['지역'] == '순창'].reset_index(drop=True)

In [5]:
df_gr.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 45 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   지역                 14 non-null     object 
 1   년도                 14 non-null     int64  
 2   코드번호               14 non-null     object 
 3   주소                 14 non-null     object 
 4   경작자                14 non-null     object 
 5   면적(m2)             14 non-null     float64
 6   면적(평)              14 non-null     float64
 7   구분                 14 non-null     object 
 8   CASE               14 non-null     object 
 9   시비 처리              14 non-null     object 
 10   작물                14 non-null     object 
 11  품종                 14 non-null     object 
 12  soil_pH            0 non-null      float64
 13  soil_EC            0 non-null      float64
 14  soil_OM            12 non-null     float64
 15  soil_AVP           0 non-null      float64
 16  soil_AVSi          12 non-nu

In [6]:
df_gr

Unnamed: 0,지역,년도,코드번호,주소,경작자,면적(m2),면적(평),구분,CASE,시비 처리,...,밑거름 살포수량(포대),밑거름 포대당 무게(kg),포대당 질소 무게(kg),밑거름 살포량(kg/면적),웃거름 살포수량,웃거름 포대당 무게(kg),웃거름 비료 질소 함량,웃거름 질소 살포량(kg/면적),총 질소 살포량(kg/면적),총 질소 살포량(kg/10a)
0,구례,2025,GR-01,전라남도 구례군 용방면 신도리 1154-3,양홍식,2202.0,666.0,매출,2,"밑거름 정량, 웃거름 변량",...,4.0,20.0,4.0,16.0,0.85,20.0,0.46,7.82,23.82,10.82
1,구례,2025,GR-02,전라남도 구례군 용방면 신도리 1154-11,양홍식,1431.0,433.0,매출,2,"밑거름 정량, 웃거름 변량",...,3.0,20.0,4.0,12.0,0.55,20.0,0.46,5.06,17.06,11.92
2,구례,2025,GR-03,전라남도 구례군 용방면 신도리 1154-12,양홍식,4625.0,1399.0,매출,2,"밑거름 정량, 웃거름 변량",...,9.0,20.0,4.0,36.0,1.75,20.0,0.46,16.1,52.1,11.26
3,구례,2025,GR-04,전라남도 구례군 용방면 신도리 1155-8,양홍식,3484.0,1054.0,매출,2,"밑거름 정량, 웃거름 변량",...,8.0,20.0,4.0,32.0,1.3,20.0,0.46,11.96,43.96,12.62
4,구례,2025,GR-05,전라남도 구례군 용방면 신도리 1155-10,양홍식,2520.0,762.0,매출,2,"밑거름 정량, 웃거름 변량",...,4.0,20.0,4.0,16.0,0.95,20.0,0.46,8.74,24.74,9.82
5,구례,2025,GR-06,전라남도 구례군 용방면 신도리 1155-13,양홍식,2694.0,815.0,매출,2,"밑거름 정량, 웃거름 변량",...,6.0,20.0,4.0,24.0,1.0,20.0,0.46,9.2,33.2,12.32
6,구례,2025,GR-07,"전라남도 구례군 용방면 신도리 1155-17,1155-18,1155-19",양홍식,4301.0,1301.0,매출,2,"밑거름 정량, 웃거름 변량",...,9.0,20.0,4.0,36.0,1.65,20.0,0.46,15.18,51.18,11.9
7,구례,2025,GR-08,전라남도 구례군 용방면 신도리 1162-6,양홍식,4112.0,1244.0,매출,2,"밑거름 정량, 웃거름 변량",...,10.0,20.0,4.0,40.0,1.55,20.0,0.46,14.26,54.26,13.2
8,구례,2025,GR-09,"전라남도 구례군 용방면 신도리 1162-9,1162-10",양홍식,3029.0,916.0,매출,2,"밑거름 정량, 웃거름 변량",...,6.0,20.0,4.0,24.0,1.15,20.0,0.46,10.58,34.58,11.42
9,구례,2025,GR-10,전라남도 구례군 용방면 중방리 688-4,양홍식,2129.0,644.0,매출,2,"밑거름 정량, 웃거름 변량",...,5.0,20.0,4.0,20.0,0.8,20.0,0.46,7.36,27.36,12.85


In [8]:
import pandas as pd
import plotly.express as px
import numpy as np

# ---------------------------------------------------------
# 1. 데이터 전처리 (Filtering)
# ---------------------------------------------------------

# (1) 구례 데이터에서 '코드번호'가 결측치(NaN)인 행 제거
# dropna: 실제 NaN 값 제거
df_gr_clean = df_gr.dropna(subset=['코드번호']).copy()

# 혹시 전처리 과정에서 NaN이 문자열 'nan'이나 공백으로 변했을 경우를 대비해 추가 필터링
df_gr_clean = df_gr_clean[
    (df_gr_clean['코드번호'].astype(str) != 'nan') &
    (df_gr_clean['코드번호'].astype(str).str.strip() != '')
]

# ---------------------------------------------------------
# 2. 데이터 병합 (Data Preparation)
# ---------------------------------------------------------

# (1) 순창 데이터(df_sc) 평균 계산
sc_mean_val = df_sc['건조 수확량(kg/10a)'].mean()

# (2) 구례 데이터 프레임 준비 (필터링된 데이터 사용)
plot_df = df_gr_clean[['코드번호', '건조 수확량(kg/10a)']].copy()
plot_df['구분'] = '구례 필지'
plot_df['라벨'] = plot_df['코드번호']

# (3) 순창 평균 행 생성
sc_row = pd.DataFrame({
    '코드번호': ['순창_AVG'],
    '건조 수확량(kg/10a)': [sc_mean_val],
    '구분': ['순창 평균(비교군)'], # 빨간색으로 칠할 그룹명
    '라벨': ['순창 평균']
})

# (4) 최종 데이터프레임 병합
final_df = pd.concat([plot_df, sc_row], ignore_index=True)

# ---------------------------------------------------------
# 3. 시각화 (Plotly)
# ---------------------------------------------------------

# 색상 지정
color_map = {
    '구례 필지': '#1f77b4',      # 파란색 (원하는 색상으로 변경 가능)
    '순창 평균(비교군)': 'red'   # 빨간색 (강조)
}

fig = px.bar(
    final_df,
    x='라벨',
    y='건조 수확량(kg/10a)',
    color='구분',
    color_discrete_map=color_map,
    text_auto='.1f',             # 막대 위 숫자 표시 (소수점 첫째자리)
    title='구례 필지별 수확량 vs 순창 평균 수확량 비교'
)

# 레이아웃 설정
fig.update_layout(
    xaxis_title="필지 (코드번호)",
    yaxis_title="건조 수확량 (kg/10a)",
    legend_title_text='구분',
    # X축 정렬: 데이터 순서대로 (순창 평균이 맨 뒤로 가게 함)
    xaxis={'categoryorder': 'trace'}
)

# 그래프 출력
fig.show()

In [9]:
image_filename = "구례 필지별 수확량.png"
fig.write_image(
              image_filename,
              width=1200,
              height=600,
              scale=2  # 2배 해상도
            )

In [13]:
import plotly.express as px
import pandas as pd
import statsmodels.api as sm

# ---------------------------------------------------------
# 1. 데이터 준비 및 상관계수 계산
# ---------------------------------------------------------
x_col = 'soil_AVSi'           # X축: 유효규산
y_col = '건조 수확량(kg/10a)' # Y축: 수확량
size_col = 'soil_OM'          # 점 크기: 유기물

# (1) 데이터 필터링 (구례/순창)
target_regions = ['구례', '순창']
anal_df = df[df['지역'].isin(target_regions)].dropna(subset=[x_col, y_col]).copy()

# (2) 점 크기 결측치 처리
if size_col in anal_df.columns:
    anal_df[size_col] = anal_df[size_col].fillna(anal_df[size_col].mean())

# (3) ★ 상관계수(Pearson R) 미리 계산
corr_value = anal_df[[x_col, y_col]].corr().iloc[0, 1]
corr_text = f"전체 상관계수 (R) = {corr_value:.3f}"

# ---------------------------------------------------------
# 2. 메인 그래프 (점: 지역별 색상)
# ---------------------------------------------------------
fig = px.scatter(
    anal_df,
    x=x_col,
    y=y_col,
    color='지역',
    size=size_col,
    hover_name='코드번호',
    title=f"유효규산 vs 수확량 분석 (단일 추세선 적용)",

    # 색상 지정
    color_discrete_map={
        '순창': 'red',
        '구례': '#1f77b4'
    },
    opacity=0.85
)

# ---------------------------------------------------------
# 3. 통합 추세선 추가 (흰색 실선)
# ---------------------------------------------------------
trend_fig = px.scatter(anal_df, x=x_col, y=y_col, trendline="ols")
trend_line = trend_fig.data[1]
trend_line.line.color = 'white'  # 흰색으로 설정
trend_line.name = '전체 추세선'
trend_line.showlegend = True
fig.add_trace(trend_line)

# ---------------------------------------------------------
# 4. ★ 그래프 위에 상관계수 텍스트 추가
# ---------------------------------------------------------
fig.add_annotation(
    x=0.5,                 # X축 위치 (0.5는 중앙)
    y=1.05,                # Y축 위치 (1.0은 그래프 상단 끝, 1.05는 그보다 약간 위)
    xref="paper",          # 좌표 기준을 '데이터'가 아닌 '종이(paper)' 비율로 설정
    yref="paper",
    text=corr_text,        # 표시할 텍스트 (위에서 계산한 R값)
    showarrow=False,       # 화살표 없음
    font=dict(
        family="Malgun Gothic",
        size=16,
        color="yellow"     # 검은 배경에서 잘 보이도록 노란색 강조
    )
)

# ---------------------------------------------------------
# 5. 스타일 마무리
# ---------------------------------------------------------
fig.update_layout(
    template='plotly_dark',
    xaxis_title="Soil 유효규산 (mg/kg)",
    yaxis_title="건조 수확량 (kg/10a)",
    legend_title_text='구분',
    margin=dict(t=80)      # 상단 여백 확보 (텍스트가 제목과 겹치지 않게)
)

fig.show()

In [14]:
image_filename = "구례 vs 순창 유효규산 수확량 분석.png"
fig.write_image(
              image_filename,
              width=1200,
              height=600,
              scale=2  # 2배 해상도
            )