In [3]:
import pandas as pd

# 데이터를 DataFrame으로 읽기
df = pd.read_excel('/content/시군별_논벼_생산량.xlsx')

# 첫 두 행을 확인하여 올바른 데이터 구조 파악
print("Initial columns:", df.columns.tolist())
print("First row:", df.iloc[0].tolist())

# 실제 데이터 구조에 맞게 처리
# 두 번째 행을 새로운 열 이름으로 사용
new_columns = []
for col in df.iloc[1]:
    if pd.isna(col):
        new_columns.append('temp')  # 임시 이름 부여
    else:
        new_columns.append(str(col))
df.columns = new_columns

# 첫 두 행 제거 (이미 열 이름으로 사용했으므로)
df = df.iloc[2:].reset_index(drop=True)

# 빈 리스트 생성
processed_data = []

# 각 행정구역별로 데이터 처리
for idx, row in df.iterrows():
    region = row.iloc[0]  # 첫 번째 열이 행정구역

    # 열 이름을 순회하면서 데이터 추출
    for i in range(0, len(row)-1, 2):  # 2칸씩 건너뛰며 처리
        if i+1 < len(row):  # 인덱스 범위 확인
            year = 2008 + (i//2)  # 연도 계산
            area = row.iloc[i]
            production = row.iloc[i+1]

            # 데이터 추가 (문자열 '-' 처리 포함)
            try:
                area_value = float(area) if pd.notnull(area) and str(area) != '-' else 0
                production_value = float(production) if pd.notnull(production) and str(production) != '-' else 0

                processed_data.append({
                    '행정구역': region,
                    '연도': year,
                    '재배면적(ha)': area_value,
                    '생산량(톤)': production_value
                })
            except ValueError:
                continue  # 숫자로 변환할 수 없는 경우 건너뛰기

# 새로운 DataFrame 생성
result_df = pd.DataFrame(processed_data)

# 데이터 정렬
result_df = result_df.sort_values(['행정구역', '연도']).reset_index(drop=True)

# 결과 확인
print("\n처리된 데이터 형태:")
print(result_df.head())
print("\n데이터 크기:", result_df.shape)

# 엑셀로 저장
result_df.to_excel('processed_rice_production.xlsx', index=False)

# 각 행정구역별 데이터 개수 확인
print("\n행정구역별 데이터 개수:")
print(result_df['행정구역'].value_counts())

Initial columns: ['행정구역별(1)', '2008', '2008.1', '2009', '2009.1', '2010', '2010.1', '2011', '2011.1', '2012', '2012.1', '2013', '2013.1', '2014', '2014.1', '2015', '2015.1', '2016', '2016.1', '2017', '2017.1', '2018', '2018.1', '2019', '2019.1', '2020', '2020.1', '2021', '2021.1', '2022', '2022.1', '2023', '2023.1']
First row: ['행정구역별(1)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)', '논벼:재배면적 (ha)', '논벼:생산량 (톤)']

처리된 데이터 형태:
  행정구역    연도  재배면적(ha)   생산량(톤)
0  강원도  2009  198678.0  40420.0
1  강원도  2010  209299.0  38809.0
2  강원도  2011  176069.0  35914.0
3  강원도  2012  170916.0  34772.0
4  강원

  warn("Workbook contains no default style, apply openpyxl's default")


In [6]:
df2 = pd.read_excel('/content/processed_rice_production.xlsx')
print(df2.head(120))

      행정구역    연도  재배면적(ha)  생산량(톤)
0      강원도  2009    198678   40420
1      강원도  2010    209299   38809
2      강원도  2011    176069   35914
3      강원도  2012    170916   34772
4      강원도  2013    163675   33947
..     ...   ...       ...     ...
115  부산광역시  2019     12310    2330
116  부산광역시  2020     11880    2307
117  부산광역시  2021     10281    2169
118  부산광역시  2022     11523    2123
119  부산광역시  2023     10801    1927

[120 rows x 4 columns]
