In [None]:
import pandas as pd

# CSV 파일 경로
file_path = "C:/ai_x/job/data/사과/경락정보/경락정보_사과.csv"

# CSV 파일 전체 읽기
df = pd.read_csv(file_path, encoding='ansi')

# 예시: 행 범위와 열 범위 추출
subset = df.iloc[:]  # 2~4행, 3~5열 추출
print(subset)

# CSV 저장
df.to_csv(file_path, index=False, encoding='utf-8')
print(f"저장 완료: {file_path}")

# 엑셀 저장
excel_path = file_path.replace('.csv', '.xlsx')
df.to_excel(excel_path, index=False)
print(f"저장 완료: {file_path} → {excel_path}")

In [None]:
import pandas as pd

# 파일 목록
file_list = [
    "C:/ai_x/job/data/쌀/생산량 및 면적/미곡생산량_백미_생산량.csv",
    "C:/ai_x/job/data/쌀/생산량 및 면적/미곡생산량_현미_생산량.csv",
    "C:/ai_x/job/data/쌀/생산량 및 면적/미곡생산량_조곡_생산량.csv"
]

for file_path in file_list:
    # CSV 읽기
    df = pd.read_csv(file_path, encoding='utf-8')
    
    # 첫 번째 행 삭제
    df = df.iloc[1:].reset_index(drop=True)

    # '시도별' → '연도'
    df.rename(columns={'시도별': '연도'}, inplace=True)

    # 문자열 '-' → 숫자 0으로 변환
    df.replace('-', 0, inplace=True)
    
    # NaN을 0으로 대체
    df.fillna(0, inplace=True)

    # 숫자형으로 변환 (선택: '-'가 문자열이라 숫자형으로 다시 바꿔야 할 수도 있음)
    df = df.apply(pd.to_numeric, errors='ignore')
    
    # CSV 저장
    df.to_csv(file_path, index=False, encoding='utf-8')

    # 엑셀 저장
    excel_path = file_path.replace('.csv', '.xlsx')
    df.to_excel(excel_path, index=False)

    print(f"저장 완료: {file_path} → {excel_path}")

In [None]:
import pandas as pd
import re

# 처리할 파일 목록
file_list = [
    "C:/ai_x/job/data/상추/생산량 및 면적/상추_면적.csv",
    "C:/ai_x/job/data/상추/생산량 및 면적/상추_생산량.csv"
]

# 연도 추출 함수
def extract_year(col):
    match = re.match(r'^(\d{4})', str(col))
    return match.group(1) if match else col

# 파일별 반복 처리
for file_path in file_list:
    print(f"처리 중: {file_path}")

    # CSV 읽기
    df = pd.read_csv(file_path, encoding='utf-8')

    # 연도별 열 그룹핑 및 합산
    grouped_cols = {}
    for col in df.columns:
        new_col = extract_year(col)
        grouped_cols.setdefault(new_col, []).append(col)

    # 새로운 DataFrame 생성
    new_df = pd.DataFrame()
    for new_col, cols in grouped_cols.items():
        if new_col == '연도':
            new_df[new_col] = df[new_col]
        else:
            new_df[new_col] = df[cols].astype(float).sum(axis=1)

     # 저장: CSV (덮어쓰기)
    new_df.to_csv(file_path, index=False, encoding='utf-8')

    # 저장: Excel (같은 이름, 확장자만 변경)
    excel_path = file_path.replace('.csv', '.xlsx')
    new_df.to_excel(excel_path, index=False)

    print(f"✔ 저장 완료:\n- CSV 덮어쓰기: {file_path}\n- 엑셀 저장: {excel_path}")

In [None]:
import pandas as pd

# 경로 설정
base_path = "C:/ai_x/job/data/쌀/생산량 및 면적/"

# 파일 읽기
백미 = pd.read_csv(base_path + "미곡생산량_백미_면적.csv", encoding='utf-8')
현미 = pd.read_csv(base_path + "미곡생산량_현미_면적.csv", encoding='utf-8')
조곡 = pd.read_csv(base_path + "미곡생산량_조곡_면적.csv", encoding='utf-8')

# '-' → 0, NaN → 0, 숫자형 변환
for df in [백미, 현미, 조곡]:
    df.replace('-', 0, inplace=True)
    df.fillna(0, inplace=True)
    df.iloc[:, 1:] = df.iloc[:, 1:].apply(pd.to_numeric, errors='coerce')

# 쌀 = 백미 + 현미 + 조곡 (숫자 부분만)
# 문자열(예: '시도별')이 있는 첫 열은 제외하고 숫자만 더함
meta_col = 백미.columns[0]  # 예: '시도별' 또는 '연도'
numeric_cols = 백미.columns[1:]

# 결과 프레임 구성
쌀 = 백미.copy()
쌀[numeric_cols] = (
    백미[numeric_cols] +
    현미[numeric_cols] +
    조곡[numeric_cols]
)

# 저장
csv_path = base_path + "쌀_면적.csv"
excel_path = csv_path.replace(".csv", ".xlsx")

쌀.to_csv(csv_path, index=False, encoding='utf-8')
쌀.to_excel(excel_path, index=False)

print(" 위치 기준 전체 셀 합산 완료")
print(f"- CSV:   {csv_path}")
print(f"- 엑셀:  {excel_path}")

In [None]:
import pandas as pd
df = pd.read_csv("../모델링/data/상추요약데이터_직팜정리.csv", encoding='cp949')


In [None]:
df.info()

In [None]:
df.isna().sum()