In [31]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# 🔹 1. 데이터 불러오기
train_data = pd.read_excel("경찰점수예측.xlsx")
test_data = pd.read_excel("경찰테스트데이터.xlsx")

# 🔹 2. 컬럼명 공백 제거
train_data.columns = train_data.columns.str.strip()
test_data.columns = test_data.columns.str.strip()

# 🔹 3. "지역" 컬럼 존재 여부 확인
if "지역" not in train_data.columns:
    print("⚠ '지역' 컬럼이 없습니다. 엑셀 파일에서 확인하세요.")
    print("🔹 현재 컬럼명:", train_data.columns)
    exit()  # 프로그램 종료

# 🔹 4. "지역" 컬럼을 문자열로 변환
train_data["지역"] = train_data["지역"].astype(str)
test_data["지역"] = test_data["지역"].astype(str)

# 🔹 5. 지역 컬럼 값 확인
print("✅ 지역 컬럼 값 (훈련 데이터):", train_data["지역"].unique())
print("✅ 지역 컬럼 값 (테스트 데이터):", test_data["지역"].unique())

# 🔹 6. 입력(X)와 타겟(y) 분리
X = train_data.drop(columns=["합격점수"])
y = train_data["합격점수"]

# 🔹 7. 원-핫 인코딩 적용
X = pd.get_dummies(X, columns=["지역"], drop_first=True)
test_data = pd.get_dummies(test_data, columns=["지역"], drop_first=True)

# 🔹 8. 테스트 데이터에서 누락된 컬럼 추가
missing_cols = set(X.columns) - set(test_data.columns)
for col in missing_cols:
    test_data[col] = 0

test_data = test_data[X.columns]  # 컬럼 정렬

# 🔹 9. 모델 학습
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 🔹 10. 모델 평가
y_pred = model.predict(X_valid)
mae = mean_absolute_error(y_valid, y_pred)
print(f"✅ 모델 MAE (평균 절대 오차): {mae:.2f}")

# 🔹 11. 예측 및 저장
test_data["합격예측점수"] = model.predict(test_data)
test_data.to_excel("경찰테스트_결과.xlsx", index=False)
print("✅ 예측 완료! '경찰테스트_결과.xlsx'에 저장되었습니다.")


✅ 지역 컬럼 값 (훈련 데이터): ['서울' '부산' '대구' '인천' '광주' '대전' '울산' '세종' '경기남부' '경기북부' '강원' '충북' '충남' '전북'
 '전남' '경북' '경남' '제주']
✅ 지역 컬럼 값 (테스트 데이터): ['서울' '부산' '대구' '인천' '광주' '대전' '울산' '세종' '경기남부' '경기북부' '강원' '충북' '충남' '전북'
 '전남' '경북' '경남' '제주']
✅ 모델 MAE (평균 절대 오차): 3.20
✅ 예측 완료! '경찰테스트_결과.xlsx'에 저장되었습니다.


In [12]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# 🔹 1. 데이터 불러오기
train_data = pd.read_excel("경찰점수예측.xlsx")
test_data = pd.read_excel("경찰테스트데이터.xlsx")

In [25]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106 entries, 0 to 105
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   연도      106 non-null    int64  
 1   차수      106 non-null    int64  
 2   지역      106 non-null    object 
 3   채용 인원수  106 non-null    int64  
 4   시험 난이도  106 non-null    float64
 5   합격점수    106 non-null    float64
dtypes: float64(2), int64(3), object(1)
memory usage: 5.1+ KB


In [13]:
train_data.head()

Unnamed: 0,연도,차수,지역,채용 인원수,시험 난이도,합격점수
0,2024,2,서울,403,4.0,170.0
1,2024,2,부산,133,4.0,182.5
2,2024,2,대구,91,4.0,175.0
3,2024,2,인천,102,4.0,165.0
4,2024,2,광주,40,4.0,180.0


In [14]:
test_data.head()

Unnamed: 0,연도,차수,지역,채용 인원수,시험 난이도,합격예측점수
0,2025,1,서울,232,4,
1,2025,1,부산,62,4,
2,2025,1,대구,52,4,
3,2025,1,인천,177,4,
4,2025,1,광주,54,4,


In [15]:
# 🔹 2. 데이터 전처리
# 필요 없는 컬럼 제거 (예: 연도, 차수는 피처로만 사용)
X = train_data.drop(columns=["합격점수"])
y = train_data["합격점수"]

In [16]:
X.head()

Unnamed: 0,연도,차수,지역,채용 인원수,시험 난이도
0,2024,2,서울,403,4.0
1,2024,2,부산,133,4.0
2,2024,2,대구,91,4.0
3,2024,2,인천,102,4.0
4,2024,2,광주,40,4.0


In [22]:
# 범주형 변수(지역) 원-핫 인코딩
test_data = pd.get_dummies(test_data, columns=['지역'], drop_first=True)

KeyError: "None of [Index(['지역'], dtype='object')] are in the [columns]"

In [24]:
X

Unnamed: 0,연도,차수,채용 인원수,시험 난이도,지역_경기남부,지역_경기북부,지역_경남,지역_경북,지역_광주,지역_대구,...,지역_부산,지역_서울,지역_세종,지역_울산,지역_인천,지역_전남,지역_전북,지역_제주,지역_충남,지역_충북
0,2024,2,403,4.0,False,False,False,False,False,False,...,False,True,False,False,False,False,False,False,False,False
1,2024,2,133,4.0,False,False,False,False,False,False,...,True,False,False,False,False,False,False,False,False,False
2,2024,2,91,4.0,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
3,2024,2,102,4.0,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,False,False
4,2024,2,40,4.0,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
101,2022,1,61,2.5,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
102,2022,1,82,2.5,False,False,False,False,False,False,...,False,False,False,False,False,True,False,False,False,False
103,2022,1,115,2.5,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
104,2022,1,75,2.5,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [23]:
test_data

Unnamed: 0,연도,차수,지역,채용 인원수,시험 난이도,합격예측점수
0,2025,1,서울,232,4,
1,2025,1,부산,62,4,
2,2025,1,대구,52,4,
3,2025,1,인천,177,4,
4,2025,1,광주,54,4,
5,2025,1,대전,79,4,
6,2025,1,울산,16,4,
7,2025,1,세종,14,4,
8,2025,1,경기남부,471,4,
9,2025,1,경기북부,166,4,
