### 📚 구체적인 과제 수행 과정

#### 1️⃣ 데이터셋 탐색

- pandas 라이브러리의 read 함수 사용하여 데이터 파일을 데이터프레임으로 불러오기

In [None]:
# 데이터 불러오기
import pandas as pd

# csv 파일 불러오기 (./은 현재 작업 중인 디렉토리에서 파일을 찾겠다는 뜻)
df = pd.read_csv('./supervised_learning_data/housingdata.csv')

# 전체 데이터프레임 확인
df

In [None]:
print('housingdata.csv 데이터 탐색')
print('-'*130)

# 데이터프레임의 정보 확인 (컬럼, 결측값, 데이터 타입 등)
df.info()
print('-'*130)

print(f'컬럼 : {list(df.columns)}')
print('-'*130)

print(f'데이터프레임의 크기 (행,열) : {df.shape}')
print('-'*130)

# 데이터프레임의 요약 통계량 확인
df.describe() 

##### 💡 housingdata.csv 파일을 데이터프레임으로 만든 후 여러 메서드를 사용해 탐색한 결과

1. 506행, 14열의 데이터프레임이다.
2. 총 14개의 컬럼이 존재한다. ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV' ]
3. range index(연속 정수형 인덱스)가 총 506개, 즉, 0부터 505인덱스까지 있음을 알 수 있다.
4. 따라서, Non-Null Count가 506 non-null이 아닌 ['CRIM', 'ZN', 'INDUS', 'CHAS','AGE','LSTAT'] 컬럼은 결측값이 있는 것임을 알 수 있다. 
5. 'RAD', 'TAX'는 정수형, 그 외는 모두 부동 소수점 데이터 타입이다.

---

#### 2️⃣ 데이터셋 전처리 (결측치 처리, 이상치 탐지 및 제거, 특징 선택)
##### 💡 전처리는 데이터 분석 및 머신러닝 모델링을 위해 데이터를 준비하는 과정으로, 데이터의 품질을 높이고 분석 결과의 신뢰성을 확보하기 위한 필수적인 과정 
##### 📝 결측치 처리 (데이터셋에서 누락된 값을 처리하는 작업) : 결측치를 처리하지 않으면 모델의 성능이 저하될 수 있다.
- 제거 : 결측치가 있는 행이나 열을 제거한다. 정확한 데이터만 가질 수 있어 결측치가 적을 때는 유용하지만, **데이터 손실**이 발생할 수 있다.
- 대체 : 평균, 중앙값, 최빈값 등으로 결측치를 대체한다.
- 예측 : 다른 특성을 사용하여 결측치를 예측하고 채운다.  

➡️ 해당 데이터의 특성에 맞게 결측치를 처리해야 한다.**다양한 방법을 시도**해보고 가장 적합한 방법을 선택하는 것이 중요하다.

##### 📝 현재 결측치가 있는 컬럼들

- **CRIM**: 마을별 1인당 범죄율 [mean : 3.611874 / min : 0.006320 / max : 88.976200]
    - 최댓값이 크긴하지만 평균값을 봤을 때 대체로 작은 값에 몰려있는 것 같아, 평균값으로 대체해주겠다.
- **ZN**: 25,000평방피트 이상의 부지에 대해 구획된 주거용 토지의 비율 [mean : 11.211934 / min : 0.000000 / max : 100.000000]
    - 데이터를 봤을 때 0이 이어지다가 어디는 수치가 몰려있는, 군집화된 양상을 띄고 있다. 비어있는 결측값에 아무거나 넣어놓으면 군집화가 깨질 수도 있을 것 같아, 결측값이 있는 행은 제거하겠다.
- **INDUS**: 마을별 비소매업무 지역 비율 [mean : 11.083992 / min : 0.460000 / max : 27.740000]
    - 값이 최솟값부터 최댓값까지 고루 분포하는 양상을 보여서, 평균값으로 대체해주겠다.
- **CHAS**: 찰스 강 더미 변수 (강이 인접한 경우 1, 그렇지 않으면 0) [mean : 0.069959 / min : 0.000000 / max : 1.000000]
    - 더미형 데이터의 경우 결측값은 날려버리는 것도 괜찮다고 해서 결측값이 있는 행을 제거하겠다. 
- **AGE**: 1940년 이전에 지어진 소유주 점유 비율 [mean : 68.518519 / min : 2.900000 / max : 100.000000]
    - 값이 고루 분포하는 양상을 보여서, 평균값으로 대체해주겠다. 
- **LSTAT**: 인구 중 저소득층 비율 [mean : 12.715432 / min : 1.730000 / max : 37.970000]
    - 값이 고루 분포하는 양상을 보여서, 평균값으로 대체해주겠다.

➡️ 선형회귀 모델 등을 사용하여 결측값을 예측한 후 넣어줄 수도 있으나 일단 대체하는 방법으로 과제를 진행해보겠다.



In [None]:
# 데이터셋의 결측값을 다른 값으로 대체하기
# inplace = True 옵션으로 원본데이터 변경

df['CRIM'].fillna(df['CRIM'].mean(), inplace=True) # 평균값
df['INDUS'].fillna(df['INDUS'].mean(), inplace=True) # 평균값
df['AGE'].fillna(df['AGE'].mean(), inplace=True) # 평균값
df['LSTAT'].fillna(df['LSTAT'].mean(), inplace=True) # 평균값

# 그 외 결측값이 있는 행은 제거하기
df.dropna(inplace=True)

print('각 컬럼들의 결측값 현황')
print(df.isna().sum())  # 결측값이 잘 처리되었는지 확인 (결측값을 대체하거나 결측값이 있는 행을 제거해서 각 컬럼의 결측값이 0인 것을 알 수 있다.)
print('-'*130)
df.info() # 데이터프레임 정보 다시 확인 (총 506행의 데이터에서 466행의 결측값 없는 데이터로 바뀐 것을 확인 가능)

##### 📝 이상치(데이터에서 비정상적으로 크거나 작은 값) 탐지 및 제거 : 이상치는 분석결과에 큰 영향을 미쳐 모델의 성능을 저하시킬 수 있다.
- 제거 : 이상치를 다른 값으로 변환한다. (예: 상한선이나 하한선으로 대체)
- IQR 방법 IQR(interquartile Range)을 사용하여 이상치를 탐지하고 처리한다.

In [None]:
# IQR 방법을 활용한 각 컬럼의 이상치 확인

# 특정 열의 이상치 확인 (IQR 방법)
Q1 = df['CRIM'].quantile(0.25)
Q3 = df['column_name'].quantile(0.75)
IQR = Q3 - Q1

# 이상치 범위 설정
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 이상치 확인
outliers = df[(df['column_name'] < lower_bound) | (df['column_name'] > upper_bound)]
print(outliers)