<a href="https://colab.research.google.com/github/Ryu4824/code-states/blob/main/n211_discussion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **N211 Linear Regression**

## 오늘의 목표
- 데이터를 모델링에 적합한 형태로 가공할 수 있습니다.
- 회귀 문제에서 기준 모델을 만들고 기준 모델의 성능을 평가할 수 있습니다.
- scikit-learn을 이용해 선형회귀 모델을 만들어 학습하고 해석할 수 있습니다.
- 기준 모델과 선형회귀 모델의 성능을 비교할 수 있습니다.

## **개념 Topic**

- 오늘은 선형회귀 모델에 대해 배웠습니다.
- 선형 회귀를 한 문장으로 요약하여 설명해보세요.
  - `scatterplot에 가장 잘 맞는(best fit) 직선을 그려주면 그것이 회귀 예측모델이 됩니다.`를 제외한 문장이어야 합니다.
  - `선형회귀모델이란 무엇이며 어떻게 최적의 모델을 구할 수 있나요?` 에 답할 수 있도록 정리해 보세요.
  - 어떤 키워드가 포함되어야할지 키워드 위주로 고민해보세요.
  - 만약 설명이 어렵다면 어느 부분이 이해가 안 되는지 구체적인 질문을 동기들과 나눠보세요.
- **Discussion** 표의 `정리` 탭에 답변을 정리하여 적어 주세요. 

## **코딩 Topic**

### **Part.1 : 데이터 준비**

인도의 한 도시인 [Begaluru의 집값 데이터](https://www.kaggle.com/datasets/amitabhajoy/bengaluru-house-price-data)를 사용해서 집값을 예측하는 회귀 문제를 풀어보겠습니다.

데이터에 대한 더 자세한 설명은 위의 링크를 참고하세요.

> **Data Description**

- Area_type : Description of the area
- Availability : When it can be possessed or when it is ready
- Location : Where it is located in Bengaluru
- Size : BHK or Bedrooms
- Society : To which society it belongs
- Total_sqft : Size of the property in sq.ft
- Bath : No. of Bathrooms
- Balcony : No. of the Balcony
- Price : Value of the property in lakhs (Indian Rupee - ₹)


#### **1-1. 데이터셋 불러오기**
- 주어진 데이터를 불러오고 데이터의 shape을 확인해보세요.

In [None]:
import pandas as pd
data = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/renewal/mldl/House_Data.csv')
display(data.head())

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.0
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.0
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.0
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.0


#### **1-2. 데이터 전처리**
데이터를 모델링에 적합한 형태로 가공합니다.
- 기존 데이터에서 ['total_sqft', 'bath', 'balcony', 'price'] column만 추출하여 **df** 변수에 데이터프레임 형태로 저장해 보세요.
    - 특성들의 타입을 확인해보세요.
    - 4가지 특성만 선택한 데이터에서 결측치, 중복값을 확인해보고 존재한다면 제거해주세요.
    - 전처리 후 데이터의 shape은 (10933,4)입니다.

#### **1-3. total_sqft 타입변경**
집의 총 면적을 나타내는 `total_sqft` 특성은 수치형이어야 합니다. <br>
따라서, **object** 형식으로 되어있는 `total_sqft` 특성의 타입을 **float**으로 바꿔주기 위해 수치형으로 변환하기 애매한 데이터들을 제거해줍니다.

- 주어진 코드(for loop)를 실행하세요.
  - `total_sqft` 변수의 값들을 for loop을 통해 수치형으로 변환해 보고, 변환할 때 에러가 발생하는 값의 index를 `idx` 리스트에 저장하여 해당 샘플(row)을 제거해줍니다.
  - 수치형으로 변환시킬 때 왜 에러가 나는지 코드 실행 후 데이터를 확인해보세요.
- 샘플 제거 후 최종 데이터의 shape은 (10748, 4)이어야 합니다.
- `total_sqft`의 타입을 float으로 변환하세요.
- (optional) 이 방법 외에 데이터를 제거하지 않으면서 `total_sqft` 변수를 수치형으로 변환하는 다른 방법이 있다면 논의해보세요.

In [None]:
# 수치로 변환되지 않는 데이터 index 추출
idx = []
for i in range(len(df.total_sqft)):
  try:
    float(df.total_sqft[i])
  except:
    idx.append(i) # 수치형으로 변환되지 않은 데이터들의 index 저장. ex) 2100 - 2850 형식처럼 수치형으로 바꿀 수 없는 데이터 존재.

In [None]:
df.iloc[idx[:10]] # 이와 같이 수치형으로 바꾸기 애매한 데이터들 확인.

### **Part.2 : 모델링**
타겟이 집값(수치)이기 때문에 회귀 문제에 해당하고, 여러 회귀 모델 중 이번 디스커션에서는 **선형 회귀 모델**을 사용합니다.

#### **2-1. 데이터 분리**
모델링을 위해 입력 특성과 타겟으로 데이터를 나눕니다.
- `price` column을 타겟 데이터로(y), 나머지 column을 특성 데이터로(X) 나눠보세요.
- 데이터가 잘 나누어졌는지 X,y의 결과와 shape을 확인해보세요.

#### **2-2. 기준모델 설정**
모델링 전 기준모델을 설정해서 앞으로 개발할 예측 모델의 성능이 기준모델의 성능보다 뛰어나야 한다는 기준점을 만들어야 합니다.
- 타겟인 `price`의 평균값을 이용해서 기준모델을 만들어보세요.
    - 기준모델의 평가지표는 MSE, MAE, R2 score로 사용해보세요.
      ```python
      from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
      ```
    - 기준모델의 MSE, MAE, R2 score는 어떻게 되나요?

#### **2-3. 선형회귀 모델링**
- 입력 특성과 타겟을 활용하여 선형회귀 모델을 만드세요.
- 선형회귀 모델의 MSE, MAE, R2 score는 어떻게 되나요?
  - 기준 모델보다 성능이 더 나아졌나요? 어떠한 것을 보고 나아졌는지, 나아지지 않았는지 판단할 수 있었나요?

#### **2-4. 모델 해석**
- 회귀계수를 보고 모델의 결과를 해석해봅시다.
    - 어떤 특성이 중요해보이나요?
    - **집 면적(total_sqft)**이 커질수록 집값은 증가하나요? 감소하나요?
        - 회귀계수를 보고 해석해보세요.

### **Conclusion**
> 오늘 Topic을 수행한 결과를 바탕으로, 다음 사항에 대해 답해 주세요.

- 기준 모델의 성능(MAE, MSE, R2 score)은 어떻게 되나요?
- 입력 특성과 타겟에 각각 어떤 column을 사용했나요?
- 선형회귀 모델은 기준 모델보다 성능이 좋은 모델인가요?
- 회귀계수를 통해 모델을 해석해보았을 때 어떤 특성이 중요해보이나요?
  - 왜 그렇게 생각하시나요?
  - 해당 특성은 집값에 어떤 방향으로 영향을 주나요? (양의 방향: +, 음의 방항: -)
- **Discussion** 표의 `정리` 탭에 답변을 정리하여 적어 주세요. 

## **심화 Topic (optional)**
> 추가적으로 다음 사항들에 대해서 이야기해 보세요. 

- 지도학습의 프로세스를 설명해 보세요. 
  - 다음 다이어그램을 **Data**, **Model**, **Training**, **Evaluation**, **Inference**의 개념을 포함시켜서 설명해 보세요.
    - 다이어그램 <br>
      <img src = 'https://imgur.com/bBGwYN7.png' width=500>
- 주변에서 찾아볼 수 있는 회귀 문제는 무엇이 있을까요? 여러분이 실제로 프로젝트를 한다고 생각하고 관심 도메인에서 구체적으로 어떤 예시가 있을지 생각해보세요.
  - 여러분들은 어떤 프로젝트가 하고 싶으세요? 서로 아이디어를 나눠보세요.
- 디즈니플러스에서 시청률 추세를 예측하는 회귀모델을 만들었습니다. 전체 시간대 중 95% 시간대에서 모델의 예측오차는 1% 밖에 되지 않는 반면 RMSE가 너무 높습니다. 예측오차를 보면 좋은 모델인데 RMSE가 너무 높은 이유는 뭘까요?
  - RMSE의 특징이 무엇인가요? 특징을 생각하면서 위의 문제를 풀어보세요.