In [1]:
import seaborn as sns # 시각화 라이브러리 
import pandas as pd # Dataframe 라이브러리
import numpy as np # 수치계산 라이브러리 

# seaborn 에서 제공하는 기본데이터셋을 불러오겠다. 그 중 'mpg' (연비) 
df = sns.load_dataset('mpg')

In [3]:
print('자동차: ',df.shape[0])
print('컬럼 개수:', df.shape[1])

자동차:  398
컬럼 개수: 9


In [4]:
# df 정보 프린트 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


<div class="alert alert-success" data-title="">
  <h2><i class="fa fa-tasks" aria-hidden="true"></i> Encoding
  </h2>
</div>

다음 중 하나의 방법을 골라 전처리 하기 
- sklearn 함수를 사용하여 바꾸기 
- pandas 내장함수 map 함수를 이용하여서 범주형을 수치형으로 바꾸기 
- pandas 내장함수 onehotencoding 함수를 이용하여서 범주형을 수치형으로 바꾸기 

In [6]:
# machine learning에서는 범주형 데이터를 사용할수 없다.
# 중복된 값을 제거 해서 보여줘라 
df['origin'].unique()

array(['usa', 'japan', 'europe'], dtype=object)

In [8]:
df['origin'] = df['origin'].map({'usa':0, 'japan':1,'europe':2 })

<div class="alert alert-success" data-title="">
  <h2><i class="fa fa-tasks" aria-hidden="true"></i> 결측치 처리 
  </h2>
</div>

중앙값으로 `horsepower` 결측치 채우기 

In [10]:
df['horsepower'] = df['horsepower'].fillna(df['horsepower'].median())

<div class="alert alert-success" data-title="">
  <h2><i class="fa fa-tasks" aria-hidden="true"></i> X,y 설정
  </h2>
</div>

- X = name 과 mpg 제외
- y = mpg

In [11]:
X = df.drop(['mpg','name'], axis=1)
y = df['mpg']

<div class="alert alert-success" data-title="">
  <h2><i class="fa fa-tasks" aria-hidden="true"></i> Scaling
  </h2>
</div>


In [14]:
from sklearn.preprocessing import MinMaxScaler
scaler  = MinMaxScaler()
scaled_X = scaler.fit_transform(X)
scaled_X = pd.DataFrame(scaled_X,columns=X.columns)

<div class="alert alert-success" data-title="">
  <h2><i class="fa fa-tasks" aria-hidden="true"></i> train_test_split
  </h2>
</div>

```python
from sklearn.model_selection import train_test_split
```

In [17]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(scaled_X,y)

<div class="alert alert-success" data-title="">
  <h2><i class="fa fa-tasks" aria-hidden="true"></i> Modeling
  </h2>
</div>

```python 
# 모델가져오기 
from sklearn.linear_model import LinearRegression, Lasso, ElasticNet
model_linear = LinearRegression()
model_lasso = Lasso()
model_elastic = ElasticNet()
```

In [18]:
from lightgbm import LGBMRegressor
model = LGBMRegressor().fit(X_train.values,y_train.values)

<div class="alert alert-success" data-title="">
  <h2><i class="fa fa-tasks" aria-hidden="true"></i> 평가
  </h2>
</div>

```python
from sklearn.metrics import r2_score
```

In [19]:
model.score(X_test.values,y_test.values)

0.9001810209069798