## 머신러닝 필수 라이브러리

1. Numpy : Numaaerical Python.
  - 파이썬 산술계산의 대표적인 라이브러리
  - 자료구조, 알고리즘, 산술 데이터를 다루는 대부분의 과학 계산에 필수 라이브러리
  - ndarray객체

2. Pandas : 구조화된 데이터나 표 형식의 데이터를 ㄹ빠르고 쉽계 표현적으로 다루도록 설계돈 고수준 자료구조
  - 데이터과학에서 데이터를 처리하는 대표적인 라이브러리
  - 데이터 핸들링의 표준
  - Series객체와 DataFrame객세가 대표적인 자료구조

3. Matplotlib : 시각화 라이브러리
  - 그래프나 2차원 데이터를 시각화하는 파이썬 기반의 라이브러리

4. Seaborn : 시본, 다양한 시각화 종류를 제ㅗㅇ하는 라이브러리 
  - Matplotlib에 종속된 라이브러리

5 Scipy : 사이파이
  - 과학 계산 컴퓨팅 영역의 여러 기본 문제를 다루는 패키지 모음
  - scipy.stats: 가장 맣이 사용되는 통계도루를 가지고 있는 라이브러리

6. Scikit-learn : 머시러닝에 해심 라이브러리
  - 분류 : SVM, 최근점이웃, 랜덤 포레스트, 로지스틱 회귀 등
  - 회귀 : 라쏘, 릿지 회귀 등
  - 클러스터링 : k-평균 등
  - 자원축소 : PCA, 특징선택, 행렬인수 등
  - 모델선택 : 격자탐색, 교차검증, 행렬
  - 전처리 : 특징 추출, 정규화 등

7. statsmodels : R 언어용 회ㅟ분석 모델을 구현한 통계분석 패키지
  - 회귀모델 : 선형회귀
  - 분산모델(ANOVA)
  - 시계열 분석 : AR, ARMA, ARIMA 등
  - 통계 모델 결과의 시각화 제공

## 앙상블 학습

In [4]:
import numpy as np
import pandas as pd

# 보팅 분류기
from sklearn.ensemble import VotingClassifier
# 보팅에 사용할 학습알고리즘(로지스틱, )
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

# 셋 분리
from sklearn.model_selection import train_test_split
# 정확성
from sklearn.metrics import accuracy_score

# 경고메세지
from warnings import filterwarnings
filterwarnings('ignore')

In [69]:
# 데이터 셋로딩
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

In [70]:
print(cancer['DESCR'])

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [71]:
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [72]:
df = pd.DataFrame(cancer.data, columns = cancer.feature_names)
df.head(3)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758


In [73]:
df.shape

(569, 30)

In [74]:
# instance 생성
logistic_regression = LogisticRegression()
knn = KNeighborsClassifier(n_neighbors=5)
# model생성
voting_model = VotingClassifier(estimators=[('LogisticRegression',logistic_regression),
                                            ('KNN',knn)], voting = 'soft')
## 적용할 학습알고리즘, dict형이라 튜플로 담아야함

In [75]:
# 데이터 세트 분리(X: 독립변수, ㅛ: 종속변수)
X_train, X_test, y_train, y_test = train_test_split(
cancer.data, cancer.target, test_size=0.2, random_state=156)

In [76]:
# fitting
voting_model.fit(X_train, y_train)
# 예측
pred = voting_model.predict(X_test)

In [77]:
print('보팅분류기 정확도:', round(accuracy_score(y_test, pred),3)) # 순서는 상관없음.

보팅분류기 정확도: 0.947


In [78]:
# 개별 모델의 학습과 예측, 평가
classifier = [logistic_regression, knn] 

for model in classifier:
    model.fit(X_train, y_train)
    predic = model.predict(X_test)
    model_name = model.__class__.__name__
    print('{} 정확도 : {:.3f}'.format(model_name, accuracy_score(y_test, predic)))

LogisticRegression 정확도 : 0.939
KNeighborsClassifier 정확도 : 0.904


## 랜덤포레스트(RandomForest)
- 간결하고 직관적임.
- 비교적 빠른 속도, 다양한 분야에서 좋은 성능을 나타내서
- 정형화된 데이터에서 가장 많이 사용됨
- 단점 : 하이퍼파라미터 튜닝에 시간이 오래걸리고, 데이터양이 방대하다면 고민해봐야함
- 교차검증과 유사 (교차검증은 중복을 허용하지 않음)

In [79]:
wine = pd.read_csv('http://raw.githubusercontent.com/rickiepark/hg-mldl/master/wine.csv')

In [80]:
data = wine.drop(['class'], axis=1, inplace=False).to_numpy()
target = wine['class'].to_numpy()

In [81]:
train_input, test_input, train_target, test_target = train_test_split(
data, target, test_size=0.2, random_state=42)

In [82]:
# 교차검증
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

# instance 생성
## n_jobs=-1, cpu가 제공하는 코어를 다써야함(기본 트리가 100개여서)
rf = RandomForestClassifier(n_jobs=-1, random_state=42)

# 정확도 값의 평균을 사용
# 생성된 정확도를 담을변수 생성( 100개여서 정확도도 그정도나옴)
## return_train_score = F(기본), T = 테스트세트의 점수도 함꼐 뛰우겠다는 것
scores = cross_validate(rf, train_input, train_target, return_train_score=True)

print(np.mean(scores['train_score']), np.mean(scores['test_score'])) # F시 test만 뜸

0.9973541965122431 0.8905151032797809


- 과대 적합 양상을 보이니, 트리의 하이퍼 파라미터를 조정하여 낮출 수 있음
- 원본 와인데이터를 이용하면 해당 사항을 없앨수 있을까?
- 각각 트리의 특성중요도를 취합하여 평균값을 출력해줌.
 - 랜덤 포레스트는 모든 특성을 골고루 사용하는 편임.
- 자기 스스로를 평가하여 점수를 반환하기도 함
- 샘플 추출하여 트리의 데이터를 만들때 중복을 허용함(부트스트랩 샘플)
- 그럼에도 부트스트랩에서 사용되지 않는 샘플이 있음.(oob, out of bag)-검증세트로 뺴둔 느낌
 - -> oob를 가지고 트리 평가가 가능함.샘플 추출하여 트리의 데이터를 만들때 중복을 허용함(부트스트랩 샘플)
 - 그럼에도 부트스트랩에서 사용되지 않는 샘플이 있음.(oob, out of bag)-검증세트로 뺴둔 느낌
 - -> oob를 가지고 트리 평가가 가능함.

In [83]:
# 특성 중요도
rf.fit(train_input, train_target)

print('특성중요도 :', rf.feature_importances_)

특성중요도 : [0.23167441 0.50039841 0.26792718]


In [84]:
# OOB(Out of Bag)샘플 : 부트스트랩 샘플에 포함되지 않고 남는 샘플(마치 검증세트 처럼)
rf = RandomForestClassifier(n_jobs=-1, random_state=42, oob_score=True) # 기본은 F
rf.fit(train_input, train_target)

print('자기평가 점수 :', rf.oob_score_) 

자기평가 점수 : 0.8934000384837406


## 실전예제_car
- 중고차 가격 예측을 위한 data(해외 중고차 거래 데이터셋)
https://media.githubusercontent.com/media/musthave-ML10/data_source/main/car.csv

1. 알고리즘 : 랜덤포레스트(Randomforest)
2. 데이터 셋 : 해외 중고차 거래 데이터셋
3. 데이터 셋 소개 : 종속변수(selling_price), 독립변수()
 - 중고차 판매이력을 수집한 데이터세트
4. 문제유형 : 회귀
5. 평가지표 : RMSE
6. 사용 모델 : RandomForestRegressor
7. 사용 라이브러리 __version__

In [5]:
# car데이터 로딩
data = pd.read_csv('https://media.githubusercontent.com/media/musthave-ML10/data_source/main/car.csv')

In [6]:
data.sample(3)

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats
3442,Chevrolet Sail Hatchback Petrol LS ABS,2013,120000,110000,Petrol,Individual,Manual,Second Owner,18.2 kmpl,1199 CC,84.8 bhp,113Nm@ 5000rpm,5.0
4952,Audi A6 35 TFSI Matrix,2019,6523000,23600,Petrol,Dealer,Automatic,Test Drive Car,15.26 kmpl,1798 CC,187.74 bhp,320Nm@ 1400-4100rpm,5.0
5054,Maruti A-Star Vxi,2009,300000,60000,Petrol,Individual,Manual,First Owner,19.0 kmpl,998 CC,66.1 bhp,90Nm@ 3500rpm,5.0


### 피쳐 탐색
1. name : 차종
2. year : 연식
3. selling_price = 종속변수(판매가)
4. km_driven = 주행거리(km)
5. fuel : 연료
6. seller_type : 판매자 유형
7. transmission : 변속기
8. owner : 소유자 이력
9. mileage : km당 연비
10. engine : 배기량
11. max_power : 제동 마력(최대 출력)
12. torque : 회전력
13. seats : 좌석수(인승)

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8128 entries, 0 to 8127
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   name           8128 non-null   object 
 1   year           8128 non-null   int64  
 2   selling_price  8128 non-null   int64  
 3   km_driven      8128 non-null   int64  
 4   fuel           8128 non-null   object 
 5   seller_type    8128 non-null   object 
 6   transmission   8128 non-null   object 
 7   owner          8128 non-null   object 
 8   mileage        7907 non-null   object 
 9   engine         7907 non-null   object 
 10  max_power      7913 non-null   object 
 11  torque         7906 non-null   object 
 12  seats          7907 non-null   float64
dtypes: float64(1), int64(3), object(9)
memory usage: 825.6+ KB


- dtype  object인 부분을 split하여서 숫자만 남긴후, asdtype('float')
- 트리는 정규화나 이상치 처리가 필요 없음

In [8]:
round(data.describe(),2)

Unnamed: 0,year,selling_price,km_driven,seats
count,8128.0,8128.0,8128.0,7907.0
mean,2013.8,638271.81,69819.51,5.42
std,4.04,806253.4,56550.55,0.96
min,1983.0,29999.0,1.0,2.0
25%,2011.0,254999.0,35000.0,5.0
50%,2015.0,450000.0,60000.0,5.0
75%,2017.0,675000.0,98000.0,5.0
max,2020.0,10000000.0,2360457.0,14.0


### 전처리 : 텍스트 데이터 분리작업
-  split(): 문자열 분리

#### engine

In [9]:
data['engine'].str.split()
a = data['engine'].str.split(expand=True) # 공백기준으로 문자 숫자 분리

In [10]:
data[['engine','engine_unit']] = data['engine'].str.split(expand=True)

In [11]:
data['engine'].head()

0    1248
1    1498
2    1497
3    1396
4    1298
Name: engine, dtype: object

In [12]:
data['engine'] = data['engine'].astype(float)

In [13]:
data['engine_unit'].isnull().sum()
# 8000개 중에 200개 정도이니 제거할거임
# 변수제거
data.drop('engine_unit', axis=1, inplace=True)

In [14]:
a[0]

0       1248
1       1498
2       1497
3       1396
4       1298
        ... 
8123    1197
8124    1493
8125    1248
8126    1396
8127    1396
Name: 0, Length: 8128, dtype: object

In [126]:
###################### 내가 하던 중
def data_split(feature):
    x = feature.str.split(expand=True)
    feature = x[0]

In [43]:
data_split(data.mileage)

AttributeError: 'DataFrame' object has no attribute 'feature'

In [41]:
features = ['mileage', 'engine', 'max_power']

for i in features:
    data_split(i)
    
############# 여기까지

AttributeError: 'DataFrame' object has no attribute 'feature'

#### mileage

In [15]:
data[['mileage','mileage_unit']] = data['mileage'].str.split(expand=True)

In [16]:
data['mileage'] = data['mileage'].astype(float)

In [17]:
data['mileage_unit'].unique() # 연료에 따라 kmpl, km/kg로 나뉘겠군..

array(['kmpl', 'km/kg', nan], dtype=object)

In [18]:
data['fuel'].unique()
# 마일리지끼리 값을 비교하기가 힘드니깐 차라리 해당 마일리지에 따른 가격을 구해서 같은 값으로 변환하여..
# 다른 연료지만 같은 비교를 위해서 확실하게 통일할 수 있는 방안을 찾아보기.

array(['Diesel', 'Petrol', 'LPG', 'CNG'], dtype=object)

- 연료종류가 4개
- 다른종류의 연료로 주행거리를 비교하려면 같은 기준을 세워야한다.
 -> 연료 가격을 활용하면 어떨까? 1달러당 몇 km 주행할 수 있는지 알아보자
  - 2022년 시점의 가격(미국 데이터)
   - Disel
   - Petrol
   - LPG
   - CNG
 -> 연료의 단위를 liter로 바꾸면 어떨까?

In [19]:
def mile(x):
    if x['fuel'] == 'Petrol':
        return x['mileage']/1.048
    elif x['fuel'] == 'Disel':
        return x['mileage']/1.405
    elif x['fuel'] == 'LPG':
        return x['mileage']/3.54 
    else:
        return x['mileage']/2.76

In [20]:
data['mileage'] = data.apply(mile, axis=1) # 행또는 열에 함수를 반복하고자 할때

In [21]:
data.drop('mileage_unit', axis=1, inplace=True)

####  Torque
- 앞부분의 숫자만 추출하여 숫자형
- 단위 스케일링(Nm)

In [22]:
data['torque'].unique()

array(['190Nm@ 2000rpm', '250Nm@ 1500-2500rpm', '12.7@ 2,700(kgm@ rpm)',
       '22.4 kgm at 1750-2750rpm', '11.5@ 4,500(kgm@ rpm)',
       '113.75nm@ 4000rpm', '7.8@ 4,500(kgm@ rpm)', '59Nm@ 2500rpm',
       '170Nm@ 1800-2400rpm', '160Nm@ 2000rpm', '248Nm@ 2250rpm',
       '78Nm@ 4500rpm', nan, '84Nm@ 3500rpm', '115Nm@ 3500-3600rpm',
       '200Nm@ 1750rpm', '62Nm@ 3000rpm', '219.7Nm@ 1500-2750rpm',
       '114Nm@ 3500rpm', '115Nm@ 4000rpm', '69Nm@ 3500rpm',
       '172.5Nm@ 1750rpm', '6.1kgm@ 3000rpm', '114.7Nm@ 4000rpm',
       '60Nm@ 3500rpm', '90Nm@ 3500rpm', '151Nm@ 4850rpm',
       '104Nm@ 4000rpm', '320Nm@ 1700-2700rpm', '250Nm@ 1750-2500rpm',
       '145Nm@ 4600rpm', '146Nm@ 4800rpm', '343Nm@ 1400-3400rpm',
       '200Nm@ 1400-3400rpm', '200Nm@ 1250-4000rpm',
       '400Nm@ 2000-2500rpm', '138Nm@ 4400rpm', '360Nm@ 1200-3400rpm',
       '200Nm@ 1200-3600rpm', '380Nm@ 1750-2500rpm', '173Nm@ 4000rpm',
       '400Nm@ 1750-3000rpm', '400Nm@ 1400-2800rpm',
       '200Nm@ 1750-3000rp

In [23]:
#문자를 분할하여 자르기
data['torque'] = data['torque'].str.upper()

In [24]:
def torque_unit(x):
    if 'NM' in str(x):
        return 'NM'
    elif 'KGM' in str(x):
        return 'KGM'

In [25]:
# 파생변수
data['torque_unit'] = data['torque'].apply(torque_unit) # 앞이 시리즈여서 축을 안씀

In [26]:
# 결측치
data['torque_unit'].unique()

array(['NM', 'KGM', None], dtype=object)

In [27]:
data['torque_unit'].isna().sum(), data['torque'].isna().sum()

(234, 222)

In [28]:
# 토크듀닛 결측체 대체
data['torque_unit'].fillna('NM', inplace=True)

In [29]:
data[data['torque_unit'].isna()]['torque'].unique()

array([], dtype=object)

In [30]:
data['torque_unit'].value_counts() # KM으로 NA 대체

NM     7624
KGM     504
Name: torque_unit, dtype: int64

In [31]:
data['torque'].drop(how=any, inplace=True)

TypeError: drop() got an unexpected keyword argument 'how'

In [32]:
# 결측치 대체
## 결측값에 'NA'처리
data.isnull().sum()

name               0
year               0
selling_price      0
km_driven          0
fuel               0
seller_type        0
transmission       0
owner              0
mileage          221
engine           221
max_power        215
torque           222
seats            221
torque_unit        0
dtype: int64

In [33]:
data['torque'].head()

0              190NM@ 2000RPM
1         250NM@ 1500-2500RPM
2       12.7@ 2,700(KGM@ RPM)
3    22.4 KGM AT 1750-2750RPM
4       11.5@ 4,500(KGM@ RPM)
Name: torque, dtype: object

In [34]:
data['torque'].str.split(expand=True)

Unnamed: 0,0,1,2,3,4
0,190NM@,2000RPM,,,
1,250NM@,1500-2500RPM,,,
2,12.7@,"2,700(KGM@",RPM),,
3,22.4,KGM,AT,1750-2750RPM,
4,11.5@,"4,500(KGM@",RPM),,
...,...,...,...,...,...
8123,113.7NM@,4000RPM,,,
8124,24@,"1,900-2,750(KGM@",RPM),,
8125,190NM@,2000RPM,,,
8126,140NM@,1800-3000RPM,,,


In [35]:
def split_num(x):
    x = str(x)
    for i, j in enumerate(x):
        if j not in '0123456789.':
            cut = i
            break
    return x[:cut]


In [36]:
data['torque']=data['torque'].apply(split_num)

In [37]:
data['torque'] = data['torque'].replace('', np.NaN)

In [38]:
data['torque'] = data['torque'].astype('float')

In [39]:
data['torque_unit'].value_counts()

NM     7624
KGM     504
Name: torque_unit, dtype: int64

In [40]:
# torque안에 2가지의 단위가 있으니깐 해당 부분을 하나로 통일하는 함수
def trans_nm(x):
    if x['torque_unit'] =='KGM':
        return x['torque'] * 9.80665
    else:
        return x['torque']

In [None]:
# data[['torque','torque_unit']] = data['torque'].str.split(expand=True)

In [41]:
# data에 함수 적용
data['torque'] = data.apply(trans_nm, axis = 1)

In [42]:
# 이제 유닛은 필요없으니깐.
data.drop('torque_unit', axis=1, inplace=True)

In [43]:
data.head()  # 잘 바꼈는지 확인

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats
0,Maruti Swift Dzire VDI,2014,450000,145500,Diesel,Individual,Manual,First Owner,8.478261,1248.0,74 bhp,190.0,5.0
1,Skoda Rapid 1.5 TDI Ambition,2014,370000,120000,Diesel,Individual,Manual,Second Owner,7.65942,1498.0,103.52 bhp,250.0,5.0
2,Honda City 2017-2020 EXi,2006,158000,140000,Petrol,Individual,Manual,Third Owner,16.889313,1497.0,78 bhp,124.544455,5.0
3,Hyundai i20 Sportz Diesel,2010,225000,127000,Diesel,Individual,Manual,First Owner,8.333333,1396.0,90 bhp,219.66896,5.0
4,Maruti Swift VXI BSIII,2007,130000,120000,Petrol,Individual,Manual,First Owner,15.362595,1298.0,88.2 bhp,112.776475,5.0


#### max_power

In [44]:
data[['max_power', 'max_unit']] = data['max_power'].str.split(expand=True)

In [45]:
data['max_unit'].unique()

array(['bhp', nan, None], dtype=object)

In [46]:
data[data['max_power']=='bhp']
# 예외 상황 존재

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats,max_unit
4933,Maruti Omni CNG,2000,80000,100000,CNG,Individual,Manual,Second Owner,3.949275,796.0,bhp,,8.0,


In [47]:
# 캐스팅에서 예외상항이 발생함.
## 문제 없으면 실수처리하고 있다면 겨륵처리하기 / casting
def isFloat(x):
    try:
        num = float(x)
        return num
    except ValueError:
        return np. NaN

In [48]:
# 함수 적용
data['max_power'] = data['max_power'].apply(isFloat)

In [49]:
data.drop('max_unit', axis=1, inplace=True)

#### name

In [51]:
data['name'] = data['name'].str.split(expand=True)[0]

In [52]:
data['name'].unique()

array(['Maruti', 'Skoda', 'Honda', 'Hyundai', 'Toyota', 'Ford', 'Renault',
       'Mahindra', 'Tata', 'Chevrolet', 'Fiat', 'Datsun', 'Jeep',
       'Mercedes-Benz', 'Mitsubishi', 'Audi', 'Volkswagen', 'BMW',
       'Nissan', 'Lexus', 'Jaguar', 'Land', 'MG', 'Volvo', 'Daewoo',
       'Kia', 'Force', 'Ambassador', 'Ashok', 'Isuzu', 'Opel', 'Peugeot'],
      dtype=object)

### 전처리 : 결측치와 더미 변수 변환
- 더미변수: 정형화 시킨다는ㄱ

In [53]:
data.isna().sum()

name               0
year               0
selling_price      0
km_driven          0
fuel               0
seller_type        0
transmission       0
owner              0
mileage          221
engine           221
max_power        216
torque           222
seats            221
dtype: int64

In [54]:
# na 처리
data.dropna(inplace=True)

In [55]:
data.shape # 얼마나 지워졌는지 확인

(7906, 13)

In [56]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7906 entries, 0 to 8127
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   name           7906 non-null   object 
 1   year           7906 non-null   int64  
 2   selling_price  7906 non-null   int64  
 3   km_driven      7906 non-null   int64  
 4   fuel           7906 non-null   object 
 5   seller_type    7906 non-null   object 
 6   transmission   7906 non-null   object 
 7   owner          7906 non-null   object 
 8   mileage        7906 non-null   float64
 9   engine         7906 non-null   float64
 10  max_power      7906 non-null   float64
 11  torque         7906 non-null   float64
 12  seats          7906 non-null   float64
dtypes: float64(5), int64(3), object(5)
memory usage: 864.7+ KB


##### get_dummy 설명

In [57]:
# 판다스의 get_dummy : 문자를 0과1로 정형화 시켜줌
season = pd.DataFrame({'season':['spring', 'summer',
                                 'fall','winter', np.nan]})
season

Unnamed: 0,season
0,spring
1,summer
2,fall
3,winter
4,


In [58]:
pd.get_dummies(season['season']) # 문자로 되어있건 값이 0과 1로 바ㅟㅁ

Unnamed: 0,fall,spring,summer,winter
0,0,1,0,0
1,0,0,1,0
2,1,0,0,0
3,0,0,0,1
4,0,0,0,0


In [59]:
# 결측값도 나타내고 싶을떄
pd.get_dummies(season['season'], dummy_na=True)

Unnamed: 0,fall,spring,summer,winter,NaN
0,0,1,0,0,0
1,0,0,1,0,0
2,1,0,0,0,0
3,0,0,0,1,0
4,0,0,0,0,1


#### get_dummy
- 사이킷런의 One-hot encoding : 범주형 데이터의 각 범주를 1아니면 0으로 채우는 인코딩 기법
- pd.get_dummies(): 함수의 drop_first : 첫번쨰 카테고리 값은 사용하지 않음

In [61]:
data=pd.get_dummies(data, columns=['name','fuel','seller_type',
                                  'transmission','owner'])

In [62]:
data.head()

Unnamed: 0,year,selling_price,km_driven,mileage,engine,max_power,torque,seats,name_Ambassador,name_Ashok,...,seller_type_Dealer,seller_type_Individual,seller_type_Trustmark Dealer,transmission_Automatic,transmission_Manual,owner_First Owner,owner_Fourth & Above Owner,owner_Second Owner,owner_Test Drive Car,owner_Third Owner
0,2014,450000,145500,8.478261,1248.0,74.0,190.0,5.0,0,0,...,0,1,0,0,1,1,0,0,0,0
1,2014,370000,120000,7.65942,1498.0,103.52,250.0,5.0,0,0,...,0,1,0,0,1,0,0,1,0,0
2,2006,158000,140000,16.889313,1497.0,78.0,124.544455,5.0,0,0,...,0,1,0,0,1,0,0,0,0,1
3,2010,225000,127000,8.333333,1396.0,90.0,219.66896,5.0,0,0,...,0,1,0,0,1,1,0,0,0,0
4,2007,130000,120000,15.362595,1298.0,88.2,112.776475,5.0,0,0,...,0,1,0,0,1,1,0,0,0,0
