In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

# horsepower 열의 누락 데이터('?') 삭제하고 실수형으로 변환
df['horsepower'] = df['horsepower'].replace('?', np.nan)      # '?'을 np.nan으로 변경
df = df.dropna(subset=['horsepower'], axis=0)                 # 누락데이터 행을 삭제
df['horsepower'] = df['horsepower'].astype('float')           # 문자열을 실수형으로 변환

# np.histogram 으로 3개의 bin으로 나누는 경계 값의 리스트 구하기
count, bin_dividers = np.histogram(df['horsepower'], bins=3)

# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 으로 각 데이터를 3개의 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],     # 데이터 배열
                      bins=bin_dividers,      # 경계 값 리스트
                      labels=bin_names,       # bin 이름
                      include_lowest=True)    # 첫 경계값 포함

# sklern 라이브러리 불러오기
from sklearn import preprocessing    

# 전처리를 위한 encoder 객체 만들기
label_encoder = preprocessing.LabelEncoder()       # label encoder 생성
onehot_encoder = preprocessing.OneHotEncoder()     # one hot encoder 생성

# label encoder로 문자열 범주를 숫자형 범주로 변환
onehot_labeled = label_encoder.fit_transform(df['hp_bin'].head(15))  
print(onehot_labeled)
print(type(onehot_labeled))

# 2차원 행렬로 형태 변경
onehot_reshaped = onehot_labeled.reshape(len(onehot_labeled), 1) 
print(onehot_reshaped)
print(type(onehot_reshaped))

# 희소행렬로 변환
onehot_fitted = onehot_encoder.fit_transform(onehot_reshaped)
print(onehot_fitted)
print(type(onehot_fitted))

In [None]:
%pip install pandas numpy

In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 
df.head(2)

In [None]:
# 연비를 3개 구간으로 나눠서 새로운 컬럼명으로 추가
# 저연비, 보통, 고연비
# 연속형(수치형) -> 범주형(category)형 분리
df.mpg
df['mpg_qcut'] =  pd.qcut(df.mpg,q=3,labels=['저연비', '보통', '고연비'])
print(df.mpg_qcut.value_counts())
# 계급구간확인  라벨없이 적용후
temp = pd.qcut(df.mpg,q=3)
print(f'구간별 데이터 범위 : {temp.cat.categories}')

In [None]:
size, bins_range =  np.histogram(df.mpg,bins=np.array(3))
df['mpg_cut'] = pd.cut(df.mpg,bins=bins_range,labels=['저연비', '보통', '고연비'])
df.mpg_cut.value_counts()
print(f'계급별 구간 : {bins_range}')

In [None]:
pd.get_dummies(df.mpg_qcut,dtype=float)

In [None]:
pd.get_dummies(df.mpg_cut,dtype=float)

In [None]:
# 다중 공선성 : 회귀분석(여러변수로 결과를 예측하는 모델), 독립변수(컬럼들..)끼리 서로 너무 강하게 상관관계를 가질때 문제가 생김
%pip install scikit-learn

In [None]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 
# 범주형 데이터로 변환
df['mpg_qcut'] =  pd.qcut(df.mpg,q=3,labels=['저연비', '보통', '고연비'])

encoder = OneHotEncoder(sparse_output=False)  #객체
# sklearn 계열은 사용방법이 통일   fit : 적용  transform : 변환    fit_transform은 두개를 한꺼번에 실행
temp = encoder.fit_transform(df[['mpg_qcut']])  # 2차원데이터가 와야 함
cols = encoder.get_feature_names_out(['mpg_qcut'])
pd.DataFrame(temp, columns=cols)
pd.concat([df.drop(columns=['mpg_qcut']), pd.DataFrame(temp, columns=cols)],axis=1)

In [None]:
encoder2 = OneHotEncoder(sparse_output=True)
encoder2.fit_transform(df[['mpg_qcut']])

In [None]:
encoder2 = OneHotEncoder(sparse_output=False)
encoder2.fit_transform(df[['mpg_qcut']])

In [None]:
# get_dummy()  : 빠르게 확인, 컬럼명 유지   pandas Dataframe / Series
    #  데이터 탐색, 시각화 ,작은데이터셋

# OneHotEncoder()  numpy array, DataFrame 
    # 머신러닝 파이라인/모델 학습
    #fit , transform --> 학습-예측데이터 일관성 유지, 큰데이터셋

In [None]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./data/auto-mpg.csv', header=None)
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 
# 범주형 데이터로 변환
df['mpg_qcut'] =  pd.qcut(df.mpg,q=3,labels=['저연비', '보통', '고연비'])

encoder = OneHotEncoder(sparse_output=True)  #객체
# sklearn 계열은 사용방법이 통일   fit : 적용  transform : 변환    fit_transform은 두개를 한꺼번에 실행
temp = encoder.fit_transform(df[['mpg_qcut']])  # 2차원데이터가 와야 함
cols = encoder.get_feature_names_out(['mpg_qcut'])
pd.DataFrame.sparse.from_spmatrix(temp, columns=cols)
pd.concat([df.drop(columns=['mpg_qcut']), pd.DataFrame.sparse.from_spmatrix(temp, columns=cols)],axis=1)

In [12]:
train_df = df.drop(columns=['mpg'])
train_df.head(2)
# cylinders,model year, origin,mpg_qcut --> onehot
# onehot 이후에 onehot에 대상이된 컬럼은 drop
# 제조사컬럼에서 제조사만 추출해서 -> onehot
# 하나의 데이터프레임으로 결합 concat

Unnamed: 0,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,mpg_qcut
0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,저연비
1,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,저연비


In [26]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
origin_cols = ['cylinders','model year', 'origin','maker']
train_df['maker'] = [n_list[0] for n_list in df['name'].str.split()]
total_onehots = []
for colname in origin_cols:
    encoder_fit_transform = encoder.fit_transform(train_df[[colname]])
    cols = encoder.get_feature_names_out([colname])
    total_onehots.append(pd.DataFrame.sparse.from_spmatrix(encoder_fit_transform,columns=cols))

In [28]:
total_onehots.insert(0,train_df)
new_train_df = pd.concat(total_onehots,axis=1)
new_train_df = new_train_df.drop(columns=origin_cols)
new_train_df.head()

Unnamed: 0,displacement,horsepower,weight,acceleration,name,mpg_qcut,displacement.1,horsepower.1,weight.1,acceleration.1,...,maker_renault,maker_saab,maker_subaru,maker_toyota,maker_toyouta,maker_triumph,maker_vokswagen,maker_volkswagen,maker_volvo,maker_vw
0,307.0,130.0,3504.0,12.0,chevrolet chevelle malibu,저연비,307.0,130.0,3504.0,12.0,...,0,0,0,0,0,0,0,0,0,0
1,350.0,165.0,3693.0,11.5,buick skylark 320,저연비,350.0,165.0,3693.0,11.5,...,0,0,0,0,0,0,0,0,0,0
2,318.0,150.0,3436.0,11.0,plymouth satellite,저연비,318.0,150.0,3436.0,11.0,...,0,0,0,0,0,0,0,0,0,0
3,304.0,150.0,3433.0,12.0,amc rebel sst,저연비,304.0,150.0,3433.0,12.0,...,0,0,0,0,0,0,0,0,0,0
4,302.0,140.0,3449.0,10.5,ford torino,저연비,302.0,140.0,3449.0,10.5,...,0,0,0,0,0,0,0,0,0,0


In [None]:
# 범주형 데이터... 범위내에서 결정되는 데이터  -category
# 연속형 데이터 : 범위가 없는 변화무쌍한 데이터
# 개 고양이 새 ->범주형데이터  0,과 1로 표현
# 고양이  [1,0,0] 고양이on 나머지 off
# 새 [0,1,0]
# 개 [0,0,1]
# 고양이 0, 새 1, 개 2 --> ?

# 키를 예측 모델  , 신발사이즈 변수사용  1(작다),2(중간),3(크다) --> 큰신발을 신은 사람은 키가 크다 
# 3번신발이 신은 사람이 1번신발을 신은 사람보다   신발사이즈가 3배증가 --> 아. 키도 3개크다고 인식
# 신발사이즈 변수 : 카테고리... 모델학습할때. 참고용도
# 1,0,0  0,1,0 0,0,1

