#  **범주형 데이터 다루기**

* One-hot encoding: N개의 클래스를 N차원의 One-hot 벡터로 표현되도록 변환
  *  고유의 값들을 feature로 만들고 해당하는 열은 1로 나머지는 0으로 표현
  * 숫자의 차이가 모델에 영향을 미치는 선형계열 모델(Logistic Regression, SVM, 신경망)에서 범주형 데이터 변환시 Label Encoding 보다 One-hot Encoding
을 사용


In [1]:
import pandas as pd

In [2]:
edges = pd.DataFrame({'source': [0, 1, 2], 'target': [2, 2, 3],
                      'weight': [3, 4, 5], 'color': ['red', 'blue', 'blue']})
edges

Unnamed: 0,source,target,weight,color
0,0,2,3,red
1,1,2,4,blue
2,2,3,5,blue


In [3]:
edges.dtypes

source     int64
target     int64
weight     int64
color     object
dtype: object

* 원핫 인코딩을 적용하기 위해서는 Pandas에서 제공하는  get_dummies 함수를 사용


In [4]:
# 전체 데이터프레임중 범주형 데이터(컬럼)만 적용하여 값을 반환
encoded = pd.get_dummies(edges)
print(encoded)

   source  target  weight  color_blue  color_red
0       0       2       3       False       True
1       1       2       4        True      False
2       2       3       5        True      False


In [5]:
#pd.get_dummies() 함수의 출력이 True/False로 나오는 경우, 이는 원본 데이터의 유형이나 환경 설정과 관련이 있을 수 있음
#출력을 0과 1로 변환하려면 .astype(int) 메서드를 사용하면 됨.
print(encoded.astype(int))

   source  target  weight  color_blue  color_red
0       0       2       3           0          1
1       1       2       4           1          0
2       2       3       5           1          0


In [6]:
#edges 데이터프레임의 데이터는 바뀌지 않음
edges["color"]

0     red
1    blue
2    blue
Name: color, dtype: object

In [7]:
type(edges["color"])

pandas.core.series.Series

In [9]:
#pd.get_dummies 함수는 series 데이터도 입력으로 받을수 있으며
pd.get_dummies(edges["color"])

Unnamed: 0,blue,red
0,False,True
1,True,False
2,True,False


In [10]:
#반환은 데이터 프레임으로 한다
type(pd.get_dummies(edges["color"]))

pandas.core.frame.DataFrame

In [11]:
edges[["color"]]

Unnamed: 0,color
0,red
1,blue
2,blue


In [12]:
type(edges[["color"]])

pandas.core.frame.DataFrame

In [30]:
#데이터 프레임도 입력으로 받을수 있으며
pd.get_dummies(edges[["color"]])

Unnamed: 0,color_blue,color_red
0,False,True
1,True,False
2,True,False


In [31]:
#반환은 데이터 프레임으로 한다
type(pd.get_dummies(edges[["color"]]))

pandas.core.frame.DataFrame

#  Grade 별로 범주형 데이터로 변환하기
* postTestScore를 Grade 별로 범주형 데이터로 변환하는 방법
 - range 정의: 0 ~ 25, 25 ~ 50, 50 ~ 75, 75 ~ 100
 - pandas cut 함수를 사용하여 변환



In [32]:
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
            'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'],
            'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
            'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}

df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'name', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,regiment,company,name,preTestScore,postTestScore
0,Nighthawks,1st,Miller,4,25
1,Nighthawks,1st,Jacobson,24,94
2,Nighthawks,2nd,Ali,31,57
3,Nighthawks,2nd,Milner,2,62
4,Dragoons,1st,Cooze,3,70
5,Dragoons,1st,Jacon,4,25
6,Dragoons,2nd,Ryaner,24,94
7,Dragoons,2nd,Sone,31,57
8,Scouts,1st,Sloan,2,62
9,Scouts,1st,Piger,3,70


In [33]:
bins = [0, 25, 50, 75, 100] # bins 정의(0-25, 25-50, 60-75, 75-100)
group_names = ['Low', 'Okay', 'Good', 'Great']
categories = pd.cut(df['postTestScore'], bins, labels=group_names)
categories

0       Low
1     Great
2      Good
3      Good
4      Good
5       Low
6     Great
7      Good
8      Good
9      Good
10     Good
11     Good
Name: postTestScore, dtype: category
Categories (4, object): ['Low' < 'Okay' < 'Good' < 'Great']

* pandas.cut(input_array, bins, labels): 주어지는 배열을 설정한 bins에 따라 구분하고, label을 부여

# * **데이터 정제**

In [34]:
import pandas as pd
import numpy as np

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
            'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'],
            'age': [42, np.nan, 36, 24, 73],
            'sex': ['m', np.nan, 'f', 'm', 'f'],
            'preTestScore': [4, np.nan, np.nan, 2, 3],
            'postTestScore': [25, np.nan, np.nan, 62, 70]}

df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


* isnull 함수: missing values 를 찾는데 사용


In [36]:
df.isnull().sum() / len(df)  # 각 컬럼에 missing value가 차지하는 비율

first_name       0.2
last_name        0.2
age              0.2
sex              0.2
preTestScore     0.4
postTestScore    0.4
dtype: float64

* dropna 함수는 NaN 가 들어있는 행(row)를 제거하는데 사용

In [37]:
df.dropna()

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [41]:
# drop과 관련된 대부분의 명령은 실제 drop 결과를 반환하지만 결과를 객체에 저장하지 않습니다. 반환값을 별도의 객체 저장 필요
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [42]:
# drop과 관련된 대부분의 명령은 실제 drop 결과를 반환하지만 결과를 객체에 저장하지 않습니다. 반환값을 별도의 객체 저장 필요
df_no_missing = df.dropna()
df_no_missing

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [43]:
df_cleaned = df.dropna(how='all') # 'all' 옵션이 있을때는 모든 값이 NaN 인 row만 제거
df_cleaned

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [46]:
df['location'] = np.nan # 새로운 컬럼 추가 (with np.nan)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [47]:
df.dropna(axis=1, how='all') # axis=1, 컬럼의 모든 값이 NaN 일때 삭제

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [48]:
df.dropna(axis=0, thresh=1) #thresh=1을 지정하면 데이터가 하나 이상 있는 행이 남습니다.

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [49]:
df.dropna(thresh=5) # thresh=5을 지정하면 데이터가 다섯개 이상 있는 행이 남습니다.

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


* fill : 빈 값(없는 값) 채우기
* 일반적으로 drop 후 남은 값을 채움
* 평균, 최빈값 등의 데이터 분포를 고려하여 채움
* 함수 fillna 사용

In [50]:
# original data
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [51]:
df.fillna(0) # NaN을 0으로 채움

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,0.0
1,0,0,0.0,0,0.0,0.0,0.0
2,Tina,Ali,36.0,f,0.0,0.0,0.0
3,Jake,Milner,24.0,m,2.0,62.0,0.0
4,Amy,Cooze,73.0,f,3.0,70.0,0.0


In [52]:
# original data
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [61]:
# 열당 평균 값을 계산하고 해당 열만 값으로 채웁니다.

#df["preTestScore"].fillna(df["preTestScore"].mean(), inplace=True) # inplace 매개변수는 변경된 값을 반환하지 않고 변수 자체의 값을 변경합니다.
# -- Pandas 2.0 이상에서 위와 같은 문법 사용이 권장되 않음 
df["preTestScore"]=df["preTestScore"].fillna(df["preTestScore"].mean())  # inplace 사용하는 대신, 해당 열에 변환된 값을 직접 지정
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [62]:
# original data
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [63]:
# female의 평균은 70.0 이므로 해당그룹의 row(Tina)의 postTestScore는 NaN은 70.0으로 채움
df.groupby("sex")[
    "postTestScore"].transform(
    "mean")

0    43.5
1     NaN
2    70.0
3    43.5
4    70.0
Name: postTestScore, dtype: float64

In [64]:
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [66]:
#df["postTestScore"].fillna(
#df.groupby("sex")["postTestScore"].transform("mean"), inplace=True)
# -- Pandas 2.0 이상에서 위와 같은 문법 사용이 권장되 않음 
df["postTestScore"] = df["postTestScore"].fillna(
df.groupby("sex")["postTestScore"].transform("mean"))
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,70.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,
