# One-hot encoding in PySpark

PySpark에서 원-핫 인코딩을 수행하려면 다음을 수행해야 합니다.
1. StringIndexer를 사용하여 범주 열을 숫자 열(0, 1, ...)로 변환
2. OneHotEncoder를 사용하여 숫자 열을 원-핫 인코딩 열로 변환

In [1]:
import findspark
findspark.init()

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrame").config("spark.sql.repl.eagerEval.enabled", True).getOrCreate()
spark

22/12/13 15:50:39 WARN Utils: Your hostname, oyeongje-ui-MacBookPro.local resolves to a loopback address: 127.0.0.1; using 172.30.1.24 instead (on interface en0)
22/12/13 15:50:39 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


22/12/13 15:50:40 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
22/12/13 15:50:40 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
22/12/13 15:50:40 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.


In [3]:
rows = [['Alex','B'], ['Bob','A'], ['Cathy','B'], ['Dave','C'], ['Eric','D']]
df = spark.createDataFrame(rows, ['name', 'class'])
df.show()

                                                                                

+-----+-----+
| name|class|
+-----+-----+
| Alex|    B|
|  Bob|    A|
|Cathy|    B|
| Dave|    C|
| Eric|    D|
+-----+-----+



### 첫 번째 단계 - StringIndexer를 사용하여 클래스 열을 숫자 열로 변환

In [4]:
from pyspark.ml.feature import StringIndexer

indexer = StringIndexer(inputCol='class', outputCol='class_').fit(df)
df_r = indexer.transform(df)
df_r.show()

                                                                                

+-----+-----+------+
| name|class|class_|
+-----+-----+------+
| Alex|    B|   0.0|
|  Bob|    A|   1.0|
|Cathy|    B|   0.0|
| Dave|    C|   2.0|
| Eric|    D|   3.0|
+-----+-----+------+



In [5]:
indexer.labels

['B', 'A', 'C', 'D']

### One-Hot Encoding

희소 벡터는 다음 세 가지 값으로 정의됩니다.

size: 벡터의 크기(카테고리 수에서 1을 뺀 값)  
인덱스: 값을 보유하는 벡터의 인덱스  
값: 인덱스에 있는 값  

벡터 (3,[0],[1.0])를 예로 들어 보겠습니다. 하나의 범주가 기본 범주로 사용되기 때문에 4개의 고유한 범주(A,B,C,D)가 있지만 벡터의 크기는 3입니다.  
중간 값 [0]과 세 번째 값 [1.0]은 벡터에서 인덱스 위치 0을 1.0으로 채워야 함을 의미합니다. 희소 벡터의 다른 모든 값은 0으로 채워집니다.

원-핫 인코딩된 벡터(3,[],[])의 두 번째 및 세 번째 값은 모두 비어 있습니다. 이것은 벡터가 0으로 채워져 있음을 의미합니다. 즉, 범주 D가 기본 범주로 취급됩니다. 이것이 크기 3의 벡터로 4개의 고유 범주를 나타낼 수 있는 이유입니다.  

In [6]:
from pyspark.ml.feature import OneHotEncoder

encoder = OneHotEncoder(inputCols=['class_'], outputCols=['class_ohe']).fit(df_r)
df_onehot = encoder.transform(df_r)
df_onehot.show()

+-----+-----+------+-------------+
| name|class|class_|    class_ohe|
+-----+-----+------+-------------+
| Alex|    B|   0.0|(3,[0],[1.0])|
|  Bob|    A|   1.0|(3,[1],[1.0])|
|Cathy|    B|   0.0|(3,[0],[1.0])|
| Dave|    C|   2.0|(3,[2],[1.0])|
| Eric|    D|   3.0|    (3,[],[])|
+-----+-----+------+-------------+



In [7]:
df_onehot.head(5)

[Row(name='Alex', class='B', class_=0.0, class_ohe=SparseVector(3, {0: 1.0})),
 Row(name='Bob', class='A', class_=1.0, class_ohe=SparseVector(3, {1: 1.0})),
 Row(name='Cathy', class='B', class_=0.0, class_ohe=SparseVector(3, {0: 1.0})),
 Row(name='Dave', class='C', class_=2.0, class_ohe=SparseVector(3, {2: 1.0})),
 Row(name='Eric', class='D', class_=3.0, class_ohe=SparseVector(3, {}))]

In [8]:
df_onehot.printSchema()

root
 |-- name: string (nullable = true)
 |-- class: string (nullable = true)
 |-- class_: double (nullable = false)
 |-- class_ohe: vector (nullable = true)



In [9]:
from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler(inputCols=['class_ohe'], outputCol='features')

output = assembler.transform(df_onehot)
output.show(5)

+-----+-----+------+-------------+-------------+
| name|class|class_|    class_ohe|     features|
+-----+-----+------+-------------+-------------+
| Alex|    B|   0.0|(3,[0],[1.0])|[1.0,0.0,0.0]|
|  Bob|    A|   1.0|(3,[1],[1.0])|[0.0,1.0,0.0]|
|Cathy|    B|   0.0|(3,[0],[1.0])|[1.0,0.0,0.0]|
| Dave|    C|   2.0|(3,[2],[1.0])|[0.0,0.0,1.0]|
| Eric|    D|   3.0|    (3,[],[])|    (3,[],[])|
+-----+-----+------+-------------+-------------+



In [10]:
output.select("features").head(5)

[Row(features=DenseVector([1.0, 0.0, 0.0])),
 Row(features=DenseVector([0.0, 1.0, 0.0])),
 Row(features=DenseVector([1.0, 0.0, 0.0])),
 Row(features=DenseVector([0.0, 0.0, 1.0])),
 Row(features=SparseVector(3, {}))]