In [1]:
### 데이터 처리(조작) 라이브러리
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

plt.rc("font", family="Malgun Gothic")

plt.rcParams["axes.unicode_minus"] = False

In [2]:
### exam_sample.csv 파일 읽어들이기
# 변수명 : df
file_path = "./data/exam_sample.csv"
df = pd.read_csv(file_path)
df

Unnamed: 0,student_no,class,science,english,math,sex
0,1,A,50,98,50,m
1,2,A,60,97,60,w
2,3,A,78,86,45,w
3,4,A,58,98,30,m
4,5,B,65,80,90,w
5,6,B,98,89,50,m
6,7,B,45,90,80,m
7,8,B,25,78,90,w
8,9,C,15,98,20,w
9,10,C,45,93,50,w


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   student_no  10 non-null     int64 
 1   class       10 non-null     object
 2   science     10 non-null     int64 
 3   english     10 non-null     int64 
 4   math        10 non-null     int64 
 5   sex         10 non-null     object
dtypes: int64(4), object(2)
memory usage: 608.0+ bytes


## 원-핫 인코딩(One-Hot Encoding)

In [None]:
"""
<원-핫 인코딩>
 - 범주형 데이터의 문자 특성을 컬럼으로 만들고, 0부터 시작되는 값으로 변화하는 방법을 통칭함
 - 특정 컬럼의 범주의 갯수만큼 컬럼이 만들어지며, 범주의 갯수 만큼 0부터 n까지의 정수값이 정의됨
 - 0~n의 값을 가변수(dummy variable) 라고 칭합니다.
 - 0과 1을 사용 (0은 아니다, 1은 맞다의 의미로 사용됨)
 - 데이터들의 패턴 분석을 할 경우, 범주형 데이터들을 숫자로 변화하는 경우가 있으며,
   이때 범주형 데이터들을 원-핫 인코딩 개념을 통해 구조를 변환합니다.
 - 원-핫 인코딩 변환 함수 : get_dummies(), 판다스에서 제공하는 함수
"""

In [4]:
### 모든 범주형 컬럼들의 데이터를 원-핫 인코딩 하기
# - 원-핫 인코딩된 원본(범주형 컬럼) 컬럼은 제거 됩니다.
pd.get_dummies(df)

Unnamed: 0,student_no,science,english,math,class_A,class_B,class_C,sex_m,sex_w
0,1,50,98,50,True,False,False,True,False
1,2,60,97,60,True,False,False,False,True
2,3,78,86,45,True,False,False,False,True
3,4,58,98,30,True,False,False,True,False
4,5,65,80,90,False,True,False,False,True
5,6,98,89,50,False,True,False,True,False
6,7,45,90,80,False,True,False,True,False
7,8,25,78,90,False,True,False,False,True
8,9,15,98,20,False,False,True,False,True
9,10,45,93,50,False,False,True,False,True


In [5]:
### 원-핫 인코딩 처리된 결과값을 숫자로 변환해서 표현
pd.get_dummies(df, dtype=int)

Unnamed: 0,student_no,science,english,math,class_A,class_B,class_C,sex_m,sex_w
0,1,50,98,50,1,0,0,1,0
1,2,60,97,60,1,0,0,0,1
2,3,78,86,45,1,0,0,0,1
3,4,58,98,30,1,0,0,1,0
4,5,65,80,90,0,1,0,0,1
5,6,98,89,50,0,1,0,1,0
6,7,45,90,80,0,1,0,1,0
7,8,25,78,90,0,1,0,0,1
8,9,15,98,20,0,0,1,0,1
9,10,45,93,50,0,0,1,0,1


In [6]:
pd.get_dummies(df["sex"], dtype=int)

Unnamed: 0,m,w
0,1,0
1,0,1
2,0,1
3,1,0
4,0,1
5,1,0
6,1,0
7,0,1
8,0,1
9,0,1


In [7]:
### 전치(Transposition) : 행과 열을 교환한다는 개념
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
student_no,1,2,3,4,5,6,7,8,9,10
class,A,A,A,A,B,B,B,B,C,C
science,50,60,78,58,65,98,45,25,15,45
english,98,97,86,98,80,89,90,78,98,93
math,50,60,45,30,90,50,80,90,20,50
sex,m,w,w,m,w,m,m,w,w,w
