# 데이터 타입 확인 및 변경

## #01. 준비과정

### [1] 패키지 참조

In [14]:
from pandas import read_excel       # 엑셀 데이터 가져오기
from pandas import CategoricalDtype # 명목형 변수로 변환하는 기능


### [2] 데이터 가져오기

In [15]:
origin = read_excel("https://data.hossam.kr/pydata/grade.xlsx", index_col="이름")
origin

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


## #02. 데이터 확인하기

### [1] 데이터의 크기

In [16]:
rows, cols = origin.shape
print(f"{rows}행,{cols}열의 {origin.ndim}차원 데이터")

9행,6열의 2차원 데이터


### [2] 각 변수의 데이터 타입 확인

In [17]:
origin.dtypes

학년     int64
성별    object
국어     int64
영어     int64
수학     int64
과학     int64
dtype: object

## #03. 데이터 타입 변경

### [1] 일괄 변경 후 새로운 데이터 프레임 리턴받기

타입 변환을 수행할 변수만 `이름:타입` 형식의 딕셔너리로 구성한다.

결과가 적용된 복사본이 리턴된다.

#### (1) 타입 변환 적용

In [18]:
df = origin.astype({'국어': 'float', '영어': 'float', '수학': 'str', '과학': 'bool'})
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98.0,77.0,88,True
영희,2,여자,88.0,120.0,62,True
민철,1,남자,92.0,70.0,83,True
수현,3,여자,63.0,60.0,31,True
호영,4,남자,75.0,50.0,90,True
영호,4,남자,80.0,88.0,91,True
용식,2,남자,82.0,88.0,79,True
나영,1,여자,90.0,92.0,81,True
석영,1,남자,91.0,90.0,89,True


#### (2) 리턴된 데이터프레임의 타입 확인

In [19]:
df.dtypes

학년      int64
성별     object
국어    float64
영어    float64
수학     object
과학       bool
dtype: object

#### (3) 원본 확인

`astype()`함수는 결과가 적용된 복사본을 리턴한다. (원본은 변하지 않음)


In [20]:
origin.dtypes

학년     int64
성별    object
국어     int64
영어     int64
수학     int64
과학     int64
dtype: object

### [2] 개별 컬럼단위로 수정하여 원본에 직접 적용하기

`int`, `float`, `str`, `bool`

#### (1) 원본을 유지하기 위해 데이터프레임의 복사본 생성

In [21]:
copy = origin.copy()
copy

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


#### (2) 복사본에 대한 데이터 타입 변환

In [22]:
copy["수학"] = copy["수학"].astype('float')
copy["성별"] = copy["성별"].astype('bool')
copy.dtypes

학년      int64
성별       bool
국어      int64
영어      int64
수학    float64
과학      int64
dtype: object

### [3] 범주형 데이터 만들기

데이터프레임은 범주형 데이터에 대해 `category`라는 데이터 타입을 별도로 적용할 수 있다.

#### (1) 데이터프레임 전체에 적용후 복사본 리턴받기

In [23]:
df = origin.astype({'학년': 'category', '성별': 'category'}) # 범주형 데이터인 category는 순서가 없는 자료형이다.(명목척도)
df.dtypes

학년    category
성별    category
국어       int64
영어       int64
수학       int64
과학       int64
dtype: object

#### (2) 컬럼 단위로 적용하여 원본에 반영하기

In [24]:
copy = origin.copy()
copy['학년'] = copy['학년'].astype('category')
copy['성별'] = copy['성별'].astype('category')
copy.dtypes

학년    category
성별    category
국어       int64
영어       int64
수학       int64
과학       int64
dtype: object

### [4] 서열척도로 변경하기(순서 있는 범주형)

#### (1) 데이터프레임 전체에 적용후 복사본 반환받기

`CategoricalDtype` 클래스의 객체를 생성하여 범주의 특성을 설정한다.

In [25]:
df = origin.astype({
    "학년": CategoricalDtype(categories=[1, 2, 3, 4], ordered=True)}) # categories에 입력한 순서대로 순서가 성립한다.
df.dtypes

학년    category
성별      object
국어       int64
영어       int64
수학       int64
과학       int64
dtype: object

#### (2) 컬럼 단위로 적용하여 원본에 직접 적용하기

In [26]:
copy = origin.copy()
copy['학년'] = copy['학년'].astype(
        CategoricalDtype(categories=[1, 2, 3, 4], ordered=True))
copy.dtypes

학년    category
성별      object
국어       int64
영어       int64
수학       int64
과학       int64
dtype: object