# 데이터 종류


* 범주형 데이터 Categorical Data
    * 명목형 자료(nominal data) : 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시
        * 예) 성별(주민번호), 혈액형
    * 순서형 자료(ordinal data) : 범주의 순서가 상대적으로 비교 가능, 
        * 예) 비만도(저체중, 정상, 과체중, 비만, 고도비만), 학점,선호
* 수치형 데이터 Numerical Data
    * 이산형(discrete data) : 셀 수 있는 형태의 자료(countable data) 
        * 예) 멤버의 수
    * 연속형(continuous data) : 연속적인 속성을 가지는 자료
        * 예) 신장, 체중


In [1]:
# Pandas를 pd라는 이름으로 임포트한다
import pandas as pd

In [2]:
# 학생번호를 인덱스로 csv 파일을 읽어들여, 변수 df에 저장
df = pd.read_csv('./data/ch1_sport_test.csv',
                 index_col='학생번호')
# 변수 df를 표시
df

Unnamed: 0_level_0,학년,악력,윗몸일으키기,점수,순위
학생번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,40.2,34,15,4
2,1,34.2,14,7,10
3,1,28.8,27,11,7
4,2,39.0,27,14,5
5,2,50.9,32,17,2
6,2,36.5,20,9,9
7,3,36.6,31,13,6
8,3,49.2,37,18,1
9,3,26.0,28,10,8
10,3,47.4,32,16,3


### 데이터의 종류

In [3]:
# 읽어들인 데이터의 기본 구조를 확인한다.
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 1 to 10
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   학년      10 non-null     int64  
 1   악력      10 non-null     float64
 2   윗몸일으키기  10 non-null     int64  
 3   점수      10 non-null     int64  
 4   순위      10 non-null     int64  
dtypes: float64(1), int64(4)
memory usage: 480.0 bytes


In [4]:
# 특정 컬럼만 표시한다.
df['악력']

학생번호
1     40.2
2     34.2
3     28.8
4     39.0
5     50.9
6     36.5
7     36.6
8     49.2
9     26.0
10    47.4
Name: 악력, dtype: float64

* 학년 : 1,2,3학년 띄엄띄엄한 값으로 이산형 변수이다. 학년이라는 범주(categorical)데이터로 볼 수도 있다.
* 악력 : 양적 변수이다. 연속형 변수이다. 
* 윗몸일으키기 : 1회 2회 처럼 횟수이므로 이산형 변수이다.
* 점수 : 점수는 연속형 변수이다.
* 순위 : 이산형 변수이다.

### 범주형 데이터
df['학년'] 컬럼을 범주형 변수로 데이터 타입을 변환할 수 있다.

In [5]:
df['학년'] = df['학년'].astype('category')

In [6]:
df['학년']

학생번호
1     1
2     1
3     1
4     2
5     2
6     2
7     3
8     3
9     3
10    3
Name: 학년, dtype: category
Categories (3, int64): [1, 2, 3]

In [7]:
df['학년'].cat.categories

Int64Index([1, 2, 3], dtype='int64')

In [8]:
df['학년'].value_counts().sort_index()

1    3
2    3
3    4
Name: 학년, dtype: int64

### 수치형 데이터를 범주형 데이터로 변환하기

수치형 데이터를 구간으로 나누어 범주형 데이터로 변환하는 것이 가능하다.

In [9]:
df['점수'] # 연속형 수치데이터

학생번호
1     15
2      7
3     11
4     14
5     17
6      9
7     13
8     18
9     10
10    16
Name: 점수, dtype: int64

`pd.cut()`함수의 `bins`옵션으로 구간의 범위를 지정할 수 있다. 

`labels`옵션으로 구간의 label을 지정할 수 있다.

In [10]:
df['등급'] = pd.cut(df['점수'], bins=[0,10,15,20], labels=['하','중','상'])

In [11]:
df[['점수', '등급']]

Unnamed: 0_level_0,점수,등급
학생번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1,15,중
2,7,하
3,11,중
4,14,중
5,17,상
6,9,하
7,13,중
8,18,상
9,10,하
10,16,상


### 데이터의 크기 확인

In [12]:
df.shape

(10, 6)

# 실습

다음의 ages를 bins의 구간으로 나누어 보세요. (hint. pd.cut()을 사용하세요.)
```
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]

```


In [None]:
# TODO