# 숫자(numerical) & 범주형(categorical) 데이터의 이해
 - dtype 에 대한 이야기가 아니다!

In [7]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 숫자형(Numerical Type) 데이터
 - 연속성을 띄는 숫자로 이루어진 데이터
   - 예) Age, Fare 등
 - 대소비교, 산술연산 (평균, 합계, 중간값) 의미있슴
 
## 범주형(Categorical Type) 데이터
 - 연속적이지 않은 값(대부분의 경우 숫자를 제외한 나머지 값)을 갖는 데이터를 의미
   - 예) Name, Sex, Ticket, Cabin, Embarked 
 - 어떤 경우, 데이터타입(dtype)이 숫자형 타입이라 할지라도 개념적으로 범주형으로 처리해야할 경우가 있음
   - 예) Pclass, Survived   
 - 대소비교, 산술연산(평균, 합계, 중간값...) 의미없슴

In [8]:
# 숫자형 : int, float
# 문자형 : object
# 숫자형은 데이터 자체를 이용하여 연산이 가능
# 문자형은 데이터를 이용해서 연산이 불가능

In [None]:
# 숫자형 데이터 -> 범주형 데이터로 변환 가능
# 범주형 데이터 -> 숫자형 데이터로 변환 가능 (One-hot encoding)

#### Pclass 변수 변환하기
 - astype 사용하여 간단히 타입만 변환

In [9]:
df['Pclass'] = df['Pclass'].astype('str')
df['Pclass'].head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: object

## Age 변수 변환하기 

In [10]:
df['Age']

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [None]:
# 10대, 20대, 30대... 범주형 변경
# for, if, while 을 이용해서 할 수 있으나, 데이터분석에서 해당 기능은 사용을 최대한 배제한다.

### apply()  함수 사용!
변환로직을 '함수' 로 만든뒤 적용

In [11]:
def age_categorical(age):
    return int(age // 10) * 10

In [12]:
age_categorical(27)

20

In [13]:
import math

def age_categorical(age):
    if math.isnan(age):
        return -1
    return int(age // 10) * 10

In [14]:
age_span = df['Age'].apply(age_categorical)
age_span

0      20
1      30
2      20
3      30
4      30
       ..
886    20
887    10
888    -1
889    20
890    30
Name: Age, Length: 891, dtype: int64

In [15]:
age_span.unique()
# 출력 순으로 나열

array([20, 30, -1, 50,  0, 10, 40, 60, 70, 80])

In [16]:
age_span.value_counts()
# 많은 순으로 나열

Age
 20    220
-1     177
 30    167
 10    102
 40     89
 0      62
 50     48
 60     19
 70      6
 80      1
Name: count, dtype: int64

In [17]:
df['Age_span'] = age_span
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_span
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,20
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,30
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,20
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,30
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,30
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,20
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,10
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,-1
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,20
