# 14. 숫자 데이터와 범주형 데이터의 이해
- 1. info함수로 각 변수의 데이터 타입 확인
        - 타입 변경은 astype함수를 사용
        
- 2. 숫자 데이터의 범주형 데이터화 하는 경우
    - 방법 1. astype 사용하여 간단히 타입만 변환
    - 방법 2. 변환 로직을 함수로 만든 후, apply함수를 이용하여 모든 row 에 대해서 그 함수를 적용시켜서 값을 바꾸게 된다. 

- 3. 범주형 데이터 전처리 하기(one-hot encodig)
    - 연산이 불가능 하기 때문에 처리가 가능하도록 숫자형으로 바꿔주어야 한다. 
   - 범주형 데이터의 각 범주를 column레벨로 변경
   - 해당 범주에 해당하면 1, 아니면 0으로 채우는 인코딩 기법
   - pandas.get_dummies 함수 사용
       - drop_first : 첫번째 카테고리 값은 사용하지 않는다. 
    
    
    

In [1]:
import pandas as pd

In [2]:
train_data = pd.read_csv('./data/train.csv')
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 1. info함수로 각 변수의 데이터 타입 확인
- 타입 변경은 astype함수를 사용

In [3]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


이때, Pclass는 숫자형데이터 이지만 class를 구분하기 위한 **''범주형 데이터''** 이다. 
#### 범주형 데이터
- 연속적이지 않은 값(대부분의 경우 숫자를 제외한 나머지 값)을 갖는 데이터를 의미한다.  ex) Name, Sex, Cabin..
- 그러나 어떤 경우는 숫자형 타입이라 할 지라도 범주형 데이터 이고 ex) Pclass
- 이러한 범주형 데이터는 데이터분석이나 머신러닝에서 바로 연산을 위해 사용할 수 는 없기 때문에 무조건 버리거나 숫자형데이터로 변환을 시켜주어야 한다. 

## 2. 숫자 데이터의 범주형 데이터화 하는 경우

### 1) Pclass 변수 변환하기
- astype 사용하여 간단히 타입만 변환

In [4]:
train_data['Pclass'] = train_data['Pclass'].astype('str')

In [5]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null object
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(4), object(6)
memory usage: 83.7+ KB


### Age 변수 변환하기 : 10대, 20대, 30대.. 이렇게
: 변환 로직을 함수로 만든 후, apply함수를 이용하여 모든 row 에 대해서 그 함수를 적용시켜서 값을 바꾸게 된다. 

In [6]:
import math

In [7]:
#함수 만들기
def age_categorize(age) : 
    if math.isnan(age) : #NaN데이터인 경우, math 패키지에 있는 isnan함수 이용해서 따로 처리
        return -1 
    return math.floor(age %10) *10 #math 패키지에 있는 floor함수 : 소수점 버려주는 기능

In [8]:
#apply 
train_data['Age'].apply(age_categorize)

0      20
1      80
2      60
3      50
4      50
       ..
886    70
887    90
888    -1
889    60
890    20
Name: Age, Length: 891, dtype: int64

## 3. 범주형 데이터 전처리 하기(one-hot encodig)

In [9]:
train_data = pd.read_csv('./data/train.csv')
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [10]:
#pandas.get_dummies함수 사용 : 해당하는 것만 1, 아닌 것은 0으로 채워짐
'''pd.get_dummies(
    data,
    prefix=None,
    prefix_sep='_',
    dummy_na=False,
    columns=None,
    sparse=False,
    drop_first=False,
    dtype=None,
)'''
pd.get_dummies(train_data, columns = ['Pclass', 'Sex', 'Embarked'], drop_first = False)

Unnamed: 0,PassengerId,Survived,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Pclass_1,Pclass_2,Pclass_3,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,1,0,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.2500,,0,0,1,0,1,0,0,1
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,1,0,0,1,0,1,0,0
2,3,1,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.9250,,0,0,1,1,0,0,0,1
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1000,C123,1,0,0,1,0,0,0,1
4,5,0,"Allen, Mr. William Henry",35.0,0,0,373450,8.0500,,0,0,1,0,1,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,"Montvila, Rev. Juozas",27.0,0,0,211536,13.0000,,0,1,0,0,1,0,0,1
887,888,1,"Graham, Miss. Margaret Edith",19.0,0,0,112053,30.0000,B42,1,0,0,1,0,0,0,1
888,889,0,"Johnston, Miss. Catherine Helen ""Carrie""",,1,2,W./C. 6607,23.4500,,0,0,1,1,0,0,0,1
889,890,1,"Behr, Mr. Karl Howell",26.0,0,0,111369,30.0000,C148,1,0,0,0,1,1,0,0


In [11]:
pd.get_dummies(train_data, columns = ['Pclass', 'Sex', 'Embarked'], drop_first = True) #drop_first = True 하면, 유추할 수 있으면 굳이 필요없으니까 

Unnamed: 0,PassengerId,Survived,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Pclass_2,Pclass_3,Sex_male,Embarked_Q,Embarked_S
0,1,0,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.2500,,0,1,1,0,1
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,0,0,0,0,0
2,3,1,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.9250,,0,1,0,0,1
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1000,C123,0,0,0,0,1
4,5,0,"Allen, Mr. William Henry",35.0,0,0,373450,8.0500,,0,1,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,"Montvila, Rev. Juozas",27.0,0,0,211536,13.0000,,1,0,1,0,1
887,888,1,"Graham, Miss. Margaret Edith",19.0,0,0,112053,30.0000,B42,0,0,0,0,1
888,889,0,"Johnston, Miss. Catherine Helen ""Carrie""",,1,2,W./C. 6607,23.4500,,0,1,0,0,1
889,890,1,"Behr, Mr. Karl Howell",26.0,0,0,111369,30.0000,C148,0,0,1,0,0
