# Category Type

In [136]:
# 카테고리형(Categorical) 데이터는 데이터프레임의 칼럼에서 특정한 형태의 데이터가 반복되는 경우 사용합니다.
# 예를 들어 성별(남성, 여성), 나이(10대, 20대, ...)와 같이 특정 구간의 데이터가 반복되는 경우입니다.
# 카테고리형 데이터를 이용하면 반복된 데이터를 코드화하여 데이터의 사이즈를 줄여서 메모리 사용량이 줄어 들고 데이터 처리 속도가 빨라집니다.
# 원본 데이터를 astype('category')로 형변환을 하거나 pd.cut(), pd.qcut() 함수를 이용하여 데이터를 카테고리화 할 수 있습니다.

import pandas as pd

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# 샘플 데이터 로드(타이타닉 데이터)
train=pd.read_csv("https://raw.githubusercontent.com/developer-sdk/kaggle-python-beginner/master/datas/kaggle-titanic/train.csv")
# Age Null 처리
train['Age'].fillna(0, inplace=True)
# Sex 형의 형변환 
train['SexCategory'] = train.Sex.astype('category')

In [43]:
train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,SexCategory
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,male
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,female
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,female
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,female
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,male
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,female
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,0.0,1,2,W./C. 6607,23.4500,,S,female
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,male


In [44]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   PassengerId  891 non-null    int64   
 1   Survived     891 non-null    int64   
 2   Pclass       891 non-null    int64   
 3   Name         891 non-null    object  
 4   Sex          891 non-null    object  
 5   Age          891 non-null    float64 
 6   SibSp        891 non-null    int64   
 7   Parch        891 non-null    int64   
 8   Ticket       891 non-null    object  
 9   Fare         891 non-null    float64 
 10  Cabin        204 non-null    object  
 11  Embarked     889 non-null    object  
 12  SexCategory  891 non-null    category
dtypes: category(1), float64(2), int64(5), object(5)
memory usage: 84.6+ KB


In [45]:
train['SexCategory'].unique()

['male', 'female']
Categories (2, object): ['female', 'male']

In [46]:
train['SexCategory'].dtype

CategoricalDtype(categories=['female', 'male'], ordered=False)

In [47]:
# 메모리 사용량 확인 
train['SexCategory'].memory_usage()

1143

In [48]:
# 메모리 사용량 확인 
train['Sex'].memory_usage()

7256

In [49]:
# cut을 이용하면 데이터를 구간 단위로 카테고리화 할 수 있습니다. cut을 이용하면 label을 설정하여 사람이 좀 더 읽기 편한 형태로 변경할 수 있습니다.
# Age 데이터를 3개의 구간으로 카테고리화 
pd.cut(train['Age'], 3)

0       (-0.08, 26.667]
1      (26.667, 53.333]
2       (-0.08, 26.667]
3      (26.667, 53.333]
4      (26.667, 53.333]
             ...       
886    (26.667, 53.333]
887     (-0.08, 26.667]
888     (-0.08, 26.667]
889     (-0.08, 26.667]
890    (26.667, 53.333]
Name: Age, Length: 891, dtype: category
Categories (3, interval[float64, right]): [(-0.08, 26.667] < (26.667, 53.333] < (53.333, 80.0]]

In [50]:
# 구간정보를 레이블로 보기 좋게 변경 
pd.cut(train['Age'], 3, labels=["Young","Middle","Old"])

0       Young
1      Middle
2       Young
3      Middle
4      Middle
        ...  
886    Middle
887     Young
888     Young
889     Young
890    Middle
Name: Age, Length: 891, dtype: category
Categories (3, object): ['Young' < 'Middle' < 'Old']

In [51]:
# 데이터를 전처리후 머신러닝으로 분석하기 위해서 카테고리형은 정수형으로 변경되어야 합니다. 이때 map이나 factorize를 이용하면 카테고리형 데이터를 정수형으로 변경할 수 있습니다.
# Age값을 카테고리 형으로 
train.AgeCategory = pd.cut(train['Age'], 3, labels=["Young","Middle","Old"])
train.AgeCategory

  train.AgeCategory = pd.cut(train['Age'], 3, labels=["Young","Middle","Old"])


0       Young
1      Middle
2       Young
3      Middle
4      Middle
        ...  
886    Middle
887     Young
888     Young
889     Young
890    Middle
Name: Age, Length: 891, dtype: category
Categories (3, object): ['Young' < 'Middle' < 'Old']

In [52]:
# factorize를 이용하여 정수형으로 변경 
train["AgeCategoryCode1"] = pd.factorize(train.AgeCategory)[0]
train.AgeCategoryCode1

0      0
1      1
2      0
3      1
4      1
      ..
886    1
887    0
888    0
889    0
890    1
Name: AgeCategoryCode1, Length: 891, dtype: int64

In [53]:
# map을 이용하여 정수형으로 변경후 astype을 이용하여 int 형으로 변경 
train["AgeCategoryCode2"] = train.AgeCategory.map({"Young":0, "Middle":1, "Old":2})
train.AgeCategoryCode2 = train.AgeCategoryCode2.astype(int)
train.AgeCategoryCode2

0      0
1      1
2      0
3      1
4      1
      ..
886    1
887    0
888    0
889    0
890    1
Name: AgeCategoryCode2, Length: 891, dtype: int64

In [54]:
train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,SexCategory,AgeCategoryCode1,AgeCategoryCode2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,male,0,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,female,1,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,female,0,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,female,1,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,male,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,male,1,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,female,0,0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,0.0,1,2,W./C. 6607,23.4500,,S,female,0,0
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,male,0,0


# 통계정보

In [55]:
# 함수명	비고
# mean()	평균
# median()	중앙값
# mode()	최빈값
# min()	최소값
# max()	최대값
# std()	표준편차
# var()	분산
# describe()	기술통계량
# quantile()	사분위수
# kurt(), kurtosis()	첨도
# skew()	왜도

df = pd.DataFrame({"A": [1, 2, 3, 4, 1, 2, 3, 6]})

In [56]:
# 평균
df.mean()

A    2.75
dtype: float64

In [57]:
# 중앙값 
df.median()

A    2.5
dtype: float64

In [58]:
# 최빈값
df.mode()

Unnamed: 0,A
0,1
1,2
2,3


In [59]:
# 최소값
df.min()

A    1
dtype: int64

In [60]:
# 최대값 
df.max()

A    6
dtype: int64

In [61]:
# 표준편차 
df.std()

A    1.669046
dtype: float64

In [62]:
# 분산 
df.var()

A    2.785714
dtype: float64

In [63]:
# 첨도 
df.kurt()

A    0.994083
dtype: float64

In [64]:
# 왜도 
df.skew()

A    1.013937
dtype: float64

In [65]:
# 기술통계 
df.describe()

Unnamed: 0,A
count,8.0
mean,2.75
std,1.669046
min,1.0
25%,1.75
50%,2.5
75%,3.25
max,6.0


In [66]:
# 4분위수 
df.quantile()

A    2.5
Name: 0.5, dtype: float64

In [68]:
# 데이터프레임 생성 
df = pd.DataFrame({
    '이름': ['조조', '조운', '주유'], 
    '통솔': [96, 91, 97], 
    '무력': [72, 97, 71], 
    '지력': [91, 76, 96], 
    '정치': [94, 65, 87], 
    '매력': [96, 81, 93]
})
df

Unnamed: 0,이름,통솔,무력,지력,정치,매력
0,조조,96,72,91,94,96
1,조운,91,97,76,65,81
2,주유,97,71,96,87,93


In [69]:
# 지력을 기준으로 내림차순으로 정렬 
df.sort_values(by='지력', ascending=False)

Unnamed: 0,이름,통솔,무력,지력,정치,매력
2,주유,97,71,96,87,93
0,조조,96,72,91,94,96
1,조운,91,97,76,65,81


In [70]:
# 결측치 확인: isnull(), notnull()
# 데이터프레임 생성 
df = pd.DataFrame({
    '이름': ['조조', '조운', '주유'], 
    '통솔': [96, 91, 97], 
    '무력': [None, 97, 71], 
    '지력': [91, None, 96], 
    '정치': [94, None, 87], 
    '매력': [96, 81, None]
})
df

Unnamed: 0,이름,통솔,무력,지력,정치,매력
0,조조,96,,91.0,94.0,96.0
1,조운,91,97.0,,,81.0
2,주유,97,71.0,96.0,87.0,


In [71]:
# 결측치 개수 확인 
df.isnull().sum()

이름    0
통솔    0
무력    1
지력    1
정치    1
매력    1
dtype: int64

In [72]:
# 결측치가 아닌 데이터 개수 확인 
df.notnull().sum()

이름    3
통솔    3
무력    2
지력    2
정치    2
매력    2
dtype: int64

In [73]:
# 결측치 채우기: fillna()
# 무력 100
df["무력"] = df["무력"].fillna(100)
# 정치 100
df["정치"].fillna(100, inplace=True)
# 매력 100
df.fillna({"매력":100}, inplace=True)
# 지력을 제외한 모든 NA값이 100이 됨 
df

Unnamed: 0,이름,통솔,무력,지력,정치,매력
0,조조,96,100.0,91.0,94.0,96.0
1,조운,91,97.0,,100.0,81.0
2,주유,97,71.0,96.0,87.0,100.0


In [75]:
# 결측치를 채울 때 지정한 값이 아니라 결측치가 발생한 데이터의 앞이나 뒤의 값으로 채울 수 있습니다.
# method='ffill'은 앞의 값으로, method='bfill'은 뒤의 값으로 결측치를 채웁니다. axis를 이용하여 기준이 되는 축을 지정합니다.
df.fillna(method='ffill', inplace=True)
df

Unnamed: 0,이름,통솔,무력,지력,정치,매력
0,조조,96,100.0,91.0,94.0,96.0
1,조운,91,97.0,91.0,100.0,81.0
2,주유,97,71.0,96.0,87.0,100.0


In [76]:
# 결측치를 삭제할 때는 dropna()를 이용합니다. dropna()는 데이터를 삭제한 복제본을 반환하기 때문에 원본 데이터를 삭제하려면 inplace=True 옵션을 이용해야 합니다.
# 데이터프레임은 NA값을 하나라도 포함하고 있으면 삭제합니다.
# how=all 옵션이 있으면 모두 NA인 데이터만 삭제합니다. 칼럼을 기준으로 데이터를 삭제할 때는 axis=1을 이용하여 기준이 되는 축을 칼럼으로 설정합니다.
df = pd.DataFrame({
    '이름': ['조조', '조운', '주유'], 
    '통솔': [96, 91, 97], 
    '무력': [None, 97, 71], 
    '지력': [91, None, 96], 
    '정치': [94, None, 87], 
    '매력': [96, 81, None]
})
df

Unnamed: 0,이름,통솔,무력,지력,정치,매력
0,조조,96,,91.0,94.0,96.0
1,조운,91,97.0,,,81.0
2,주유,97,71.0,96.0,87.0,


In [77]:
df.dropna()

Unnamed: 0,이름,통솔,무력,지력,정치,매력


In [79]:
# 칼럼 기준 삭제
df.dropna(axis=1)

Unnamed: 0,이름,통솔
0,조조,96
1,조운,91
2,주유,97


In [80]:
# 모든 데이터가 NA일 때 삭제 
df.dropna(axis=1, how='all')

Unnamed: 0,이름,통솔,무력,지력,정치,매력
0,조조,96,,91.0,94.0,96.0
1,조운,91,97.0,,,81.0
2,주유,97,71.0,96.0,87.0,


In [81]:
# itertuples는 데이터를 튜플로 반환합니다.
for row in df.itertuples():
    print(row)

Pandas(Index=0, 이름='조조', 통솔=96, 무력=nan, 지력=91.0, 정치=94.0, 매력=96.0)
Pandas(Index=1, 이름='조운', 통솔=91, 무력=97.0, 지력=nan, 정치=nan, 매력=81.0)
Pandas(Index=2, 이름='주유', 통솔=97, 무력=71.0, 지력=96.0, 정치=87.0, 매력=nan)


In [85]:
# 튜플 이름을 선언 
for row in df.itertuples(name='General'):
    print(row)

General(Index=0, 이름='조조', 통솔=96, 무력=nan, 지력=91.0, 정치=94.0, 매력=96.0)
General(Index=1, 이름='조운', 통솔=91, 무력=97.0, 지력=nan, 정치=nan, 매력=81.0)
General(Index=2, 이름='주유', 통솔=97, 무력=71.0, 지력=96.0, 정치=87.0, 매력=nan)


In [86]:
import pandas as pd
import numpy as np

# class, year, month 기준의 임의의 데이터 생성 
df = pd.DataFrame({
    'class': [['A', 'B', 'C'][np.random.randint(0, 3)] for i in range(0, 10)], 
    'year':  [np.random.randint(2019, 2021) for i in range(0, 10)], 
    'month': [np.random.randint(5, 7) for i in range(0, 10)], 
    'val1':  [np.random.randint(10000, 20000) for i in range(0, 10)], 
    'val2':  [np.random.randint(100, 300) for i in range(0, 10)], 
    'val3':  [np.random.randint(1, 11) for i in range(0, 10)], 
})
df

Unnamed: 0,class,year,month,val1,val2,val3
0,B,2019,5,11354,150,7
1,C,2019,6,19978,194,2
2,C,2020,6,14548,149,3
3,B,2020,5,13977,282,8
4,C,2019,5,16411,176,8
5,A,2019,5,12058,253,8
6,C,2019,6,14733,275,10
7,C,2020,5,13199,104,2
8,B,2019,6,13931,117,8
9,A,2020,6,12423,244,9


In [87]:
# 단일 칼럼을 이용한 그룹핑 
df.groupby('class').count()

Unnamed: 0_level_0,year,month,val1,val2,val3
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,2,2,2,2,2
B,3,3,3,3,3
C,5,5,5,5,5


In [90]:
# 멀티 칼럼: class, year, month 기준으로 그룹핑 
grouped_df = df.groupby(['class', 'year', 'month'])
# 그룹핑 된 데이터 기준으로 sum()
grouped_df.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,val1,val2,val3
class,year,month,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,2019,5,12058,253,8
A,2020,6,12423,244,9
B,2019,5,11354,150,7
B,2019,6,13931,117,8
B,2020,5,13977,282,8
C,2019,5,16411,176,8
C,2019,6,34711,469,12
C,2020,5,13199,104,2
C,2020,6,14548,149,3


In [91]:
# 함수를 이용함 그룹핑 
f_grouped_df = df.groupby(lambda x : x//2)
f_grouped_df.sum()

Unnamed: 0,year,month,val1,val2,val3
0,4038,11,31332,344,9
1,4040,11,28525,431,11
2,4038,10,28469,429,16
3,4039,11,27932,379,12
4,4039,12,26354,361,17


In [93]:
# 칼럼마다 다른 함수를 적용하고 싶을 때 
grouped_df.agg({'val1':'min', 'val2':'max', 'val3': ['min', 'max'] })

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,val1,val2,val3,val3
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,min,max
class,year,month,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,2019,5,12058,253,8,8
A,2020,6,12423,244,9,9
B,2019,5,11354,150,7,7
B,2019,6,13931,117,8,8
B,2020,5,13977,282,8,8
C,2019,5,16411,176,8,8
C,2019,6,14733,275,2,10
C,2020,5,13199,104,2,2
C,2020,6,14548,149,3,3


In [94]:
# crosstab: 교차도표. 두 가지 이상의 데이터로 구성된 교차 도표를 표현합니다.
# 기본적으로 빈도를 계산
# margins=True로 설정하면 전체 데이터를 추가
# values, aggfunc를 함께 전달하여 사용자가 원하는 함수 처리
# 테스트 데이터 로드 
train = pd.read_csv("https://raw.githubusercontent.com/developer-sdk/kaggle-python-beginner/master/datas/kaggle-titanic/train.csv")

train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [95]:
# 교차 도표 
pd.crosstab(train['Sex'], train['Survived']) 

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


In [96]:
# 전체 건수 추가 
pd.crosstab(train['Sex'], train['Survived'], margins=True)

Survived,0,1,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,81,233,314
male,468,109,577
All,549,342,891


In [97]:
# sum() 함수로 값을 반환 
pd.crosstab(train['Sex'], train['Survived'], values=train['Survived'], aggfunc=sum)

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0,233
male,0,109


In [105]:
train["Survived"].unique()

array([0, 1])

In [108]:
# Age를 3 구간의 데이터로 분리 ([(-1.081, 26.0] < (26.0, 53.0] < (53.0, 80.0]])
pd.cut(train['Age'], 3)

0       (-0.08, 26.667]
1      (26.667, 53.333]
2       (-0.08, 26.667]
3      (26.667, 53.333]
4      (26.667, 53.333]
             ...       
886    (26.667, 53.333]
887     (-0.08, 26.667]
888     (-0.08, 26.667]
889     (-0.08, 26.667]
890    (26.667, 53.333]
Name: Age, Length: 891, dtype: category
Categories (3, interval[float64, right]): [(-0.08, 26.667] < (26.667, 53.333] < (53.333, 80.0]]

In [109]:
# 정의한 구간(bins)로 반환 
pd.cut(train['Age'], bins=[-1, 0, 40, 100])

0      (0, 40]
1      (0, 40]
2      (0, 40]
3      (0, 40]
4      (0, 40]
        ...   
886    (0, 40]
887    (0, 40]
888    (-1, 0]
889    (0, 40]
890    (0, 40]
Name: Age, Length: 891, dtype: category
Categories (3, interval[int64, right]): [(-1, 0] < (0, 40] < (40, 100]]

In [110]:
# 3구간으로 구분하고, 구간의 레이블 전달
pd.cut(train['Age'], 3, labels=["Young","Middle","Old"])

0       Young
1      Middle
2       Young
3      Middle
4      Middle
        ...  
886    Middle
887     Young
888     Young
889     Young
890    Middle
Name: Age, Length: 891, dtype: category
Categories (3, object): ['Young' < 'Middle' < 'Old']

In [113]:
# 구간과 레이블을 모두 전달 
train['Fare_Bins'] = pd.cut(train['Fare'], bins=[-1, 0, 8, 15, 32, 100, 600], labels=[1, 2, 3, 4, 5, 6])

In [114]:
train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,SexCategory,Fare_Bins
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,male,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,female,5
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,female,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,female,5
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,male,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,male,3
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,female,4
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,0.0,1,2,W./C. 6607,23.4500,,S,female,4
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,male,4


In [115]:
# qcut: 분위수 구간 분류
# 분위수(quantile)를 기준으로 변수를 동일한 크기의 버켓으로 분리합니다. 사용자가 정의한 구간으로 비율을 나누어서 설정합니다.
pd.qcut(train['Age'], 4)

0        (6.0, 24.0]
1       (35.0, 80.0]
2       (24.0, 35.0]
3       (24.0, 35.0]
4       (24.0, 35.0]
           ...      
886     (24.0, 35.0]
887      (6.0, 24.0]
888    (-0.001, 6.0]
889     (24.0, 35.0]
890     (24.0, 35.0]
Name: Age, Length: 891, dtype: category
Categories (4, interval[float64, right]): [(-0.001, 6.0] < (6.0, 24.0] < (24.0, 35.0] < (35.0, 80.0]]

In [116]:
# 4구간을 지정한 레이블로 분할([Baby < Young < Middle < Old])
pd.qcut(train['Age'], 4, labels=['Baby','Young',"Middle","Old"])

0       Young
1         Old
2      Middle
3      Middle
4      Middle
        ...  
886    Middle
887     Young
888      Baby
889    Middle
890    Middle
Name: Age, Length: 891, dtype: category
Categories (4, object): ['Baby' < 'Young' < 'Middle' < 'Old']

In [117]:
# factorize: 카테고리형의 코드 확인
# 열거형(enumerated type)이나 카테고리형을 인코딩하여 코드형으로 변경할 때 사용합니다. 예를 들어 카테고리형을 정수형으로 변경하여 머신 러닝을 적용할 수 있게 합니다.
df = pd.DataFrame({"A":["a", "b", "c", "a", "d"]})
df.A = df.A.astype('category')
df

Unnamed: 0,A
0,a
1,b
2,c
3,a
4,d


In [119]:
# factorize는 codes와 uniques 를 반환 
codes, uniques = pd.factorize(df.A)
codes, uniques

(array([0, 1, 2, 0, 3]),
 CategoricalIndex(['a', 'b', 'c', 'd'], categories=['a', 'b', 'c', 'd'], ordered=False, dtype='category'))

In [120]:
# A형의 타입 확인 
df.A.dtype

CategoricalDtype(categories=['a', 'b', 'c', 'd'], ordered=False)

In [121]:
# code 정보를 칼럼에 대입 
df.A = pd.factorize(df.A)[0]

In [122]:
# 숫자형으로 변경됨 
df.A.dtype

dtype('int64')

In [123]:
df

Unnamed: 0,A
0,0
1,1
2,2
3,0
4,3


In [124]:
# concat: 데이터프레임. 칼럼명이 다를 때
# 테스트용 데이터 프레임 생성. 칼럼이 다름 
df1 = pd.DataFrame({"col1":["a", "b"], "col2":[1, 2]})
df2 = pd.DataFrame({"col3":["c", "d"], "col4":[3, 4]})

In [125]:
# 칼럼 이름 기준으로 머지 
# 데이터가 없는 칼럼은 NaN으로 입력 
pd.concat([df1, df2], sort=False)

Unnamed: 0,col1,col2,col3,col4
0,a,1.0,,
1,b,2.0,,
0,,,c,3.0
1,,,d,4.0


In [126]:
# 열(row) 기준으로 데이터 머지 
pd.concat([df1, df2], axis=1)

Unnamed: 0,col1,col2,col3,col4
0,a,1,c,3
1,b,2,d,4


In [128]:
# concat: 데이터프레임. 칼럼명이 일부 동일할 때
# 테스트용 데이터 프레임 생성. 칼럼이 일부 동일함  
df5 = pd.DataFrame({"col1":["a", "b"], "col2":[1, 2]})
df6 = pd.DataFrame({"col2":["c", "d"], "col3":[3, 4]})

In [129]:
# 칼럼명이 다른 데이터는 NaN값으로 채움 
pd.concat([df5, df6], sort=True)

Unnamed: 0,col1,col2,col3
0,a,1,
1,b,2,
0,,c,3.0
1,,d,4.0


In [130]:
# 동일한 이름의 칼럼값만 조인 
pd.concat([df5, df6], join="inner")

Unnamed: 0,col2
0,1
1,2
0,c
1,d


In [131]:
# get_dummies: 더미형 변수로 변환. 카테고리형 변수를 더미형 변수로 변환합니다.
# 더미형 변수는 독립변수를 0과1로 변환한 변수를 의미합니다.
# 데이터 분석에는 숫자형 변수만 사용할 수 있기 때문에 카테고리형 변수를 더미형 변수로 변환하여 이용합니다. 원 핫 인코딩(one-hot encoding) 처리를 위해서도 사용할 수 있습니다.
# 데이터프레임 생성 
df = pd.DataFrame({"A": [1, 2, 3, 4, 1, 2, 3, 6], "B": ["a", "b", "c", "a", "b", "d", "a", "d"]})
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,a
4,1,b
5,2,d
6,3,a
7,6,d


In [132]:
# 데이터프레임의 명목형 칼럼 B가 자동으로 더미변수로 변환 
pd.get_dummies(df)

Unnamed: 0,A,B_a,B_b,B_c,B_d
0,1,1,0,0,0
1,2,0,1,0,0
2,3,0,0,1,0
3,4,1,0,0,0
4,1,0,1,0,0
5,2,0,0,0,1
6,3,1,0,0,0
7,6,0,0,0,1


In [133]:
# A칼럼의 더미 데이터 생성 
pd.get_dummies(df["A"])

Unnamed: 0,1,2,3,4,6
0,1,0,0,0,0
1,0,1,0,0,0
2,0,0,1,0,0
3,0,0,0,1,0
4,1,0,0,0,0
5,0,1,0,0,0
6,0,0,1,0,0
7,0,0,0,0,1


In [134]:
# A칼럼의 더미 데이터를 생성할 때 칼럼명 접두어 지정 
pd.get_dummies(df, columns=["A"], prefix="A")

Unnamed: 0,B,A_1,A_2,A_3,A_4,A_6
0,a,1,0,0,0,0
1,b,0,1,0,0,0
2,c,0,0,1,0,0
3,a,0,0,0,1,0
4,b,1,0,0,0,0
5,d,0,1,0,0,0
6,a,0,0,1,0,0
7,d,0,0,0,0,1


In [135]:
# A, B 칼럼을 함께 더미 데이터로 생성 
pd.get_dummies(df, columns=["A", "B"], prefix="A_B")

Unnamed: 0,A_B_1,A_B_2,A_B_3,A_B_4,A_B_6,A_B_a,A_B_b,A_B_c,A_B_d
0,1,0,0,0,0,1,0,0,0
1,0,1,0,0,0,0,1,0,0
2,0,0,1,0,0,0,0,1,0
3,0,0,0,1,0,1,0,0,0
4,1,0,0,0,0,0,1,0,0
5,0,1,0,0,0,0,0,0,1
6,0,0,1,0,0,1,0,0,0
7,0,0,0,0,1,0,0,0,1


In [139]:
import numpy as np

# 100 만건 자료구조 생성 
np_arr = np.arange(1000000)
py_list = list(range(1000000))

In [140]:
%timeit for _ in range(10): np_arr2 = np_arr * 2

3.6 ms ± 30.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [141]:
%timeit for _ in range(10): py_list2 = py_list * 2

61.9 ms ± 1.41 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [142]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,SexCategory
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,male
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,female
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,female
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,female
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,male


In [144]:
# 숫자가 아닌 값을 표현 하는 NaN(Not a Number)과 무한대를 표현 하는 inf입니다.
# NaN은 숫자로 정의할 수 없는 값의 데이터입니다.
# inf는 무한대의 숫자입니다. pandas의 cut 함수에서 가장 큰 카테고리를 나눌 때 사용할 수 있습니다.
bins = [-1, 0, 5, 12, 18, 24, 35, 60, np.inf]
labels = ['AG1', 'AG2', 'AG3', 'AG4', 'AG5', 'AG6', 'AG7', 'AG8']
train['AgeGroup'] = pd.cut(train['Age'], bins, labels = labels)
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,SexCategory,AgeGroup
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,male,AG5
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,female,AG7
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,female,AG6
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,female,AG6
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,male,AG6


In [146]:
# 파이썬 리스트를 이용하여 생성 
n_arr1_1 = np.array([1, 3, 4])
n_arr1_2 = np.array([[1, 3, 4], [1, 3, 4]])
n_arr1_3 = np.array(['a', 'b', 'c'])
# zeros: 0으로 초기화 
n_arr2 = np.zeros(4)
# empty: 무작위 값으로 초기화. 2행, 1행에 3행, 1열
n_arr3 = np.empty((2, 3, 1))
# random: 랜덤하게 생성 
n_arr4 = np.random.randn(2, 3)
# arange: 파이썬의 range와 유사 
n_arr5 = np.arange(10)

In [147]:
n_arr1_1

array([1, 3, 4])

In [148]:
n_arr1_2

array([[1, 3, 4],
       [1, 3, 4]])

In [149]:
n_arr1_3

array(['a', 'b', 'c'], dtype='<U1')

In [150]:
n_arr2

array([0., 0., 0., 0.])

In [151]:
n_arr3

array([[[0.00e+000],
        [1.04e-322],
        [0.00e+000]],

       [[0.00e+000],
        [0.00e+000],
        [0.00e+000]]])

In [156]:
n_arr4

array([[ 0.55087293,  0.61686293, -2.24129189],
       [-0.15626573, -0.01884298, -1.15888941]])

In [157]:
n_arr5

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [160]:
# 연산
# numpy의 연산은 각 원자의 값에 연산을 처리하지 않고, 배열에 연산을 처리하면 배열의 각 값에 일괄로 연산이 처리됩니다. 이를 벡터화라고 합니다.
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [161]:
arr+2

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [162]:
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [163]:
# 비교
# 다차원 배열의 비교는 불리언 배열을 반환합니다. 이 비교 값을 이용해 특정 데이터를 조회할 수 있습니다.
arr < 5

array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

In [164]:
# 조회
# 인덱스 번호, 인덱스 슬라이싱, 조건 비교를 이용해서 데이터를 조회할 수 있습니다.
arr[arr < 5]

array([0, 1, 2, 3, 4])

In [165]:
arr[3:9]

array([3, 4, 5, 6, 7, 8])

In [166]:
arr_2d = np.array([[1, 2], ['a', 'b']])
arr_2d

array([['1', '2'],
       ['a', 'b']], dtype='<U21')

In [167]:
arr_2d[1][1]

'b'

In [168]:
arr_2d[1, 1]

'b'

In [169]:
# 치환
# 값을 변경할 때는 특정 데이터를 조회한 결과에 값을 치환할 수 있습니다.
arr_2d = np.array([[1, 2], ['a', 'b']])
arr_2d[1][1] = 'K'
arr_2d

array([['1', '2'],
       ['a', 'K']], dtype='<U21')

In [170]:
arr[arr < 5] = 10
arr

array([10, 10, 10, 10, 10,  5,  6,  7,  8,  9])

# 유니버설 함수(ufunc)는 다차원 배열의 각 값에 연산을 수행하는 특수 함수 입니다.

In [173]:
arr = np.arange(1,10)

np.log(arr)
np.max(arr)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791,
       1.79175947, 1.94591015, 2.07944154, 2.19722458])

9

# 이항 연산. 두개의 파라미터로 데이터를 처리하는 함수입니다.

In [175]:
x = np.arange(1,10)
y = np.arange(10,1, -1)

x
y
np.maximum(x, y)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

array([10,  9,  8,  7,  6,  5,  4,  3,  2])

array([10,  9,  8,  7,  6,  6,  7,  8,  9])

# 삼항 연산. np.where를 이용해서 삼항 연산을 처리할 수 있습니다.

In [176]:
np.where(x > 5, x, y)

array([10,  9,  8,  7,  6,  6,  7,  8,  9])

In [177]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [178]:
arr.mean()

4.5

In [179]:
arr.sum()

45

In [180]:
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [181]:
# 비교 연산의 True: 1, False: 0으로 표현 됨 
arr[arr > 5].sum()

30

In [184]:
# 정렬. 값을 정렬할 때는 sort를 이용합니다.
arr = np.random.randn(10)
arr.sort()
arr

array([-2.36512192, -1.89277247, -0.61078765, -0.01789343,  0.2442288 ,
        0.68911477,  0.76382301,  0.81064996,  1.33752865,  2.57723221])

In [185]:
# 테스트용 데이터프레임
# 다음은 랜덤 함수를 이용하여 정수형 데이터를 가지는 데이터 프레임을 생성하는 예제입니다.

import numpy as np
import pandas as pd

df = pd.DataFrame({
    'class': [['A', 'B', 'C'][np.random.randint(0, 3)] for i in range(0, 10)], 
    'year':  [np.random.randint(2015, 2020) for i in range(0, 10)], 
    'month': [np.random.randint(1, 13) for i in range(0, 10)], 
    'val1':  [np.random.randint(10000, 20000) for i in range(0, 10)], 
    'val2':  [np.random.randint(100, 300) for i in range(0, 10)], 
    'val3':  [np.random.randint(1, 11) for i in range(0, 10)], 
})
df

Unnamed: 0,class,year,month,val1,val2,val3
0,C,2018,6,12072,231,7
1,B,2015,6,15771,133,4
2,A,2015,1,12048,281,6
3,A,2016,1,13908,291,10
4,A,2019,8,16664,116,10
5,C,2017,10,14844,156,4
6,B,2019,10,18465,255,5
7,A,2016,8,16207,264,2
8,B,2016,7,19071,295,2
9,C,2015,6,18517,170,5


# scikit-learn은 파이썬으로 구현된 기계학습 라이브러리
# 분류(Classification), 회귀(Regression), 군집(Clustering), 차원 축소(Dimensionality Reduction), 모델 선택(Model selection), 전처리(Preprocessing)

In [194]:
# train 데이터를 훈련용과 시험용으로 분리하는 예제
train = pd.read_csv("https://raw.githubusercontent.com/developer-sdk/kaggle-python-beginner/master/datas/kaggle-titanic/train.csv")

from sklearn.model_selection import train_test_split

# data: train의 Survived를 제외한 데이터를 분리
# target: train의 Survived의 값 
data = train.drop('Survived', axis=1).values
target = train['Survived'].values

In [195]:
# 파라미터
#    test_size: 분리 비율
#    startify: 데이터를 분리 하는 기준 값 
#    random_state: 랜덤 시드 함수 
# 반환 값
#   x_train: 훈련용 셋의 x 좌표 값
#   y_train: 훈련용 셋의 y 좌표 값(Survived 값)
#   x_test: 시험용 셋의 x 좌표 값
#   y_test: 시험용 셋의 y 좌표 값(Survived 값)
x_train, x_test, y_train, y_test = train_test_split(data, target, test_size=0.3, stratify=target, random_state=2018)

In [202]:
x_train.shape

(623, 11)

In [203]:
y_train.shape

(623,)

In [204]:
x_test.shape

(268, 11)

In [205]:
y_test.shape

(268,)

In [206]:
# 데이터를 섞음: shuffle
# shuffle 함수는 학습용으로 주어진 데이터가 정렬되어 있을 때 섞기 위해 사용합니다. 셔플 작업을 처리할 데이터를 하나나 여러 개 전달하면 됩니다. random_state는 랜덤을 처리할 시드 번호 입니다.
train = pd.read_csv("https://raw.githubusercontent.com/developer-sdk/kaggle-python-beginner/master/datas/kaggle-titanic/train.csv")
test = pd.read_csv("https://raw.githubusercontent.com/developer-sdk/kaggle-python-beginner/master/datas/kaggle-titanic/test.csv")

train
test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


In [211]:
from sklearn.utils import shuffle

# train 데이터를 섞음 
train = shuffle(train, random_state=5)
test = shuffle(test, random_state=5)
# train, test 데이터를 동시에 섞음 
# train, test = shuffle(train, test, random_state=5)

train
test

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
63,64,0,3,"Skoog, Master. Harald",male,4.0,3,2,347088,27.9000,,S
196,197,0,3,"Mernagh, Mr. Robert",male,,0,0,368703,7.7500,,Q
598,599,0,3,"Boulos, Mr. Hanna",male,,0,0,2664,7.2250,,C
70,71,0,2,"Jenkin, Mr. Stephen Curnow",male,32.0,0,0,C.A. 33111,10.5000,,S
457,458,1,1,"Kenyon, Mrs. Frederick R (Marion)",female,,1,0,17464,51.8625,D21,S
...,...,...,...,...,...,...,...,...,...,...,...,...
528,529,0,3,"Salonen, Mr. Johan Werner",male,39.0,0,0,3101296,7.9250,,S
57,58,0,3,"Novel, Mr. Mansouer",male,28.5,0,0,2697,7.2292,,C
839,840,1,1,"Marechal, Mr. Pierre",male,,0,0,11774,29.7000,C47,C
140,141,0,3,"Boulos, Mrs. Joseph (Sultana)",female,,0,2,2678,15.2458,,C


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
65,957,2,"Corey, Mrs. Percy C (Mary Phyllis Elizabeth Mi...",female,,0,0,F.C.C. 13534,21.0000,,S
189,1081,2,"Veal, Mr. James",male,40.0,0,0,28221,13.0000,,S
48,940,1,"Bucknell, Mrs. William Robert (Emma Eliza Ward)",female,60.0,0,0,11813,76.2917,D15,C
334,1226,3,"Cor, Mr. Ivan",male,27.0,0,0,349229,7.8958,,S
185,1077,2,"Maybery, Mr. Frank Hubert",male,40.0,0,0,239059,16.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...
203,1095,2,"Quick, Miss. Winifred Vera",female,8.0,1,1,26360,26.0000,,S
261,1153,3,"Nilsson, Mr. August Ferdinand",male,21.0,0,0,350410,7.8542,,S
87,979,3,"Badman, Miss. Emily Louisa",female,18.0,0,0,A/4 31416,8.0500,,S
313,1205,3,"Carr, Miss. Jeannie",female,37.0,0,0,368364,7.7500,,Q


In [231]:
# 01-RandomForestClassifier
# 앙상블 기법의 하나인 랜덤 포레스트 알고리즘을 이용하여 데이터를 훈련하고 결과를 예측하는 방법
train = pd.read_csv("https://raw.githubusercontent.com/developer-sdk/kaggle-python-beginner/master/datas/kaggle-titanic/train.csv")

# #########################
# ... 데이터 전처리 진행 ...
# #########################

from sklearn import metrics 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score

# data = survived를 제외한 값
# target = survived의 값 
data = train.drop('Survived', axis=1).values
target = train['Survived'].values

# train과 valid(test) 셋을 분리. Train 70%, Test 30%
x_train, x_valid, y_train, y_valid = train_test_split(data, target, test_size=0.3, stratify=target, random_state=34)

# 랜덤 포레스트 생성 
# 훈련용(train) 데이터의 정보(x_train)와 결과(y_train)를 전달하여 알고리즘 훈련
rf = RandomForestClassifier(n_estimators=100, random_state=123456)
rf.fit(x_train, y_train)

# 검증용(valid) 데이터로 검증 후 결과를 비교하여 결과 확인 
prediction = rf.predict(x_valid)  
accuracy = accuracy_score(prediction, y_valid)

length = y_valid.shape[0]
print(f'총 {length}명 중 {accuracy * 100:.3f}% 정확도로 생존을 맞춤')

ValueError: could not convert string to float: 'Jardin, Mr. Jose Neto'

In [229]:
train_test_split(data, target, test_size=0.3, stratify=target, random_state=34)

[array([[612, 3, 'Jardin, Mr. Jose Neto', ..., 7.05, nan, 'S'],
        [426, 3, 'Wiseman, Mr. Phillippe', ..., 7.25, nan, 'S'],
        [889, 3, 'Johnston, Miss. Catherine Helen "Carrie"', ..., 23.45,
         nan, 'S'],
        ...,
        [475, 3, 'Strandberg, Miss. Ida Sofia', ..., 9.8375, nan, 'S'],
        [769, 3, 'Moran, Mr. Daniel J', ..., 24.15, nan, 'Q'],
        [348, 3, 'Davison, Mrs. Thomas Henry (Mary E Finck)', ..., 16.1,
         nan, 'S']], dtype=object),
 array([[862, 2, 'Giles, Mr. Frederick Edward', ..., 11.5, nan, 'S'],
        [686, 2, 'Laroche, Mr. Joseph Philippe Lemercier', ..., 41.5792,
         nan, 'C'],
        [694, 3, 'Saad, Mr. Khalil', ..., 7.225, nan, 'C'],
        ...,
        [580, 3, 'Jussila, Mr. Eiriik', ..., 7.925, nan, 'S'],
        [399, 2, 'Pain, Dr. Alfred', ..., 10.5, nan, 'S'],
        [251, 3, 'Reed, Mr. James George', ..., 7.25, nan, 'S']],
       dtype=object),
 array([0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0,
 