In [2]:
import pandas as pd
import numpy as np

### 데이터 개수 세기
- count() 메소드 사용 : NaN 값은 세지 않음
- 메소드 : 객체.메소드()

In [4]:
# 시리즈 생성
s = pd.Series(range(10))
s[3] = np.nan # s[3]에 NaN 값 저장
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [5]:
# count() : 데이터 개수 반환 (NaN은 세지 않는다)
s.count()

9

### 데이터프레임에서 개수 세기
- 데이터프레임에서는 각 열마다 별도로 데이터 개수를 센다

In [10]:
# 데이터프레임 생성
# 값은 난수를 발생시켜서 사용
# 난수 발생할 때마다 값이 달라지는데,
# 동일한 값을 계속 유지하기 위해서 시드 값 설정
# 난수 발생할 때 시드 값이 같으면 동일한 난수 발생
np.random.seed(2)
# 이 문장이 없으면 실행할 때마다 다른 값이 생성


# 데이터 : 0~4 범위의 난수, 4행 4열, 실수형 데이터
df = pd.DataFrame(np.random.randint(5,
                                   size=(4,4)),
                                   dtype=float)
# 2행 3열에 NaN값 저장
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [11]:
# 데이터프레임에서는 각 열마다 별도로 데이터 개수를 센다
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [35]:
# seaborn 패키지에 포함돈 titanic 데이터 세트 사용
# 타이타닉호 승객 데이터
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [15]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [16]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [17]:
# 타이타닉호 승객 데이터의 데이터 값을 각 열마다 추출
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### 카테고리 값 세기
- 시리즈 값이 정수, 문자열, 카테고리 값인 경우에는
- value_counts() 메소드로 각각의 값이 나온 횟수를 셀 수 있음

In [20]:
# value_counts() 메소드 : 각 값이 나온 횟수(빈도수) 반환
# 시리즈 생성
np.random.seed(1)
s2 = pd.Series(np.random.randint(6,size=100))
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [21]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [None]:
# 데이터프레임에서는 value_count() 메소드를 
# 각 열마다 별도로 적용한다

In [22]:
# 0열
df[0].value_counts()

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

In [23]:
# 1열
df[1].value_counts()

0.0    2
3.0    1
2.0    1
Name: 1, dtype: int64

### 정렬
데이터 정렬에 사용되는 메소드 
- sort_index() : 인덱스 값을 기준으로 정렬
- sort_values() : 데이터 값을 기준으로 정렬
기본 : 오름차순 정렬
ascending = False : 내림차순 정렬

In [24]:
s2.value_counts() # value 기준으로 정렬되어 있음

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [26]:
# 인덱스 기준으로 오름차순 정렬
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [27]:
# 인덱스 기준으로 내림차순 정렬
s2.value_counts().sort_index(ascending = False)

5    16
4    17
3    14
2    13
1    22
0    18
dtype: int64

In [28]:
# s의 데이터를 기준으로 오름차순 정렬 : NaN 값은 마지막에 위치
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [29]:
# s의 데이터 값으로 내림차순 정렬 : ascending=False
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [32]:
# 데이터프레임에서 sort_values() 메소드로 정렬
# by 인수로 정렬 기준이 되는 열을 지정해야 함
# by=1 : 1열 기준으로 정렬
df.sort_values(by=2)

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [33]:
# 1열 기준으로 데이터 값 내림차순 정렬
df.sort_values(by=1,ascending=False)

Unnamed: 0,0,1,2,3
3,4.0,3.0,4.0,2.0
2,3.0,2.0,4.0,
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0


In [None]:
by 인수에 리스트 값(여러 개의 값)을 넣으면
# 이 순서대로 정렬 기준의 우선순위가 됨
첫 번째 기준에 따라 1차 정렬한 후,
결과 값에서 동일한 값이 있으면 
2차 정렬 수행 (두 번째 기준 적용)

In [34]:
df.sort_values(by=[1,2]) # 1열 기준으로 1차 정렬
# 결과에서 동일값이 존재하면 
# 2열 기준으로 2차 정렬 수행

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [35]:
df.sort_values(by=[1,0])

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


## 연습문제
타이타닉 승객 중 인원 수 구하기
- 성별(sex) 인원수 : 인덱스 기준 오름차순 정렬
- 나이별(age) 인원수 : value 기준 내림차순 정렬
- 선실별(pclass) 인원수 
- 사망/생존(alive) 인원수 

In [53]:
# 성별(sex) 인원수 : 인덱스 기준 오름차순 정렬
titanic.sex.value_counts().sort_index()
# 또는 titanic['sex'].value_counts().sort_index()

female    314
male      577
Name: sex, dtype: int64

In [58]:
# 나이별(age) 인원수 : value 기준 내림차순 정렬
titanic.age.value_counts().sort_values(ascending=False)
# 또는 titanic['age'].value_counts().sort_values(ascending=False)

24.00    30
22.00    27
18.00    26
19.00    25
30.00    25
         ..
14.50     1
0.67      1
24.50     1
20.50     1
0.42      1
Name: age, Length: 88, dtype: int64

In [57]:
# 선실별(pclass) 인원수
titanic.pclass.value_counts().sort_index()
# titanic['pclass']value_counts().sort_index()

1    216
2    184
3    491
Name: pclass, dtype: int64

In [56]:
# 사망/생존(alive) 인원수 
titanic.alive.value_counts().sort_index()
# titanic['alive'].value_counts().sort_index()

no     549
yes    342
Name: alive, dtype: int64

### 행/열 합계
행과 열의 합계를 구할 때 : sum(axis) 메소드 사용
- sum(axis=0) : 열의 합계 (세로로 계산)
- sum(axis=1) : 행의 합계 (가로로 계산)

In [59]:
# 4행 8열의 데이터프레임 생성
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10,size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [60]:
# 행 합계 : sum(axis = 1)
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [61]:
df2['RowSum'] = df2.sum(axis=1) # 한 번만 실행
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [62]:
# 열 합계 : sum(axis= 0)
# axis=0이 디폴트 값이므로 생략 가능
df2.sum(axis=0) # == df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [64]:
# ColTotal 행 인덱스 추가하고
# 각 열의 합계 구하기
df2.loc['ColTotal',:]=df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


### apply() 변환
행이나 열 단위로 더 복잡한 처리를 할 때 apply() 메소드 사용
인수로 행 또는 열을 받는 함수를 apply() 메소드의 인수로 넣으면,
각 열 (또는 행)을 반복해서 그 함수에 적용

In [4]:
df3 = pd.DataFrame({
    'A':[1,3,4,3,4],
    'B':[2,3,1,2,3],
    'C':[1,5,2,4,4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [10]:
# 각 열의 최대값과 최소값의 차이를 구하기
# - apply() 함수 사용
# - 적용할 함수를 람다 함수를 사용
# - apply() 함수에서 axis=0 디폴트로 생략 : 열에 적용
df3.apply(lambda x : x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [11]:
# axis = 0 디폴트로 생략 가능
df3.apply(lambda x : x.max() - x.min(), axis=0) # 결과 동일

A    3
B    2
C    4
dtype: int64

In [12]:
# axis = 1로 행에 적용
df3.apply(lambda x : x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

## lambda 식 = lambda 입력되는 값 : 출력되는 값
## 입력되는 값으로 주어진 식을 수행한 후 값 반환(출력)
## (lambda a,b : a + b)(3,5)

람다식 : lambda
lambda : 실행 시(런타임) 생성해서 사용할 수 있는 익명 함수
익명 함수 : 이름이 없는 함수
입력과 출력이 있는 간단한 한 행짜리 함수를 만들 때 사용
같은 함수를 def로 정의할 때보다 간결
형식 : lambda 매개변수(입력) : 표현식(출력)
사용 : (lambda 매개변수 : 리턴값)(함수로 전달되는 값)
   ex. (lambda a,b : a + b)(3,5)

In [5]:
# def로 정의한 함수
def add(a,b) :
    return a + b
add(3,5)

8

In [7]:
# 람다식으로 표현
(lambda a,b : a+b)(3,5)

8

각 열에 대해 어떤 값이 얼마나 사용되었는지 (몇 번이나 나왔는지)
(빈도수) 확인
각 열에서 어떤 값의 빈도수 출력
value_counts() 함수를 사용
데이터프레임에서는 열마다 적용
0열 : df[0].value_counts()

In [13]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [15]:
# df3.value_counts() # 에러
# 데이터프레임에 적용할 수 없고 열마다 적용해야 함
df3['A'].value_counts()

4    2
3    2
1    1
Name: A, dtype: int64

In [16]:
# apply() 메소드를 사용하면 모든 열에 대해 한 번에 적용 가능
df3.apply(pd.value_counts)
# A열에서 1은 1번, 2는 0번, 3은 2번, ...

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


현재 실수로 되어 있는 빈도수를 정수로 변환
astype(int) 함수 사용
df3.apply(pd.value_counts).astype(int) # 에러
실수로 되어 있는 빈도수를 정수형(int)으로 형 변환하는데 에러 발생
이유 : 결측값(NaN)이 존재하기 때문
결측값은 연산을 할 수 없으므로 연산 시 오류 발생

In [18]:
# 결측값을 0으로 변경한 후 정수형으로 변환
# 결측값을 다른 값으로 채우는 함수 : fillna(0) (결측값 0으로 바꾸는)
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### 실수 값을 카테고리 값으로 변환
실수값을 크기 기준으로 해서 카테고리 값으로 변환하는 함수
- cut() : 실수 값의 경계선을 지정하는 경우
- qcut : 개수가 동일한 구간으로 나누는 경우

cut()  함수 : 실수값의 경계선을 지정하는 경우
- 예를 들어 나이가 (0,15,20,23,100...)가 있을 때
- 경계선 나이를 1,15,25,... 지정해서
- 미성년자, 청년, 중년,... 등의 카테고리로 나눌 경우
- out() 함수 사용

In [22]:
# 나이 값 설정
ages = [0,2,10,21,23,37,31,61,20,41,32,100]
# length : 12

In [24]:
# cut() : 실수값을 카테고리 값으로 변환
# bins() : 카테고리를 나누는 기준값
# 영역을 벗어나는 값은 NaN으로 처리됨

# 카테고리를 나누는 기준 설정
bins = [1,15,25,35,60,99]
labels = ['미성년자','청년','중년','장년','노년']

# cut() 적용한 결과를 변수에 저장
ctgs = pd.cut(ages,bins,labels = labels)
ctgs

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [None]:
cut() 함수 반환값은 Categorical 클래스의 Categories 속성
Categories 속성 : 라벨 문자열의 카테고리 값
codes 속성 : 정수로 인코딩된 카테고리 값

In [25]:
type(ctgs)

pandas.core.arrays.categorical.Categorical

In [26]:
# Categories 속성 : 라벨 문자열의 카테고리 값
ctgs.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [27]:
# ctgs.codes : 정수로 인코딩된 카테고리 값
ctgs.codes
# ages = [0,2,10,21,23,37,31,61,20,41,32,100]
# array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8)
# bins = [1,15,25,35,60,99]

array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8)

In [134]:
# 결과를 데이터프레임으로 생성해서 출력
# ages 열만 데이터프레임 생성
df4 = pd.DataFrame(ages,columns=['ages'])
# df4

# cut() 함수를 적용한 결과를 df4의 age_ctg 열로 추가
bins = [1,15,25,35,60,99]
labels = ['미성년자','청년','중년','장년','노년']
df4['age_ctg']= pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_ctg
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


qcut() : 구간 경계선을 지정하지 않고 
         데이터 개수가 같도록 지정한 수의 구간
   예) 1000개의 데이터를 4개 구간으로 나눔
       각 구간은 250개씩 데이터 포함

In [32]:
data = np.random.randn(1000)
ctg2 = pd.qcut(data,4,labels=['Q1','Q2','Q3','Q4'])
ctg2

[Q1, Q1, Q1, Q4, Q3, ..., Q4, Q3, Q3, Q2, Q2]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [33]:
pd.value_counts(ctg2)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

## 연습문제
타이타닉 승객을 사망자와 생존자 그룹으로 나누어
각 그룹에 대해 '미성년자','청년','중년','장년','노년'으로 구분해서 승객의 비율 구하기
각 그룹 별로 비율의 전체 합은 1이 됨

사망자 비율 : 0.xxxx, ...
생존자 비율 : 0.xxxx, ...

In [114]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [108]:
# alive 열에서 값이 no인 것만 추출
# alive 열에서 값이 yes인 것만 추출

In [206]:
# bins = [1,15,25,35,60,99] # 1 = 1 초과 15이하
bins = [0,15,25,35,60,99]
labels = ['미성년자','청년','중년','장년','노년'] 

# 사망자와 생존자 그룹 생성
no = titanic[titanic['alive'] == 'no'] 
yes = titanic[titanic['alive'] == 'yes']

In [207]:
titanic['alive'] == 'no' 
# True/False로 나옴

0       True
1      False
2      False
3      False
4       True
       ...  
886     True
887    False
888     True
889    False
890     True
Name: alive, Length: 891, dtype: bool

In [208]:
# (1) 사망자 그룹 카테고리 설정 
# cut() 함수 사용
no_ctgs = pd.cut(no.age, bins, labels=labels)
no_ctgs

0        청년
4        중년
5       NaN
6        장년
7      미성년자
       ... 
884      청년
885      장년
886      중년
888     NaN
890      중년
Name: age, Length: 549, dtype: category
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [209]:
# (2) 각 기준 값의 빈도수 출력
no_ctgs.value_counts()

청년      143
장년      117
중년      113
미성년자     34
노년       17
Name: age, dtype: int64

In [210]:
# (3) no_ctgs 전체 수 출력
no_ctgs.count()

424

In [211]:
# (4) 사망자 비율 : 각 기준 값의 빈도수 / 전체 수
# 각 기준 값에 적용
no_ctgs.value_counts().apply(lambda x : x / no_ctgs.count())

청년      0.337264
장년      0.275943
중년      0.266509
미성년자    0.080189
노년      0.040094
Name: age, dtype: float64

In [192]:
# 생존자 동일하게 적용

In [1]:
# (1) 사망자 그룹 카테고리 설정 
# cut() 함수 사용
yes_ctgs = pd.cut(yes.age, bins, labels=labels)
yes

NameError: name 'pd' is not defined

In [213]:
# (2) 각 기준 값의 빈도수 출력
yes_ctgs.value_counts()

중년      83
장년      78
청년      75
미성년자    49
노년       5
Name: age, dtype: int64

In [214]:
# (3) no_ctgs 전체 수 출력
yes_ctgs.count()

290

In [215]:
# (4) 생존자 비율 : 각 기준 값의 빈도수 / 전체 수
# 각 기준 값에 적용
yes_ctgs.value_counts().apply(lambda x : x / yes_ctgs.count())

중년      0.286207
장년      0.268966
청년      0.258621
미성년자    0.168966
노년      0.017241
Name: age, dtype: float64

In [216]:
# 인원수가 맞는지 확인
# alive 총 인원수
len(titanic['alive'])

891

In [217]:
# alive 열에 NaN 있는지 확인
# NaN이 들어 있는 행을 추출
titanic[titanic['alive'].isnull()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone


In [218]:
# age 열에 NaN 있는지 확인
titanic[titanic['age'].isnull()] # 177

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
17,1,2,male,,0,0,13.0000,S,Second,man,True,,Southampton,yes,True
19,1,3,female,,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True
26,0,3,male,,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True


alive : 891
age : 891-177 = 714
카테고리별로 생존자/사망자 수 합산
422 + 278 = 700
그러면 14명은 어디에?

In [221]:
# 1살 이하가 존재하는지 확인
titanic[titanic['age']<=1]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
78,1,2,male,0.83,0,2,29.0,S,Second,child,False,,Southampton,yes,False
164,0,3,male,1.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
183,1,2,male,1.0,2,1,39.0,S,Second,child,False,F,Southampton,yes,False
305,1,1,male,0.92,1,2,151.55,S,First,child,False,C,Southampton,yes,False
381,1,3,female,1.0,0,2,15.7417,C,Third,child,False,,Cherbourg,yes,False
386,0,3,male,1.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5,S,Second,child,False,,Southampton,yes,False


In [222]:
len(titanic[titanic['age']<=1]) # 14

14