### Pandas 객체(자료구조)
- 1차원 : 시리즈(Series)
- 2차원 : 데이터프레임(DataFrame)

In [1]:
# pandas 모듈을 불러와서 pd라는 별칭으로 사용하겠다.
import pandas as pd

In [2]:
# 1차원 시리즈 생성
# list 사용하여 Series 생성
# 도시별 인구수 나타내는 Series 생성
pop = pd.Series([9602000, 3344000, 1488000, 2419000])
pop

0    9602000
1    3344000
2    1488000
3    2419000
dtype: int64

In [3]:
# 시리즈 데이터에 인덱스를 지정하기
pop = pd.Series([9602000, 3344000, 1488000, 2419000], index = ['서울', '부산', '광주', '대구'])
pop

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [4]:
# 딕셔너리를 이용해서 시리즈 생성해보기
# 면적에 대한 정보 생성
area = pd.Series({'서울':605.2, '부산':770.1, '광주':501.1, '대구':883.5})
area

서울    605.2
부산    770.1
광주    501.1
대구    883.5
dtype: float64

- 데이터 속성 확인

In [5]:
# 1. value값만 확인하고 싶을 때 
pop.values  # 출력 결과의 형태 : Numpy 배열

array([9602000, 3344000, 1488000, 2419000], dtype=int64)

In [6]:
# 2. 시리즈의 인덱스 값을 확인하고 싶을 때
pop.index # object ==> 문자열 자료형

Index(['서울', '부산', '광주', '대구'], dtype='object')

In [7]:
#3. 시리즈의 데이터 타입 확인
pop.dtype
area.dtype

dtype('float64')

#### 시리즈 이름 지정
- 시리즈의 이름은 DataFrame의 컬럼명이 된다

In [8]:
pop

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [9]:
pop.name = '2020 인구'
pop

서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구, dtype: int64

In [10]:
pop.index.name = '도시'
pop

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구, dtype: int64

#### 시리즈 데이터 갱신(수정), 삭제, 추가

In [11]:
# 갱신(수정)
# 1. 인덱스 위치 접근
# 2. 값을 대입
pop.index.name = '지역'
pop

지역
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구, dtype: int64

In [12]:
# 부산 데이터를 3500000으로 수정
pop['부산'] = 3500000
pop

지역
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구, dtype: int64

In [13]:
# 삭제 : drop()
# 광주 도시 삭제
pop.drop('광주',inplace = True) 
# inplace = False : 데이터를 삭제하고 초기화를 시켜주지 않음
# pop = pop.drop('광주')
# inplace = True : : 데이터를 삭제하고 원래 위치에 반영(초기화)

In [14]:
pop 

지역
서울    9602000
부산    3500000
대구    2419000
Name: 2020 인구, dtype: int64

In [15]:
# 추가 : 없는 키 값 불러주고 값을 대입
# '거제' : 250000
pop['거제'] = 250000
pop

지역
서울    9602000
부산    3500000
대구    2419000
거제     250000
Name: 2020 인구, dtype: int64

In [16]:
# 인덱스 이름 변경 : 지역 ==> 도시
pop.index.name = '도시'

# 천안 데이터 추가 : '천안' : 660000
pop['천안'] = 660000

# 부산 데이터 수정 ==> 3344000
pop['부산'] = 3344000
pop

도시
서울    9602000
부산    3344000
대구    2419000
거제     250000
천안     660000
Name: 2020 인구, dtype: int64

In [17]:
area

서울    605.2
부산    770.1
광주    501.1
대구    883.5
dtype: float64

In [18]:
# 인덱스 이름 설정 = > 도시
area.index.name = '도시'

# 시리즈 이름 설정 => 면적(㎢)
area.name ='면적(㎢)'

# 데이터 수정(광주 -> 거제, 천안-> 450.1 추가 )
area.drop('광주',inplace=True)

area['거제'] = 501.1
area['천안'] = 450.1 
area

도시
서울    605.2
부산    770.1
대구    883.5
거제    501.1
천안    450.1
Name: 면적(㎢), dtype: float64

#### 시리즈 병합(concat)
- 1차원을 연결하여 2차원으로 변환
- 시리즈의 이름이 데이터프레임의 컬럼명이 되는지 확인

In [19]:
# axis = 0 : 행방향 (수직방향)
# axis =1 : 열방향 (수평방향)
df = pd.concat([pop,area])  # axis 기본값 ==> 행방향
df

도시
서울    9602000.0
부산    3344000.0
대구    2419000.0
거제     250000.0
천안     660000.0
서울        605.2
부산        770.1
대구        883.5
거제        501.1
천안        450.1
dtype: float64

In [20]:
df2 = pd.concat([pop,area],axis=1) # axis 기본값 ==> 열방향
df2

# 시리즈의 이름이 컬럼명이 됨

Unnamed: 0_level_0,2020 인구,면적(㎢)
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9602000,605.2
부산,3344000,770.1
대구,2419000,883.5
거제,250000,501.1
천안,660000,450.1


#### 2차원 데이터프레임 생성
- 리스트, 딕셔너리 자료를 활용하여 생성 가능

In [21]:
# 딕셔너리를 이용하여 데이터 프레임 생성하기
data = {'2020 인구' : [9602000, 3344000, 2419000], '면적(㎢)' : [605.2,770.1,883.5]}
# key 값이 컬럼병
data
df3 = pd.DataFrame(data, index = ['서울', '부산', '대구'])
df3

Unnamed: 0,2020 인구,면적(㎢)
서울,9602000,605.2
부산,3344000,770.1
대구,2419000,883.5


In [22]:
test = {'키' : [175.3, 180.2, 178.6], '몸무게' : [66.2, 78.9, 55.1], '나이' : [27.0,49.0,35.0]}
df4 = pd.DataFrame(test, index = ['홍길동', '김사또', '임꺽정'])
df4

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [23]:
# 행과 열을 전환해주는 키워드 .T(전치 - transpose)
df5_T = df4.T
df5_T

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


### Pandas 데이터 접근하기 : 인덱싱 & 슬라이싱

#### 시리즈 인덱싱 

In [24]:
pop
# 인덱싱으로 거제 데이터 접근하기
pop['거제']
pop[3]

250000

In [25]:
# 여러개 도시 데이터를 한번에 인덱싱하기
# 서울, 대구, 천안 도시 데이터 접근하기
pop[['서울', '대구', '천안']]
pop[[0,2,4]]
pop[::2]

도시
서울    9602000
대구    2419000
천안     660000
Name: 2020 인구, dtype: int64

#### 시리즈 슬라이싱

In [26]:
pop

도시
서울    9602000
부산    3344000
대구    2419000
거제     250000
천안     660000
Name: 2020 인구, dtype: int64

In [27]:
# 부산 ~ 천안 접근해보기
pop['부산':'천안'] # 문자열로 접근할 때는 뒷값이 포함
pop[1:] # 인덱스 번호로 접근할 때는 뒷값이 포함 x

도시
부산    3344000
대구    2419000
거제     250000
천안     660000
Name: 2020 인구, dtype: int64

#### 시리즈 불리언 인덱싱

In [28]:
pop

도시
서울    9602000
부산    3344000
대구    2419000
거제     250000
천안     660000
Name: 2020 인구, dtype: int64

In [29]:
# 인구수가 1000000 미만인 도시 확인
pop[pop < 1000000]

도시
거제    250000
천안    660000
Name: 2020 인구, dtype: int64

In [30]:
# 백만 이상인 도시명만 확인하고 싶을 때
pop[pop<1000000].index

Index(['거제', '천안'], dtype='object', name='도시')

In [31]:
# 인구수가 2백만 이상 ~ 5백만 이하 도시 확인하기
pop[(pop>=2000000) & (pop<=5000000)].index

Index(['부산', '대구'], dtype='object', name='도시')

#### DataFrame 열 인덱싱

In [32]:
# 2명 학생에 대한 성적 데이터 프레임 생성
df_stu = pd.DataFrame({'Java':[95,85], 'python':[100,95],
                       'db':[85,85],'html/css':[70,75]},
                     index = ['dw','eh'])
# 중괄호 뒤에 인덱스
df_stu

Unnamed: 0,Java,python,db,html/css
dw,95,100,85,70
eh,85,95,85,75


In [33]:
# 'python' 과목 성적 데이터 접근
# 컬럼 인덱싱 먼저 ('dw' => 오류)
df_stu['Java']
# 컬럼 하나 출력 => Series

dw    95
eh    85
Name: Java, dtype: int64

In [34]:
df_stu[['Java']] # 데이터 프레임 모양으로 출력

Unnamed: 0,Java
dw,95
eh,85


In [35]:
# 여러 개의 컬럼에 접근하기
df_stu[['python','db']]

Unnamed: 0,python,db
dw,100,85
eh,95,85


In [36]:
# df[:] => 슬라이싱은 행 인덱싱
df_stu['java':'python']
df_stu['dw':'eh']
df_stu[1:]

Unnamed: 0,Java,python,db,html/css
eh,85,95,85,75


#### 행, 열에 접근하는 인덱서
- df[] => 컬럼 인덱싱, df[:]=> 행 인덱싱 불편
- loc, iloc 인덱서 등장
- df.loc[행] ,  df.loc[행, 열], df.loc[행:행, [열1,열3]]=> 실제 인덱스명 또는 컬럼명을 사용하여 데이터 접근
- df.iloc[행],  df.iloc[행, 열] df.iloc[행:행, [열1,열3]]=> numpy array 인덱스 값을 사용하여 데이터 접근

In [37]:
# dw 행 데이터 접근
# loc : 눈에 보이는 label 라벨 값
df_stu.loc['dw']

Java         95
python      100
db           85
html/css     70
Name: dw, dtype: int64

In [38]:
# iloc : 인덱스 값 데이터 접근
df_stu.iloc[0] # 0번째 행 접근

Java         95
python      100
db           85
html/css     70
Name: dw, dtype: int64

In [39]:
# df_stu dw, eh 행 접근 > iloc
df_stu.iloc[:]
# df_stu dw, eh 행 접근 > loc
df_stu.loc['dw':'eh']
df_stu.loc[['eh','dw']] 
# 순서 바꾸기 # 행 값 여러개라 대괄호 한 번 씌우기(행,열 로 구분할 수 있으니)

Unnamed: 0,Java,python,db,html/css
eh,85,95,85,75
dw,95,100,85,70


In [40]:
# df_stu iloc 열 접근
# java 컬럼 접근해보기 > 0번째 열에 접근
df_stu.iloc[:,0]

# dw, java 점수 접근
df_stu.iloc[0,0]

95

In [41]:
# df_stu dw의 python, html/css 점수에 접근
df_stu.loc['dw','python':'html/css':2]
df_stu.loc['dw',['python','html/css']]

df_stu.iloc[0,1::2]
df_stu.iloc[0,[1,3]]

python      100
html/css     70
Name: dw, dtype: int64

#### DataFrame 불리언인덱싱
- 논리 연산자를 활용하여 데이터 접근

In [42]:
# 행 데이터 추가
# 1. 행 접근 (없는 이름) # 2. 대입
df_stu.loc['dh']=[95,95,85,100]

In [43]:
# 컬럼 추카
# 1. 컬럼 접근(없는 이름) # 2. 대입
df_stu.loc[:,'ml']=[100,100,100]
df_stu

Unnamed: 0,Java,python,db,html/css,ml
dw,95,100,85,70,100
eh,85,95,85,75,100
dh,95,95,85,100,100


In [44]:
# java 성적에서 90 이상인 사람의 이름은?
df_stu.iloc[:,0]>=90
df_stu['Java']>=90

dw     True
eh    False
dh     True
Name: Java, dtype: bool

In [45]:
df_stu[df_stu['Java']>=90] # 불리언 인덱싱이 행 인덱싱으로 작용 (True인 행 모두 출력)

Unnamed: 0,Java,python,db,html/css,ml
dw,95,100,85,70,100
dh,95,95,85,100,100


In [46]:
df_stu[df_stu['Java']>=90].index

Index(['dw', 'dh'], dtype='object')

In [47]:
# python 성적이 100점 이상인 사람은 몇명인가?
df_stu[df_stu['python']>=100].index.size
len(df_stu[df_stu['python']>=100].index)
result = df_stu[df_stu['python']>=100].shape[0] # 튜플 개수 

print(f'python 성적이 100점 이상인 사람은 몇명인가? : {result}') # 1명

python 성적이 100점 이상인 사람은 몇명인가? : 1


In [48]:
# df_stu[df_stu.iloc[0]==100] # iloc 인덱서는 불리언 인덱싱과 호환이 안됨
df_stu[df_stu.loc[:,'Java']==95] # loc 인덱서는 불리언 인덱싱과 호환됨

Unnamed: 0,Java,python,db,html/css,ml
dw,95,100,85,70,100
dh,95,95,85,100,100


### Pandas 유용한 함수

####  value_counts() : 값이 등장한 횟수 세는 기능

In [49]:
df_stu

Unnamed: 0,Java,python,db,html/css,ml
dw,95,100,85,70,100
eh,85,95,85,75,100
dh,95,95,85,100,100


In [50]:
df_stu['Java'].value_counts()

95    2
85    1
Name: Java, dtype: int64

In [51]:
# python에서 가장 많이 나온 성적의 개수는? (빈도수가 높은 성적은?)
df_stu['python'].value_counts()

95     2
100    1
Name: python, dtype: int64

In [52]:
# 빈도수 파악 -> 카테고리 형식(범주형) 데이터에 자주 사용
# 기술통계량 파악 -> 값의 크고 작음의 의미가 있는 숫자 데이터(수치형) 자주 사용

#### sort_values(), sort_index() : 정렬하는 함수

In [53]:
pop

도시
서울    9602000
부산    3344000
대구    2419000
거제     250000
천안     660000
Name: 2020 인구, dtype: int64

In [54]:
# value 값 기준 정렬, 기본값 : 오름차순 정렬 
# ascending = False 내림차순 정렬
pop.sort_values(ascending = False) 

도시
서울    9602000
부산    3344000
대구    2419000
천안     660000
거제     250000
Name: 2020 인구, dtype: int64

In [55]:
# index 정렬
pop.sort_index(ascending = False) 

도시
천안     660000
서울    9602000
부산    3344000
대구    2419000
거제     250000
Name: 2020 인구, dtype: int64

#### drop() : 데이터를 삭제하는 함수
- 행 이름 삭제해줘, 컬럼 이름 삭제해줘
- axis = 0 (행방향★으로 데이터 확인), axis = 1(열방향★으로 데이터 확인)

In [56]:
# 행 데이터 삭제
df_stu.drop('dh', axis =0) # axis =1 일때는 적용 x / 열방향에서 'dh' 찾을 수 없음

Unnamed: 0,Java,python,db,html/css,ml
dw,95,100,85,70,100
eh,85,95,85,75,100


In [57]:
# 열 데이터 삭제
df_stu.drop('ml',axis=1,inplace=True)

In [58]:
df_stu

Unnamed: 0,Java,python,db,html/css
dw,95,100,85,70
eh,85,95,85,75
dh,95,95,85,100


#### 데이터 불러오는 함수

In [62]:
# 한글 불러오는 encoding 방식 : utf-8, euc-kr, cp959
score = pd.read_csv('data/score.csv',index_col='과목', encoding='euc-kr') 
# 과목명을 인덱스로 사용하겠다
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [87]:
# 데이터 확인하기
# 크기 확인 : shape
score.shape
# 데이터 타입 ; dtype
# 데이터프레임의 데이터 타입 확인은 각각의 데이터로 접근해야 한다.
score['1반'].dtype
# 컬럼명(이름) 확인
score.columns
# 행이름
score.index

Index(['수학', '영어', '국어', '사회', '과학'], dtype='object', name='과목')

#### 데이터 정보 출력하는 함수

In [88]:
score.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 수학 to 과학
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   1반      5 non-null      int64
 1   2반      5 non-null      int64
 2   3반      5 non-null      int64
 3   4반      5 non-null      int64
dtypes: int64(4)
memory usage: 200.0+ bytes


In [91]:
# 결측치 확인하는 함수 : isnull()
score.isnull().sum() 
# 결측치 0 : True, 결측치 X : False

1반    0
2반    0
3반    0
4반    0
dtype: int64

#### 총합을 구하는 함수

In [94]:
score.isnull().sum(axis=1) # 열방향

과목
수학    0
영어    0
국어    0
사회    0
과학    0
dtype: int64

In [102]:
display(score.sum(axis=0))
display(score.sum(axis=1))

1반    271
2반    388
3반    295
4반    243
dtype: int64

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

#### 학급별 순위(성적이 높은 순부터)

In [97]:
# 여러개의 컬럼을 정렬하고 싶을 때
score.sum().sort_values(ascending = False)

# df.sort_values(by=['컬럼명', '컬럼명2'], ascending = [False, True])
# 컬럼명 1 : 내림차순, 컬럼명 2 : 오름차순
# by와 ascending에 입력할 원소의 개수는 같아야 함

2반    388
3반    295
1반    271
4반    243
dtype: int64

#### 과목별 합계를 계산하여 '합계' 컬럼으로 추가하기

In [151]:
s_sum = score.sum(axis = 1)
score.loc[:,'합계'] = s_sum  # score.loc['합계']

In [152]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45.0,44.0,73.0,39.0,201.0
영어,76.0,92.0,45.0,69.0,282.0
국어,47.0,92.0,45.0,69.0,253.0
사회,92.0,81.0,85.0,40.0,298.0
과학,11.0,79.0,47.0,26.0,163.0


#### 과목별 평균을 계산하여 '평균' 컬럼으로 추가하기

In [153]:
s_avg = s_sum/4
score.loc[:,'평균']= s_avg

In [154]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75


In [147]:
# score.drop('합계', axis =1, inplace=True)
# score.drop('평균', axis =1, inplace=True)

In [141]:
score['합계']/4

과목
수학    50.25
영어    70.50
국어    63.25
사회    74.50
과학    40.75
Name: 합계, dtype: float64

In [142]:
score.columns[:4].size

4

In [144]:
score['합계']/score.columns[:4].size 
#len(score.columns[:4]) 길이 구하기

과목
수학    50.25
영어    70.50
국어    63.25
사회    74.50
과학    40.75
Name: 합계, dtype: float64

In [156]:
score.loc[:,:'4반'].mean(axis =1) # 열방향으로 평균 구하기

과목
수학    50.25
영어    70.50
국어    63.25
사회    74.50
과학    40.75
dtype: float64

####  반 평균을 계산하여 새로운 행 ' 반평균'으로 추가하기

In [157]:
score.loc[:,:].mean(axis =0)

1반     54.20
2반     77.60
3반     59.00
4반     48.60
합계    239.40
평균     59.85
dtype: float64

In [158]:
score.loc['반평균']=score.loc[:,:].mean(axis =0)

In [159]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [160]:
# 인덱서를 이용해서 행 추가
b_avg = score.mean() # axis = 0 : 기본값(행방향)
# score.loc['반평균'] = b_avg

1반     54.20
2반     77.60
3반     59.00
4반     48.60
합계    239.40
평균     59.85
dtype: float64

#### 최댓값, 최소값 구하는 함수
- max, min

In [169]:
# max() : 열방향 최댓값
score.max(axis=1)
# min() : 행방향 최솟값
score.min(axis=0)

1반     11.00
2반     44.00
3반     45.00
4반     26.00
합계    163.00
평균     40.75
dtype: float64

In [188]:
# 1반부터 4반까지 점수 중 과목별 가장 큰 값과 가장 작은 값의 차이를 구하기
score.loc[:'과학',:'4반'].max(axis=1)-score.loc[:'과학',:'4반'].min(axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [187]:
score.loc[:,:'4반']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45.0,44.0,73.0,39.0
영어,76.0,92.0,45.0,69.0
국어,47.0,92.0,45.0,69.0
사회,92.0,81.0,85.0,40.0
과학,11.0,79.0,47.0,26.0
반평균,54.2,77.6,59.0,48.6


#### cut 함수 : 수치형 데이터 --> 범주형 데이터 변경

![image.png](attachment:image.png)

In [191]:
ages = [0,2,10,21,23,37,31,61,20,41,32,99]
bins = [-1,15,30,40,60,99] # 구간 설정, 시작값은 포함되지 않고 끝값은 포함됨
labels = ['미성년자','청년','장년','중년','노년']
cats = pd.cut(ages, bins=bins, labels=labels)
cats

['미성년자', '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '중년', '장년', '노년']
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [192]:
pd.Series(cats)

0     미성년자
1     미성년자
2     미성년자
3       청년
4       청년
5       장년
6       장년
7       노년
8       청년
9       중년
10      장년
11      노년
dtype: category
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

#### grouppby() : 데이터를 그룹별로 묶어 집계낼 수 있게 하는 함수

In [193]:
s1 = pd.Series([1,0,1,0,1])
s2 = pd.Series(['female','female','male','male','female'])
s3 = pd.Series([1,2,3,4,5])

ti = pd.concat([s1,s2,s3], axis =1)
ti.columns = ['Servived', 'Sex', 'PassengerId']
ti

Unnamed: 0,Servived,Sex,PassengerId
0,1,female,1
1,0,female,2
2,1,male,3
3,0,male,4
4,1,female,5


In [199]:
# 성별에 따른 생존자 수 확인하기
ti[['Servived','Sex']].groupby('Sex').sum()

Unnamed: 0_level_0,Servived
Sex,Unnamed: 1_level_1
female,2
male,1


In [211]:
# 성별에 따른 생존자 수 / 사망자 수 확인하기
ti.groupby(by=['Sex','Servived']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId
Sex,Servived,Unnamed: 2_level_1
female,0,1
female,1,2
male,0,1
male,1,1


In [None]:
# 판다스 공식 사이트 (http://pandas.pydata.org)