# Pandas – 자료 구조

## - 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리

![image-2.png](attachment:image-2.png)


In [1]:
# 필요한 패키지를 불러온다

import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

In [2]:
# Series 정의하기

raw = [3, 5, -7, 9]

data = pd.Series(raw)     # Series 형태로 전환

data

0    3
1    5
2   -7
3    9
dtype: int64

In [3]:
# Series의 값을 확인하기

data.values

array([ 3,  5, -7,  9], dtype=int64)

In [4]:
# Series의 인덱스를 확인하기

data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# Series의 자료형 확인하기

data.dtypes

dtype('int64')

In [6]:
# 인덱스 이름을 지정하기

data2 = pd.Series([11,13,15,17], index=['a', 'b', 'c', 'd'])

data2

a    11
b    13
c    15
d    17
dtype: int64

In [7]:
# 인덱스 이름을 바꾸기

data.index = ['A', 'B', 'C', 'D']

data

A    3
B    5
C   -7
D    9
dtype: int64

## ■ python의 dictionary 자료형을 Series data로 만들기

In [8]:
# python의 dictionary 자료형을 Series data로 만들 수 있음
# 이때, dictionary의 key가 Series의 index가 됨

sdata = {'Aaron': 97, 'Bruno': 86, 'Cathy': 95, 'Dave': 79}

data3= pd.Series(sdata)

data3

Aaron    97
Bruno    86
Cathy    95
Dave     79
dtype: int64

In [9]:
#자료의 이름과 인덱스 명을 지정하기  

data3.name = '중간고사 점수'     # 자료의 대표 이름 지정하기

data3.index.name = '이름'         # 인덱스 명을 지정하기 

data3

이름
Aaron    97
Bruno    86
Cathy    95
Dave     79
Name: 중간고사 점수, dtype: int64

## ■ Data Frame 정의하기  /* Data Frame 은 Table 형태를 가짐 */

In [10]:
# Data Frame 정의하기
# DataFrame에 들어갈 데이터를 정의할 때는
# python의 dictionary 또는 numpy의 array로 정의할 수 있음

data = {'이름': ['Eden', 'Felix', 'Gilbert', 'Harmony', 'Ivy'],
        '연도': ['2013', '2014', '2015', '2016', '2017'],
        '매출': [123, 234, 345, 456, 567]}

df = pd.DataFrame(data)    # data frame 정의하기

df

Unnamed: 0,이름,연도,매출
0,Eden,2013,123
1,Felix,2014,234
2,Gilbert,2015,345
3,Harmony,2016,456
4,Ivy,2017,567


In [11]:
# 데이터의 행 방향의 index 확인하기

df.index

RangeIndex(start=0, stop=5, step=1)

In [12]:
# 데이터의 열 방향의 index(칼럼명) 확인하기

df.columns

Index(['이름', '연도', '매출'], dtype='object')

In [13]:
# 데이터의 값 확인하기

df.values

array([['Eden', '2013', 123],
       ['Felix', '2014', 234],
       ['Gilbert', '2015', 345],
       ['Harmony', '2016', 456],
       ['Ivy', '2017', 567]], dtype=object)

In [14]:
# DataFrame을 만들면서 columns와 index를 설정할 수 있다.

df2 = pd.DataFrame(data, 
                   columns=['연도', '이름', '매출', '영업이익'],
                  index=['one', 'two', 'three', 'four', 'five'])

df2

Unnamed: 0,연도,이름,매출,영업이익
one,2013,Eden,123,
two,2014,Felix,234,
three,2015,Gilbert,345,
four,2016,Harmony,456,
five,2017,Ivy,567,


## ■ 데이터 Column (열) 다루기 
- column 명을 사용

In [15]:
#  특정 칼럼 값 확인하기

df2['이름']

one         Eden
two        Felix
three    Gilbert
four     Harmony
five         Ivy
Name: 이름, dtype: object

In [16]:
# 위 방법과 동일한 결과를 얻을 수 있음   (중요 !!!!)

df2.이름

one         Eden
two        Felix
three    Gilbert
four     Harmony
five         Ivy
Name: 이름, dtype: object

In [17]:
# 특정 칼럼 값 확인하기 (2) - 2개 이상의 열 지정시 대괄호 2개를 이용해야 

df2[['연도','매출','이름']]

Unnamed: 0,연도,매출,이름
one,2013,123,Eden
two,2014,234,Felix
three,2015,345,Gilbert
four,2016,456,Harmony
five,2017,567,Ivy


In [18]:
# 특정 칼럼(열)을 선택하고, 원하는 값을 대입할 수 있다.

df2['영업이익'] = 10

df2

Unnamed: 0,연도,이름,매출,영업이익
one,2013,Eden,123,10
two,2014,Felix,234,10
three,2015,Gilbert,345,10
four,2016,Harmony,456,10
five,2017,Ivy,567,10


In [19]:
# 특정 칼럼(열)을 선택하고, 원하는 값을 대입할 수 있다.(방법 2)

df2['영업이익'] = [10, 20, 30, 40, 50]

df2

Unnamed: 0,연도,이름,매출,영업이익
one,2013,Eden,123,10
two,2014,Felix,234,20
three,2015,Gilbert,345,30
four,2016,Harmony,456,40
five,2017,Ivy,567,50


numpy.arange([start, ] stop, [step, ] dtype=None)

- step 의 크기만큼 일정하게 떨어져 있는 숫자들을 array 형태로 반환해 주는 함수

- start 값을 지정하지 않으면 0 을 기본값으로 가짐

- step 값을 지정하지 않으면 1 값을 기본값으로 가짐

- dtype 은 결과로 반환되는 array 의 type 을 지정할 때 사용


In [20]:
# 기존 데이타에 새로운 열을 추가하기

df2['부채'] = np.arange(5)     #  0 부터 4까지 step 1씩 증가  (0 부터 4까지 지정하고자 할 때)

df2

Unnamed: 0,연도,이름,매출,영업이익,부채
one,2013,Eden,123,10,0
two,2014,Felix,234,20,1
three,2015,Gilbert,345,30,2
four,2016,Harmony,456,40,3
five,2017,Ivy,567,50,4


In [21]:
# Series 를 이용하여 새로운 column을 추가하기

val = pd.Series([7, 8, 9], index=['two','four','five'])    # 추가할 인덱스와 값을 지정

df2['당기순이익'] = val      # 당기순이익 column 이 생기면서 해당값을 insert

df2

Unnamed: 0,연도,이름,매출,영업이익,부채,당기순이익
one,2013,Eden,123,10,0,
two,2014,Felix,234,20,1,7.0
three,2015,Gilbert,345,30,2,
four,2016,Harmony,456,40,3,8.0
five,2017,Ivy,567,50,4,9.0


In [22]:
# 기존 데이타에 새로운 열을 추가하기 (방법 3)

df2['(매출-부채)']= df2['매출'] - df2['부채']

df2

Unnamed: 0,연도,이름,매출,영업이익,부채,당기순이익,(매출-부채)
one,2013,Eden,123,10,0,,123
two,2014,Felix,234,20,1,7.0,233
three,2015,Gilbert,345,30,2,,343
four,2016,Harmony,456,40,3,8.0,453
five,2017,Ivy,567,50,4,9.0,563


In [23]:
# 기존 데이타에 새로운 열을 추가하기 (방법 3) - boolean 값 입력

df2['안정성'] = df2['(매출-부채)'] > 300     # (매출-부채) 가 300 이상인 기업

df2

Unnamed: 0,연도,이름,매출,영업이익,부채,당기순이익,(매출-부채),안정성
one,2013,Eden,123,10,0,,123,False
two,2014,Felix,234,20,1,7.0,233,False
three,2015,Gilbert,345,30,2,,343,True
four,2016,Harmony,456,40,3,8.0,453,True
five,2017,Ivy,567,50,4,9.0,563,True


In [24]:
# 열 삭제하기 - del 문법 이용   (방법 1)
# 단, 하나의 열만 삭제할 수 있음

del df2['안정성']

df2

Unnamed: 0,연도,이름,매출,영업이익,부채,당기순이익,(매출-부채)
one,2013,Eden,123,10,0,,123
two,2014,Felix,234,20,1,7.0,233
three,2015,Gilbert,345,30,2,,343
four,2016,Harmony,456,40,3,8.0,453
five,2017,Ivy,567,50,4,9.0,563


Pandas 에서 

- axis = 0   은 행(row)을, 

- axis = 1 은 열(column) 을 의미   (중요 !!!!!!)


In [25]:
# 여러 열 삭제하기 - drop 문법 이용   (방법 2)
# axis=0 은 행을, axis = 1  은 칼럼(열)을 의미  
# drop 함수에서  'inplace = True' 일 경우 수정내용을 원본 데이터에 바로 적용  - default 값은 False

df2.drop(['당기순이익', '(매출-부채)'],axis = 1,inplace=  True)  #  '당기순이익' & '(매출-부채)' 전체 열을 삭제 후 원본에 반영

df2

Unnamed: 0,연도,이름,매출,영업이익,부채
one,2013,Eden,123,10,0
two,2014,Felix,234,20,1
three,2015,Gilbert,345,30,2
four,2016,Harmony,456,40,3
five,2017,Ivy,567,50,4


## ■ 데이터 행(Row) 다루기 
- (1) 구간 지정방법:  data[0:n] : 0번째 부터 (n-1) 번째까지의 행 정보를 가져온다.
- (2) loc method 는 "이름" 으로 데이터를 선택함
- (3) iloc method 는  integer 수를 이용하여 해당 데이터를 선택함


In [26]:
# 특정 부분의 행 정보 가져오기
# 구간 지정방법 

df2[0:3]      # 0번째 부터 2번째 까지의 행 정보를 가져온다.

Unnamed: 0,연도,이름,매출,영업이익,부채
one,2013,Eden,123,10,0
two,2014,Felix,234,20,1
three,2015,Gilbert,345,30,2


In [27]:
# 특정 부분의 행 정보 가져오기
# loc  함수를 사용하는 방법

df2.loc['four']   # 반환 형태는 Series

연도         2016
이름      Harmony
매출          456
영업이익         40
부채            3
Name: four, dtype: object

In [28]:
# 행의  특정 구간 정보를 가져올 때

df2.loc['two':'four']

Unnamed: 0,연도,이름,매출,영업이익,부채
two,2014,Felix,234,20,1
three,2015,Gilbert,345,30,2
four,2016,Harmony,456,40,3


In [29]:
# 행의  특정 구간 정보와 칼럼(열) 정보를 가져올 때

df2.loc['two':'four', '이름']

two        Felix
three    Gilbert
four     Harmony
Name: 이름, dtype: object

In [30]:
# 모든 행의 특정 칼럼(열) 정보를 가져올 때 (경우 1)

df2.loc[:,'연도']

one      2013
two      2014
three    2015
four     2016
five     2017
Name: 연도, dtype: object

In [31]:
# 모든 행의 특정 칼럼(열) 정보를 가져올 때 (경우 2)

df2.loc[:,['연도','이름']]

Unnamed: 0,연도,이름
one,2013,Eden
two,2014,Felix
three,2015,Gilbert
four,2016,Harmony
five,2017,Ivy


In [32]:
# 모든 행의 특정 칼럼(열) 정보를 가져올 때 (경우 3)

df2.loc['three':'five','연도':'영업이익']

Unnamed: 0,연도,이름,매출,영업이익
three,2015,Gilbert,345,30
four,2016,Harmony,456,40
five,2017,Ivy,567,50


In [33]:
# 새로운 행 삽입하기

df2.loc['six',:] = [2018,'Jace',678,60,5]

df2

Unnamed: 0,연도,이름,매출,영업이익,부채
one,2013,Eden,123.0,10.0,0.0
two,2014,Felix,234.0,20.0,1.0
three,2015,Gilbert,345.0,30.0,2.0
four,2016,Harmony,456.0,40.0,3.0
five,2017,Ivy,567.0,50.0,4.0
six,2018,Jace,678.0,60.0,5.0


In [34]:
# 추가된 결과의 전체 값을 확인 (array 형식으로 표시)


df2.values

array([['2013', 'Eden', 123.0, 10.0, 0.0],
       ['2014', 'Felix', 234.0, 20.0, 1.0],
       ['2015', 'Gilbert', 345.0, 30.0, 2.0],
       ['2016', 'Harmony', 456.0, 40.0, 3.0],
       ['2017', 'Ivy', 567.0, 50.0, 4.0],
       [2018, 'Jace', 678.0, 60.0, 5.0]], dtype=object)

### ▶ iloc method 이용

In [35]:
# iloc 문법: index 번호를 사용하는 방법

df2.iloc[3]   # 3번째 행이 아니라 3번 행을 가져온다.

연도         2016
이름      Harmony
매출          456
영업이익         40
부채            3
Name: four, dtype: object

In [36]:
# 특정한 행과 열 구간의 정보를 가져올 때 (경우 1)

df2.iloc[3:5, 0:2]      # 구간 지정 [from : to] 에서 to 는 n-1 이 적용

Unnamed: 0,연도,이름
four,2016,Harmony
five,2017,Ivy


In [37]:
# 특정한 행과 열 구간의 정보를 가져올 때 (경우 2)

df2.iloc[[0,1,3], [1,2]]

Unnamed: 0,이름,매출
one,Eden,123.0
two,Felix,234.0
four,Harmony,456.0


In [38]:
# 특정한 행과 열 구간의 정보를 가져올 때 (경우 3)

df2.iloc[:,1:4]      #  모든 행을 지정

Unnamed: 0,이름,매출,영업이익
one,Eden,123.0,10.0
two,Felix,234.0,20.0
three,Gilbert,345.0,30.0
four,Harmony,456.0,40.0
five,Ivy,567.0,50.0
six,Jace,678.0,60.0


In [39]:
# 데이터 화일 읽어 오기 

data = pd.read_csv('titanic_train.csv')

In [40]:
# shape 함수 : 데이터 크기 (행과 열) 확인 하기 

data.shape

(891, 12)

In [41]:
# info() 함수 : 데이터에 대한 전반적인 정보를 표시
# Data를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 등을 출력

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [42]:
# keys() 함수 : 데이터 칼럼명 확인 하기 

data.keys()

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [43]:
# 데이터 앞부분의 내용 확인 하기 

data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [44]:
# 데이터 뒷부분의 내용 확인 하기 

data.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [45]:
# 데이터 내용 중에 누락된 값 확인하기

data.isnull().sum()     #checking for total null values, 나이의 경우 누락된 값이 많음 (177)

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [46]:
# 데이터의 column 별 요약 통계량  확인하기 - 숫자형 자료에만 적용
# count는 not-null의 데이터 건수
# mean은 전체 데이터 평균값 

data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [47]:
# 데이터의 분포도를 확인하는데 매우 유용한 함수

data['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

## ■ 데이터를 그룹별로 분류하기 

In [48]:
data.groupby(['Sex','Survived']).count()    # Sex : 2개 그룹 , Survived : 2개 그룹

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Sex,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
female,0,81,81,81,64,81,81,81,81,6,81
female,1,233,233,233,197,233,233,233,233,91,231
male,0,468,468,468,360,468,468,468,468,62,468
male,1,109,109,109,93,109,109,109,109,45,109


In [50]:
# 각 성별의 생존자 와 사망자 그룹별로 평균값을 계산 (수치 데이터만 계산됨 )

data.groupby(['Sex','Survived']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Pclass,Age,SibSp,Parch,Fare
Sex,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,0,434.851852,2.851852,25.046875,1.209877,1.037037,23.024385
female,1,429.699571,1.918455,28.847716,0.515021,0.515021,51.938573
male,0,449.121795,2.476496,31.618056,0.440171,0.207265,21.960993
male,1,475.724771,2.018349,27.276022,0.385321,0.357798,40.821484


In [51]:
# 각 성별 그룹으로 생존자 수를 계산하고자 할 때

data.groupby(['Sex'])['Survived'].count()

Sex
female    314
male      577
Name: Survived, dtype: int64

In [52]:
# 각 성별의 생존자 와 사망자 그룹의 평균 나이를 계산하고자 할 때

data.groupby(['Sex','Survived'])['Age'].mean()

Sex     Survived
female  0           25.046875
        1           28.847716
male    0           31.618056
        1           27.276022
Name: Age, dtype: float64

## ■ loc 와 iloc 함수 이용

In [53]:
#  loc method 는 "이름" 으로 데이터를 선택함

data.loc[ :2 ]   # 처음부터 "2" 라는 이름을 가진 행까지 가져옴

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [54]:
#  iloc method 는  integer 수를 이용하여 해당 데이터를 선택함

data.iloc[ : 2]      # 0 ~ n-1 까지 해당, 즉 0~1 까지 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [55]:
# 확인 하기 

data.loc[ :2 , ['Survived', 'Pclass','Name'] ]

Unnamed: 0,Survived,Pclass,Name
0,0,3,"Braund, Mr. Owen Harris"
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,1,3,"Heikkinen, Miss. Laina"


In [56]:
# 확인 하기 

data.iloc[ :2 , 1:4]

Unnamed: 0,Survived,Pclass,Name
0,0,3,"Braund, Mr. Owen Harris"
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."


In [57]:
# 확인 하기 

data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [58]:
# 확인 하기 - 위 셀의 출력으로 확인 

data.iloc[ [ 3, 8 ] ,  :  ]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S


In [59]:
# 생존한 남자 중에 30세 이상이면서 33세 이하 데이터를 추출하고자 할 때

data[  ( data.Sex == 'male') & ( data.Survived == 1) & ( ( data.Age >= 30) & ( data.Age <= 33) )  ]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
74,75,1,3,"Bing, Mr. Lee",male,32.0,0,0,1601,56.4958,,S
286,287,1,3,"de Mulder, Mr. Theodore",male,30.0,0,0,345774,9.5,,S
429,430,1,3,"Pickard, Mr. Berk (Berk Trembisky)",male,32.0,0,0,SOTON/O.Q. 392078,8.05,E10,S
543,544,1,2,"Beane, Mr. Edward",male,32.0,1,0,2908,26.0,,S
569,570,1,3,"Jonsson, Mr. Carl",male,32.0,0,0,350417,7.8542,,S
579,580,1,3,"Jussila, Mr. Eiriik",male,32.0,0,0,STON/O 2. 3101286,7.925,,S
632,633,1,1,"Stahelin-Maeglin, Dr. Max",male,32.0,0,0,13214,30.5,B50,C
673,674,1,2,"Wilhelms, Mr. Charles",male,31.0,0,0,244270,13.0,,S
690,691,1,1,"Dick, Mr. Albert Adrian",male,31.0,1,0,17474,57.0,B20,S
744,745,1,3,"Stranden, Mr. Juho",male,31.0,0,0,STON/O 2. 3101288,7.925,,S
