In [0]:
# pandas
# 행에 '열 레이블index'을 부착한 n차원 행렬
# 자료구조를 제공하는 파이썬 라이브러리 (R의 데이터프레임과 유사)
# 지원하는 자료구조는 Series(벡터..), DataFrame, Panel임
# 단, 0.20 이후로 Panel은 deprecated됨

# pandas의 창시자 중 한 명은 헤피펀드 애널리스트로 일하며 파이썬에서 금융 시계열을 다루기 위한 목적으로 개발함

In [0]:
# 공식사이트 : pandas.pydata.org
# 설치방법 : pip install pandas

import numpy as np
import pandas as pd

# pandas 자료구조1: Series
# R의 벡터와 유사한 자료구조 (개별적인 열..) : 1차원 배열

# pandas 자료구조2: DataFrame
# R의 데이터프레임과 유사한 자료구조 : 2차원 배열

# pd.Series(데이터, 인덱스, 자료형)
# 빈 Series 객체 생성
a = pd.Series()
print(a)

# numpy 배열로 Series 객체 생성
b = pd.Series([1,2,3,4,5])
print(b)

b = pd.Series([1,2,3,4,5],
             index=['a','b','c','d','e'])
print('시계열 자료 : ', b)
print('시계열 자료값 : ', b.values)
print('시계열 레이블 인덱스 : ', b.index)
print('시계열 2번 자료 : ', b[1])
print('시계열 3,4번 자료 : ', b[2:4]) # : 전후로 뒤에 오는 value는 => value-1 까지 출력됨

print()

data = np.array(['a','b','c','d','e'])
c = pd.Series(data, index=[100, 99, 98, 97, 96])
print(c)

Series([], dtype: float64)
0    1
1    2
2    3
3    4
4    5
dtype: int64
시계열 자료 :  a    1
b    2
c    3
d    4
e    5
dtype: int64
시계열 자료값 :  [1 2 3 4 5]
시계열 레이블 인덱스 :  Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
시계열 2번 자료 :  2
시계열 3,4번 자료 :  c    3
d    4
dtype: int64

100    a
99     b
98     c
97     d
96     e
dtype: object


In [0]:
# pandas 자료구조에서 정수형 인덱스를 사용하는 경우, 
# 파이썬의 slice 연산과 혼동될 위험이 존재
# 따라서, pandas 만의 특별한 인덱서indexer 제공

# iloc : 정수형 인덱스로 요소를 조회
# loc : 문자형 인덱스로 요소를 조회
# ix : 정수/문자형 인덱스로 요소를 조회

c = pd.Series([1,2,3,4,5],
             index=['a','b','c','d','e'])
print(c)
print('시계열 1번자료', c[0])
print('시계열 2,3,4번자료', c[1:5])
print('시계열 2,3,4번자료 via iloc => ', c.iloc[1:5])
# print('시계열 2,3,4번자료', c.loc[1:5]) <- 이건 오류
print('시계열 2,3,4번자료 via loc => ', c.loc['b':'e'])
print('시계열 2,3,4번자료 via ix => ', c.ix[1:5])
print('시계열 2,3,4번자료 via ix => ', c.ix['b':'e'])
print('시계열 2,3,4번자료 via ix => ', c.ix[['b','d','e']]) #특정 요소 몇개만 뽑아낼때는 bracket으로 한 번 더 감쌈 -_-;;

a    1
b    2
c    3
d    4
e    5
dtype: int64
시계열 1번자료 1
시계열 2,3,4번자료 b    2
c    3
d    4
e    5
dtype: int64
시계열 2,3,4번자료 via iloc =>  b    2
c    3
d    4
e    5
dtype: int64
시계열 2,3,4번자료 via loc =>  b    2
c    3
d    4
e    5
dtype: int64
시계열 2,3,4번자료 via ix =>  b    2
c    3
d    4
e    5
dtype: int64
시계열 2,3,4번자료 via ix =>  b    2
c    3
d    4
e    5
dtype: int64
시계열 2,3,4번자료 via ix =>  b    2
d    4
e    5
dtype: int64


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  # Remove the CWD from sys.path while we load stuff.
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  # This is added back by InteractiveShellApp.init_path()
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  if sys.path[0] == '':


In [0]:
# Dict로 Series 객체 생성
data = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
d = pd.Series(data)
print(d)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [0]:
# 단일값scalar으로 Series 객체 생성
# 단일값으로 Series 객체 생성 시 index를 지정해주는게 좋음 (지정 안 하면 default는 해당 스칼라 요소 1개 <- index 0에 매칭)

idx = ['a','b','c','d','e']
e = pd.Series(10, index=idx)
print(e)

a    10
b    10
c    10
d    10
e    10
dtype: int64


In [0]:
e = pd.Series(10)
print(e) # default로. 해당 스칼라 요소 1개 <- index 0에 매칭

0    10
dtype: int64


In [0]:
# pandas 자료구조2 : DataFrame
# R의 데이터프레임과 유사한 자료구조 : 2차원 데이터
# pd.DataFrame(데이터, 인덱스, 컬럼테이블, 자료형)

In [0]:
f = pd.DataFrame()
print(f)

Empty DataFrame
Columns: []
Index: []


In [0]:
# list 객체로 DataFrame 객체 생성
data = [1,2,3,4,5]
g = pd.DataFrame(data) #인덱스는 자동생성되지만, column(열)명 없음
print(g)

   0
0  1
1  2
2  3
3  4
4  5


In [0]:
data = [1,2,3,4,5]
g = pd.DataFrame(data, columns=['가'])
print(g)

   가
0  1
1  2
2  3
3  4
4  5


In [0]:
# 3행 2열 배열로 DataFrame 객체 생성
data = [['지현',75],['수지',85],['혜교',73]]
g = pd.DataFrame(data, columns=['이름','국어'])
print(g)

   이름  국어
0  지현  75
1  수지  85
2  혜교  73


In [0]:
# Dict로 DataFrame 객체 생성
data = {'이름':['지현','수지','혜교'], '국어':[98,65,78]} # dict 구조에서 각 key값에 상응하는 value들을 bracket으로 묶어놨음에 유의
h = pd.DataFrame(data, index=[1,2,3])
print(h)

   이름  국어
1  지현  98
2  수지  65
3  혜교  78


In [0]:
# Dict를 list로 묶은 객체로 DataFrame 객체 생성
data = [{'이름':'지현','국어':99},{'이름':'수지','국어':79},{'이름':'혜교','국어':59}]
h = pd.DataFrame(data, index=[1,2,3])
print(h)

   국어  이름
1  99  지현
2  79  수지
3  59  혜교


In [0]:
# Series 객체로 DataFrame 객체 생성

data = {'이름' : pd.Series(['지현','수지','혜교'], index=[1,2,3]),
    '국어' : pd.Series([99,78,56], index=[1,2,3])}
i = pd.DataFrame(data)
print(i)

   이름  국어
1  지현  99
2  수지  78
3  혜교  56


In [0]:
name = ['지현','수지','혜교']
kor = [99, 56, 77]
idx = np.arange(1,4)
data = {'이름':name,'국어':kor}
i = pd.DataFrame(data, index=idx)
print(i)

   이름  국어
1  지현  99
2  수지  56
3  혜교  77


In [0]:
# ex) leadership 데이터를
# pandas DataFrame

manager = np.arange(1,6)
date = ['10/24/14','10/28/14','10/01/14','10/12/14','05/01/14']
country = ['US','US','US','US','US']
gender = ['M','F','F','M','F']
age = [32,45,25,39,99]
q1 = [5,3,3,3,2]
q2 = [4,5,5,3,2]
q3 = [5,2,5,4,1]
q4 = [5,5,5,0,2]
q5 = [5,5,2,0,1]
idx = np.arange(1,6)
data = {'manager':manager,'date':date,'country':country,'gender':gender,'age':age,'q1':q1,'q2':q2,'q3':q3,'q4':q4,'q5':q5}
leadership = pd.DataFrame(data, index=idx)
print(leadership)

   manager      date country gender  age  q1  q2  q3  q4  q5
1        1  10/24/14      US      M   32   5   4   5   5   5
2        2  10/28/14      US      F   45   3   5   2   5   5
3        3  10/01/14      US      F   25   3   5   5   5   2
4        4  10/12/14      US      M   39   3   3   4   0   0
5        5  05/01/14      US      F   99   2   2   1   2   1


In [0]:
# 데이터프레임 각 요소에 접근하기
print('나이 컬럼은?', leadership['age'],
     leadership.age, leadership.iloc[:,4], leadership.loc[:,'age'],
     leadership.ix[:,4], leadership.ix[:,'age']) # 위 아래 다섯개 다 차이 없음

print('질문 컬럼 1,5는?', leadership[['q1','q5']], #q1, q5 2개만
     leadership.loc[:,'q1':'q5']) #q1~q5 5개 전부다
print()
print(leadership.iloc[[2,4]])


나이 컬럼은? 1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64 1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64 1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64 1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64 1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64 1    32
2    45
3    25
4    39
5    99
Name: age, dtype: int64
질문 컬럼 1,5는?    q1  q5
1   5   5
2   3   5
3   3   2
4   3   0
5   2   1    q1  q2  q3  q4  q5
1   5   4   5   5   5
2   3   5   2   5   5
3   3   5   5   5   2
4   3   3   4   0   0
5   2   2   1   2   1

   manager      date country gender  age  q1  q2  q3  q4  q5
3        3  10/01/14      US      F   25   3   5   5   5   2
5        5  05/01/14      US      F   99   2   2   1   2   1


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


In [0]:
# ex) loc, iloc, ix를 이용해서 요소 탐색하기
df = pd.DataFrame(np.arange(1,26).reshape(5,5), index=list('abcde'),
                 columns=['가','나','다','10','20'])
print(df)
print()

print('a/b/c행, 10/20열 출력 => ', df.iloc[:3, 3:])
print('a/b/c행, 10/20열 출력 => ', df.loc[:'c', '10':])
print('a/b/c행, 10/20열 출력 => ', df.ix[:3, '10':])
print('a/b/c행, 10/20열 출력 => ', df.ix[:'c', 3:])

    가   나   다  10  20
a   1   2   3   4   5
b   6   7   8   9  10
c  11  12  13  14  15
d  16  17  18  19  20
e  21  22  23  24  25

a/b/c행, 10/20열 출력 =>     10  20
a   4   5
b   9  10
c  14  15
a/b/c행, 10/20열 출력 =>     10  20
a   4   5
b   9  10
c  14  15
a/b/c행, 10/20열 출력 =>     10  20
a   4   5
b   9  10
c  14  15
a/b/c행, 10/20열 출력 =>     10  20
a   4   5
b   9  10
c  14  15


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  if __name__ == '__main__':


In [0]:
# 외부 데이터파일을 이용해서 DataFrame 객체 만들기
# csv, excel, json, xml, ... 등등 지원함
# pd.read_csv(경로, 구분자, 인코딩, ...)
# aw = pd.read_csv('c:/Java/data/applewood.txt', sep=' ')
 #print(aw)

In [0]:
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [0]:
# DataFrame 출력 시 칼럼이 잘리는 경우
# pd.set_option 함수를 이용해서 출력양식을 변경함

pd.set_option('display.max_columns',50)
pd.set_option('display.width',100)

In [0]:
import pandas as pd
from google.colab import files
import os
os.getcwd

uploaded = files.upload()
ph02 = pd.read_csv('applewood.txt')
print(ph02)
print('구분선------------------------------')
print(ph02.shape)
print('구분선------------------------------')

idx = np.arange(1,ph02.shape[0]+1)
ph02.index = idx
print(ph02) # 당초 read_csv로 불러온 파일은 인덱스가 따로 없었지만, 대상.index 를 통해 생성시켜줌 (idx 먼저 만들어준 뒤)

Saving applewood.txt to applewood (13).txt
                          Age Profit Location Vehicle-Type Previous
21 $1                                          387 Tionesta Sedan 0
23 1                                            754 Sheffield SUV 1
24 1                                         817 Sheffield Hybrid 1
25 1                                        040 Sheffield Compact 0
26 1                                               273 Kane Sedan 1
27 1                                          529 Sheffield Sedan 1
27 3                                               082 Kane Truck 0
28 1                                                 951 Kane SUV 1
28 2                                         692 Tionesta Compact 0
29 1                                          206 Sheffield Sedan 0
29 1                                               342 Kane Sedan 2
30 443 Kane Sedan 3                                             NaN
30 754 Olean Sedan 2                                            NaN
30 1 

In [0]:
import pandas as pd
#import io
from google.colab import files

uploaded = files.upload()
zipcode = pd.read_csv('seoul_zip.csv')
print(zipcode)

print(zipcode.dtypes) # 자료형
print(zipcode.shape) # 형태
print(zipcode.ndim) # 차원수
print(zipcode.empty) # 비어있는지 여부
print(zipcode.size) # 행x열
print(zipcode.values)

zipcode.head()
zipcode.head(10)
zipcode.tail()
zipcode.tail(10)

Saving seoul_zip.csv to seoul_zip (1).csv


KeyboardInterrupt: ignored

In [0]:
zipcode.describe() # 간략한 통계정보 출력 // R의 summary함수와 유사

Unnamed: 0,우편번호,읍면,건물번호본번,건물번호부번,리명,지번본번,지번부번
count,558831.0,0.0,558831.0,558831.0,0.0,558831.0,558831.0
mean,4887.388898,,63.913997,3.95892,,370.026512,64.71121
std,2328.854855,,143.578631,7.59184,,424.202806,176.852723
min,1000.0,,1.0,0.0,,0.0,0.0
25%,2863.0,,13.0,0.0,,101.0,6.0
50%,4611.0,,27.0,0.0,,254.0,18.0
75%,7013.0,,55.0,6.0,,513.0,50.0
max,8866.0,,3833.0,222.0,,9999.0,4777.0


In [0]:
import os
os.getcwd() # current working directory 

'/content'

In [0]:
# 누락된 데이터 missing data 다루기
# null, NaN, NA, None
# 파이썬/판다스 에서는 NaN (float) 또는 None (object) 으로 취급
# 단, 정수형 누락값인 NA는 pandas에서는 취급 불가

In [0]:
j = np.array([1,2, None, 4,5])
print(j)
print('누락된 데이터', j)
print('누락된 데이터 유형', j.dtype)
# print('누락된 데이터 산술연산', j*100) # 오류! (None으로 인해 연산 오류)
# print('누락된 데이터 산술연산', j.sum()) # 오류! (None으로 인해 연산 오류)

[1 2 None 4 5]
누락된 데이터 [1 2 None 4 5]
누락된 데이터 유형 object


In [0]:
# k = np.array(1,2, NaN, 4,5) # 오류! (NaN 앞에 np. 안 하면 오류)
k = np.array([1,2, np.NaN, 4,5])
print('누락된 데이터', k)
print('누락된 데이터 유형', k.dtype)
print('누락된 데이터 산술연산 (*100)? => ', k*100) # 좌 연산에서 np.Nan은 민폐 안 끼치긴 하나..
print('누락된 데이터 산술연산 (sum)? => ', k.sum()) # 좌 연산에서 np.Nan은 민폐 안 끼치나 sum은 nan

# => numpy 배열은 누락된 데이터에 대한 산술연산 불가

print('-------------------------------- 구분선')

k = pd.Series([1,2, np.NaN, 4, None])
print('누락된 데이터', k)
print('누락된 데이터 유형', k.dtype)
print('누락된 데이터 산술연산 (*100)? => ', k*100) # 좌 연산에서 np.Nan이나 None 민폐 안 끼치고, None은 Nan으로 바뀜
print('누락된 데이터 산술연산 (sum)? => ', k.sum()) # 좌 연산에서 np.Nan이나 None은 민폐 안 끼치고 sum은 NaN 제외하고 나오긴 함

누락된 데이터 [ 1.  2. nan  4.  5.]
누락된 데이터 유형 float64
누락된 데이터 산술연산 (*100)? =>  [100. 200.  nan 400. 500.]
누락된 데이터 산술연산 (sum)? =>  nan
-------------------------------- 구분선
누락된 데이터 0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64
누락된 데이터 유형 float64
누락된 데이터 산술연산 (*100)? =>  0    100.0
1    200.0
2      NaN
3    400.0
4      NaN
dtype: float64
누락된 데이터 산술연산 (sum)? =>  7.0


In [0]:
# pandas 자료구조에서는 null 값을 감지하고 삭제하는 기능 제공
# => isnull, dropna, notnull, fillna

m = pd.Series([1,2, np.nan, 4, None])
print(m)
print('------------------------------------')
print('null 여부', m.isnull())
print('null 여부', m.isna())
print('null 아닌 여부', m.notnull())
print('------------------------------------')
print('null인 애들 출력', m[m.isnull()])
# print('null인 애들 출력', m([NaN])) 오류
# print('null인 애들 출력', m(['NaN'])) 오류
print()
print('정상값만 출력 1', m[m.notnull()])
print('정상값만 출력 2', m[~m.isnull()])
print('정상값만 출력 3', m[m.dropna()])
# print('정상값만 출력 4', m[m.dropnull()]) 오류
# print('정상값만 출력 5', m[m.dropnan()]) 오류
print('--------------------------------------')
print('정상값만 출력 6', m.fillna(0))

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64
------------------------------------
null 여부 0    False
1    False
2     True
3    False
4     True
dtype: bool
null 아닌 여부 0     True
1     True
2    False
3     True
4    False
dtype: bool
------------------------------------
null인 애들 출력 2   NaN
4   NaN
dtype: float64

정상값만 출력 1 0    1.0
1    2.0
3    4.0
dtype: float64
정상값만 출력 2 0    1.0
1    2.0
3    4.0
dtype: float64
정상값만 출력 3 1.0    2.0
2.0    NaN
4.0    NaN
dtype: float64
--------------------------------------
정상값만 출력 6 0    1.0
1    2.0
2    0.0
3    4.0
4    0.0
dtype: float64


In [2]:
# ex) zipcode 데이터프레임의 누락값을 공백으로 바꿈

import pandas as pd
from google.colab import files

uploaded = files.upload()
zipcode = pd.read_csv('seoul_zip.csv')
print(zipcode)

Saving seoul_zip.csv to seoul_zip.csv
        우편번호     시도  시군구  읍면       도로명  ...  법정동명  리명   행정동명  지번본번  지번부번
0       6336  서울특별시  강남구 NaN       개포로  ...   개포동 NaN    NaN    14     5
1       6307  서울특별시  강남구 NaN       논현로  ...   개포동 NaN   개포4동  1229     1
2       6314  서울특별시  강남구 NaN     논현로6길  ...   개포동 NaN   개포4동  1189    11
3       6312  서울특별시  강남구 NaN    논현로12길  ...   개포동 NaN   개포4동  1196     9
4       6312  서울특별시  강남구 NaN       논현로  ...   개포동 NaN    NaN  1194     4
5       6315  서울특별시  강남구 NaN     논현로2길  ...   개포동 NaN   개포4동  1165     9
6       6323  서울특별시  강남구 NaN       개포로  ...   개포동 NaN   개포2동   175     3
7       6318  서울특별시  강남구 NaN       선릉로  ...   개포동 NaN    NaN   650     0
8       6305  서울특별시  강남구 NaN       개포로  ...   개포동 NaN    NaN   655     0
9       6307  서울특별시  강남구 NaN       개포로  ...   개포동 NaN   개포4동  1238     2
10      6329  서울특별시  강남구 NaN       삼성로  ...   개포동 NaN   개포2동   186     2
11      6311  서울특별시  강남구 NaN    개포로22길  ...   개포동 NaN   개포4동  1272     0
12      6313 

In [7]:
print(zipcode.head())

# 누락값을 공백으로 처리1 
# zipcode = zipcode.fillna('')
zipcode.fillna('', inplace=True) # 변수 사용 없이 수정사항 바로 적용


# 누락값을 공백으로 처리2 : replace
zipcode.replace(np.nan, '', inplace=True)

print(zipcode)

   우편번호     시도  시군구 읍면     도로명  건물번호본번  ...  시군구용건물명 법정동명 리명  행정동명  지번본번  지번부번
0  6336  서울특별시  강남구        개포로     621  ...     SH공사  개포동             14     5
1  6307  서울특별시  강남구        논현로      88  ...  KSD노엘빌딩  개포동     개포4동  1229     1
2  6314  서울특별시  강남구      논현로6길      11  ...       HC  개포동     개포4동  1189    11
3  6312  서울특별시  강남구     논현로12길       9  ...   Classe  개포동     개포4동  1196     9
4  6312  서울특별시  강남구        논현로      42  ...    글로리빌딩  개포동           1194     4

[5 rows x 13 columns]
        우편번호     시도  시군구 읍면       도로명  ...  법정동명  리명   행정동명  지번본번 지번부번
0       6336  서울특별시  강남구          개포로  ...   개포동               14    5
1       6307  서울특별시  강남구          논현로  ...   개포동       개포4동  1229    1
2       6314  서울특별시  강남구        논현로6길  ...   개포동       개포4동  1189   11
3       6312  서울특별시  강남구       논현로12길  ...   개포동       개포4동  1196    9
4       6312  서울특별시  강남구          논현로  ...   개포동             1194    4
5       6315  서울특별시  강남구        논현로2길  ...   개포동       개포4동  1165    9
6     

In [8]:
# ex) titanic 데이터프레임의 누락값을 제거하고 출력

import pandas as pd
from google.colab import files

uploaded = files.upload()
titanic = pd.read_csv('titanic.csv')
print(titanic)

Saving titanic.csv to titanic.csv
     PassengerId  Survived  Pclass  ...      Fare        Cabin  Embarked
0              1         0       3  ...    7.2500          NaN         S
1              2         1       1  ...   71.2833          C85         C
2              3         1       3  ...    7.9250          NaN         S
3              4         1       1  ...   53.1000         C123         S
4              5         0       3  ...    8.0500          NaN         S
5              6         0       3  ...    8.4583          NaN         Q
6              7         0       1  ...   51.8625          E46         S
7              8         0       3  ...   21.0750          NaN         S
8              9         1       3  ...   11.1333          NaN         S
9             10         1       2  ...   30.0708          NaN         C
10            11         1       3  ...   16.7000           G6         S
11            12         1       1  ...   26.5500         C103         S
12            13 

In [10]:
# 누락값 확인
print(titanic.isnull().sum())

# 누락값 제거
titanic.dropna(inplace=True) # inplace=True 하면 변수 만들어 없데이트 안 쳐도 값 변경 상태 유지
print(titanic.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


In [0]:
import numpy as np
import pandas as pd