# dtypes 속성으로 데이터프레임의 자료형 살펴보기

In [None]:
import pandas as pd
import seaborn as sns

tips=sns.load_dataset("tips")

# 여러 가지 자료형을 문자열로 변환하기

In [None]:
#자료형 변환하려면 astype 메서드 사용하면 됨.
tips['sex_str']=tips['sex'].astype(str) #sex열의 자료형은 카테고리였음. ->str로 변경

print(tips.dtypes) #판다스에서 문자열은 object라고 표시했었음!

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


# 자료형을 변환한 데이터 다시 원래대로 만들기

In [None]:
tips['total_bill']=tips['total_bill'].astype(str)
print(tips.dtypes) #total_bill열이 object가 된 것을 볼 수 있음.

tips['total_bill']=tips['total_bill'].astype(float)
print(tips.dtypes) #다시 float로 복구.

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object
total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


# 잘못 입력한 문자열 처리하기

In [None]:
#만약 정수가 있어야 하는 열에 문자열이 입력되어 있다면?->to_numeric 메서드(잘못 입력한 문자열 처리하는 메서드)
tips_sub_miss=tips.head(10)
tips_sub_miss.loc[[1,3,5,7],'total_bill']='missing' #total_bill열의 1,3,5,7행을 missing으로 바꿈.
print(tips_sub_miss)

print(tips_sub_miss.dtypes) #total_bill열이 문자열.

  total_bill   tip     sex smoker  day    time  size sex_str
0      16.99  1.01  Female     No  Sun  Dinner     2  Female
1    missing  1.66    Male     No  Sun  Dinner     3    Male
2      21.01  3.50    Male     No  Sun  Dinner     3    Male
3    missing  3.31    Male     No  Sun  Dinner     2    Male
4      24.59  3.61  Female     No  Sun  Dinner     4  Female
5    missing  4.71    Male     No  Sun  Dinner     4    Male
6       8.77  2.00    Male     No  Sun  Dinner     2    Male
7    missing  3.12    Male     No  Sun  Dinner     4    Male
8      15.04  1.96    Male     No  Sun  Dinner     2    Male
9      14.78  3.23    Male     No  Sun  Dinner     2    Male
total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


  tips_sub_miss.loc[[1,3,5,7],'total_bill']='missing' #total_bill열의 1,3,5,7행을 missing으로 바꿈.


In [None]:
tips_sub_miss['total_bill'].astype(float) #오류 발생. 판다스는 missing이라는 문자열을 실수로 변환하는 방법을 모르기 때문.
print(tips_sub_miss)

ValueError: could not convert string to float: 'missing'

In [None]:
pd.to_numeric(tips_sub_miss['total_bill'])
print(tips_sub_miss) #오류 발생. to_numeric 메서드도 잘못 입력한 문자열을 처리할 수는 없음.

ValueError: Unable to parse string "missing" at position 1

In [None]:
#그러나 to_numeric 메서드의 errors 인자에 raise,coerce,ignore를 지정해 오류를 어느정도 제어할 수 있음.
#errors 인자-raise:숫자로 변환할 수 있는 값이 있으면 오류발생/coerce:숫자로 변환할 수 없는 값을 누락값으로 지정/ignore:아무 작업도 하지 않음
#ignore은 '오류조차 무시'한다고 생각

tips_sub_miss['total_bill']=pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')
print(tips_sub_miss.dtypes) #ignore은 자료형을 바꾸지 않기 때문에, total_bill은 여전히 object임을 알 수 있음.

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


  tips_sub_miss['total_bill']=pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tips_sub_miss['total_bill']=pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')


In [None]:
tips_sub_miss['total_bill']=pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce') #total_bill의 자료형이 실수로 바뀜!
print(tips_sub_miss.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tips_sub_miss['total_bill']=pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce')


In [None]:
#downcast인자는 정수,실수와 같은 자료형을 더 작은 형태로 만들 때 사용.
#downcast인자에는 integer, signed, unsigned, float 등의 값 사용가능.

tips_sub_miss['total_bill']=pd.to_numeric(tips_sub_miss['total_bill'],errors='coerce',downcast='float')
print(tips_sub_miss.dtypes) #total_bill의 자료형이 float64에서 float32로 바뀐것을 알 수 있음.(메모리공간 덜 차지.)
#저장하는 실수의 예상 범위가 크지 않다면 다운캐스트하는 것이 좋음.

total_bill     float32
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tips_sub_miss['total_bill']=pd.to_numeric(tips_sub_miss['total_bill'],errors='coerce',downcast='float')


# 문자열을 카테고리로 변환하기

In [None]:
tips['sex']=tips['sex'].astype('str')
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    object  
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.8+ KB
None


In [None]:
tips['sex']=tips['sex'].astype('category')
print(tips.info()) #sex열의 자료형이 카테고리로 설정, 데이터프레임의 용량 또한 줄어듦.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.3+ KB
None


# 문자열 추출하기

In [None]:
word='grail'
sent='a scratch'
#문자열은 작은 따옴표나 큰 따옴표로 감싸서 만듦.

print(word[0])
print(sent[0])
print(word[0:3])
print(sent[-1])
print(sent[0:-8])
print(sent[0:-8])

g
a
gra
h
a
a


# 전체 문자열 추출하기

In [None]:
print(sent[0:-1]) #전체 문자열 출력 안됨, -1은 포함되지 않고 출력되기 때문.
print(sent[0:len(sent)]) #오른쪽 범위에 문자열의 길이를 지정해주면 됨!

a scratc
a scratch


# 왼쪽이나 오른쪽 범위를 지정하지 않고 문자열 추출하기

In [None]:
print(word[0:3])
print(word[:3])

gra
gra


In [None]:
print(sent[2:len(sent)])
print(sent[2:])

scratch
scratch


In [None]:
print(sent[:])

a scratch


In [None]:
print(sent[::2])#처음부터 추출하되 다음 추출 문자는 자신을 포함하여 거리가 2인 인덱스의 문자를 추출함.(즉 1칸씩 건너뛰며 추출.)

asrth


# join, splitlines, replace 메서드 실습하기

In [None]:
#문자열 메서드
#capitalize:첫 문자를 대문자로 변환
#count:문자열의 개수를 반환
#startswith:문자열이 특정 문자로 시작하면 참
#endswith:문자열이 특정 문자로 끝나면 참
#find:찾을 문자열의 첫 번째 인덱스를 반환. 실패 시 -1 반환
#index: find 메서드와 일치, 그러나 실패 시 ValueError 반환
#isalpha:모든 문자가 알파벳이면 참
#isdecimal:모든 문자가 숫자면 참
#isalnum:모든 문자가 알파벳이거나 숫자면 참
#lower:모든 문자를 소문자로 변환
#upper:모든 문자를 대문자로 변환
#replace:문자열의 문자를 다른 문자로 교체
#strip:문자열의 맨 앞과 맨 뒤에 있는 빈 칸을 제거
#split:구분자를 지정하여 문자열을 나누고, 나눈 값들의 리스트를 반환
#partition:split 메서드와 비슷한 역할을 수행하지만 구분자도 반환함
#center:지정한 너비로 문자열을 늘이고 문자열을 가운데 정렬
#zfill:문자열의 빈 칸을 '0'으로 채움

In [None]:
#join 메서드
d1='40도'
m1="46'"
s1='52.837"'
u1='N'

d2='73도'
m2="58'"
s2='26.302"'
u2='W'

coords=' '.join([d1, m1, s1, u1, d2, m2, s2, u2])
print(coords)

40도 46' 52.837" N 73도 58' 26.302" W


In [None]:
#splitlines 메서드
multi_str="""Guard: What? Ridden on a horse?
King Arthur: Yes!
Guard: You're using coconuts!
King Arthur: What?
Guard: You've got... coconut[s] and you're bangin' 'em together.
"""

print(multi_str)

Guard: What? Ridden on a horse?
King Arthur: Yes!
Guard: You're using coconuts!
King Arthur: What?
Guard: You've got... coconut[s] and you're bangin' 'em together.



In [None]:
multi_str_split=multi_str.splitlines()
print(multi_str_split)

['Guard: What? Ridden on a horse?', 'King Arthur: Yes!', "Guard: You're using coconuts!", 'King Arthur: What?', "Guard: You've got... coconut[s] and you're bangin' 'em together."]


In [None]:
guard=multi_str_split[::2]
print(guard)

['Guard: What? Ridden on a horse?', "Guard: You're using coconuts!", "Guard: You've got... coconut[s] and you're bangin' 'em together."]


In [None]:
#replace 메서드 
guard=multi_str.replace("Guard: ","").splitlines()[::2] #"Guard: "를 ""로 치환해서 없애기.
print(guard)

['What? Ridden on a horse?', "You're using coconuts!", "You've got... coconut[s] and you're bangin' 'em together."]


# 문자열 포매팅 실습하기

In [None]:
#문자열 포매팅: 출력할 문자열의 형식을 지정하거나 변수를 조합하여 출력하는 방법.

var='flesh wound'
s="It's just a {}!" #단어를 삽입할 위치를 {}로 지정하고 format 메서드에 원하는 단어를 전달하면 됨. 이때 {}를 플레이스 홀더라고 함.

print(s.format(var))
print(s.format('scratch'))

It's just a flesh wound!
It's just a scratch!


In [None]:
#format 메서드에 여러 단어를 전달할 때에는 인덱스 개념을 사용하면 됨!
s="""Black Knight: 'Tis but a {0}.   
King Arthur: A {0}? Your arm's off!
"""
print(s.format('scratch')) #단어가 1개인 경우의 사례.

Black Knight: 'Tis but a scratch.
King Arthur: A scratch? Your arm's off!



In [None]:
s='Hayden Planetarium Coordinates: {lat},{lon}' #플레이스 홀더에는 변수를 지정해도 됨. 단 format 메서드에 전달하는 문자열도 변수에 담아 전달해야함.
print(s.format(lat='40.7815 N', lon='73.9733 W'))

Hayden Planetarium Coordinates: 40.7815 N,73.9733 W


# 수치값 포매팅 실습

In [None]:
print('Some digits of pi: {}'.format(3.14159265359))

Some digits of pi: 3.14159265359


In [None]:
print("In 2005, Lu Chao of China recited {:,} digits of pi".format(67890)) #플레이스 홀더에 :, 를 넣으면 쉼표를 넣어 숫자 표현 가능.

In 2005, Lu Chao of China recited 67,890 digits of pi


In [None]:
print("I remember {0:.4} or {0:.4%} of what Lu Chao recited".format(7/67890)) 
#{0:.4}, {0:.4%}에서 0은 format 메서드에서 전달받은 값 7/67890을 의미하고 .4는 소수점 이하 숫자를 4개까지 출력하겠다는 뜻. %는 백분율로 환산해 출력.

I remember 0.0001031 or 0.0103% of what Lu Chao recited


In [None]:
print("My ID number is {0:05d}".format(42))
#format안에 들어있는 숫자는 무조건 0자리로 가기. d는 10진수를 의미함. 위는 42를 5자리의 수로 표현하되 빈 칸을 0으로 채워 출력한 것.

My ID number is 00042


# % 연산자로 포매팅하기

In [None]:
#삽입할 값이 10진수라면 값을 삽입할 위치에 %d라고 입력하기
s='I only know %d digits of pi' % 7
print(s)

I only know 7 digits of pi


In [None]:
#삽입할 값이 문자열이라면 값을 삽입할 위치에 %s라고 입력해야 함. 이때 %와 s 사이에 소괄호를 사용하여 변수를 지정.
print('Some digits of %(cont)s: %(value).2f' % {'cont':'e', 'value':2.718}) #2f는 소수점 2자리로 나타내라는 뜻.

Some digits of e: 2.72


# f-strings로 포매팅 사용하기

In [None]:
var='flesh wound' #문자열 앞에 f를 붙이면 됨!
s=f"It's just a {var}!"
print(s)

lat='40.7815 N'
lon='73.9733 W'
s=f'Hayden Planetarium Coordinates:{lat},{lon}'
print(s)

It's just a flesh wound!
Hayden Planetarium Coordinates:40.7815 N,73.9733 W


# 정규식으로 전화번호 패턴 찾기

In [None]:
#정규식: 수만 개의 문자열 중 내가 원하는 패턴의 문자열만 추출할 수 있게 해주는 기능

#기본 정규식 문법:
#.:문자 앞에 어떤 문자 1개가 있는 패턴을 찾음
#^:문자열의 처음부터 일치하는 패턴을 찾음
#$:문자열의 끝 부분부터 일치하는 패턴을 찾음
#*:n 이후 숫자(\d)가 0개 이상인 패턴을 찾음
#+:n 이후 숫자(\d)가 1개 이상인 패턴을 찾음
#?:?의 앞의 문자가 있거나 없는 패턴을 찾음
#{m}:n이후 숫자(\d)가 m개({m})인 패턴을 찾음
#{m,n}:n 이후 숫자(\d)가 m개({m})이상, n개({n}) 이하인 패턴을 찾음
#\:*,?,+와 같은 특수문자를 검색할 때 이스케이프 문자(\)를 사용
#[]:[]안의 문자 중 1개를 포함하고 나머지 문자열이 []뒤의 조건에 맞는 패턴을 찾음
#|:OR연산과 동일
#():()에 지정한 패턴을 찾을 때 사용

#정규식 특수문자:
#\d:숫자 1개를 의미([0-9]와 동일)
#\D:숫자 이외의 문자 1개를 의미([^0-9]와 동일)
#\s:공백이나 탭 1개를 의미
#\S:공백 문자 이외의 문자 1개를 의미
#\w:알파벳 1개를 의미
#\W:알파벳 이외의 문자 1개를 의미(한글, 중국어 등)

#정규식 메서드:
#search:첫번째로 찾은 패턴의 양 끝 인덱스를 반환
#match:문자열의 처음부터 검색하여 찾아낸 패턴의 양 끝 인덱스를 반환
#fullmatch:전체 문자열이 일치하는지 검사
#split:지정한 패턴으로 잘라낸 문자열을 리스트로 반환
#findall:지정한 패턴을 찾아 리스트로 반환
#finditer:findall메서드와 기능이 동일하지만 iterator를 반환
#sub:첫번째 인자로 전달한 값(패턴)을 두번째 인자로 전달한 값으로 교체함.

In [None]:
import re

tele_num='1234567890'

m=re.match(pattern='\d\d\d\d\d\d\d\d\d\d', string=tele_num) #10개의 숫자를 의미하는 10개의 \d, string에는 tele_num전달
print(type(m))
print(m) #span은 0번째 인덱스부터 10번째 인덱스문자 전까지 출력됨.

<class 're.Match'>
<re.Match object; span=(0, 10), match='1234567890'>


  m=re.match(pattern='\d\d\d\d\d\d\d\d\d\d', string=tele_num) #10개의 숫자를 의미하는 10개의 \d, string에는 tele_num전달


In [None]:
print(bool(m))

if m:
    print('match')
else:
    print('no match')

True
match


In [None]:
print(m.start())
print(m.end())
print(m.span())
print(m.group()) #group메서드는 찾아낸 패턴을 반환함.

0
10
(0, 10)
1234567890


In [None]:
tele_num_spaces='123 456 7890'
m=re.match(pattern='\d{10}', string=tele_num_spaces)
print(m) #패턴을 찾지 못해 none 출력

if m:
    print('match')
else:
    print('no match')

None
no match


  m=re.match(pattern='\d{10}', string=tele_num_spaces)


In [None]:
#위 문제 해결하려면 정규식 자체를 다시 작성해야함.
p='\d{3}\s?\d{3}\s?\d{4}'
m=re.match(pattern=p, string=tele_num_spaces) #\s?는 빈칸을 의미함.
print(m)

<re.Match object; span=(0, 12), match='123 456 7890'>


  p='\d{3}\s?\d{3}\s?\d{4}'


In [None]:
tele_num_space_paren_dash='(123) 456-7890' #지역 코드를 소괄호로 감싼 경우.
p='\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'
m=re.match(pattern=p, string=tele_num_space_paren_dash)
print(m)

<re.Match object; span=(0, 14), match='(123) 456-7890'>


  p='\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'


In [None]:
#국가 코드까지 있는 경우
cnty_tele_num_space_paren_dash='+1 (123) 456-7890'
p='\+?1\s?\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'
m=re.match(pattern=p, string=cnty_tele_num_space_paren_dash)
print(m)

<re.Match object; span=(0, 17), match='+1 (123) 456-7890'>


  p='\+?1\s?\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'


# compile 메서드로 정규식 메서드 사용하기

In [None]:
p=re.compile('\d{10}') #compile:엮다, 편집하다 라는 뜻. 패턴을 반복해서 사용하려면 compile메서드로 파일을 컴파일한다음 변수에 저장해 사용하면 편리함.
s='1234567890'
m=p.match(s)
print(m)

<re.Match object; span=(0, 10), match='1234567890'>


  p=re.compile('\d{10}') #compile:엮다, 편집하다 라는 뜻. 패턴을 반복해서 사용하려면 compile메서드로 파일을 컴파일한다음 변수에 저장해 사용하면 편리함.


# 제곱 함수와 n 제곱 함수 만들기

In [None]:
def my_sq(x):
    return x**2

def my_exp(x,n):
    return x**n

print(my_sq(4))
print(my_exp(2,4))

16
16


# 시리즈와 apply 메서드

In [None]:
#apply메서드를 사용하면 작성한 함수를 한번에 데이터프레임의 각 행과 열에 적용하여 실행할 수 있게 해줌.
import pandas as pd

df=pd.DataFrame({'a':[10,20,30],'b':[20,30,40]})
print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [None]:
print(df['a']**2) #apply 메서드 적용 전

sq=df['a'].apply(my_sq) #apply 메서드 적용 전
print(sq)

0    100
1    400
2    900
Name: a, dtype: int64
0    100
1    400
2    900
Name: a, dtype: int64


In [None]:
ex=df['a'].apply(my_exp,n=2) #첫번째 인자에는 함수의 이름, 두번째 인자에는 함수의 두번째 인자인 n을 전달.
print(ex)

ex=df['a'].apply(my_exp,n=3)
print(ex)

0    100
1    400
2    900
Name: a, dtype: int64
0     1000
1     8000
2    27000
Name: a, dtype: int64


# 데이터 프레임과 apply 메서드

In [None]:
df=pd.DataFrame({'a':[10,20,30],'b':[20,30,40]}) #새 데이터프레임 생성
print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [None]:
def print_me(x):
    print(x)

print(df.apply(print_me, axis=0)) #함수를 데이터프레임의 열방향으로 적용할지, 행방향으로 적용할지를 정하는 인자:axis
#(axis=0이 열방향, axis=1이 행방향)

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64
a    None
b    None
dtype: object


In [None]:
print(df['a'])
print(df['b'])

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64


In [None]:
def avg_3(x,y,z):
    return (x+y+z)/3

print(df.apply(avg_3)) #3개의 인자값을 필요로 하는 함수에 1개의 안자값만 입력받은 류류

TypeError: avg_3() missing 2 required positional arguments: 'y' and 'z'

In [None]:
def avg_3_apply(col):
    x=col[0]
    y=col[1]
    z=col[2]
    return(x+y+z)/3

print(df.apply(avg_3_apply))

a    20.0
b    30.0
dtype: float64


In [None]:
def avg_3_apply(col): #데이터프레임의 행개수를 모르고있다는 전제 하에 일반적으로 사용되는 for문
    sum=0
    for item in col:
        sum+=item
    return sum/df.shape[0]


def avg_2_apply(row):
    sum=0
    for item in row:
        sum+=item
    return sum/df.shape[1]  #변형해서 행 방향으로 데이터를 처리할 수도 있음.

print(df.apply(avg_2_apply, axis=1))

0    15.0
1    25.0
2    35.0
dtype: float64


# 데이터프레임의 누락값을 처리한 다음 apply 메서드 사용하기 - 열 방향

In [None]:
import seaborn as sns
titanic=sns.load_dataset("titanic")

print(titanic.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB
None


In [None]:
import numpy as np

def count_missing(vec):
    null_vec=pd.isnull(vec) #판다스의 isnull메서드에 데이터프레임 전달하면 누락값 유무에 따라 T,F 적용한 데이터프레임이 만들어지고
    null_count=np.sum(null_vec) #이 값을 넘파이의 sum메서드에 전달하면 누락값의 개수를 구할 수 있음.
    return null_count

cmis_col=titanic.apply(count_missing) #apply 메서드에 count_missing 함수 전달. count_missing은 함수임을 명심!
print(cmis_col)

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [None]:
def prop_missing(vec): #누락값의 비율을 계산하는 함수
    num=count_missing(vec)
    dem=vec.size #데이터프레임의 전체 데이터 수를 구하는 속성
    return num/dem

pmis_col=titanic.apply(prop_missing)
print(pmis_col)

survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64


In [None]:
def prop_complete(vec): #누락값이 아닌 데이터의 비율 구하는 함수
    return 1-prop_missing(vec)

pcom_col=titanic.apply(prop_complete)
print(pcom_col)

survived       1.000000
pclass         1.000000
sex            1.000000
age            0.801347
sibsp          1.000000
parch          1.000000
fare           1.000000
embarked       0.997755
class          1.000000
who            1.000000
adult_male     1.000000
deck           0.227834
embark_town    0.997755
alive          1.000000
alone          1.000000
dtype: float64


# 데이터프레임의 누락값을 처리한 다음 apply 메서드 사용하기 - 행 방뱡

In [None]:
cmis_row=titanic.apply(count_missing, axis=1) #axis를 1로 설정해 count_missing, prop_missing, prop_complete 함수를 행 방향으로 적용.
pmis_row=titanic.apply(prop_missing, axis=1)
pcom_row=titanic.apply(prop_complete, axis=1)

print(cmis_row.head())
print(pmis_row.head())
print(pcom_row.head())

0    1
1    0
2    1
3    0
4    1
dtype: int64
0    0.066667
1    0.000000
2    0.066667
3    0.000000
4    0.066667
dtype: float64
0    0.933333
1    1.000000
2    0.933333
3    1.000000
4    0.933333
dtype: float64


In [None]:
titanic['num_missing']=titanic.apply(count_missing, axis=1) #타이타닉 데이터프레임에 누락값의 개수(num_missing 열)를 추가함.
print(titanic.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  num_missing  
0    man        True  NaN  Southampton    no  False            1  
1  woman       False    C    Cherbourg   yes  False            0  
2  woman       False  NaN  Southampton   yes   True            1  
3  woman       False    C  Southampton   yes  False            0  
4    man        True  NaN  Southampton    no   True            1  


In [None]:
print(titanic.loc[titanic.num_missing>1,:].sample(10)) #누락값이 2개 이상인 데이터를 랜덤으로 10개 추출함.

     survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
158         0       3    male   NaN      0      0   8.6625        S  Third   
829         1       1  female  62.0      0      0  80.0000      NaN  First   
354         0       3    male   NaN      0      0   7.2250        C  Third   
425         0       3    male   NaN      0      0   7.2500        S  Third   
29          0       3    male   NaN      0      0   7.8958        S  Third   
639         0       3    male   NaN      1      0  16.1000        S  Third   
304         0       3    male   NaN      0      0   8.0500        S  Third   
264         0       3  female   NaN      0      0   7.7500        Q  Third   
868         0       3    male   NaN      0      0   9.5000        S  Third   
428         0       3    male   NaN      0      0   7.7500        Q  Third   

       who  adult_male deck  embark_town alive  alone  num_missing  
158    man        True  NaN  Southampton    no   True            2  
829