# 자료형을 자유자재로 변환 - astype 메서드

In [2]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


## 여라가지 자료형을 문자열로 전환

In [187]:
# 자료형을 변환하려면 astype 메서드 사용
# sex 열의 자료형은 category. 문자열로 변환하여 sex_str 열에 저장

tips['sex_str'] = tips['sex'].astype(str)
print(tips.dtypes)
print(tips)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object
     total_bill   tip     sex smoker   day    time  size sex_str
0         16.99  1.01  Female     No   Sun  Dinner     2  Female
1         10.34  1.66    Male     No   Sun  Dinner     3    Male
2         21.01  3.50    Male     No   Sun  Dinner     3    Male
3         23.68  3.31    Male     No   Sun  Dinner     2    Male
4         24.59  3.61  Female     No   Sun  Dinner     4  Female
..          ...   ...     ...    ...   ...     ...   ...     ...
239       29.03  5.92    Male     No   Sat  Dinner     3    Male
240       27.18  2.00  Female    Yes   Sat  Dinner     2  Female
241       22.67  2.00    Male    Yes   Sat  Dinner     2    Male
242       17.82  1.75    Male     No   Sat  Dinner     2    Male
243       18.78  3.00  Female     No  Thur  Dinner     2  Female

[244 rows x 8 columns

## 자료형을 변환한 데이터를 다시 원래대로 만들기

In [4]:
# total_bill     float64 -> 문자열(object)로 변환 

tips['total_bill'] = tips['total_bill'].astype(str)
print(tips.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [5]:
# total_bill      object -> 실수(float64) 타입으로 변환 
tips['total_bill'] = tips['total_bill'].astype(float)
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


## 잘못 입력한 문자열 처리 - to_numeric 메서드

In [8]:
# total_bill 열의 1,3,5,7 행의 데이터를 'missing' 으로 변경해서 tips_sub_miss에 저장 

tips_sub_miss = tips.head(10) # tips에서 일부만 빼서 할당
tips_sub_miss.loc[[1,3,5,7], 'total_bill'] = 'missing'

print(tips_sub_miss)

  total_bill   tip     sex smoker  day    time  size sex_str
0      16.99  1.01  Female     No  Sun  Dinner     2  Female
1    missing  1.66    Male     No  Sun  Dinner     3    Male
2      21.01  3.50    Male     No  Sun  Dinner     3    Male
3    missing  3.31    Male     No  Sun  Dinner     2    Male
4      24.59  3.61  Female     No  Sun  Dinner     4  Female
5    missing  4.71    Male     No  Sun  Dinner     4    Male
6       8.77  2.00    Male     No  Sun  Dinner     2    Male
7    missing  3.12    Male     No  Sun  Dinner     4    Male
8      15.04  1.96    Male     No  Sun  Dinner     2    Male
9      14.78  3.23    Male     No  Sun  Dinner     2    Male


In [9]:
# 'missing' 이라는 문자열 때문에 실수(float64)가 아니라 문자열(object)로 변경됨

print(tips_sub_miss.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [14]:
# 판다스는 'missing' 이라는 문자열을 실수로 변환하는 방법을 모르기 때문에 오류 발생 

tips_sub_miss['total_bill'].dtypes(float) # 타입을 바꾸기 

TypeError: 'numpy.dtype' object is not callable

In [15]:
# 위와 동일한 오류

pd.to_numeric(tips_sub_miss[total_bill])

NameError: name 'total_bill' is not defined

In [18]:
# errors 인자를 ignore로 설정하면 오류는 발생하지 않지만, 자료형도 변하지 않음.

tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors = 'ignore')
    
print(tips_sub_miss.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [20]:
# coerce : 숫자로 변환할 수 없는 값을 누락값(NaN)으로 지정

tips_sub_miss['total_bill'] =  pd.to_numeric(tips_sub_miss['total_bill'], errors = 'coerce')

print(tips_sub_miss.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [21]:
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,sex_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Female
1,,1.66,Male,No,Sun,Dinner,3,Male
2,21.01,3.5,Male,No,Sun,Dinner,3,Male
3,,3.31,Male,No,Sun,Dinner,2,Male
4,24.59,3.61,Female,No,Sun,Dinner,4,Female
5,,4.71,Male,No,Sun,Dinner,4,Male
6,8.77,2.0,Male,No,Sun,Dinner,2,Male
7,,3.12,Male,No,Sun,Dinner,4,Male
8,15.04,1.96,Male,No,Sun,Dinner,2,Male
9,14.78,3.23,Male,No,Sun,Dinner,2,Male


In [22]:
# downcast는 자료형을 더 작은 형태로 만들 때 사용 
# float64에서 float32로 변경
# float64는 float32보다 더 많은 실수를 표현할 수 있지만 메모리공간 2배 차지.
# 저장하려는 싱수의 예상 범위가 크지 않다면 다운캐스트 사용 권장 

tips_sub_miss['total_bill'] =  pd.to_numeric(tips_sub_miss['total_bill'], errors = 'coerce', downcast='float')

print(tips_sub_miss.dtypes)

total_bill     float32
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


# 문자열을 카테고리(범주형데이터)로 변환
 * 문자열 자료보다 카테고리 자료형을 사용하는것이 용량과 속도면에서 더 효율적 

In [23]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
sex_str       244 non-null object
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.2+ KB


In [25]:
# sex의 타입이 category(자료형) 에서 object(문자형) 로 바뀜 

tips['sex'] = tips['sex'].astype('str')
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null object
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
sex_str       244 non-null object
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.7+ KB
None


In [26]:
# sex의 타입이 category(자료형)로 변환. df 용량 감소 

tips['sex'] = tips['sex'].astype('category')
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
sex_str       244 non-null object
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.2+ KB
None


# 문자열 추출

In [27]:
word = 'grail'
sent = 'a scratch'

In [36]:
print(word[0])
print(word[0:3])
print(word[-1])
print(word[-2])
print(word[0:-2])

g
gra
l
i
gra


In [37]:
#문자열 길이 측정

s_len = len(sent)
print(s_len)

9


In [39]:
print(sent[2:s_len])
print(sent[2: ]) # 2~마지막 위치까지

scratch
scratch


In [42]:
# 처음부터 끝까지 2개씩 건너뛰고 출력
# sent = 'a scratch'
print(sent[::2])

asrth


# join, splitlines, replace 메서드 

## 1. join 
 * join 메서드는 문자열을 연결하여 새로운 문자열을 반환하는 메서드


In [43]:
d1 = '40'
m1 = '46'
s1 = '52.837'
u1 = 'N'

d2 = '73'
m2 = '58'
s2 = '26.302'
u2 = 'W'


In [48]:
# 데이터들을 공백으로 조인했다.
# 공백을 사용하여 데이터 조인

coords = ' '.join([d1, m1, s1, u1, d2, m2, s2, u2])
print(coords)

40 46 52.837 N 73 58 26.302 W


In [49]:
# 데이터들을 .(점)으로 조인했다.
# .(점)을 사용하여 데이터 조인

coords = ' . '.join([d1, m1, s1, u1, d2, m2, s2, u2])
print(coords)

40 . 46 . 52.837 . N . 73 . 58 . 26.302 . W


In [53]:
# 데이터들을 \n으로 조인했다.
# \n 을 사용하여 데이터 조인

coords = '\n'.join([d1, m1, s1, u1, d2, m2, s2, u2])
print(coords)

40
46
52.837
N
73
58
26.302
W


## 2. splitlines 메서드
 * 여러 행을 가진 문자열을 분리한 다음 리스트로 반환 

In [54]:
multi_str = """Guard: What? Ridden on a horse?
King Arthur: Yes!
Guard: You're using coconuts!
King Arthur: What?
Guard: You've got ... coconut[s] and you're bangin' 'em together. 
""" 
print(multi_str)


Guard: What? Ridden on a horse?
King Arthur: Yes!
Guard: You're using coconuts!
King Arthur: What?
Guard: You've got ... coconut[s] and you're bangin' 'em together. 



In [57]:
multi_str_split = multi_str.splitlines()

print(multi_str_split)
print(type(multi_str_split))

['Guard: What? Ridden on a horse?', 'King Arthur: Yes!', "Guard: You're using coconuts!", 'King Arthur: What?', "Guard: You've got ... coconut[s] and you're bangin' 'em together. "]
<class 'list'>


In [59]:
# 인덱스 슬라이싱 응용 guard 대사만 가져오기 

guard = multi_str[::2]

print(guard)

Gad ht idno  os?Kn rhr e!Gad o'euigccnt!Kn rhr ht
ur:Yuv o . oou[]adyur agn e oehr 


## 3. replace 메서드
 * 문자열 치환해주는 replace

In [64]:
guard = multi_str.replace('Guard: ', '').splitlines()[::2]
print(guard)

['What? Ridden on a horse?', "You're using coconuts!", "You've got ... coconut[s] and you're bangin' 'em together. "]


# 문자열 포매팅하기
 * 출력할 문자열의 형식을 지정하거나 변수를 조합하여 출력하는 방법

In [70]:
# 단어를 삽입할 위치를 {}로 지정
# format 메서드에 원하는 단어를 전달하면 {}의 위치에 전달한 단어를 삽입해 출력
# {} <-- 플레이스 홀더라고 부름 

var = "flesh wound"
s = "It's just a {}!"

print(s.format(var))

It's just a flesh wound!


In [72]:
# 인덱스를 지정한 플레이스 홀더 사용

s = """Black Knight: 'Tis but a {0}.
King Arthur: A {0}? Your arm's off!
""" 
print(s.format('scratch'))


Black Knight: 'Tis but a scratch.
King Arthur: A scratch? Your arm's off!



In [73]:
#플레이스 홀더에는 변수를 지정해도 됩니다. 단, format 메서드에 전달한는 문자열도
#변수에 담아 전달해야 함.

s = 'Hayden Planetarium Coordinates: {lat}, {lon}' 
print(s.format(lat='40.7815° N', lon='73.9733° W'))


Hayden Planetarium Coordinates: 40.7815° N, 73.9733° W


# 숫자 데이터 포매팅하기

In [76]:
print("some 여기에 숫자찍힘 : -> {}".format(3.515613244))

some 여기에 숫자찍힘 : -> 3.515613244


In [80]:
#:, 를 사용 -> 쉼표를 넣어 숫자 표현 가능
print("쉼표를 넣어 숫자 표현 가능 -> {:,} <-ㄴ오ㅓㄴㅁ안모암".format(123456))

쉼표를 넣어 숫자 표현 가능 -> 123,456 <-ㄴ오ㅓㄴㅁ안모암


In [81]:
# 0 인덱스 의미
# (7/67890)의 .4는 소수접 이하의 숫자를 4개까지 출력
# (7/67890)의 % 결과값을 백분율로 환산하여 출력 

print(".4는 소수접 이하의 숫자를 4개까지 출력-> {0:.4} or {0:.4%} <-%결과값을 백분율로 환산하여 출력 ".format(7/67890))

.4는 소수접 이하의 숫자를 4개까지 출력-> 0.0001031 or 0.0103% <-% 결과값을 백분율로 환산하여 출력 


In [87]:
# 5자리 숫자로 표현하되 빈칸을 0으로 채워 출력 
# d는 10진수 (decimal)

print("마이 아이디 이즈 {0:05d}".format(42))

마이 아이디 이즈 00042


In [88]:
# 1인덱스의 의미

print("마이 아이디 이즈 {1:05d}".format(42, 7700))

마이 아이디 이즈 07700


# % 연산자로 포매팅하기

In [95]:
# 삽입할 값이 10진수라면 삽입알 위치에 %d 하고 입력
# % 연산자를 이용 삽입할 값(7)을 지정하여 출력 

s = " 퍼센트 연산자 %d 포매팅하기" % 7

print(s)

 퍼센트 연산자 7 포매팅하기


In [96]:
# 삽입할 값이 문자열이라면 값을 삽입할 위치에 %s
# 실수라면 %f

print("변수 넘기기 -> %(cont)s: %(value).2f" %{"cont": "e", "value":2.718})

변수 넘기기 -> e: 2.72


# f-strings 포매팅하기

In [97]:
var = "flesh wound"
s = "It's just a {}!"

print(s)

It's just a {}!


In [98]:
lat='40.7815°N' 
lon='73.9733°W' 
s = f'Hayden Planetarium Coordinates: {lat}, {lon}' 
print(s)


Hayden Planetarium Coordinates: 40.7815°N, 73.9733°W


# 정규식으로 전화번호 패턴 찾기

In [99]:
import re

tel_num = '1234567890'

In [102]:
# match : 문자열의 처음부터 검색하여 찾아낸 패턴의 양 끝 인덱스를 반환
# \d : 숫자 1개를 의미([0-9]와 동일)
# pattern : 10개의 숫자를 의미하는 10개의 \d
# string : 테스트용 문자열 
# 패턴을 찾으면 match 오브젝트를 반환

m=re.match(pattern = '\d\d\d\d\d\d\d\d\d\d', string = tel_num)

print(type(m))

<class 're.Match'>


In [103]:
# span :찾은 패턴의 인덱스
# match : 찾은패턴의 문자열 

print(m)

<re.Match object; span=(0, 10), match='1234567890'>


In [104]:
# match 메서드가 반환한 match 오브젝트는 bool 메서드로 True, False로 판단 

print(bool(m))

True


In [105]:
if m:
    print('match')
else:
    print('no match') 

match


In [106]:
# start 메서드는 첫 번째 인덱스를 반환 
print(m.start())

0


In [107]:
# end 메서드는 마지막 인덱스를 반환 
print(m.end())

10


In [109]:
# span 메서드는 찾은 패턴의 첫번째와 마지막 인덱스를 반환 
print(m.span())

(0, 10)


In [None]:
# span 메서드는 찾은 패턴의 첫번째와 마지막 인덱스를 반환 
print(m.span())

In [110]:
# group 메서드는 찾아낸 패턴을 반환 
print(m.group())

1234567890


In [111]:
m=re.match(pattern = '\d\d\d\d\d\d\d\d\d\d', string = tel_num)

In [113]:
# 패턴 뒤에 중괄호{} 숫자 만큼 반복
# \d\d\d\d\d\d\d\d\d\d = \d{10} 같은 의미


tel_num_spa = '123 456 7890'

m=re.match(pattern = '\d{10}', string = tel_num_spa)

print(m)

None


In [114]:
if m:
    print('match')
else:
    print('no match') 

no match


In [115]:
tel_num_spa = '123 456 7890'

In [118]:
# '?' : 0 혹은 1번의 패턴이 발생
# \s : 공백문자(띄어쓰기, 텝, 엔터 등)

p = '\d{3}\s?\d{3}\s?\d{4}'
m = re.match(pattern = p, string = tel_num_spa)
print(m)

<re.Match object; span=(0, 12), match='123 456 7890'>


In [122]:
# 지역코드 소괄호()

tel_num_spa_pa_dash = '(123) 456-7890'
p = '\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'
m = re.match(pattern = p, string = tel_num_spa_pa_dash)
print(m)

<re.Match object; span=(0, 14), match='(123) 456-7890'>


In [123]:
# 국가코드

tel_num_spa_pa_dash = '+1 (123) 456-7890'
p = '\+?1\s?\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'
m = re.match(pattern = p, string = tel_num_spa_pa_dash)
print(m)

<re.Match object; span=(0, 17), match='+1 (123) 456-7890'>


# compile 메서드로 정규식 메서트 사용하기

In [125]:
# 패턴을 반복에서 사용하려면 compile 메서드로 패턴을 변수에 저장하고 사용 

p = re.compile('\d{10}')
s = '1234567890'
m = p.match(s)
print(m)


<re.Match object; span=(0, 10), match='1234567890'>


## apply 메서드 활용
 * apply 메서드는 사용자가 작성한 함수를 한번에 데이터 프레임의 각 행과 열에 적용하여 실행하는 함수

## 제곱 함수와 n제곱 함수 만들기

In [143]:
def my_sq(x):
    return x ** 2

In [132]:
def my_exp(x, n):
    return x ** n

In [146]:
print(my_sq(4))
print(my_exp(2, 4))

16
16


In [137]:
print(my_exp(3,4))

81


# 시리즈와 apply 메서드

In [138]:
import pandas as pd

df = pd.DataFrame({'a' : [10,20,30], 'b' : [20,30,40]})

print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [139]:
# a열을 제곱해서 얻은 결과 

print(df['a'] ** 2)

0    100
1    400
2    900
Name: a, dtype: int64


In [140]:
# apply = 사용자가 만든 함구 적용 하는 메서드

sq = df['a'].apply(my_sq)
print(sq)

0    100
1    400
2    900
Name: a, dtype: int64


In [148]:
# n제곱 함수(my_exp)를 전달하여 n제곱 함수 적용
ex = df['a'].apply(my_exp, n=2)
print(ex)

0    100
1    400
2    900
Name: a, dtype: int64


In [149]:
# n제곱 함수(my_exp)를 전달하여 n제곱 함수 적용
ex = df['a'].apply(my_exp, n=3)
print(ex)

0     1000
1     8000
2    27000
Name: a, dtype: int64


# 데이터프레임의 누락값을 처리한 다음 apply 메서드 사용

## 1. 데이터프레임의 누락값 처리하기 - 열 방향 

In [150]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

In [151]:
print(titanic.info)

<bound method DataFrame.info of      survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
0           0       3    male  22.0      1      0   7.2500        S   Third   
1           1       1  female  38.0      1      0  71.2833        C   First   
2           1       3  female  26.0      0      0   7.9250        S   Third   
3           1       1  female  35.0      1      0  53.1000        S   First   
4           0       3    male  35.0      0      0   8.0500        S   Third   
..        ...     ...     ...   ...    ...    ...      ...      ...     ...   
886         0       2    male  27.0      0      0  13.0000        S  Second   
887         1       1  female  19.0      0      0  30.0000        S   First   
888         0       3  female   NaN      1      2  23.4500        S   Third   
889         1       1    male  26.0      0      0  30.0000        C   First   
890         0       3    male  32.0      0      0   7.7500        Q   Third   

       who  adult_m

In [164]:
import numpy as np

def count_missing(vec):
    null_vec = pd.isnull(vec)
    null_count = np.sum(null_vec)
    return null_count

In [165]:
cmis_col = titanic.apply(count_missing)
print(cmis_col)

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [177]:
# prop_missing 누락값의 비율을 계산 
# count_missing 함수를 이용하여 누락값의 개수를 구하고
# size속성을 이용하여 데이터프레임의 전체 데이터 수를 구하여 나누면 누락값의 비율을 계산 

def prop_missing(vec):
    num = count_missing(vec)
    dem = vec.size
    #print('누락값의 갯수(num) -> %d, 전체 데이터 수 (dem) -> %d' %(num, dem))
    return num / dem

In [178]:
pmis_col = titanic.apply(prop_missing)
print(pmis_col)

survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64


In [174]:
# 누락값이 아닌 데이터 비율을 구함
# 전체(1) - 누락값의 비율

def prop_complete(vec):
    return 1 - prop_missing(vec)

## 데이터프레임의 누락값을 처리 - 행 방향 

In [180]:
cmis_row = titanic.apply(count_missing, axis=1)
pmis_row = titanic.apply(prop_missing, axis=1)
pcom_row = titanic.apply(prop_complete, axis=1)

print(cmis_row.head())
print(pmis_row.head())
print(pcom_row.head())

0    1
1    0
2    1
3    0
4    1
dtype: int64
0    0.066667
1    0.000000
2    0.066667
3    0.000000
4    0.066667
dtype: float64
0    0.933333
1    1.000000
2    0.933333
3    1.000000
4    0.933333
dtype: float64


In [181]:
# 누락값의 갯수를 구하여 데이티프레임에 추가 num__missing 열이 추가됨

titanic['num_missing']=titanic.apply(count_missing, axis=1)

print(titanic.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  num_missing  
0    man        True  NaN  Southampton    no  False            1  
1  woman       False    C    Cherbourg   yes  False            0  
2  woman       False  NaN  Southampton   yes   True            1  
3  woman       False    C  Southampton   yes  False            0  
4    man        True  NaN  Southampton    no   True            1  


In [182]:
print(titanic.loc[titanic.num_missing > 1, :].sample(10))

     survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
61          1       1  female  38.0      0      0  80.0000      NaN   First   
411         0       3    male   NaN      0      0   6.8583        Q   Third   
596         1       2  female   NaN      0      0  33.0000        S  Second   
868         0       3    male   NaN      0      0   9.5000        S   Third   
584         0       3    male   NaN      0      0   8.7125        C   Third   
451         0       3    male   NaN      1      0  19.9667        S   Third   
264         0       3  female   NaN      0      0   7.7500        Q   Third   
26          0       3    male   NaN      0      0   7.2250        C   Third   
612         1       3  female   NaN      1      0  15.5000        Q   Third   
718         0       3    male   NaN      0      0  15.5000        Q   Third   

       who  adult_male deck  embark_town alive  alone  num_missing  
61   woman       False    B          NaN   yes   True        

# -----------------------------문제-----------------------------

In [183]:
student = [{'name': 'A', 'birth': '1999-06-27', 'mid': 95, 'fin': 85},
{'name': 'B', 'birth': '1997-06-27', 'mid': 85, 'fin': 80},
{'name': 'C', 'birth': '1998-06-27', 'mid': 10, 'fin': 30},
{'name': 'D', 'birth': '2000-06-27', 'mid': 73, 'fin': 90}]
df = pd.DataFrame(student, columns = ['name', 'birth', 'mid', 'fin'])
df

Unnamed: 0,name,birth,mid,fin
0,A,1999-06-27,95,85
1,B,1997-06-27,85,80
2,C,1998-06-27,10,30
3,D,2000-06-27,73,90


1. 기존 두 칼럼(mid, fin)을 사용해서 tot 칼럼을 생성하세요.

In [205]:
df['tot'] = df['mid'] + df['fin']

print(df)
df.info()

  name       birth  mid  fin  tot
0    A  1999-06-27   95   85  180
1    B  1997-06-27   85   80  165
2    C  1998-06-27   10   30   40
3    D  2000-06-27   73   90  163
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
name     4 non-null object
birth    4 non-null object
mid      4 non-null int64
fin      4 non-null int64
tot      4 non-null int64
dtypes: int64(3), object(2)
memory usage: 288.0+ bytes


2. 기존 칼럼을 사용해서 avg 칼럼을 생성하세요.

In [215]:
#df=df.drop(['avg_tot'], axis=1)

df['avg'] = df[['mid','fin']].mean(axis=1)
print(df)

  name       birth  mid  fin  tot   avg
0    A  1999-06-27   95   85  180  90.0
1    B  1997-06-27   85   80  165  82.5
2    C  1998-06-27   10   30   40  20.0
3    D  2000-06-27   73   90  163  81.5


3. grade칼럼을 생성하시고, if~else문 사용
avg 칼럼이 90이상이면 'A', 80 이상이면 'B' 70 이상이면 'C',
그렇지 않으면 'F'를 부여하세요.

In [221]:
grade = []
for i in df['avg']:
    if i >= 90:
        grade.append('A')
    elif i >= 80:
        grade.append('B')
    elif i >= 70:
        grade.append('C')
    else:
        grade.append('F')

df['grade'] = grade
df





Unnamed: 0,name,birth,mid,fin,tot,avg,grade
0,A,1999-06-27,95,85,180,90.0,A
1,B,1997-06-27,85,80,165,82.5,B
2,C,1998-06-27,10,30,40,20.0,F
3,D,2000-06-27,73,90,163,81.5,B


4. A,B,C이면 '합격' 그렇지 않으면 '불합격' 을 부여하는 함수를 만들고,
apply 함수를 사용하여 grade1칼럼에 합격,불합격 부여하세요.

5. 출생년도만을 가져오는 함수를 만들고,
apply 함수를 사용하여 연월일의 정보에서 출생년도만 추출하여
year칼럼에 부여하세요.


6. 나이를 계산하는 함수를 만들고,
apply 함수를 사용하여 연월일의 정보에서 연도만 빼서 age칼럼에 부여하세요.

7. 나이가 22세 이상인 사람만 출력해 보세요

8. 나이가 22세 이상이고, 이름이 'A'인 사람만 출력해 보세요

9. birth ~ grade 열까지 출력해 보세요.

10. 'name'과 grade 열만 추출해 보세요.

11. 칼럼에 'i'를 포함한 칼럼만 출력해 보세요.