# Chapter 08 : 판다스 자료형
## 08 - 1 : 자료형 다루기
### 자료형 변환하기

In [1]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

In [2]:
# 자료형 변환은 astype 메서드 이용
# 문자열로 자료형 변환
tips['sex_str'] = tips['sex'].astype(str)
print(tips.dtypes)

# 자료형이 변환된 데이터 다시 원래대로
tips['total_bill'] = tips['total_bill'].astype(str)
print(tips.dtypes)
tips['total_bill'] = tips['total_bill'].astype(float)
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object
total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object
total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


### 잘못 입력한 데이터 처리하기

In [3]:
# to_numeric 메서드
tips_sub_miss = tips.head(10)
tips_sub_miss.loc[[1,3,5,7], 'total_bill'] = 'missing' # total_bill 열의 1,3,5,7 행을 missing으로
print(tips_sub_miss)
print(tips_sub_miss.dtypes) # missing 때문에 total_bill 열이 문자열로 바뀜

  total_bill   tip     sex smoker  day    time  size sex_str
0      16.99  1.01  Female     No  Sun  Dinner     2  Female
1    missing  1.66    Male     No  Sun  Dinner     3    Male
2      21.01  3.50    Male     No  Sun  Dinner     3    Male
3    missing  3.31    Male     No  Sun  Dinner     2    Male
4      24.59  3.61  Female     No  Sun  Dinner     4  Female
5    missing  4.71    Male     No  Sun  Dinner     4    Male
6       8.77  2.00    Male     No  Sun  Dinner     2    Male
7    missing  3.12    Male     No  Sun  Dinner     4    Male
8      15.04  1.96    Male     No  Sun  Dinner     2    Male
9      14.78  3.23    Male     No  Sun  Dinner     2    Male
total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [4]:
tips_sub_miss['total_bill'].astype(float) # astype을 사용해도 안됨

ValueError: could not convert string to float: 'missing'

In [5]:
pd.to_numeric(tips_sub_miss['total_bill']) # numeric을 사용해도 비슷한 오류

ValueError: Unable to parse string "missing" at position 1

- to_numeric을 사용해도 문자열을 실수로 변환할 수 없음.
- 하지만 error 인자에 raise, coerce, igonre를 지정해 오류를 어느 정도 제어 할 수 있다.
    - raise : 숫자로 변환할 수 없는 값이 있으면 오류
    - coerce : 숫자로 변환할 수 없는 값을 누락값으로 지정
    - ignore : 아무 작업도 하지 않음

In [6]:
# erros 인자를 ignore로 설정하면 오류 발생 x 하지만 자료형도 변하지 않음
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')
print(tips_sub_miss.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')


In [8]:
# erros 인자를 coerce로 설정. missing이 누락값으로 바뀜. total_bill 자료형도 실수로 바뀜
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors = 'coerce')
print(tips_sub_miss.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors = 'coerce')


In [9]:
# errors 인자 말고도 downcast 인자 존재
# 정수, 실수와 같은 자료형을 더 작은 형태로 만들 때 사용
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors = 'coerce', downcast = 'float')
print(tips_sub_miss.dtypes) # float64 -> float32로 바뀜. 저장하는 실수의 예상 범위가 크지 않으면 다운 캐스트

total_bill     float32
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors = 'coerce', downcast = 'float')


## 08 - 2 : 카테고리 자료형
- 카테고리 자료형의 장점과 특징 : 용량과 속도 면에서 매우 효율적. 주로 동일한 문자열이 반복되어 데이터를 구성하는 경우에 사용함.
### 문자열을 카테고리로 변환하기

In [10]:
tips['sex'] = tips['sex'].astype('str') # 카테고리 자료형 -> 문자열
print(tips.info()) # 10.8KB 정도의 데이터 프레이

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    object  
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.8+ KB
None


In [12]:
tips['sex'] = tips['sex'].astype('category') # 다시 카테고리로 바꾼 후
print(tips.info()) # 9.3KB로 줄었음. 즉 반복되는 문자열로 구성된 데이터는 카테고리를 이용

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.3+ KB
None


# Chapter 09 : 문자열 처리하기
## 09 - 1 : 문자열 다루기
### 인덱스로 문자열 추출하기

In [13]:
word = 'grail'
sent = 'a scratch'
print(word[0])
print(sent[0])

g
a


In [15]:
# 인덱스 슬라이싱
print(word[0:3])
print(sent[-1])
print(sent[-9:-8])

gra
h
a


In [17]:
# 전체 문자열 추출
print(sent[-7:-1]) # 음수를 사용하면 범위의 오른쪽 값은 포함되지 않기 때문에 전체 슬라이싱이 안됨
print(sent[:len(sent)])

scratc
a scratch


In [18]:
# 왼쪽 범위를 비우고 문자열 추출
print(word[:3])

gra


In [19]:
# 오른쪽 범위를 비우고 문자열 추출
print(sent[2:])

scratch


In [20]:
# 양쪽 다 비우면
print(sent[:])

a scratch


In [21]:
# 콜론 추가 : 문자열을 일정한 간격으로 건너뛰며 추출
print(sent[::2])

asrth


## 09 - 2 : 문자열 메서드
- capitalize : 첫 문자를 대문자로
- count : 문자열 개수 반환
- startswitch : 문자열이 특정 문자로 시작하면 참
- endswitch : 문자열이 특정 문자로 끝나면 참
- find : 찾을 문자열의 첫 번재 인덱스 반환. 실패시 -1
- index : find 메서드와 같은 역할. 실패 시 ValueError
- isalpha : 모든 문자가 알파벳이면 참
- isdecimal : 모든 문자가 숫자면 참
- isalnum : 모든 문자가 알파벳이거나 숫자면 참
- lower : 모든 문자를 소문자로
- upper : 모든 문재랄 대문자로
- replace : 문자열의 문자를 다른 문자로 교체
- strip : 문자열의 맨 앞과 맨 뒤에 있는 빈 칸을 제거
- split : 구분자를 지정하여 문자열을 나누고, 나눈 값들의 리스트 반환
- partition : split 메서드와 비슷하지만 구분자도 반환
- center : 지정한 너비로 문자열을 늘이고 문자열 가운데 정렬
- zfill : 문자열의 빈 칸을 '0'으로 채움

### join, splitlines, replace 메서드

In [38]:
# join : 문자열을 연결하여 새로운 문자열 반환
d1 = '40º'
m1 = "46'"
s1 = '52.837"'
u1 = 'N'

d2 = '73º'
m2 = "58'"
s2 = '26.302"'
u2 = 'W'

coords = ' '.join([d1,m1,s1,u1,d2,m2,s2,u2])
print(coords)

40º 46' 52.837" N 73º 58' 26.302" W


In [27]:
# splitlines 메서드 : 여러 행을 가진 문자열을 분리한 다음 리스트로 반환.
multi_str = """Guard: What? Ridden on a horse?
King Arthur: Yes!
Guard : You're using coconuts!
King Arthur: What?
Guard: You've got ... coconut[s] and you're bangin' 'em together
"""
print(multi_str)

Guard: What? Ridden on a horse?
King Arthur: Yes!
Guard : You're using coconuts!
King Arthur: What?
Guard: You've got ... coconut[s] and you're bangin' 'em together



In [29]:
multi_str_split = multi_str.splitlines()
print(multi_str_split)

['Guard: What? Ridden on a horse?', 'King Arthur: Yes!', "Guard : You're using coconuts!", 'King Arthur: What?', "Guard: You've got ... coconut[s] and you're bangin' 'em together"]


In [30]:
# 인덱스 슬라이싱을 응용해 Guard 대사만 가져오기
guard = multi_str_split[::2]
print(guard)

['Guard: What? Ridden on a horse?', "Guard : You're using coconuts!", "Guard: You've got ... coconut[s] and you're bangin' 'em together"]


In [31]:
# replace 메서드 : 문자열 치환
guard = multi_str.replace("Guard: ", "").splitlines()[::2] # Guard: 를 없애고 슬라이싱
print(guard)

['What? Ridden on a horse?', "Guard : You're using coconuts!", "You've got ... coconut[s] and you're bangin' 'em together"]


## 09 - 3 : 문자열 포매팅

In [33]:
# format
var = 'flesh wound'
s = "It's just a {}!" # {}: 플레이스 홀더
print(s.format(var))
print(s.format('scratch'))

It's just a flesh wound!
It's just a scratch!


In [34]:
s = """Black Knight: 'Tis but a {0}.
King Arthur: A {0}? Your arm's off!
"""
print(s.format('scratch'))

Black Knight: 'Tis but a scratch.
King Arthur: A scratch? Your arm's off!



In [37]:
s = 'Hayden Planetarium Coordinates : {lat}, {lon}'
print(s.format(lat = '40.7815º N', lon = '73.9733º W'))

Hayden Planetarium Coordinates : 40.7815º N, 73.9733º W


### 숫자 데이터 포매팅

In [39]:
print('Some digits of pi: {}'.format(3.14159265359))

Some digits of pi: 3.14159265359


In [40]:
# :, 를 넣으면 쉼표를 넣어 문자표현
print("In 2005, Lu Chao of China recited {:,} digits of pi".format(67890))

In 2005, Lu Chao of China recited 67,890 digits of pi


In [41]:
# 플레이스 홀더 내의 0은 format 메서드가 전달 받을 값. .4는 소수점 이하 숫자를 4개까지 출력한다는 의미. %는 백분율
print("I remembr {0:.4} or {0:.4%} of what Lu Chao recited".format(7/67890))

I remembr 0.0001031 or 0.0103% of what Lu Chao recited


In [54]:
# 빈칸을 0으로 채워 출력
print("My ID number is {0:05d}".format(42))

My ID number is 00042


### %연산자로 포매팅

In [55]:
# c언어처럼
s = 'I only know %d digits of pi' % 7
print(s)

I only know 7 digits of pi


In [56]:
print('Some digits of %(cont)s: %(value).2f' % {'cont' : 'e', 'value' : 2.718})

Some digits of e: 2.72


### f-strings 포매팅

In [57]:
var = 'flesh wound'
s = f"It's just a {var}!"
print(s)

It's just a flesh wound!


## 09 - 4 : 정규식으로 문자열 처리에 날개 달기
- 정규식 패턴 실습 : https://regex101.com 
- 정규식 문법 블로그에 따로 저장하기

### 정규식으로 전화번호 패턴 찾기

In [58]:
import re
tele_num = '1234567890'
m = re.match(pattern='\d\d\d\d\d\d\d\d\d\d', string = tele_num)
print(type(m))
print(m)

<class 're.Match'>
<re.Match object; span=(0, 10), match='1234567890'>


In [60]:
# bool로 감싸면 패턴이 있으면 True 없으면 False를 반환 할 수 있음
print(bool(m))
if m:
    print('match')
else:
    print('no match')

True
match


In [64]:
print(m.start()) # 찾은 패턴의 첫 번째 인덱스 번호
print(m.end())  # 찾은 패턴의 마지막 인덱스
print(m.span()) # 찾은 패턴의 첫 번째와 마지막 인덱스 한 번에 반환
print(m.group()) # 찾아낸 패턴 반환

0
10
(0, 10)
1234567890


In [66]:
tele_num_spaces = '123 456 7890'
# \d{10}은 \d\d\d\d\d\d\d\d\d\d와 같음
m = re.match(pattern='\d{10}', string = tele_num_spaces)
print(m) # 패턴을 찾지 못함

None


In [67]:
if m:
    print('match')
else:
    print('no match')

no match


In [68]:
p = '\d{3}\s?\d{3}\s?\d{4}' # 빈 칸을 의미하는 \s?를 넣어 패턴을 다시 만든 것
m = re.match(pattern=p, string=tele_num_spaces)
print(m)

<re.Match object; span=(0, 12), match='123 456 7890'>


In [69]:
# 지역 코드는 소괄호로 감싸고 나머지 번호는 반각 기호로 구분한 전화번호
tele_num_space_paren_dash = '(123) 456-7890'
p = '\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'
m = re.match(pattern=p, string=tele_num_space_paren_dash)
print(m)

<re.Match object; span=(0, 14), match='(123) 456-7890'>


In [70]:
cnty_tele_num_space_paren_dash = '+1 (123) 456-7890'
p = '\+?1\s?\(?\d{3}\)?\s?\d{3}\s?-?\d{4}'
m = re.match(pattern=p, string=cnty_tele_num_space_paren_dash)
print(m)

<re.Match object; span=(0, 17), match='+1 (123) 456-7890'>


In [71]:
# 패턴을 반복해서 사용하기 : 패턴을 compile 해서 변수에 저장해 매치를 확인
p = re.compile('\d{10}')
s = '1234567890'
m = p.match(s)
print(m)

<re.Match object; span=(0, 10), match='1234567890'>


# Chapter 10 : apply 메서드 활용
## 10 - 1 : 간단한 함수 만들기
### 제곱 함수와 n 제곱 함수 만들기

In [72]:
def my_sq(x) :
    return x**2

def my_exp(x,n):
    return x**n

print(my_sq(4))
print(my_exp(2,4))

16
16


## 10 - 2 : apply 메서드 사용하기 - 기초
### 시리즈와 데이터 프레임에 apply 메서드 사용

In [73]:
# 시리즈와 apply 메서드
import pandas as pd
df = pd.DataFrame({'a':[10,20,30], 'b':[20,30,40]})
df

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


In [74]:
# a열을 제곱한 값
print(df['a']**2)

0    100
1    400
2    900
Name: a, dtype: int64


In [75]:
# apply 메서드에 제곱 함수의 이름을 전달해 시리즈 데이터에 제곱 함수 적용.
# 인자가 1개를 받도록 구성되어 있다면 인잣값 생략
sq = df['a'].apply(my_sq)
print(sq)

0    100
1    400
2    900
Name: a, dtype: int64


In [77]:
# 2개의 인자를 전달 받아야 하는 my_exp와 apply 메서드 함께 사용.
# apply의 첫 번째 인자에 함수 이름 전달, 두 번째 인자에 함수의 두 번째 인자 전달
ex = df['a'].apply(my_exp, n=2)
print(ex)

ex = df['a'].apply(my_exp, n=3)
print(ex)

0    100
1    400
2    900
Name: a, dtype: int64
0     1000
1     8000
2    27000
Name: a, dtype: int64


In [79]:
# 데이터프레임과 apply 메서드
def print_me(x):
    print(x) # 인자 1개를 받아 출력하는 함수
    
# 데이터 프레임에 함수를 적용하기 때문에 함수를 열 방향으로 적용할지 행 방향으로 적용할지 정해야 한다.
print(df.apply(print_me, axis=0)) # axis = 0이면 열 1이면 행
print(df.apply(print_me, axis=1))

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64
a    None
b    None
dtype: object
a    10
b    20
Name: 0, dtype: int64
a    20
b    30
Name: 1, dtype: int64
a    30
b    40
Name: 2, dtype: int64
0    None
1    None
2    None
dtype: object


In [80]:
def avg_3(x,y,z):
    return (x+y+z)/3

print(df.apply(avg_3)) # 인자가 3개가 필요하다는 오류. 즉 avg_3에는 열 단위 데이터가 전달 되었고 1개의 인자로 인식.

TypeError: avg_3() missing 2 required positional arguments: 'y' and 'z'

In [81]:
def avg_3_apply(col):
    x = col[0]
    y = col[1]
    z = col[2]
    return (x+y+z)/3

print(df.apply(avg_3_apply))

a    20.0
b    30.0
dtype: float64


In [82]:
# 데이터 프레임 행의 개수를 세고 계산
def avg_3_apply(col):
    sum = 0
    for item in col:
        sum += item
    return sum / df.shape[0]

In [84]:
# 행 방향으로 데이터를 처리하는 함수
def avg_3_apply(row):
    sum = 0
    for item in row:
        sum += item
    return sum / df.shape[1]

print(df.apply(avg_3_apply, axis = 1))

0    15.0
1    25.0
2    35.0
dtype: float64


## 10 - 3 apply 메서드 사용하기 - 고급
### 데이터 프레임의 누락값을 처리한 다음 apply 메서드 사용

In [85]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

In [86]:
import numpy as np
# 누락값의 개수를 반환하는 함수
def count_missing(vec):
    null_vec = pd.isnull(vec)
    null_count = np.sum(null_vec)
    return null_count

In [87]:
cmis_col = titanic.apply(count_missing)
print(cmis_col)

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [88]:
# 누락값 비율 계산하는 함수
def prop_missing(vec):
    num = count_missing(vec)
    dem = vec.size
    return num / dem

pmis_col = titanic.apply(prop_missing)
print(pmis_col)

survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64


In [89]:
# 데이터의 비율 구하기
def prop_complete(vec):
    return 1 - prop_missing(vec)

In [90]:
# 데이터프레임의 누락값 처리 - 행방향
cmis_row = titanic.apply(count_missing, axis = 1)
pmis_row = titanic.apply(prop_missing, axis = 1)
pcom_row = titanic.apply(prop_complete, axis = 1)

print(cmis_row.head())
print(pmis_row.head())
print(pcom_row.head())

0    1
1    0
2    1
3    0
4    1
dtype: int64
0    0.066667
1    0.000000
2    0.066667
3    0.000000
4    0.066667
dtype: float64
0    0.933333
1    1.000000
2    0.933333
3    1.000000
4    0.933333
dtype: float64


In [91]:
titanic['num_missing'] = titanic.apply(count_missing, axis = 1)
print(titanic.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  num_missing  
0    man        True  NaN  Southampton    no  False            1  
1  woman       False    C    Cherbourg   yes  False            0  
2  woman       False  NaN  Southampton   yes   True            1  
3  woman       False    C  Southampton   yes  False            0  
4    man        True  NaN  Southampton    no   True            1  


In [92]:
# 누락값이 2개 이상인 데이터를 추출한 것
print(titanic.loc[titanic.num_missing > 1, :].sample(10))

     survived  pclass     sex  age  sibsp  parch     fare embarked  class  \
653         1       3  female  NaN      0      0   7.8292        Q  Third   
533         1       3  female  NaN      0      2  22.3583        C  Third   
46          0       3    male  NaN      1      0  15.5000        Q  Third   
601         0       3    male  NaN      0      0   7.8958        S  Third   
859         0       3    male  NaN      0      0   7.2292        C  Third   
563         0       3    male  NaN      0      0   8.0500        S  Third   
464         0       3    male  NaN      0      0   8.0500        S  Third   
522         0       3    male  NaN      0      0   7.2250        C  Third   
878         0       3    male  NaN      0      0   7.8958        S  Third   
154         0       3    male  NaN      0      0   7.3125        S  Third   

       who  adult_male deck  embark_town alive  alone  num_missing  
653  woman       False  NaN   Queenstown   yes   True            2  
533  woman    