#### 기본 문자열 메서드
- 파이썬 기본 제공
- 문자열에서 호출 가능
- 벡터 연산(각 원소별 반복처리) 불가능
- 오직 문자열 치환만 가능(숫자치환, NaN값 치환 불가능)

In [1]:
'abcd'.replace('a','A') #'ABCD'

'Abcd'

In [2]:
'abcd'.replace('a','')

'bcd'

In [3]:
'abcd1'.replace(1,'')  #숫자치환 불가

TypeError: replace() argument 1 must be str, not int

In [4]:
' bcd1'.replace('',1)  #숫자치환 불가

TypeError: replace() argument 2 must be str, not int

In [5]:
['abcd','abcde','aabb'].replace(',','')
# list 는 replace 호출이 불가

AttributeError: 'list' object has no attribute 'replace'

- map을 이용하여 해결

In [6]:
f1 = lambda x: x.replace('a','A')
list(map(f1,['abcd','abcde','aabb']))

['Abcd', 'Abcde', 'AAbb']

In [8]:
['abcd','abcde','aabb'].map(f1)
# list 객체는 map 함수 호출 불가능

AttributeError: 'list' object has no attribute 'map'

In [9]:
from pandas import Series, DataFrame
['abcd','abcde','aabb'].map(f1)  #호출 불가

AttributeError: 'list' object has no attribute 'map'

In [10]:
Series(['abcd','abcde','aabb']).map(f1) 
#Series는 호출 가능(method chaining)

0     Abcd
1    Abcde
2     AAbb
dtype: object

- for 문을 이용하여 해결

In [11]:
outlist = []
for i in ['abcd','abcde','aabb']:
    outlist.append(i.replace('a',''))
    
print(outlist)

['bcd', 'bcde', 'bb']


In [12]:
import numpy as np
Series(['abcd','abcde','aaaab',np.nan])

0     abcd
1    abcde
2    aaaab
3      NaN
dtype: object

In [13]:
Series(['abcd','abcde','aaaab',np.nan]).map(lambda x: x.replace(np.nan,''))
#오류 --> np.nan은 숫자로 인식

TypeError: replace() argument 1 must be str, not float

### str.replace 
- pandas 제공(Series 객체만 호출 가능)
- 벡터화 내장된 문자열 메서드
- 문자열 호출 가능
- 벡터연산(각 원소별 반복 처리)가능
- 오직 문자열 치환만 가능(숫자 치환, Nan값 치환 불가)
- 숫자로 구성된 Series 적용 불가

In [14]:
Series(['abcd','abcde','aaaab']).str.replace('a','A')

0     Abcd
1    Abcde
2    AAAAb
dtype: object

In [15]:
['abcd','abcde','aaaab'].str.replace('a','A')
# list 불가능, Series만 가능

AttributeError: 'list' object has no attribute 'str'

In [16]:
DataFrame(['abcd','abcde','aaaab']).str.replace('a','A')
# DataFrame도 불가능

AttributeError: 'DataFrame' object has no attribute 'str'

### pandas replace
- pandas 제공
- 값 치환 메서드(완전히 일치하는 값만 다른 값으로 대체, 삭제)
- Series, DataFrame 호출 가능
- 숫자, Nan값 치환 가능
- 동시에 여러 대상 수정 가능

In [18]:
df1 = DataFrame([['1,200','1,300'],['1,400','1,500']])

In [19]:
df1.replace(',','') #',' >> 그대로임

Unnamed: 0,0,1
0,1200,1300
1,1400,1500


In [20]:
df2 = DataFrame([['1,200',','],['1,400','1,500']])
df2

Unnamed: 0,0,1
0,1200,","
1,1400,1500


In [21]:
df2.replace(',','')  

#다른 문자열 사이에 포함된 ','이 아닌 ','과 완전히 일치할 경우에만 공백으로 대치

Unnamed: 0,0,1
0,1200,
1,1400,1500.0


In [22]:
df3 = DataFrame([['1200','1,300'],['1400','.']],columns = ['a','b'])
df3

Unnamed: 0,a,b
0,1200,1300
1,1400,.


In [23]:
df3.replace('.',np.nan)  #'.'과 완전히 일치하는 값은 NaN치환

Unnamed: 0,a,b
0,1200,1300.0
1,1400,


In [24]:
df3.replace(['.','1400','?','!'], np.nan)

Unnamed: 0,a,b
0,1200.0,1300.0
1,,


- df1에 존재하는 천단위 구분기호 제거 후 모두 숫자로 변경

In [26]:
df1

Unnamed: 0,0,1
0,1200,1300
1,1400,1500


In [29]:
# sol1
df1.applymap(lambda x: int(x.replace(',',''))).sum()

0    2600
1    2800
dtype: int64

In [28]:
# 구분기호 제거 sol 2
copy_df1 = df1
for i in range(0,len(df1)):
    copy_df1[i] = df1[i].str.replace(',','')
    
print(copy_df1)

      0     1
0  1200  1300
1  1400  1500


In [30]:
# 구분기호 제거 sol 3
for i in range(len(df1)):
    if df1[i].all != 'int':
        df1[i] = df1[i].str.replace(',','').astype('int')

print(df1)

      0     1
0  1200  1300
1  1400  1500
