# 정규 표현식

`Regular expression`

|메타문자|기능|설명|
|---|---|---|
|.|문자|1개의 문자와 일치|
|[]|문자 클래스| [ ] 안의 문자 중 하나를 선택, - 기호와 함께쓰면 범위를 지정|
|[^]|부정|[] 안의 문자가 들어있는 것은 포함하지 않고 나머지 전부|
|^|처음|문자열의 처음|
|$|끝|문자열의 끝|
|()|하위식|경우를 묶음|
|\n|일치하는 n번째 패턴| 일치하는 패턴들 중 n번째를 선택 n은 1~9|
|*|아무 문자|어떤 문자든지, 어떤 개수든지|
|{m,n}| m회 이상 n회 이하| 앞 문자의 갯수를 지정|
|?|0또는 1회|{0,1}|
|+|1회이상|1회이상|
|ㅣ|or|어떤것도 만족하면 포함|

* `tip`
    * [^0-9] : 숫자를 포함하고 있지 않음
    * [^가-힣]: 한글이 포함되어 있지 않음
    * [가-힣+]: 한글이 하나 이상 포함되는지

## 데이터

In [21]:
import pandas as pd

df = pd.DataFrame({"이름":["민수","승원","준영"],"나이":[20,28,24],"닉네임":["귀요미123","못생이33","군인냄새<3"],"아이디" :["rh9872","WIN1","solt<3<3"],"메세지":["안녕하세요 저는 고민수입니다. 이 친구들의 책임자죠", "뀨뀨까까?", "cover me!! move move move!!!!"]})
df

Unnamed: 0,이름,나이,닉네임,아이디,메세지
0,민수,20,귀요미123,rh9872,안녕하세요 저는 고민수입니다. 이 친구들의 책임자죠
1,승원,28,못생이33,WIN1,뀨뀨까까?
2,준영,24,군인냄새<3,solt<3<3,cover me!! move move move!!!!


## 숫자 제거하기

In [11]:
df["닉네임"].str.replace("[0-9]","",regex=True)
# regex = True 로 하면 경고를 없애줌 그것뿐

0      귀요미
1      못생이
2    군인냄새<
Name: 닉네임, dtype: object

## 숫자 제외 전부 제거

In [12]:
df["닉네임"].str.replace("[^0-9]","",regex=True)

0    123
1     33
2      3
Name: 닉네임, dtype: object

## 영문자 제거

In [13]:
# 소문자 제거
df["아이디"].str.replace("[a-z]","",regex=True)

0    9872
1    WIN1
2    <3<3
Name: 아이디, dtype: object

In [16]:
## 소문자 대문자 모두 제거
df["아이디"].str.replace("[a-zA-Z]","",regex=True)

0    9872
1       1
2    <3<3
Name: 아이디, dtype: object

# 문자열 다루기

## 문자, 단어 수 구하기

In [22]:
# 문자의 개수
df["메세지"].str.len()

0    28
1     5
2    29
Name: 메세지, dtype: int64

In [23]:
# 단어의 개수
df["메세지"].str.split().str.len()

0    6
1    1
2    5
Name: 메세지, dtype: int64

## 문자열 인덱싱, 슬라이싱

In [24]:
df["메세지"].str[:5]

0    안녕하세요
1    뀨뀨까까?
2    cover
Name: 메세지, dtype: object

In [27]:
df["메세지"].str[-10:]

0     친구들의 책임자죠
1         뀨뀨까까?
2    e move!!!!
Name: 메세지, dtype: object

## map, apply 를 활용하기

||Series|DataFrame|사용 예|
|--|--|--|--|
|map|O|X|df["컬럼명"].map(함수 or dict)|
|apply|O|O|df.apply(함수)|
|||| df["칼럼명"].apply(함수)|
|applymap|X|O|df.applymap(함수)|

### map

In [32]:
# 문자 수
df["메세지"].map(lambda x: len(x))

0    28
1     5
2    29
Name: 메세지, dtype: int64

In [37]:
# 단어수
df["메세지"].map(lambda x: len(x.split()) )

0    6
1    1
2    5
Name: 메세지, dtype: int64

### apply

In [38]:
df.apply(lambda x: x)

Unnamed: 0,이름,나이,닉네임,아이디,메세지
0,민수,20,귀요미123,rh9872,안녕하세요 저는 고민수입니다. 이 친구들의 책임자죠
1,승원,28,못생이33,WIN1,뀨뀨까까?
2,준영,24,군인냄새<3,solt<3<3,cover me!! move move move!!!!


In [39]:
# 0번째 데이터
df.apply(lambda x: x[0])

이름                               민수
나이                               20
닉네임                          귀요미123
아이디                          rh9872
메세지    안녕하세요 저는 고민수입니다. 이 친구들의 책임자죠
dtype: object

In [45]:
# 칼럼 가져오기, axis =1 을 해서 칼럼으로 지정
df.apply(lambda x: x["메세지"], axis=1)

0     안녕하세요 저는 고민수입니다. 이 친구들의 책임자죠
1                            뀨뀨까까?
2    cover me!! move move move!!!!
dtype: object

In [43]:
# 문자 수
df.apply(lambda x: len(x["메세지"]), axis=1)

0    28
1     5
2    29
dtype: int64

In [44]:
# 단어 수
df.apply(lambda x: len(x["메세지"].split()), axis=1)

0    6
1    1
2    5
dtype: int64