## 7-1 정규 표현식

### 정규표현식 사용 이유
1. 패턴의 유연성 증가
   * 다양한 길이의 문자열을 하나의 패턴으로 매치 가능
    + ex) a*b = b, ab, aab, aaab

2. 코드 간소화
   * 복잡한 패턴을 간단하게 표현 가능
    + ex) a{1,3} = a, aa, aaa를 한 번에 표현

### 매타문자
* 문자 클래스 [ ]
   + [abc] : a, b, c 중 한개의 문자와 매치
   + [a-c] : a ~ c 까지 두 문자 사이의 범위를 의미
   + ^ : 반대를 의미

* Dot(.) 
   + 줄바꿈 문자(\n)을 제외한 모든 문자와 매치
   + a.b : a와 b 사이에 어떤 문자가 와도 매치된다.

* 반복(*)
   + *바로 앞에 있는 문자가 0부터 무한대로 반복될 수 있다.

* 반복(+)
   + 반복(*)와 달리 최소 1번이상 반복될 때 사용

* 반복({m,n})
   + 반복 횟수를 m~n까지 지정하고 싶을때 사용
   + ex) ca({2,5}t) -> a가 2~5번까지 반복되면 매치

In [41]:
# 문자 클래스 [] 표로 정리
import pandas as pd

data = {'정규식': ['', 'abc', ''],
        '문자열': ['a','before','dude'],
        '매치 여부': ['Yes', 'Yes', 'No'],
        '설명' : ['"a"는 정규식에 포함되어 있으므로 매치',
                  '"before"는 정규식과 일치하는 b가 있으므로 매치',
                  '"dude"는 a, b, c 어느 하나 포함하고 있지 않아 매치X']
        }

df = pd.DataFrame(data)

# 공백 제거
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()

# 스타일 적용
styled_df = df.style.set_properties(**{
    'text-align': 'center'

# set_table_styles : 테이블 전체의 셀(td), 헤더(th)에 대해 가운데 정렬
}).set_table_styles([
    {'selector': 'th', 'props': [('text-align', 'center')]},
    {'selector': 'td', 'props': [('text-align', 'center')]}
]).hide(axis='index')   # 인덱스 숫자 숨김

# 결과 표시
styled_df

정규식,문자열,매치 여부,설명
,a,Yes,"""a""는 정규식에 포함되어 있으므로 매치"
abc,before,Yes,"""before""는 정규식과 일치하는 b가 있으므로 매치"
,dude,No,"""dude""는 a, b, c 어느 하나 포함하고 있지 않아 매치X"


In [42]:
# Dot(.)의 내용을 표로 정리
import pandas as pd

data = {'정규식': ['', 'abc', ''],
        '문자열': ['aab','a0b','abc'],
        '매치 여부': ['Yes', 'Yes', 'No'],
        '설명' : ['"aab"는 a와 b사이 문자가 존재하므로 매치',
                  '"a0b"는 aab와 같은 이유로 매치',
                  '"abc"는 a와 b사이에 문자가 존재하지 않아 매치X']
        }

df = pd.DataFrame(data)

# 공백 제거
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()

# 스타일 적용
styled_df = df.style.set_properties(**{
    'text-align': 'center'

# set_table_styles : 테이블 전체의 셀(td), 헤더(th)에 대해 가운데 정렬
}).set_table_styles([
    {'selector': 'th', 'props': [('text-align', 'center')]},
    {'selector': 'td', 'props': [('text-align', 'center')]}
]).hide(axis='index')   # 인덱스 숫자 숨김

# 결과 표시
styled_df

정규식,문자열,매치 여부,설명
,aab,Yes,"""aab""는 a와 b사이 문자가 존재하므로 매치"
abc,a0b,Yes,"""a0b""는 aab와 같은 이유로 매치"
,abc,No,"""abc""는 a와 b사이에 문자가 존재하지 않아 매치X"


In [43]:
# 반복(*)의 내용을 표로 정리
import pandas as pd

data = {'정규식': ['', 'ca*t', ''],
        '문자열': ['ct','cat','caaat'],
        '매치 여부': ['Yes', 'Yes', 'Yes'],
        '설명' : ['"a"가 0번 반복되어 매치',
                  '"a"가 1번 반복되어 매치',
                  '"a"가 3번 반복되어 매치']
        }

df = pd.DataFrame(data)

# 공백 제거
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()

# 스타일 적용
styled_df = df.style.set_properties(**{
    'text-align': 'center'

# set_table_styles : 테이블 전체의 셀(td), 헤더(th)에 대해 가운데 정렬
}).set_table_styles([
    {'selector': 'th', 'props': [('text-align', 'center')]},
    {'selector': 'td', 'props': [('text-align', 'center')]}
]).hide(axis='index')   # 인덱스 숫자 숨김

# 결과 표시
styled_df

정규식,문자열,매치 여부,설명
,ct,Yes,"""a""가 0번 반복되어 매치"
ca*t,cat,Yes,"""a""가 1번 반복되어 매치"
,caaat,Yes,"""a""가 3번 반복되어 매치"


In [55]:
import pandas as pd

data = {'정규식': ['','ca(2)t'],
        '문자열': ['cat', 'caat'],
        '매치 여부': ['No', 'Yes'],
        '설명' : ['"a"가 1번만 반복되어 매치되지 않음',
                  '"a"가 2번 반복되어 매치',
                 ]
        }

df = pd.DataFrame(data)

# 공백 제거
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()

# '정규식' 열을 두 번째 행에만 표시
df.loc[0, '정규식'] = ''
df.loc[1, '정규식'] = 'ca(2)t'

# 스타일 적용
styled_df = df.style.set_properties(**{
    'text-align': 'center'

# set_table_styles : 테이블 전체의 셀(td), 헤더(th)에 대해 가운데 정렬
}).set_table_styles([
    {'selector': 'th', 'props': [('text-align', 'center')]},
    {'selector': 'td', 'props': [('text-align', 'center')]}
]).hide(axis='index')   # 인덱스 숫자 숨김

# 결과 표시
styled_df

정규식,문자열,매치 여부,설명
,cat,No,"""a""가 1번만 반복되어 매치되지 않음"
ca(2)t,caat,Yes,"""a""가 2번 반복되어 매치"
