# 정규표현식
* https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D

In [1]:
import pandas as pd
table = pd.read_html("https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D")
len(table)

13

In [2]:
table[2]

Unnamed: 0,메타문자,기능,설명
0,?,0 또는 1회,"""a?b""는 ""b"", ""ab""를 포함한다."
1,+,1회 이상,"""a+b""는 ""ab"", ""aab"", ""aaab""를 포함하지만 ""b""는 포함하지 않는다."
2,¦,선택,"여러 식 중에서 하나를 선택한다. 예를 들어, ""abc¦adc""는 abc와 adc ..."


In [3]:
table[1]

Unnamed: 0,메타문자,기능,설명
0,.,문자,1개의 문자와 일치한다. 단일행 모드에서는 새줄 문자를 제외한다.
1,[ ],문자 클래스,"""[""과 ""]"" 사이의 문자 중 하나를 선택한다. ""¦""를 여러 개 쓴 것과 같은 ..."
2,[^ ],부정,문자 클래스 안의 문자를 제외한 나머지를 선택한다. 예를 들면 [^abc]d는 ad...
3,^,처음,문자열이나 행의 처음을 의미한다.
4,$,끝,문자열이나 행의 끝을 의미한다.
5,( ),하위식,"여러 식을 하나로 묶을 수 있다. ""abc¦adc""와 ""a(b¦d)c""는 같은 의미..."
6,\n,일치하는 n번째 패턴,"일치하는 패턴들 중 n번째를 선택하며, 여기에서 n은 1에서 9 중 하나가 올 수 있다."
7,*,0회 이상,"0개 이상의 문자를 포함한다. ""a*b""는 ""b"", ""ab"", ""aab"", ""aaa..."
8,"{m, n}",m회 이상 n회 이하,"""a{1,3}b""는 ""ab"", ""aab"", ""aaab""를 포함하지만, ""b""나 ""a..."


In [4]:
table[4][['메타문자', '설명']]

Unnamed: 0,메타문자,설명
0,.,일반적으로 새 줄을 제외한 모든 어떠한 문자열과도 일치한다.
1,( ),"일련의 패턴 요소들을 하나의 요소로 묶는다. 괄호 안의 패턴을 일치시킬 때 $1, ..."
2,+,1번 이상 발생하는 패턴과 일치시킨다.
3,?,0~1번 발생하는 패턴과 일치시킨다.
4,?,
5,*,0번 이상 발생하는 패턴과 일치시킨다.
6,"{M,N}","최소 M번, 최대 N번 발생되는 패턴과 일치시킨다."
7,[...],가능한 문자열의 집합과 일치시킨다.
8,|,가능성 있는 항목들을 구별하여 선택한다.
9,\b,


In [5]:
import seaborn as sns

df = sns.load_dataset("iris")
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [6]:
# species 로 시작하거나 끝나는 새로운 변수를 생성
df["species_b"] = df["species"]
df["f_species"] = df["species"]

In [7]:
# 변수가 잘 생성되었는지 확인
df.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_b,f_species
0,5.1,3.5,1.4,0.2,setosa,setosa,setosa
1,4.9,3.0,1.4,0.2,setosa,setosa,setosa
2,4.7,3.2,1.3,0.2,setosa,setosa,setosa


In [8]:
# species 라는 단어가 처음부터 끝까지 일치하는 컬럼만을 제외
df.filter(regex='^(?!species$).*' ).head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species_b,f_species
0,5.1,3.5,1.4,0.2,setosa,setosa
1,4.9,3.0,1.4,0.2,setosa,setosa
2,4.7,3.2,1.3,0.2,setosa,setosa


In [9]:
# species 라는 단어가 처음부터 끝까지 일치하는 컬럼만을 제외
# .* 는 제외해도 같은 값을 가져옵니다.
# .* 는 모든 문자를 의미합니다. 여기에서는 species 뒤에 어떤 문자가 오든지로 해석할 수 있습니다.
df.filter(regex='^(?!species$)').head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species_b,f_species
0,5.1,3.5,1.4,0.2,setosa,setosa
1,4.9,3.0,1.4,0.2,setosa,setosa
2,4.7,3.2,1.3,0.2,setosa,setosa


In [10]:
# 새로 만든 species_b 컬럼을 가져오지 않습니다.
# species 로 시작하는 컬럼만 제외합니다
df.filter(regex='^(?!species).*').head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,f_species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


In [11]:
# 새로 만든 species_b 컬럼을 가져오지 않음
# species 로 시작하는 컬럼만 제외합니다. .* 문을 제거해도 위와 결과는 같습니다.
df.filter(regex='^(?!species)').head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,f_species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


In [12]:
# species 가 완전히 일치하는 컬럼만 제외합니다.
df.filter(regex='[^species]').head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species_b,f_species
0,5.1,3.5,1.4,0.2,setosa,setosa
1,4.9,3.0,1.4,0.2,setosa,setosa
2,4.7,3.2,1.3,0.2,setosa,setosa


In [13]:
# species 로 끝나는 컬럼만 제외합니다.
df.filter(regex='[^species]$').head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species_b
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
