# 정규 표현식 (Regular Expression, Regex)
 - 문자열 패턴을 정의하고 탐색, 매칭, 수정 등의 작업을 수행할 수 있게 해주는 도구

 <종류>
 - 리터럴 문자(Literal) : 일반 문자 그대로 매칭 (예 : a, [,3)
 - 메타 문자(Meta) : 특별한 의미를 갖는 문자(dP: ., , *, +, ?, ^, $, [], {}, |)
    - 문자 클래스(Class) : 특정 문자 집합을 나타냄(예: \d, \w, \s)
    - 수량자(Quantifier): 패턴이 반복되는 횟수 지정(예: *, +, ?, {m,n})
    - 앵커(Anchor) : 문자열의 시작 또는 끝 위치를 나타냄(예: ^, $)
    - 그룹(Group) : 부분 패턴을 그룹으로 묶음(예: (ab+c))

  
 <특징>

 1. 효율적인 문자열 처리
    - 복잡한 문자열 검색과 변환 작업을 간단하고 효율적으로 수행.
 2. 범용성
    - 모든 프로그래밍 언어에서 지원하므로, 한 번 배우면 여러 환경에서 활용.
 3. 코드 간소화
    - 복잡한 문자열 처리 로직을 한두 줄의 정규 표현식으로 코드가 간결.
 4. 유연성
    - 다양한 패턴 매칭을 통해 유연하게 문자열을 처리 가능
 5. 시간 절약
    - 반복적인 문자열 처리 작업을 자동화하여 시간을 절약


 <사용 사례>
  - 데이터 검증 : 이메일 주소, 전화번호, 우편번호 등의 형식을 검증할 때
      - ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
  - 텍스트 검색 : 문서나 로그 파일에서 특정 패턴을 검색할 때
      - (error\s\d{3})
  - 데이터 추출 : HTML 문서나 로그 파일 등에서 특정 정보를 추출할 때
      - (<title>(.*?)</title>)
  - 데이터 치환 : 문자열 내의 특정 패턴을 다른 문자열로 대체할 때
      - (s/old/new/g)
  - 로그 분석 : 서버 로그 파일에서 IP주소나 특정 이벤트를 추출하여 분석할 때
      - \b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b
  - 형식 변환 : 날짜 형식이나 전화번호 형식 등을 일관되게 변환할 때
      - ((\d{4})-(\d{2})-(\d{2}))


  <이메일 주소 검증>

  - ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

  - ^ : 문자열의 시작을 나타냅니다.
  - [a-zA-Z0-9._%+-]+: 알파벳 대소문자, 숫자, ._%+- 특수문자 중 하나 이상이 반복
 - @ : '@' 문자
 - [a-zA-Z]{2,}: 알파벳 대소문자 2개 이상이 반복됩니다.
 - $ : 문자열의 끝을 나타냅니다
 설명 : 이메일 주소의 형식을 검증합니다.


 <에러 코드 찾기> : error\s\d{3}
 - error: "error" 문자열.
 - \s : 공백 문자
 - \d{3} : 숫자 3개
 설명 : "error"뒤에 공백이 있고, 그 뒤에 숫자 3개가 나오는 패턴을 찾습니다.


 < HTML 제목 추출> : < title>(.*?)< /title>
  - < title> : "< title>" 태그
  - (.*?): 어던 문자든지 0번 이상 반복(비탐욕적)
  - < /title> : "< /title>" 태그
  설명 : HTML 문서에서 < title> 태그 안의 내용을 추출합니다.

<문자열 치환> : s/old/new/g
  - s/ : 치환 명령어의 시작
  - old : 치환될 문자열 패턴
  - /new/ : 새 문자열
  - g : 전역적으로 치환
  설명 : 문자열에서 "old"를 "new"로 전역적으로 치환합니다.

< IPv4 주소 찾기> : \b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b
   - \b : 단어 경계를 나타냅니다.
   - \d{1,3} : 1~3자리 숫자
   - \. : '.'문자
   설명 : IPv4 주소 형식(d예 : 192.168.0.1)을 찾습니다.


<슬래시(/)>
 - 정규 표현식에서 슬래시는 주로 패턴의 시작과 끝을 나타내는 구분자로 사용됩니다.
 - 예시 : /abc/는 문자열 "abc"를 찾는 정규 표현식입니다.


<백슬래시 (\)>
 - 백슬래시는 이스케이프 문자로, 특별한 의미를 가지는 문자 앞에 사용하여 그 문자를 리터럴로 취급하게 합니다.
 - 백슬래시는 또한 특별한 문자 클래스를 나타내는 데 사용됩니다.
 - \.는마침표문자자체를의미합니다.
 - \\는백슬래시자체를의미합니다.
 - \d는숫자(0-9)를의미합니다.digit
 - \w는단어문자(알파벳대소문자, 숫자, 밑줄)를의미합니다.word
 - \s는공백문자(스페이스, 탭등)를의미합니다.space

<기본 문법>
- .: 임의의한문자
- ^: 문자열의시작
- $: 문자열의끝
- *: 0 회이상반복
- +: 1 회이상반복
- ?: 0 회또는1 회
- {n}: 정확히n 회반복
- {n,}: n 회이상반복
- {n,m}: n 회이상, m 회이하반복
- \d: 숫자(0-9)
- \D: 숫자가아닌문자
- \w: 단어문자(알파벳, 숫자, 언더스코어)
- \W: 단어문자가아닌문자
- \s: 공백문자(스페이스, 탭, 줄바꿈등)
- \S: 공백문자가아닌문자
- []: 문자클래스(예: [a-z]는소문자알파벳을의미)
- |: OR 연산자(예: a|b는‘a’ 또는’b’ 를의미)
- ():그룹화(서브패턴을그룹화하여캡처)



 1. 리터럴 문자(Literal Characters)
  - 문자 그대로 일치하는 문자열을 찾습니다
  - 예시 : abc는 "abc"와 정확히 일치합니다.

 2. 메타 문자(Meta Characters)
  - 특별한 의미를 가지는 문자들입니다.
  - 주요 메타 문자: .,\,*,+,?,^,$,[],(),{},|
  - 예시 : . : 임의의 한 문자와 일치(a.c는 "abc","a1c"등과 일치)
         : \ : 이스케이프 문자(\.는 마침표 문자와 일치)
         

In [1]:
# Raw string 사용
import re

pattern = r'\d{3}-\d{3}-\d{4}'
text = "My phone number is 123-456-7890."
match = re.search(pattern, text)

if match :
  print(match.group())

123-456-7890


In [3]:
# 일반 문자열 사용
import re

pattern = '\\d{3}-\\d{3}-\\d{4}'
text = "My phone number is 123-456-7890."
match = re.search(pattern,text)

if match:
  print(match.group())

123-456-7890


In [15]:
# 실습) 앞서 학습한 메서드를 이해하고 정규표현식 사용사례를 최대한 자세히 분석하여 공유해봅시다.

import re

text = [
        '제 이름은 김새싹이고 이메일은 email@naver.com이고, 학번은 24012345입니다.',
        'my name is john and my email is naver@email.com and my id is 24543210'
        ]

email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
id_pattern = r'\d{8}'

for t in text:
  email = re.search(email_pattern, t)
  id = re.search(id_pattern, t)
  if email:
    print("이메일주소: ",email.group())
  if id:
    print("학번 : ",id.group())
  print()

# 출력 결과
# 이메일주소:  email@naver.com
# 학번 :  24012345

# 이메일주소:  naver@email.com
# 학번 :  24543210

이메일주소:  email@naver.com
학번 :  24012345

이메일주소:  naver@email.com
학번 :  24543210



In [9]:
import re
# 예시문자열
text = "안녕하세요. 제이메일은example@email.com 이고, 전화번호는010-1234-5678 입니다."
# 이메일주소찾기
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
email = re.search(email_pattern, text)
if email:
  print("이메일주소:", email.group())
# 전화번호찾기
phone_pattern = r'\d{3}-\d{4}-\d{4}'
phone = re.search(phone_pattern, text)
if phone:
  print("전화번호:", phone.group())
# 모든숫자찾기
numbers = re.findall(r'\d+', text)
print("발견된모든숫자:", numbers)
# 문자열대체하기
new_text = re.sub(r'이메일', '메일주소', text)
print("대체된문자열:", new_text)

전화번호: 010-1234-5678
발견된모든숫자: ['010', '1234', '5678']
대체된문자열: 안녕하세요. 제메일주소은example@email.com 이고, 전화번호는010-1234-5678 입니다.


# 내장 메소드
 - 일부 간단한 패턴 매칭의 경우, string 객체의 내장 메소드를 사용할 수 있다.
 - ex) startswith(), endswith(), find() 등

In [7]:
# 예시 문자열
text = "안녕하세요. 파이썬 프로그래밍은 재미있습니다. 파이썬은 강력합니다."

# 1. startswith(): 문자열이 특정 부분으로 시작하는지 확인
print("'안녕'으로 시작하나요?", text.startswith("안녕"))

# 2. endswith() : 문자열이 특정 부분으로 끝나는지 확인
print("'합니다.'로 끝나나요?", text.endswith("합니다."))

# 3. find() : 특정 부분 문자열의 위치 찾기
print("'파이썬'의 첫 등장 위치 : ", text.find("파이썬"))

# 4. count() : 특정 부분 문자열의 등장 횟수 세기
print("'파이썬'의 등장 횟수: ", text.count("파이썬"))

# 5. replace() : 특정 부분 문자열 교체하기
new_text = text.replace("파이썬", "Python")
print("교체된 문자열: ", new_text)

# 6. split() : 문자열을 특정 구분자로 나누기
sentences = text.split(".")
print("문장 단위로 나눈 결과: ", sentences)

# 7. strip() : 문자열의 앞뒤 공백 제거
spaced_text = " Hello, World! "
print("공백 제거 결과: ", spaced_text.strip())

# 8. isdigit() : 문자열이 숫자로만 이루어졌는지 확인
number = "12345"
print("'12345'가 숫자로만 이루어졌나요?", number.isdigit())

'안녕'으로 시작하나요? True
'합니다.'로 끝나나요? True
'파이썬'의 첫 등장 위치 :  7
'파이썬'의 등장 횟수:  2
교체된 문자열:  안녕하세요. Python 프로그래밍은 재미있습니다. Python은 강력합니다.
문장 단위로 나눈 결과:  ['안녕하세요', ' 파이썬 프로그래밍은 재미있습니다', ' 파이썬은 강력합니다', '']
공백 제거 결과:  Hello, World!
'12345'가 숫자로만 이루어졌나요? True


# 내장 string 메소드
 - startswith() : 문자열이 특정 접두사로 시작하는지 확인합니다.
 - endswith() : 문자열이 특정 접미사로 끝나는지 확인합니다.
 - find() : 특정 부분 문자열의 첫 번째 등장 위치를 찾습니다.
 - count() : 특정 부분 문자열의 등장 횟수를 셉니다.
 - replace() : 특정 부분 문자열을 다른 문자열로 교체합니다.
 - split() : 문자열을 특정 구분자를 기준으로 나눕니다.
 - strip() : 문자열의 앞뒤 공백을 제거합니다.
 - isdigit() : 문자열이 숫자로만 이루어졌는지 확인합니다.


# RE(Regular Expression) Library: 정규표현식을 위한 내장 라이브러리(import re)

## RE에 포함된 문자열 메서드
1. re.match(patter, string) 함수
  - 문자열의 시작부분이 패턴과 일치하는지 확인
  - 일치할 경우 다양한 MatchObject를 반환하고, 그렇지 않으면 None을 반환합니다.
  - MatchObject는 다음과 같은 주요 속성과 메서드를 가지고 있습니다.

  - group() : 매치된 전체 문자열을 반환합니다.
  - groups() : 매치된 패턴의 그룹들을 튜플로 반환합니다.
  - start() : 매치된 문자열의 시작 인덱스를 반환합니다.
  - end() : 매치된 문자열의 끝 인덱스를 반환합니다.
  - span() : 매치된 문자열의 (시작, 끝)인덱스 튜플을 반환합니다.

  

In [17]:
# 1. re.match(patter, string) 함수
import re
pattern = r'(\w+) (\w+)'

text = "Hello World"
match = re.match(pattern, text)

if match:
  print("Match found: ", match.group())
  print("Groups: ", match.groups())
  print("Start: ", match.start())
  print("End: ", match.end())
  print("Span: ", match.span())
else:
  print("No match found")

Match found:  Hello World
Groups:  ('Hello', 'World')
Start:  0
End:  11
Span:  (0, 11)


In [18]:
# 2. re.search(pattern, string) : 문자열 전체에서 패턴과 일치하는 부분을 검색
# 일치하는 것이 발견되면 첫 번째 일치 항목에 대한 MatchObject를 반환하고, 그렇지 않으면 None을 반환

import re
pattern = r'\d+'

text = "Hello 123 World 456"
search = re.search(pattern, text)

if search:
  print("Match found: ",search.group())
else:
  print("No match found")

Match found:  123


In [19]:
# 3. re.findall(pattern, string): 문자열에서 패턴과 일치하는 모든 부분을 찾아 리스트로 반환
import re

pattern = r'\d+'

text = "Hello 123 World 456 Python 789"
matches = re.findall(pattern, text)

print("Matches: ", matches)

Matches:  ['123', '456', '789']


In [20]:
# 4. re.finditer(pattern, string): 문자열에서 패턴과 일치하는 모든 부분을 찾아 반복 가능한 MatchObject를 반환

import re
pattern = r'\d+'
text = "Hello 123 World 456 Python 789"
matches = re.finditer(pattern, text)

for match in matches:
  print("Match found: ", match.group())

Match found:  123
Match found:  456
Match found:  789


In [23]:
# 5. re.split(pattern, string, maxsplit=0): 패턴을 구분자로 사용하여 문자열을 분할
# maxsplit은 분할할 최대 횟수를 지정하며, 기본값은 문자열 전체를 분할

import re
pattern = r'\d+'
text = "Hello 123 World 456 Python 789"
splits = re.split(pattern, text)
print("Splits: ", splits)

Splits:  ['Hello ', ' World ', ' Python ', '']


In [24]:
# 6. re.sub(pattern, repl, string, count=0) : substitute
# 문자열에서 패턴과 일치하는 부분을 지정 된 텍스트 (repl)로 바꿉니다
# count 는 변경할 최대 횟수를 지정하며, 기본값은 모든 일치 항목을 변경
import re
pattern = r'\d+'
text = "Hello 123 World 456 Python 789"
new_text = re.sub(pattern, 'N', text)
print("New text: ", new_text)

New text:  Hello N World N Python N


In [25]:
# 1단계 : 리터럴 문자 예시 실습
import re

# 패턴 정의
pattern1 = r"cat"

# 예제 문자열
strings1 = ["cat", "concatenate", "catfish", "bat", "catalog"]

# 패턴 매칭 확인
matches1 = [s for s in strings1 if re.search(pattern1 ,s)]
print("1단계 매칭: ", matches1)

1단계 매칭:  ['cat', 'concatenate', 'catfish', 'catalog']


In [28]:
# 2단계 : 리터럴 문자 + 문자 클래스 예시 실습
import re
# 패턴 정의
pattern2 = r"c[aeiou]t"

# 예제 문자열
strings2 = ["cat", "cet", 'cit','cot','cut','czt','cart','ct']

# 패턴 매칭 확인
matches2 = [s for s in strings2 if re.search(pattern2, s)]
print("2단계 매칭: ", matches2)

2단계 매칭:  ['cat', 'cet', 'cit', 'cot', 'cut']


In [29]:
# 3단계 : 리터럴 문자 + 문자 클래스 + 수량자 예시 실습
import re

# 패턴 정의
pattern3 = r"c[aeiou]*t"

# 예제 문자열
strings3 = ['ct','cat','cet','cit','cooot','cuuuit','czt','cart']

# 패턴 매칭 확인
matches3 = [s for s in strings3 if re.search(pattern3, s)]
print("3단계 매칭 : ", matches3)

3단계 매칭 :  ['ct', 'cat', 'cet', 'cit', 'cooot', 'cuuuit']


In [30]:
# 4단계 : 리터럴 문자 + 문자 클래스 + 수량자 + 앵커 예시 실습

import re
# 패턴 정의
pattern4 = r"^c[aeiou]*t$"

# 예제 문자열
strings4 = ['ct','cat','cet','cit','cooot','cuuuit','czt','cart','concatenatecat','catfish']

# 패턴 매칭 확인
matches4 = [s for s in strings4 if re.search(pattern4, s)]
print("4단계 매칭: ", matches4)

4단계 매칭:  ['ct', 'cat', 'cet', 'cit', 'cooot', 'cuuuit']


In [32]:
# 5단계 : 리터럴 문자 + 문자 클래스 + 수량자 + 앵커 + 그룹 실습 예시
import re

# 패턴 정의
pattern5 = r"^(c[aeiou]*t)$"

# 예제 문자열
strings5 = ['ct','cat','cet','cit','cooot','cuuuit','czt','cart','concatenatecat','catfish']

# 패턴 매칭 확인
matches5 = [s for s in strings5 if re.search(pattern5, s)]
print("5단계 매칭: ", matches5)

5단계 매칭:  ['ct', 'cat', 'cet', 'cit', 'cooot', 'cuuuit']


In [41]:
# 실습) 앞서 학습한 메서드를 이해하고 정규표현식 메서드의 변형/응용코드를 작성하여 공유해봅시다.

# 학습한 메서드(built in string method vs regular expression method)를 이해하고 정규표현식의 변형/응용코드를
# 작성하여 공유해 봅시다

# re.split(pattern, string, maxsplit=0): 패턴을 구분자로 사용하여 문자열을 분할
# maxsplit은 분할할 최대 횟수를 지정하며, 기본값은 문자열 전체를 분할
import re

# 패턴 정의
pattern = r'[ ,;]+'
# 공백, ',', ';' 를 구분자로 사용하여 문자열 분리 (1개 이상)

# 예시 text
text = "apple, orange; banana grape;pineapple, mango"

# 문자열 split
splits = re.split(pattern, text)
print("Splits: ", splits)

# 출력 결과
# Splits:  ['apple', 'orange', 'banana', 'grape', 'pineapple', 'mango']

# --------------------------------------------------------------------------- #

import re

# 패턴 정의
pattern = r"^(p[a-z]*[aeiou][a-z]*t)$"

# p로 시작해야함
# a-z중 문자가 0개 이상 포함되어야 함
# [aeiou] 모음 한 개가 포함되어야 함
# a-z중 문자가 0개 이상 포함되어야 함
# t로 끝나야 함


# 예제 문자열
strings = [
    'pat', 'pet', 'pit', 'pot', 'put', 'pt', 'pzt', 'parrot', 'paint', 'plant', 'part', 'peat', 'peaty'
]

# 패턴 매칭 확인
matches = [s for s in strings if re.search(pattern, s)]
print("매칭 결과: ", matches)

# 출력 결과
# 매칭 결과:  ['pat', 'pet', 'pit', 'pot', 'put', 'parrot', 'paint', 'plant', 'part', 'peat']

Splits:  ['apple', 'orange', 'banana', 'grape', 'pineapple', 'mango']
매칭 결과:  ['pat', 'pet', 'pit', 'pot', 'put', 'parrot', 'paint', 'plant', 'part', 'peat']


In [39]:
# 한국어의 정규표현식 추출

# 한글 유니코드 범위
# \uAC00 - \uD7A3: 한글 음절 (가~힣)
# \u1100 - \u11FF: 한글 자모 (초성)
# \u3131 - \u318E: 한글 호환 자모
# ** 빌트인 str method

# 한국어에서도 정규 표현식을 사용할 수 있으며, Python의 re 모듈을 사용하여 정규 표현식을 적용할 수 있습니다. 기본적인 정규 표현식

# 예제1. 한글 문자 매칭
# 한글 문자를 매칭하는 패턴은 [\u3131-\uD79D]입니다. 이는 한글의 모든 자음과 모음을 포함합니다.
import re

text = "안녕하세요. Hello, 123!"
pattern = r'[\u3131-\uD79D]'
result = re.findall(pattern, text)
print(result) # ['안', '녕', '하', '세', '요']

# 2. 한글 단어 추출
# 한글 단어를 추출하기 위해서는 \b 경계와 한글 문자 범위를 함께 사용할 수 있습니다.

import re

text = "안녕하세요. 저는 ChatGPT입니다."
pattern = r'\b[\u3131-\uD79D]+\b'
result = re.findall(pattern, text)
print(result) # ['안녕하세요', '저는', '입니다']


# 3. 한글과 공백을 포함한 단어 추출
# 공백을 포함한 한글 문장을 추출하는 패턴은 다음과 같습니다.

import re

text = "안녕하세요. 저는 ChatGPT입니다."
pattern = r'[\u3131-\uD79D\s]+'
result = re.findall(pattern, text)
print(result) # ['안녕하세요', ' 저는 ', '입니다']

# 4. 한글을 기준으로 문자열 분할
# 한글을 기준으로 문자열을 분할할 때는 re.split()을 사용할 수 있습니다.

import re

text = "사과, 바나나, 오렌지, 포도"
pattern = r'[\u3131-\uD79D]+'
result = re.split(pattern, text)
print(result) # ['', ', ', ', ', ', ', '']


# ** RE method


# 1. 한글 문자 찾기
# 한국어 텍스트에서 한글 문자만 추출하는 예제입니다.

import re

text = "안녕하세요. Hello, 123!"
pattern = r'[\u3131-\uD79D]'
result = re.findall(pattern, text)
print(result) # ['안', '녕', '하', '세', '요']

# 2. 한글 단어 찾기
# 한글 단어를 추출하는 예제입니다.

import re

text = "안녕하세요. 저는 ChatGPT입니다."
pattern = r'[\u3131-\uD79D]+'
result = re.findall(pattern, text)
print(result) # ['안녕하세요', '저는', '입니다']

# 3. 한글과 공백 포함 단어 찾기
# 한글과 공백을 포함한 단어를 추출하는 예제입니다.

import re

text = "안녕하세요. 저는 홍길동입니다."
pattern = r'[\u3131-\uD79D\s]+'

result = re.findall(pattern, text)
print(result) # ['안녕하세요', ' 저는 ', '입니다']

['안', '녕', '하', '세', '요']
['안녕하세요', '저는']
['안녕하세요', ' 저는 ', '입니다']
['', ', ', ', ', ', ', '']
['안', '녕', '하', '세', '요']
['안녕하세요', '저는', '입니다']
['안녕하세요', ' 저는 홍길동입니다']


# 예시1) pattern = r'(\w+) (\w|)'
 - \w+ : \w는 단어 문자 (word character)를 의미하며, 이는 알파벳, 숫자, 밑줄(_)을 포함
 - 뒤에 붙은 + : 하나 이상을 의미합니다. 따라서 \w+는 하나 이상의 연속된 단어 문자를 의미
 - 가운데 공백 : 이것은 공백을 의미합니다
    - (\w+) (\w+) 패턴은 두 단어가 공백으로 구분된 패턴을 찾습니다.
 - 괄호 () : 그룹을 만드는 데 사용되며, 매칭된 각 부분을 따로 가져올 수 있습니다.
 - 이 경우, 두 개의 그룹이 있으므로 두 단어를 각각 따로 가져올 수 있습니다.

In [34]:
import re
pattern = r'(\w+) (\w+)'
text = "Hello World"

match = re.search(pattern, text)

if match:
  print(match.group(1))
  print(match.group(2))

# re 라이브러리 : 정규표현식 라이브러리
# re 라이브러리의 group() : 매치된 전체 문자열을 반환합니다. 1은 첫번째 그룹


Hello
World


In [36]:
# 예시 2) 이메일 주소 찾기
pattern = r'[\w\.-]+@[\w\.-]+'
text = "Please contact us at support@example.com for further assistance."

matches = re.findall(pattern, text)

print(matches)

# 이메일 주소의 형식과 일치:
# 한 개 이상의 알파벳, 숫자, 밑줄, 마침표, 또는 하이픈으로 시작하고 , '@' 기호가 나타나며,
# 다시 한 번 한 개 이상의 알파벳, 숫자, 밑줄, 마침표, 또는 하이픈으로 끝나는 패턴
# findall(pattern, string) : 문자열에서 패턴과 일치하는 모든 부분을 찾아 리스트로 반환

['support@example.com']


- \w : 이 부분은“word character” ,알파벳(A-Z, a-z), 숫자(0-9), 그리고 밑줄(_)
- \. : 이스케이프 문자를 사용하여 실제‘마침표(.)’ 문자.
- -: 대시 또는 하이픈을 의미.
- [\w\.-] : 대괄호([]) 는“character class” 를 정의.
- +: 앞의문자(또는문자클래스) 가 하나 이상 반복.
[\w\.-]+는 알파벳, 숫자, 밑줄, 마침표, 하이픈중 하나 이상의 연속으로 이루어진 문자열에 일치
- @ : 골뱅이기호(‘@’) 에 직접일치. 이메일주소에서 사용자 이름과 도메인을 구분
- [\w\.-]+ : 이 부분은 앞서 설명한 것과 동일하며, 여기서는 이메일의 도메인 부분에 해당

In [43]:
# 예시 3) 전화번호 찾기 (형식 : 123-456-7890)
pattern = r'\d{3}-\d{3}-\d{4}'
text = 'You can reach me at 123-456-7890 or 987-654-3210.'
matches = re.findall(pattern, text)
print(matches)

# 세 자리 숫자, 하이픈('-'), 세 자리 숫자, 하이픈('-'), 네 자리 숫자.
# 예를 들어, 123-456-7890 과 같은 전화번호

['123-456-7890', '987-654-3210']


- \d : 이부분은“digit” 즉, 숫자를의미합니다. 0 부터9 까지의어떤숫자와도일치.
- {3} : 중괄호({}) 는앞의문자(이경우는\d, 즉숫자) 가몇번반복되어야하는지를지정.
{3}은앞의문자(숫자) 가정확히세번반복되어야함을의미합니다.
- -: 대시또는하이픈(‘-’) 에직접일치합니다. 이는번호의구분자역할.
- \d{3} : 숫자가정확히세번반복되어야함을의미, 처음세자리숫자.
- \d{4} :숫자가정확히네번반복되어야함을의미.즉, 마지막네자리숫자에해당.

In [44]:
# 예시 4) HTML 태그 제거
pattern = r'<.*?>'
text = "<p>This is a <b>bold<\b>paragraph.<\p>"
clean_text = re.sub(pattern,'',text)
print(clean_text)

This is a boldparagraph.


In [45]:
# < 문자로 시작하고 > 문자로 끝나는 모든 문자열
# HTML 또는 XML 문서에서 태그를 추출하는 데 유용합니다.
# 예를 들어, <div>, <a href="link">, <img src="image.jpg"/> 같은 태그와 일치합니다.

# sub(pattern, repl, string, count=0):
# 문자열에서 패턴과 일치하는 부분을 지정된 텍스트(repl)로 바꿉니다
# count는 변경할 최대 횟수를 지정하며, 기본값은 모든 일치 항목을 변경

- < : 태그의시작을나타내는‘작은괄호열기’문자.
.*?
- . : 임의의문자, 모든단일문자와일치. 줄바꿈문자를제외한모든문자와일치합니다.
- * : 앞의문자(이경우는. ) 가0 번이상반복될수있음을의미.
.*는아무문자나0 번이상반복될수있다는의미.
- ? : 0 회또는1회, 기본적으로*는가능한많이일치시키려는탐욕적(greedy) 수량자
입니다.
- > : 태그의끝을나타내는‘작은괄호닫기’문자.

In [47]:
# 비탐욕적 매칭에서는 가능한 적은 문자를 매칭하려고 한다
# .*? 패턴은 가능한 적은 문자를 매칭합니다.

import re
pattern_nongreedy = r'<.*?>'
text = "<p>This is a <b>bold<\b> paragraph.<\p>"
clean_text_nongreedy = re.sub(pattern_nongreedy, '', text)
print(clean_text_nongreedy)

This is a bold paragraph.


In [48]:
# 예시 5) 특정 단어로 시작하는 문자열 찾기
pattern = r'^Hello'

text1 = "Hello World"
text2 = "Hi there"

match1 = re.match(pattern, text1)
match2 = re.match(pattern, text2)

print(match1)
print(match2)

<re.Match object; span=(0, 5), match='Hello'>
None


In [49]:
import re

def extract_numbers(text):
  return re.findall(r'\d+', text)

# 테스트
sentence = "저는 20살이고, 키는 175cm이며, 몸무게는 68kg입니다."
numbers = extract_numbers(sentence)
print(numbers)

['20', '175', '68']


In [50]:
import re

# 예시 문자열
text = "안녕하세요. 제 이메일은 example@email.com이고, 전화번호는 010-1234-5678 입니다."

# 이메일 주소 찾기
email_pattern = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b"
email = re.search(email_pattern, text)
if email:
  print("이메일 주소: ", email.group())

# 전화번호 찾기
phone_pattern = r'\d{3}-\d{4}-\d{4}'
phone = re.search(phone_pattern, text)
if phone:
  print("전화번호: ", phone.group())

# 모든 숫자 찾기
numbers = re.findall(r'\d+', text)
print("발견된 모든 숫자: ",numbers)

# 문자열 대체하기
new_text = re.sub(r'이메일','메일 주소',text)
print("대체된 문자열: ",new_text)

전화번호:  010-1234-5678
발견된 모든 숫자:  ['010', '1234', '5678']
대체된 문자열:  안녕하세요. 제 메일 주소은 example@email.com이고, 전화번호는 010-1234-5678 입니다.


In [51]:
import pandas as pd
import re

# 데이터프레임 예시
data = {
    'Name' : ['Braund, Mr. Oven harris','Heikkinen, Miss, Laina','Smith, Dr. Hohn Edward', 'White, Major, Edward']
}
two_data = pd.DataFrame(data)

# 정규표현식을 사용하여 타이틀 추출
two_data['Title'] = two_data['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

print(two_data)

                      Name Title
0  Braund, Mr. Oven harris    Mr
1   Heikkinen, Miss, Laina   NaN
2   Smith, Dr. Hohn Edward    Dr
3     White, Major, Edward   NaN


In [52]:
import pandas as pd
import re

# 리스트로 일부 데이터 셋 구성
data = {
    'Name' : [
        'Braund, Mr. Owen Harris',
        'Cumings, Mrs. John Bradley (florence Briggs Thayer)',
        'Heikkinen, Miss. Laina',
        'Futrelle, Mrs. Jacques Heath (Lily May Peel)',
        'Allen, Mr.William Henry'
    ]
}

# 데이터 프레임 생성
titanic_df = pd.DataFrame(data)

# 이름에서 타이틀 추출하는 함수 정의
def extract_title(name):
  title_search = re.search(r'(\bMr\b|\bMrs\b|\bMiss\b|\bMaster\b|\bDr\b)', name)
  if title_search:
    return title_search.group(1)
  return None

# 데이터 프레임에 새로운 'Title' 열 추가
titanic_df['Title'] = titanic_df['Name'].apply(extract_title)

# 결과 출력
print(titanic_df[['Name','Title']])

                                                Name Title
0                            Braund, Mr. Owen Harris    Mr
1  Cumings, Mrs. John Bradley (florence Briggs Th...   Mrs
2                             Heikkinen, Miss. Laina  Miss
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)   Mrs
4                            Allen, Mr.William Henry    Mr


In [53]:
# 실습) 정규 표현식을 이해하고 예시를 변형/응용하여 각자의 코드를 작성 후 공유해 봅시다.


In [None]:
import pandas as pd
import numpy as np

file_path1 = '/content/drive/MyDrive/SeSAC/SeSAC_Study/data/test.csv'
file_path2 = '/content/drive/MyDrive/SeSAC/SeSAC_Study/data/train.csv'


In [54]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

df = sns.load_dataset("titanic")
df.head()

import sklearn.model_selection import train_test_split


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [59]:
# 테스트용 샘플 데이터 :
#     'Braund, Mr.Owen Harris',
#     'Cumings, Mrs. John Bradley (Florence Briggs Thayer)',
#     'Heikkinen, Miss. Laina',
#     'Futrelle, Mrs. Jacques Heath (Lily May Peel)',
#     'Allen, Mr. William Henry'

import re

# Titanic 데이터셋의 예시 텍스트
text = [
    'Braund, Mr.Owen Harris',
    'Cumings, Mrs. John Bradley (Florence Briggs Thayer)',
    'Heikkinen, Miss. Laina',
    'Futrelle, Mrs. Jacques Heath (Lily May Peel)',
    'Allen, Mr. William Henry'
]

# 패턴 정의
pattern = r' ([A-Za-z]+)\.'

# ' ' : 공백
# () : 캡쳐 그룹
# A-za-z : 알파벳 대문자, 소문자
# + : 한 개 이상
# \. : 마침표 자체를 출력


# 빈 목록 초기화
matches = []

# 텍스트 중 패턴과 일치하는 값 출력
for t in text:
    MrMrs = re.findall(pattern, t)
    matches.extend(MrMrs)

print("MrMrs: ", matches)

# 출력 결과
# MrMrs:  ['Mr', 'Mrs', 'Miss', 'Mrs', 'Mr']

MrMrs:  ['Mr', 'Mrs', 'Miss', 'Mrs', 'Mr']


# 클래스, 객체, 인스턴스

 - 클래스(Class) : 객체를 만들기 위한 '설계도' 또는 '툴'이라고 생각하면 됩니다.
  - 객체가 가져야 할 속성(데이터)과 메서드(기능)를 정의합니다.

 - 객체(Object) : 클래스를 바탕으로 만들어진 실제 데이터 구조입니다.
  - 클래스에서 정의한 속성과 메서드를 가집니다.

 - 인스턴스(Instance)
  - 클래스로부터 생성된 각각의 객체를 그 클래스의 인스턴스라고 합니다.
  - 객체와 인스턴스는 같은 의미로 사용되는 경우가 많습니다.

In [61]:
class Car:
  def __init__(self, brand, model, color):
    self.brand = brand
    self.model = model
    self.color = color
    self.speed = 0

  def accelerate(self, amount):
    self.speed += amount
    print(f"{self.brand} {self.model}의 속도가 {self.speed}km/h로 증가했습니다.")

# 객체(인스턴스) 생성
car1 = Car("현대", "소나타","흰색")
car2 = Car("기아", "K5","검은색")

# 메서드 호출
car1.accelerate(30)
car2.accelerate(20)

print(f"car1은 {car1.brand} {car1.model} {car1.color}입니다.")
print(f"car2는 {car2.brand} {car2.model} {car2.color}입니다.")

현대 소나타의 속도가 30km/h로 증가했습니다.
기아 K5의 속도가 20km/h로 증가했습니다.
car1은 현대 소나타 흰색입니다.
car2는 기아 K5 검은색입니다.


In [62]:
# Car는 클래스입니다.
# 자동차의 설계도라고 볼 수 있습니다.

# car1과 car2는 Car 클래스의 객체(또는 인스턴스)입니다.
# 실제로 만들어진 자동차라고 볼 수 있습니다.

# brand, model, color, speed는 객체의 속성입니다.

# accelerate는 메서드로, 객체가 수행할 수 있는 동작입니다.

self는 "나"라고 생각하세요:
클래스 안의 메서드에서 "나의 이름","나의 나이" 등을 말할 때
self.name, self.age와 같이 사용합니다.
self를 사용함으로써 각 객체는 자신만의 속성을 가질 수 있습니다.

__init__은 "태어날 때" 라고 생각하세요
 - 객체의 초기 설정
 - 클래스의 생성자
 - 파이썬의 내장 객체

객체가 "태어날 때" (생성될 때) 무엇을 해야 할지 정의합니다.
즉 객체가 가져야 할 기본 속성을 정의
예를 들어, 사람 객체가 태어날 때 이름과 나이를 정해주는 것과 같습니다.

In [63]:
class Person:
  def __init__(self, name, age):
    self.name = name
    self.age = age

  def introduce(self):
    print(f"안녕하세요, 제 이름은 {self.name}이고, {self.age}살입니다.")

# 새로운 Person 객체 생성(태어남)
kim = Person("김철수" ,25)
lee = Person("이영희", 30)

# 각 객체의 메서드 호출
kim.introduce()
lee.introduce()

안녕하세요, 제 이름은 김철수이고, 25살입니다.
안녕하세요, 제 이름은 이영희이고, 30살입니다.


In [64]:
# 클래스를 사용하는 가장 큰 이유
# 객체를 이용해 데이터를 저장하기 위해 -> 변수
# 객체 고유의 기능을 갖기 위해 -> 메서드

In [65]:
class Person:
  name = "홍길동"
  gender = "남자"

p1 = Person()
print(p1.name)

홍길동


In [66]:
# 객체를 이용해 참조할 수 있는 메서드
# 인스턴스 메서드의 첫 번째 인자는 self여야 함
# self 인자는 객체의 멤버(변수 또는 메서드)에 접근하기 위해 사용
class Person:
  def print_info(self):
    print("Person 객체입니다.")

p1 = Person()
p1.print_info()

Person 객체입니다.


In [68]:
class Person:
  name = "홍길동"
  gender = "남자"
  def print_info(self):
    print("{}님은 {}입니다.".format(self.name, self.gender))

p1 = Person()
p1.print_info()

홍길동님은 남자입니다.


In [71]:
# 상속
# 기존의 클래스를 기반으로 새로운 클래스를 만드는 것
# 새로운 클래스는 기존 클래스의 속성과 메서드를 물려받아 사용할 수 있으며,
# 필요에 따라 새로운 속성이나 메서드를 추가하거나 기존의 것을 수정할 수도 있습니다.

# 기본 클래스(부모 클래스):
# 자동차 클래스 : 모든 자동차가 공통으로 가지는 속성과 메서드를 정의합니다

class 자동차:
  def __init__(self, 브랜드, 모델):
    self.브랜드 = 브랜드
    self.모델 = 모델

  def 운전하다(self):
    print(f"{self.브랜드} {self.모델}을(를) 운전합니다.")

# 상속받는 클래스 (자식 클래스):
# 전기자동차 클래스:
# 자동차 클래스를 상속받아 전기차에 특화된 속성과 메서드를 추가합니다.

class 전기자동차(자동차):
  def __init__(self, 브랜드, 모델, 배터리_용량):
    supper().__init__(브랜드,모델)
    self.배터리_용량 = 배터리_용량

  def 충전하다(self):
    print(f"{self.브랜드} {self.모델}의 배터리를 충전합니다.")

# 상속의 장점
# 코드 재사용성 : 공통된 기능을 부모 클래스에 정의해 두면 자식 클래스에서 이를 재사용할 수 있습니다.
# 유지보수 용이 : 코드의 중복을 줄임으로써 유지보수가 쉬워집니다.
# 확장성 : 새로운 기능을 추가하거나 기존 기능을 변경할 때 유연하게 대처할 수 있습니다.

In [73]:
class Person:
  def __init__(self, name, gender):
    self.name = name
    self.gender = gender

  def __str__(self):
    return "name: {0}, gender: {1}".format(self.name, self.gender)

  def print_info(self):
    print("{}님은 {}입니다.".format(self.name, self.gender))

class Student(Person):
  def __init__(self, name, gender, major):
    self.name = name
    self.gender = gender
    self.major = major

  def __del__(self):
    pass

issubclass(Student, Person)

True

In [74]:
# Student 클래스의 생성자는 Person 클래스의 생성자를 이용하여 인스턴스 변수를 초기화
# 부모클래스의 생성자를 호출하여 자식클래스의 변수들을 쉽게 초기화
# 상속관계가 있을 경우 자식 클래스는 부모 클래스의 변수와 메서드를 물려받음

In [None]:
# 정규 표현식 : 심화 예제
# 자연어 처리를 위한 전처리 : 단어 수, 문장 수, 대문자로 시작하는 단어 수(잠재적 고유명사), 숫자 개수,
# 가장 흔한 단어, 이메일 주소 개수 등을 추출

import re
from collections import Counter

def extract_features(text):
  features={}

  # 단어 수 계산
  words = re.findall(r'\b\w+\b', text.lower())
  features['word+count'] = len(words)

  # 문장 수 계산
