In [6]:
import os
import pathlib
import re

directory_name = 'C:\...your_own_directory'
data_files = pathlib.Path(directory_name).glob("*.txt")

frequency = {}
for file in data_files:
    get_file = open(file, 'r')
    text = get_file.read().lower()
    #단어 사이의 경계를 구분짓는 \b
    #따라서 space 사이에 알파벳 적어도 하나가 존재한다는 조건 제공
    #정규표현식
    match_pattern = re.findall(r'\b[a-z]+\b', text)
    print(match_pattern)
    for word in match_pattern:
        count = frequency.get(word, 0)
        frequency[word] = count + 1


['piano', 'table', 'sofa']
['desk', 'chair', 'piano']


In [3]:
text = get_file.read().lower()
match_pattern = re.findall(r"\b[a-z]{2,4}\b", text)
print(match_pattern)

[]


In [8]:
text = get_file.read()
match_pattern = re.findall(r"\b[a-z]+\b", text)
print(match_pattern)

[]


In [9]:
text = get_file.read()
match_pattern = re.findall(r"\b[a-zA-Z]+\b", text)
print(match_pattern)

[]


# 정규표현식 (Regular Expressions) 핵심 요약

## 0. **정규표현식이란?**
정규표현식(Regex)은 특정 패턴과 일치하는 문자열을 검색, 추출, 치환하기 위한 강력한 도구입니다. 문자열 데이터 처리에서 자주 사용되며, 프로그래밍 언어나 텍스트 편집기 등에서 지원됩니다.


---


## 1. **기본 패턴**
| 패턴 | 설명 | 예시 |
|------|------|------|
| `.` | 임의의 문자 하나 | `a.b`는 "a+b", "a-b"와 매칭 |
| `\d` | 숫자 (0-9) | `\d+`는 "123", "42"와 매칭 |
| `\D` | 숫자가 아닌 문자 | `\D+`는 "abc", "@#$"와 매칭 |
| `\w` | 단어 문자 (알파벳 + 숫자 + _) | `\w+`는 "hello", "abc123"와 매칭 |
| `\W` | 단어 문자가 아닌 것 | `\W+`는 "@#", " "와 매칭 |
| `\s` | 공백 문자 (스페이스, 탭 등) | `\s+`는 " ", "\t"와 매칭 |
| `\S` | 공백이 아닌 문자 | `\S+`는 "abc", "123"와 매칭 |


---

## 2. **반복 패턴**
| 패턴 | 설명 | 예시 |
|------|------|------|
| `*` | 0회 이상 반복 | `ab*`는 "a", "ab", "abbbb"와 매칭 |
| `+` | 1회 이상 반복 | `ab+`는 "ab", "abbbb"와 매칭 |
| `?` | 0회 또는 1회 반복 | `ab?`는 "a", "ab"와 매칭 |
| `{n}` | 정확히 n번 반복 | `a{3}`는 "aaa"와 매칭 |
| `{n,}` | 최소 n번 반복 | `a{2,}`는 "aa", "aaa"와 매칭 |
| `{n,m}` | n에서 m번 반복 | `a{2,4}`는 "aa", "aaa", "aaaa"와 매칭 |

---

## 3. **위치 지정**
| 패턴 | 설명 | 예시 |
|------|------|------|
| `^` | 문자열의 시작 | `^abc`는 "abc"로 시작하는 문자열과 매칭 |
| `$` | 문자열의 끝 | `abc$`는 "abc"로 끝나는 문자열과 매칭 |
| `\b` | 단어 경계 | `\bword\b`는 "word"라는 단어와 매칭 |
| `\B` | 단어 경계가 아님 | `\Bword\B`는 "swordfish"와 매칭 |

---

## 4. **문자 클래스**
| 패턴 | 설명 | 예시 |
|------|------|------|
| `[abc]` | `a`, `b`, 또는 `c` 중 하나 | `[abc]`는 "a", "b", "c"와 매칭 |
| `[^abc]` | `a`, `b`, `c`가 아닌 것 | `[^abc]`는 "d", "e"와 매칭 |
| `[a-z]` | 소문자 알파벳 범위 | `[a-z]`는 "a", "b", ..., "z"와 매칭 |
| `[A-Z]` | 대문자 알파벳 범위 | `[A-Z]`는 "A", "B", ..., "Z"와 매칭 |
| `[0-9]` | 숫자 범위 | `[0-9]`는 "0", "1", ..., "9"와 매칭 |

---

## 5. **텍스트 전처리에 자주 쓰는 패턴**
| 정규식 | 용도 | 예시 |
|--------|------|------|
| `\s+` | 여러 공백 제거 | `"Hello   World!" → "Hello World!"` |
| `[^\w\s]` | 특수 문자 제거 | `"Hello, World!" → "Hello World"` |
| `\d+` | 숫자 추출 | `"Order 123" → "123"` |
| `https?://\S+` | URL 제거 | `"Visit http://example.com" → "Visit"` |
| `@\w+` | 트위터 핸들 제거 | `"@user Hello!" → "Hello!"` |
| `#[\w]+` | 해시태그 추출 | `"#NLP is great" → "#NLP"` |

---

## 6. **파이썬에서의 활용**
```python
import re

# 예시 텍스트
text = "Hello, World! Visit http://example.com or email me at test@example.com"

# URL 제거
cleaned_text = re.sub(r'https?://\S+', '', text)
print(cleaned_text)  # "Hello, World! Visit or email me at test@example.com"

# 이메일 추출
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
print(emails)  # ['test@example.com']
