# 8. Strings and Regular Expressions

## 8.1. A string is a sequence

In [1]:
fruit = 'banana'
letter = fruit[1]

In [2]:
letter

'a'

In [3]:
fruit[0]

'b'

In [4]:
i = 1
fruit[i]

'a'

In [5]:
fruit[i + 1]

'n'

In [6]:
fruit[1.5]

TypeError: string indices must be integers, not 'float'

In [7]:
n = len(fruit)
n

6

In [8]:
fruit[n]

IndexError: string index out of range

In [9]:
fruit[n - 1]

'a'

In [10]:
fruit[-1]

'a'

## 8.2. String slices

In [11]:
fruit = 'banana'
fruit[0:3]

'ban'

In [12]:
fruit[:3]

'ban'

In [13]:
fruit[3:]

'ana'

In [14]:
fruit[3:3]

''

## 8.3. Strings are immutable

In [15]:
greeting = 'Hello, world!'
greeting[0] = 'J'

TypeError: 'str' object does not support item assignment

In [16]:
new_greeting = 'J' + greeting[1:]
new_greeting

'Jello, world!'

In [17]:
greeting

'Hello, world!'

## 8.4. String comparison

In [18]:
word = 'banana'

if word == 'banana':
    print('All right, banana.')

All right, banana.


In [19]:
def compare_word(word):
    if word < 'banana':
        print(word, 'comes before banana.')
    elif word > 'banana':
        print(word, 'comes after banana.')
    else:
        print('All right, banana.')

In [20]:
compare_word('apple')

apple comes before banana.


In [21]:
compare_word('Pineapple')

Pineapple comes before banana.


## 8.5. String methods

In [22]:
word = 'banana'
new_word = word.upper()
new_word

'BANANA'

## 8.6. Writing files

In [23]:
reader = open('pg345.txt', encoding='utf-8')

In [24]:
def is_special_line(line):
    return line.startswith('*** ')

In [25]:
for line in reader:
    if is_special_line(line):
        print(line.strip())

*** START OF THE PROJECT GUTENBERG EBOOK DRACULA ***
*** END OF THE PROJECT GUTENBERG EBOOK DRACULA ***


In [26]:
reader = open('pg345.txt', encoding='utf-8')
writer = open('pg345_cleaned.txt', 'w', encoding='utf-8')

In [27]:
for line in reader:
    if is_special_line(line):
        break

In [28]:
line

'*** START OF THE PROJECT GUTENBERG EBOOK DRACULA ***\n'

In [29]:
for line in reader:
    if is_special_line(line):
        break
    writer.write(line)

In [30]:
line

'*** END OF THE PROJECT GUTENBERG EBOOK DRACULA ***\n'

In [31]:
reader.close()
writer.close()

In [32]:
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    line = line.strip()
    if len(line) > 0:
        print(line)
    if line.endswith('Stoker'):
        break

DRACULA
_by_
Bram Stoker


## 8.7. Find and replace

In [33]:
total = 0
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    total += 1

total

15475

In [34]:
total = 0
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    if 'Jonathan' in line:
        total += 1

total

199

In [35]:
total = 0
for line in open('pg345_cleaned.txt', encoding='utf-8'):
    total += line.count('Jonathan')

total

200

In [36]:
writer = open('pg345_replaced.txt', 'w', encoding='utf-8')

for line in open('pg345_cleaned.txt', encoding='utf-8'):
    line = line.replace('Jonathan', 'Thomas')
    writer.write(line)

## 8.8. Regular expressions

In [37]:
text = "I am Dracula; and I bid you welcome, Mr. Harker, to my house."

In [38]:
pattern = 'Dracula'

In [39]:
import re

result = re.search(pattern, text)
result

<re.Match object; span=(5, 12), match='Dracula'>

In [40]:
result.string

'I am Dracula; and I bid you welcome, Mr. Harker, to my house.'

In [41]:
result.group()

'Dracula'

In [42]:
result.span()

(5, 12)

In [43]:
result = re.search('Count', text)
print(result)

None


In [44]:
result == None

True

In [45]:
def find_first(pattern):
    for line in open('pg345_cleaned.txt', encoding='utf-8'):
        result = re.search(pattern, line)
        if result != None:
            return result

In [46]:
result = find_first('Harker')
result.string

'CHAPTER I. Jonathan Harker’s Journal\n'

In [47]:
pattern = 'Mina|Murray'
result = find_first(pattern)
result.string

'CHAPTER V. Letters—Lucy and Mina\n'

In [48]:
def count_matches(pattern):
    count = 0
    for line in open('pg345_cleaned.txt', encoding='utf-8'):
        result = re.search(pattern, line)
        if result != None:
            count += 1
    return count

In [49]:
count_matches('Mina|Murray')

229

In [50]:
result = find_first('^Dracula')
result.string

'Dracula, jumping to his feet, said:--\n'

In [51]:
result = find_first('Harker$')
result.string

'by five o’clock, we must start off; for it won’t do to leave Mrs. Harker\n'

## 8.9. String substitution

In [52]:
pattern = 'cent(er|re)'

In [53]:
result = find_first(pattern)
result.string

'horseshoe of the Carpathians, as if it were the centre of some sort of\n'

In [54]:
pattern = 'colou?r'

In [55]:
result = find_first(pattern)
line = result.string
line

'undergarment with long double apron, front, and back, of coloured stuff\n'

In [56]:
re.sub(pattern, 'color', line)

'undergarment with long double apron, front, and back, of colored stuff\n'

## 8.10. Debugging

- 윈도우 환경으로 shell commands 사용이 어려움.

> ```shell  
> !head pg345_cleaned.txt  
> !tail pg345_cleaned.txt  
> !head pg345_cleaned.txt > pg345_cleaned_10_lines.txt  
> !head -100 pg345_cleaned.txt > pg345_cleaned_100_lines.txt  
> ```  

## 8.11. Glossary

- sequence
- character
- index
- slice
- empty string
- object
- immutable
- invocation
- regular expression
- pattern
- string substitution
- shell command

## 8.12. Exercises

### 8.12.1. Ask a virtual assistant

- 파이썬 정규 표현식에서 가장 많이 쓰이는 특수 문자가 뭐야?
    > 파이썬 정규 표현식에서 가장 많이 쓰이는 **특수 문자(메타 문자)**는 다음과 같아요. 자주 쓰이는 순서대로 정리해 볼게요:
    > 
    > ### 🔟 자주 쓰이는 정규표현식 특수 문자 TOP 10
    > 
    > | 순위  | 메타 문자 | 의미                                             |                     |       |
    > | --- | ----- | ---------------------------------------------- | ------------------- | ----- |
    > | 1️⃣ | `.`   | **임의의 한 문자** (줄바꿈 제외)                          |                     |       |
    > | 2️⃣ | `^`   | **문자열의 시작**                                    |                     |       |
    > | 3️⃣ | `$`   | **문자열의 끝**                                     |                     |       |
    > | 4️⃣ | `*`   | **0회 이상 반복**                                   |                     |       |
    > | 5️⃣ | `+`   | **1회 이상 반복**                                   |                     |       |
    > | 6️⃣ | `?`   | **0회 또는 1회** (있거나 없거나)                         |                     |       |
    > | 7️⃣ | `[]`  | **문자 집합** (ex: `[abc]`는 a, b, c 중 하나)          |                     |       |
    > | 8️⃣ | `     | `                                              | **OR 연산** (ex: `cat | dog`) |
    > | 9️⃣ | `()`  | **그룹화** 또는 **캡처**                              |                     |       |
    > | 🔟  | `\`   | **이스케이프 문자** 또는 **특수 문자 축약표현** (예: `\d`, `\w`) |                     |       |
    > 
    > ### ✅ 자주 쓰이는 축약 표현 (`\` 관련)
    > 
    > | 표현   | 의미                     |
    > | ---- | ---------------------- |
    > | `\d` | 숫자 (0-9)               |
    > | `\D` | 숫자가 아닌 문자              |
    > | `\w` | 단어 문자 (알파벳 + 숫자 + `_`) |
    > | `\W` | 단어 문자가 아닌 것            |
    > | `\s` | 공백 문자 (스페이스, 탭, 줄바꿈 등) |
    > | `\S` | 공백이 아닌 문자              |
    > | `\b` | 단어 경계                  |
    > | `\B` | 단어 비경계                 |
    > 
    > ### 🎯 예시
    > 
    > ```python
    > import re
    > 
    > text = "Hello 123 World"
    > 
    > # 숫자 찾기
    > re.findall(r'\d+', text)  # ['123']
    > 
    > # 단어 찾기
    > re.findall(r'\w+', text)  # ['Hello', '123', 'World']
    > ```

- 숫자 10개와 하이픈으로 이루어진 전화번호를 찾는 파이썬 정규 표현식 만들어줘.
    > 물론이죠! 전화번호가 **숫자 10개 + 하이픈(-)** 형식이라면, 일반적인 패턴은 보통 다음과 같아요:
    > 
    > ### 📞 전화번호 형식 예시
    > 
    > * `010-1234-5678`
    > * `011-987-1234`
    > 
    > 이런 형식을 찾는 **정규 표현식**은 아래와 같습니다:
    > 
    > ### ✅ 정규표현식 패턴
    > 
    > ```python
    > r'\b\d{2,3}-\d{3,4}-\d{4}\b'
    > ```
    > 
    > ### 🔍 설명
    > 
    > | 패턴        | 의미                        |
    > | --------- | ------------------------- |
    > | `\b`      | 단어 경계 (필요시)               |
    > | `\d{2,3}` | 앞 번호: 2~3자리 (ex. 010, 02) |
    > | `-`       | 하이픈                       |
    > | `\d{3,4}` | 중간 번호: 3~4자리              |
    > | `-`       | 하이픈                       |
    > | `\d{4}`   | 마지막 번호: 4자리               |
    > | `\b`      | 단어 경계 (선택적)               |
    > 
    > ### 🧪 예제 코드
    > 
    > ```python
    > import re
    > 
    > text = """
    > 홍길동: 010-1234-5678
    > 김철수: 011-987-1234
    > 오류: 01012345678
    > """
    > 
    > pattern = r'\b\d{2,3}-\d{3,4}-\d{4}\b'
    > matches = re.findall(pattern, text)
    > 
    > print(matches)
    > ```
    > 
    > **출력:**
    > 
    > ```
    > ['010-1234-5678', '011-987-1234']
    > ```
    > 
    > ### 📌 참고
    > 
    > * 하이픈 없이 붙은 숫자 (`01012345678`)는 위 정규식에서는 **무시**됩니다.
    > * 만약 **하이픈이 있는 형식만 찾고자 한다면**, 이 패턴이 적합합니다.
    > * 만약 모든 전화번호 포맷(하이픈 유무 포함)을 포괄하려면 별도로 수정해드릴 수 있어요.

- 숫자와 ST 혹은 AVE로 끝나는 도로명으로 표현되는 주소를 찾는 파이썬 정규 표현식 만들어줘.
    > 좋아요! 요청하신 조건을 정리하면 다음과 같습니다:
    > 
    > ### 🏙️ 조건
    > 
    > * **숫자**로 시작
    > * **도로명** (영어 단어)
    > * **"ST" 또는 "AVE"** 로 끝남
    > * 예:
    >   * `123 Main ST`
    >   * `456 Elm AVE`
    > 
    > ## ✅ 정규 표현식
    > 
    > ```python
    > r'\b\d+\s+\w+\s+(ST|AVE)\b'
    > ```
    > 
    > ### 🔍 설명
    > 
    > | 패턴    | 의미                          |               |
    > | ----- | --------------------------- | ------------- |
    > | `\b`  | 단어 경계 (선택적으로 정확한 매칭을 위해 사용) |               |
    > | `\d+` | 숫자 1개 이상                    |               |
    > | `\s+` | 공백 1개 이상                    |               |
    > | `\w+` | 도로명 (알파벳, 숫자, 언더스코어 포함된 단어) |               |
    > | `\s+` | 공백                          |               |
    > | `(ST  | AVE)`                       | `ST` 또는 `AVE` |
    > | `\b`  | 단어 경계                       |               |
    > 
    > ### 🧪 예제 코드
    > 
    > ```python
    > import re
    > 
    > text = """
    > 123 Main ST
    > 456 Elm AVE
    > 789 Pine Rd
    > 321 Oak BLVD
    > """
    > 
    > pattern = r'\b\d+\s+\w+\s+(ST|AVE)\b'
    > matches = re.findall(pattern, text)
    > print("Matches:", matches)
    > 
    > # 전체 주소 추출하려면 re.findall 대신 re.finditer 사용:
    > full_matches = [m.group() for m in re.finditer(pattern, text)]
    > print("Full addresses:", full_matches)
    > ```
    > 
    > **출력:**
    > 
    > ```
    > Matches: ['ST', 'AVE']
    > Full addresses: ['123 Main ST', '456 Elm AVE']
    > ```
    > 
    > ### 🛠️ 참고
    > 
    > * 대소문자를 구분하지 않게 하려면 `re.IGNORECASE` 옵션을 추가하세요:
    > 
    > ```python
    > re.findall(pattern, text, re.IGNORECASE)
    > ```
    > 
    > * 도로명이 두 단어 이상일 경우(`123 N Main ST`)까지 포괄하려면 정규식을 조금 확장해야 합니다. 원하시면 그 버전도 알려드릴게요.

- Mr 또는 Mrs와 같은 일반적인 호칭으로 시작하고, 대문자로 시작하는 이름들이 이어지며, 일부 이름에는 하이픈이 있을 수도 있는 전체 이름을 매칭하는 파이썬 정규 표현식 만들어줘.
    > ### ✅ 파이썬 정규 표현식 예시:
    > 
    > ```python
    > import re
    > 
    > pattern = r'\b(Mr|Mrs|Ms|Dr|Prof)\.?\s+([A-Z][a-z]+(-[A-Z][a-z]+)?\s+)*[A-Z][a-z]+(-[A-Z][a-z]+)?\b'
    > ```
    > 
    > ### 🔍 설명
    > 
    > | 패턴                                 | 의미                                   |    |    |        |                     |
    > | ---------------------------------- | ------------------------------------ | -- | -- | ------ | ------------------- |
    > | `\b`                               | 단어 경계                                |    |    |        |                     |
    > | `(Mr                               | Mrs                                  | Ms | Dr | Prof)` | 일반적인 호칭 (필요시 추가 가능) |
    > | `\.?`                              | 점(`.`)은 선택적                          |    |    |        |                     |
    > | `\s+`                              | 공백                                   |    |    |        |                     |
    > | `([A-Z][a-z]+(-[A-Z][a-z]+)?\s+)*` | 대문자로 시작하는 이름 + 선택적 하이픈 이름 (0회 이상 반복) |    |    |        |                     |
    > | `[A-Z][a-z]+(-[A-Z][a-z]+)?`       | 마지막 이름 (또는 성)                        |    |    |        |                     |
    > | `\b`                               | 단어 경계                                |    |    |        |                     |
    > 
    > ### 🧪 예제 코드
    > 
    > ```python
    > import re
    > 
    > text = """
    > Mr. John Smith
    > Mrs Jane Doe-Smith
    > Dr Albert Einstein
    > Prof. Emily-Marie Clark
    > Ms Anna
    > """
    > 
    > pattern = r'\b(Mr|Mrs|Ms|Dr|Prof)\.?\s+([A-Z][a-z]+(-[A-Z][a-z]+)?\s+)*[A-Z][a-z]+(-[A-Z][a-z]+)?\b'
    > matches = re.findall(pattern, text)
    > 
    > # 전체 매칭된 이름 추출
    > full_matches = [m[0] for m in re.finditer(pattern, text)]
    > print("Full names:", full_matches)
    > ```
    > 
    > ### ✅ 출력 결과:
    > 
    > ```
    > Full names: ['Mr. John Smith', 'Mrs Jane Doe-Smith', 'Dr Albert Einstein', 'Prof. Emily-Marie Clark', 'Ms Anna']
    > ```
    > 
    > ### 📌 참고
    > 
    > * `Mr`, `Mrs`, `Ms`, `Dr`, `Prof` 등 **필요한 호칭을 자유롭게 추가**할 수 있어요.
    > * 이름 사이에 여러 개의 공백이 있거나, 복잡한 성을 가진 경우는 **추가적인 조정**이 필요할 수 있어요.
    > * `re.IGNORECASE` 옵션은 보통 필요 없지만, 필요하면 함께 사용 가능합니다.

- 파이썬에서 raw string이 뭐야?
    > 좋은 질문이에요!
    > 
    > ### 📌 파이썬에서 **raw string**이란?
    > 
    > 문자열 앞에 접두사로 `r` 또는 `R`을 붙여 **"있는 그대로" 해석**되도록 만든 문자열입니다.
    > 즉, 백슬래시(`\`)를 **이스케이프 문자로 해석하지 않고**, **그 자체로** 사용하는 문자열이에요.
    > 
    > ### ✅ 일반 문자열 vs Raw 문자열 비교
    > 
    > ```python
    > # 일반 문자열 (이스케이프 처리됨)
    > s1 = "Hello\nWorld"
    > print(s1)
    > ```
    > 
    > 출력:
    > 
    > ```
    > Hello
    > World
    > ```
    > 
    > ```python
    > # Raw 문자열 (백슬래시를 문자 그대로 출력)
    > s2 = r"Hello\nWorld"
    > print(s2)
    > ```
    > 
    > 출력:
    > 
    > ```
    > Hello\nWorld
    > ```
    > 
    > ### 💡 왜 필요할까?
    > 
    > #### 주로 **정규 표현식**에서 많이 사용돼요!
    > 
    > 정규표현식에는 백슬래시가 자주 나오는데,
    > 일반 문자열로 쓰면 `\\`처럼 두 번 써야 해서 복잡해져요.
    > 
    > ```python
    > import re
    > 
    > # 일반 문자열 (백슬래시 2개)
    > pattern1 = "\\d+"
    > 
    > # raw 문자열 (그냥 백슬래시 한 개)
    > pattern2 = r"\d+"
    > 
    > re.findall(pattern2, "My number is 1234")  # ['1234']
    > ```
    > 
    > ### 🎯 정리하면
    > 
    > | 구분       | 의미                            |
    > | -------- | ----------------------------- |
    > | `"..."`  | 일반 문자열 (이스케이프 문자 해석)          |
    > | `r"..."` | raw 문자열 (이스케이프 문자 무시, 그대로 사용) |

### 8.12.2. Exercise

In [57]:
def head(read_file, num_lines, write_file=None):
    read_file_object = open(read_file, encoding='utf-8')
    if write_file:
        write_file_object = open(write_file, 'w', encoding='utf-8')
    for i in range(num_lines):
        line = read_file_object.readline()
        if write_file:
            write_file_object.write(line)
        else:
            print(line, end='')
    
    read_file_object.close()
    if write_file:
        write_file_object.close()

In [58]:
head('pg345_cleaned.txt', 10)





                                DRACULA

                                  _by_

                              Bram Stoker



In [59]:
head('pg345_cleaned.txt', 100, 'pg345_cleaned_100_lines.txt')

### 8.12.3. Exercise

In [60]:
def uses_any(word, letters):
    for letter in word.lower():
        if letter in letters.lower():
            return True
    return False

In [61]:
def check_word(word):
    word = word.lower()
    if 'e' not in word:
        return False
    if word[2] == 'e' or word[4] == 'e':
        return False
    if uses_any(word, 'spadclrk'):
        return False
    
    return True

In [62]:
for line in open('words.txt'):
    word = line.strip()
    if len(word) == 5 and check_word(word):
        print(word)

befit
befog
beget
begin
begot
begum
begun
beigy
being
bemix
benni
benny
beton
bewig
bogey
boney
buteo
ebbet
ebony
eight
embow
emmet
enfin
enjoy
ennui
envoi
envoy
enzym
eying
feign
feint
fenny
feoff
fogey
fumet
gemmy
gemot
genet
genii
genom
given
gooey
hefty
heigh
hemin
heugh
homey
honey
hooey
hymen
jemmy
jenny
jeton
jetty
meiny
mezzo
mizen
money
motet
motey
neigh
netty
nomen
numen
often
quiet
tenet
tenon
tenth
tenty
teugh
thief
totem
unmet
unmew
veiny
venin
venom
vimen
vixen
webby
weigh
wenny
winey
witen
wizen
women
woven
xenon
zibet


### 8.12.4. Exercise

In [63]:
def check_word2(word):
    word = word.lower()
    if 'e' not in word:
        return False
    if word[2] == 'e' or word[3] == 'e' or word[4] == 'e':
        return False
    if word[4] != 'm':
        return False
    if uses_any(word, 'spadclrk'):
        return False
    
    return True

In [64]:
for line in open('words.txt'):
    word = line.strip()
    if len(word) == 5 and check_word2(word):
        print(word)

begum
enzym
genom
venom


### 8.12.5. Exercise

In [65]:
def clean_file(input_file, output_file):
    reader = open(input_file, encoding='utf-8')
    writer = open(output_file, 'w', encoding='utf-8')

    for line in reader:
        if is_special_line(line):
            break

    for line in reader:
        if is_special_line(line):
            break
        writer.write(line)
        
    reader.close()
    writer.close()

clean_file('pg1184.txt', 'pg1184_cleaned.txt')

In [66]:
def count_matches(pattern):
    count = 0
    for line in open('pg1184_cleaned.txt', encoding='utf-8'):
        result = re.search(pattern, line)
        if result:
            count += 1
    return count

In [67]:
pattern = r'\b(pale|pales|paled|paleness|pallor)\b'
count_matches(pattern)

223