# Basic String Manipulation with Python

## Converting Text to a Standard Format

In [116]:
county_table1 = ["De Witt County",
                    "Lac qui Parle County",
                    "Lewis and Clark County",
                    "St John the Baptist Parish"]
county_table2 = ["DeWitt",
                    "Lac Qui Parle",
                    "Lewis & Clark",
                    "St. John the Baptist"]

In [None]:
def clean_county(name):
    return (name
            .lower()
            .replace("county","")
            .replace("parish","")
            .replace("&","and")
            .replace(".","")
            .replace(" ",""))

In [None]:
for name in county_table1:
    print(clean_county(name))
print()
for name in county_table2:
    print(clean_county(name))

## Splitting Strings to Extract Pieces of Text

In [None]:
text_log = """169.237.46.168 - - [26/Jan/2004:10:47:58 -0800]"GET /stat141/Winter04 HTTP/1.1"
301 328 "http://anson.ucdavis.edu/courses""Mozilla/4.0 (compatible; MSIE 6.0;
Windows NT 5.0; .NET CLR 1.1.4322)"""
print(text_log)




Extract Day, Month, Year

In [None]:
text_log.split('[')[1].split(':')[0].split('/')

# Regular Expression

In [None]:
import re

def show_regex_match(text, regex):
    '''
    Prints the string with the regex match highlighted.
    
    This function is modified from this source:
    https://www.textbook.ds100.org/ch/12/text_regex.html
    '''
    result = re.sub(f'({regex})', r'\033[1;30;43m\1\033[m', text)
    result = result.replace('\n', '\\n') # Make \n visible
    print(result)

## Literal

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
regex = r'email'
show_regex_match(text, regex)

In [None]:
s = '\t123'
print(s)

In [None]:
# Raw string
s = r'\t123'
print(s)

In [None]:
# Regex phân biệt viết hoa và viết thường
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
regex = r'n'
show_regex_match(text, regex)

## Character set

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi gồm 1 ký tự trong tập gồm 7 ký tự: 
# 1, 2, 3, a, b, c, .
regex = r'[123abc.]'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Dùng cú pháp [] để viết regex ứng với các US phone
regex = r'[0123456789][0123456789][0123456789]-[0123456789][0123456789][0123456789]-[0123456789][0123456789][0123456789][0123456789]'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Dùng cú pháp [start-end] để viết regex ứng với các US phone
regex = r'[0-9][0-9][0-9]-[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi gồm 1 ký tự mà không phải là số
regex = r'[^0-9]'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi gồm 1 ký tự trong tập gồm 4 ký tự: 
# ^, 0, -, 9
# regex = r'[\^0\-9]'
regex = r'[09^-]'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi gồm 3 ký tự không phải là newline 
# và ký tự đầu là e
regex = r'e..' 
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi gồm 1 ký tự trong tập gồm:
# các ký tự chữ cái từ a đến z (cả viết thường lẫn viết hoa),
# các ký tự số từ 0 đến 9
# và ký tự _
regex = r'[a-zA-Z0-9_]'
# regex = r'\w'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Dùng cú pháp \d để viết regex ứng với các US phone
regex = r'\d\d\d-\d\d\d-\d\d\d\d'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Đố: viết regex ứng với chuỗi gồm một ký tự bất kỳ
regex = r'[\d\D]'
show_regex_match(text, regex)

## Quantifier


In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Dùng cú pháp \d & quantifier để viết regex ứng với các US phone
regex = r'\d{3}-\d{3}-\d{4}'
show_regex_match(text, regex)

In [None]:
# Tính greedy của quantifier
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000. 
'''.strip()
regex = r'1.+3'
show_regex_match(text, regex)

## Group 

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Dùng cú pháp \d & quantifier & group để viết regex 
# ứng với các US phone
regex = r'(\d{3}-){2}\d{4}'
show_regex_match(text, regex)

## Anchor

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi con "email" ở đầu chuỗi
regex = r'^email'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi con "." ở cuối chuỗi
regex = r'\.$'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi con "e" ở đầu từ
# \b thể hiện boundary, Nó có chiều dài = 0, match với khoảng trắng hoặc dấu câu
regex = r'\be'
show_regex_match(text, regex)

In [None]:
text = '''
Nam có mail là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với chuỗi con "e" ở đầu từ
# \B pattern không bắt đầu

regex = r'\Bmail'
show_regex_match(text, regex)

## Or 

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
# Viết regex ứng với các email đuôi gmail hoặc yahoo
regex = r'\w+@(gmail|yahoo)\.com'
show_regex_match(text, regex)

# Regex trong Python

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
regex = r'(\w+)@(gmail|yahoo)\.com'
match = re.search(regex, text)
match

In [None]:
text[16:32]

In [None]:
match.group(0)

In [None]:
match.group(1)

In [None]:
match.group(2)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
regex = r'(\w+)@(gmail|yahoo)\.com'
matches = re.finditer(regex, text)
for match in matches:
    print(match)

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
regex = r'(\w+)@(gmail|yahoo)\.com'
matches = re.findall(regex, text)
matches

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
regex = r'\w+@' # Không có group
matches = re.findall(regex, text)
matches

In [None]:
text = '1/1/2021, 5-1-2021, 3.1.2021, 4*1*2021'
# text.replace('-', '/').replace('.', '/').replace('*', '/')
re.sub(r'[-.*]', '/', text)

In [None]:
text = '''
Chương 1: C..............01
Chương 2: C++............05
Chương 3: Python.........10
'''.strip()

lines = text.split('\n')
for line in lines:
    print(re.split(r'\.+', line))

In [None]:
text = '''
Nam có email là nam123@gmail.com và có phone là 382-384-3840.
Hoa có email là hoa456@yahoo.com và có phone là 382-384-4000.
'''.strip()
regex = r'nam'
matches = re.findall(regex, text, re.IGNORECASE)
matches

# Text Analysis Project

In [None]:
file = open('Data/stateoftheunion1790-2022.txt', 'r')
text = file.read()
text

**The number of speeches**

In [None]:
import re
num_speeches = len(re.findall(r"\*\*\*", text))
print(f'There are {num_speeches} speeches total')

In [None]:
records = text.split("***")

In [None]:
records = records[1:]

**Exttract name, date, and	text of the speech**

In [None]:
def extract_parts(speech):
    speech = speech.strip().split('\n')[1:]
    [name, date, *lines] = speech
    body = '\n'.join(lines).strip()
    return [name, date, body]

In [None]:
speeches = {}
column_name = ['name','date','body']
for name in column_name:
    speeches[name] = []
for s in records:
    info = extract_parts(s)
    for i in range(len(column_name)):
        speeches[column_name[i]].append(info[i])
speeches

In [None]:
print(speeches['body'][0][0:50])

**Clean text**

- Capitalization shouldn’t matter: "Citizens" and "citizens" should be considered the same word. We can address this by lowercasing the text.

- There are unspoken remarks in the text: [laughter] points out where the audience laughed, but these shouldn’t count as part of the speech. We can address this by using a regex to remove text within brackets: \[\w+\]. 

- We should take out characters that aren’t letters or whitespace: some speeches talk about finances, but a dollar amount shouldn’t count as a word. We can use the regex [^a-z\s] to remove these characters. This regex matches any character that isn’t a lowercase letter (a-z) or a whitespace character (\s).

In [None]:
def clean_text(text):
    text = text.lower()
    bracket_re = re.compile(r'\[\w+\]')
    text = re.sub(r'[^a-z\s]','',text)
    return text

In [None]:
cleaned_speeches = [clean_text(s) for s in speeches['body']]
cleaned_speeches

In [None]:
speeches