# Ứng dụng của **``Regex``** trong **Python**

***Github**: https://github.com/kyphan308hcmus/regex

#### **Thành viên nhóm 9:**
   * **20280010**: Phạm Bảo Cương
   * **20280053**: Cao Huỳnh Anh Khoa
   * **20280057**: Phan Tiến Kỳ
   * **20280099**: Trần Minh Tiến

#### **Ví dụ 1**: Trích xuất ``tên`` từ một chuỗi.
#### **Ví dụ 2**: Trích xuất học sinh có điểm ``B`` từ tập tin **grades.txt**.
#### **Ví dụ 3**: Kiểm tra ``email`` hợp lệ hay không?
#### **Ví dụ 4**: Trích xuất ``email`` và ``số điện thoại`` từ trang web.
#### **Ví dụ 5**: Trích xuất ``địa chỉ`` của các cửa hàng của công ty **Tesla** tại **Mỹ**.
#### **Ví dụ 6**: Trích xuất ``vị trí tuyển dụng`` của công ty **Deloitte** tại **Việt Nam**.

* Trong python, để sử dụng thư viện Regex ta dùng ``import re``.
* ``pyperclip``: sao chép và dán vào bộ nhớ tạm thời.
* ``requests``: yêu cầu HTTP.

In [1]:
!pip3 install pyperclip
import pyperclip
import requests
import re



### **Ví dụ 1**: Trích xuất ``tên`` từ một chuỗi.

In [None]:
def findNames(text):
    pattern = r'[A-Z][a-z]+'
    return re.findall(pattern, text)

In [None]:
text1 = 'Bob is 10 years old, and his sister Mary is 7 years old. Lisa and David, their parents, have 2 kids.'
print(text1)

In [None]:
findNames(text1)

### **Ví dụ 2**: Trích xuất học sinh có điểm ``B`` từ tập tin **grades.txt**.

In [2]:
def findGrades(grades):
    pattern = r'([A-Z]\S+ [A-Z]\S+): [B]'
    return re.findall(pattern, grades)

In [3]:
with open('grades.txt', 'r') as file:
        grades = file.read()
print(grades)

Ronald Mayr: A
Bell Kassulke: B
Jacqueline Rupp: A 
Valentina Denk: C 
Simon Loidl: B 
Elias Jovanovic: B 
Stefanie Weninger: A 
Fabian Peer: C 
Hakim Botros: B
Emilie Lorentsen: B



In [4]:
findGrades(grades)

['Bell Kassulke',
 'Simon Loidl',
 'Elias Jovanovic',
 'Hakim Botros',
 'Emilie Lorentsen']

### **Ví dụ 3**: Kiểm tra ``email`` hợp lệ hay không?

In [5]:
def validateEmail(email):
    pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
    print(email)
    if(re.findall(pattern, email)):
        print("Valid Email.\n")
    else:
        print("Invalid Email.\n")

In [6]:
text3_1 = "ourteam@gmail.com"
print(text3_1)
text3_2 = "abc123@gmail"
print(text3_2)

ourteam@gmail.com
abc123@gmail


In [7]:
validateEmail(text3_1)
validateEmail(text3_2)

ourteam@gmail.com
Valid Email.

abc123@gmail
Invalid Email.



### **Ví dụ 4**: Trích xuất ``email`` và ``số điện thoại`` từ trang web.
* Trang web: https://www.unileverusa.com/news/media-contacts/ | https://nostarch.com/contactus
<center><img src="formatphonenumber.png" width="350"></center> 

In [8]:
def findEmailAndPhoneNumber(text):
    phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?              # Area Code (Optional)
    (\s|-|\.)                       # Separator
    (\d{3})                         # Frist Three Digits
    (\s|-|\.)                       # Separator
    (\d{4})                         # Last Four Digits
    (\s*(ext|x|ext.)\s*(\d{2,5}))?  # Extension
    )''', re.VERBOSE)
    
    emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+               # Username
    @                               # @Symbol
    [a-zA-Z0-9.-]+                  # Domain Name
    (\.[a-zA-Z]{2,})                # dot-something
    )''', re.VERBOSE)

    phone_groups = phoneRegex.findall(text)
    email_groups = emailRegex.findall(text)
    matched = []

    for group in phone_groups:
        matched.append(group[0])

    for group in email_groups:
        matched.append(group[0])

    if len(matched) > 0:
        pyperclip.copy('\n'.join(matched))
        print('Copied to clipboard!\n')
        print('\n'.join(matched))
    else:
        print('No Phone Numbers or Emails found.')

In [9]:
text = str(pyperclip.paste())
findEmailAndPhoneNumber(text)

Copied to clipboard!

201-500-9100
212-642-7707
212-704-4595
212.601.3040
212-819-4867
312-729-4412
212-656-9239
802-658-3773 x 760
212-537-8777
917-344-4656
212-445-8486
201 903 6783
201 903 6783
mediarelations.usa@unilever.com
sydney.spagnoletti@edelman.com
axe@mcsaatchi.com
sean.greenwood@benjerry.com
carly.serrano@edelman.com
Francheska.Taveras@edelman.com
MediaRelations.USA@unilever.com
Molly.Rowlett@edelman.com
Molly.Rowlett@edelman.com
KSlotten@webershandwick.com
Dana.Paolucci@edelman.com
jessica.ostrau@edelman.com
Mediarelations.USA@unilever.com
carly.serrano@edelman.com
Kerry.langstine@bcw-global.com
carly.serrano@edelman.com
carly.serrano@edelman.com
mediarelations.usa@unilever.com
slassen@golin.com
Liz.Harris@edelman.com
carly.serrano@edelman.com
Mediarelations.USA@unilever.com
ZTopper@webershandwick.com
mediarelations.usa@unilever.com
Mediarelations.USA@unilever.com
Mediarelations.USA@unilever.com
Francheska.Taveras@edelman.com
carly.serrano@edelman.com
tameka.davis@olson.c

### **Ví dụ 5**: Trích xuất ``địa chỉ`` của các cửa hàng của công ty **Tesla** tại **Mỹ**.
* Trang web: https://www.tesla.com/findus/list/stores/United+States.
   <center><img src="Tesla.png" width="350"></center> 

In [19]:
def findAddressTesla(text):
    #print(text)
    pattern = r'\r\n\d{1,10}\s+[^,]+,+\s\w{2}\s\d{5}'
    info = re.findall(pattern, text)
    for i in info:
        string = i.replace("\r\n", " ")
        print(string)

In [20]:
text = str(pyperclip.paste())
findAddressTesla(text)

### **Ví dụ 6**: Trích xuất ``vị trí tuyển dụng`` của công ty **Deloitte** tại **Việt Nam**.
* Trang web: https://jobs.sea.deloitte.com/search/?q=data&q2=&alertId=&locationsearch=&title=&location=VN&department=.
<center><img src="Deloitte.png" width="350"></center> 

In [15]:
def findRoleDeloitte():
    html = requests.get("https://jobs.sea.deloitte.com/search/?q=data&q2=&alertId=&locationsearch=&title=&location=VN&department=")
    html.encoding = html.apparent_encoding #utf8
    #print(html.text)
    linkRegex = re.compile('link">(.*?)</a>\n\t')
    text = linkRegex.findall(html.text)
    print(*text, sep="\n")

In [16]:
findRoleDeloitte()

Consultant/Senior Consultant - Salesforce Technical - HN/HCM
Consultant - Advertising, Marketing &amp; Commerce (Salesforce Marketing Cloud Functional) - HN/HCM
Intern - Financial Advisory
Senior Manager/ Director - Advertising, Marketing &amp; Commerce (Adobe Lead) - VN
Intern, Risk Advisory - Financial Risk
Senior Manager/ Director - Advertising, Marketing &amp; Commerce (Country Digital Lead) - VN
Tax Consultant - Transfer Pricing
Senior CMBD
Senior Consultant - Strategy &amp; Business Design (Monitor Deloitte) - VN
Platform Implementation Project Manager/Developer
Intern, Operational Risk Advisory
Experienced Associate - Audit &amp; Assurance (HN&amp;HCM)
Senior Consultant - SAP Master Data - VN
Analyst - Audit &amp; Assurance - Advisory Services
Consulting Analyst - VN
Consultant/Senior Consultant - Financial Advisory - M&amp;A Transaction Services
Senior Consultant - Risk Advisory - Operational Risk
Senior Associate - Audit &amp; Assurance (HN&amp;HCM)
Risk Advisory Consultant - 