# 作業目標: 使用python正規表達式對資料進行清洗處理

這份作業我們會使用詐欺郵件的文本資料來作為清洗與處理的操作。
[資料集](https://www.kaggle.com/rtatman/fraudulent-email-corpus/data#)

### 讀入資料文本
因原始文本較大，先使用部份擷取的**sample_emails.txt**來進行練習

In [None]:
#讀取文本資料
#<your code>#

In [1]:
import pandas as pd
dataset = pd.read_table(r'sample_emails.txt',sep='\n')
print(dataset)
str = open('sample_emails.txt', 'r').read()

                      From r  Wed Oct 30 21:41:56 2002
0           Return-Path: <james_ngola2002@maktoob.com>
1                               X-Sieve: cmu-sieve 2.0
2           Return-Path: <james_ngola2002@maktoob.com>
3      Message-Id: <200210310241.g9V2fNm6028281@cs.CU>
4    From: "MR. JAMES NGOLA." <james_ngola2002@makt...
..                                                 ...
133  Nevertheless if you are for any reason not int...
134  kindly inform me immediately so that I will lo...
135             I am waiting for your quick response. 
136                                 Yours faithfully, 
137                                Prince Obong Abbot 

[138 rows x 1 columns]


### 讀取寄件者資訊
觀察文本資料可以發現, 寄件者資訊都符合以下格式

`From: <收件者姓名> <收件者電子郵件>`

In [None]:
#<your code>#

In [37]:
import re
pattern="From: \".*"
match1 = re.findall(pattern, str)
print (match1)
match1='\n'.join(match1)

['From: "MR. JAMES NGOLA." <james_ngola2002@maktoob.com>', 'From: "Mr. Ben Suleman" <bensul2004nng@spinfinder.com>', 'From: "PRINCE OBONG ELEME" <obong_715@epatra.com>']


### 只讀取寄件者姓名

In [39]:
#<your code>#

pattern="(?<=From: \")(.+)(?=\")"
match=re.findall(pattern,match1)
print(match)

['MR. JAMES NGOLA.', 'Mr. Ben Suleman', 'PRINCE OBONG ELEME']


### 只讀取寄件者電子信箱

In [40]:
pattern="(?<=\<)(.+)(?=\>)"
match=re.findall(pattern,match1)
print(match)

['james_ngola2002@maktoob.com', 'bensul2004nng@spinfinder.com', 'obong_715@epatra.com']


### 只讀取電子信箱中的寄件機構資訊
ex: james_ngola2002@maktoob.com --> 取maktoob

In [41]:
pattern="(?<=\@)(.+)(?=\.)"
match=re.findall(pattern,match1)
print(match)

['maktoob', 'spinfinder', 'epatra']


### 結合上面的配對方式, 將寄件者的帳號與機構訊返回
ex: james_ngola2002@maktoob.com --> [james_ngola2002, maktoob]

In [64]:
pattern="(?<=\<)(.+)(?=\@)|(?<=\@)(.*)(?=\.)"
match=re.findall(pattern,match1)
print(match)

[('james_ngola2002', ''), ('', 'maktoob'), ('bensul2004nng', ''), ('', 'spinfinder'), ('obong_715', ''), ('', 'epatra')]


### 使用正規表達式對email資料進行處理
這裡我們會使用到python其他的套件協助處理(ex: pandas, email, etc)，這裡我們只需要專注在正規表達式上即可，其他的套件是方便我們整理與處理資料。

### 讀取與切分Email
讀入的email為一個長字串，利用正規表達式切割讀入的資料成一封一封的email，並將結果以list表示。

輸出: [email_1, email_2, email_3, ....]

In [66]:
import re
import pandas as pd
import email

###讀取文本資料:fradulent_emails.txt###
emails = pd.read_table(r'all_emails.txt',sep='\n')
print(emails)
    
###切割讀入的資料成一封一封的email###
###我們可以使用list來儲存每一封email###
###注意！這裡請仔細觀察sample資料，看資料是如何切分不同email###
#<your code>#

len(emails) #查看有多少封email

ParserError: Error tokenizing data. C error: Expected 1 fields in line 19434, saw 2


### 從文本中擷取所有寄件者與收件者的姓名和地址

In [None]:
emails_list = [] #創建空list來儲存所有email資訊

for mail in emails[:20]: #只取前20筆資料 (處理速度比較快)
    emails_dict = dict() #創建空字典儲存資訊
    ###取的寄件者姓名與地址###
    
    #Step1: 取的寄件者資訊 (hint: From:)
    #<your code>#
    
    #Step2: 取的姓名與地址 (hint: 要注意有時會有沒取到配對的情況)
    #<your code>#
    
    #Step3: 將取得的姓名與地址存入字典中
    #<your code>#
        
    
    ###取的收件者姓名與地址###
    #Step1: 取的寄件者資訊 (hint: To:)
    #<your code>#
    
    #Step2: 取的姓名與地址 (hint: 要注意有時會有沒取到配對的情況)
    #<your code>#
        
    #Step3: 將取得的姓名與地址存入字典中
    #<your code>#
        
        
    ###取得信件日期###
    #Step1: 取得日期資訊 (hint: To:)
    #<your code>#
    
    #Step2: 取得詳細日期(只需取得DD MMM YYYY)
    #<your code>#
        
    #Step3: 將取得的日期資訊存入字典中
    #<your code>#
        
        
    ###取得信件主旨###
    #Step1: 取得主旨資訊 (hint: Subject:)
    #<your code>#
    
    #Step2: 移除不必要文字 (hint: Subject: )
    #<your code>#
    
    #Step3: 將取得的主旨存入字典中
    #<your code>#
    
    
    ###取得信件內文###
    #這裡我們使用email package來取出email內文 (可以不需深究，本章節重點在正規表達式)
    try:
        full_email = email.message_from_string(mail)
        body = full_email.get_payload()
        emails_dict["email_body"] = body
    except:
        emails_dict["email_body"] = None
    
    ###將字典加入list###
    #<your code>#

In [None]:
#將處理結果轉化為dataframe
emails_df = pd.DataFrame(emails_list)
emails_df