- python의 regex 기능을 활용하여 크롤링된 데이터에서 개인정보를 추출하는 프로그램입니다.
- 참고 : 
    - `[]`: 문자
    - `-` : 범위
    - `.` : 하나의 문자
    - `?` : 0회 또는 1회 반복 
    - `*` : 0회 이상 반복
    - `+` : 1회 이상 반복
    - `{m,n}` : m~n회 반복
    - `()` : 그룹핑

# 1. 개인정보 추출용 프로그램 단계별 코드

In [28]:
import re
import numpy as np

- 여러가지 개인정보가 담겨있는 문자열을 입력해줍니다.

In [124]:
s = "저의 이메일 주소는 pdj1224@gmail.com 입니다. 또한 radajin_1224@gmail.com 도 가지고 있습니다. 저의 주민번호는 761이11-1영이삼334 입니다.\
안녕하세요, 저의 전화번호는 영일공-48구삼삼7이사 그리고 010사팔구삼삼구삼일 입니다. 둘중에 하나로 연락하세요"

- 이메일, 전화번호, 주민등록번호의 패턴입니다.

In [204]:
patt_email = "[0-9a-zA-Z_]+@[a-zA-Z]+\.[a-zA-Z]+"
patt_resid = "[0-9영공일이둘삼사오육칠팔구빵oO]{6}[-]?[1-4일이둘삼사]{1}[0-9영공일이둘삼사오육칠팔구빵oO]{6}"
patt_phone_num = "[01영공일빵oO]{3}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{3,4}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{4}"
#patt_phone_num = "[0-9영공일이둘삼사오육칠팔구빵oO]{2,3}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{3,4}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{4}"

- 글자를 숫자로 변환하기 위한 dictionary입니다.

In [118]:
num_dic = {'영' : '0', '공' : '0', '일' :'1', '이' : '2', '둘' : '2', '삼' : '3', '사' : '4', '오' : '5', '육' : '6', '칠' : '7', '팔' : '8', '구' : '9', '빵' : '0',\
           'o' : '0', 'O' : "0", '-' : '-', '0' : '0', '1' :'1', '2':'2', '3':'3', '4':'4', '5':'5', '6':'6', '7':'7', '8':'8', '9':'9'}

- 이메일, 주민등록 번호와 전화번호를 추출해줍니다. 

In [205]:
email_ls = re.findall(patt_email,s) #이메일 처리 완료
resid_num_raw = re.findall(patt_resid,s)    #주민등록번호  #후처리 필요
phone_num_raw = re.findall(patt_phone_num, s) #전화번호 #후처리 필요

In [206]:
phone_num_raw   #전화번호와 주민번호를 구별하는 것은 어찌해야하지? 전화 번호 패턴을 

['영일공-48구삼삼7이사', '010사팔구삼삼구삼일']

**cf) 전화번호와 주민번호를 구별하는 것은 어찌해야하지? **
- 전화 번호 패턴을 앞에 세자리가 0또는 1만 나오는 경우로 분류. 010 또는 011 이므로

- 글자와 숫자로 얽혀있는 주민번호와 전화번호를 숫자로 변경해줍니다.

In [155]:
phone_num = []
resid_num = []

for i in range(len(phone_num_raw)):  #전화번호를 숫자로 변환
    result = ''
    try:
        for num in phone_num_raw[i]:
            result += num_dic['{}'.format(num)]
    except Exception as e:    #오류나면 메세지 호출
        print(e)#'error')
    phone_num.append(result)
print(phone_num)

for i in range(len(resid_num_raw)): #주민번호를 숫자로 변환
    result = ''
    try:
        for num in resid_num_raw[i]:
            result += num_dic['{}'.format(num)]
    except Exception as e:   #오류나면 메세지 호출
        print(e)#'error')
    result = re.sub("([0-9]{6})-?([1-4]{1})([0-9]{6})", "\g<1>"+'-'+'\g<2>'+'******', result)    # 주민번호 뒷번호 블라인드처리
    resid_num.append(result)
print(resid_num)    

['761211-1023', '010-48933724', '01048933931']
['761211-1******']


### 입력된 스트링에서 추출된 정보들은 다음과 같습니다.

In [152]:
print(" email : ", email_ls, "\n", "phone number: ", phone_num,  "\n", "resident number: ", resid_num)

 email :  ['pdj1224@gmail.com', 'radajin_1224@gmail.com'] 
 phone number:  ['010-4893-3724', '010-4893-3931'] 
 resident number:  ['761211-1******']


# 2. 하나의 Class로 만들기

In [201]:
class ExtractInf():

    def __init__(self, string):
        self.str = string
        self.patt_email = "[0-9a-zA-Z_]+@[a-zA-Z]+\.[a-zA-Z]+"
        self.patt_phone_num = "[01영공일빵oO]{3}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{3,4}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{4}"
        self.patt_resid = "[0-9영공일이둘삼사오육칠팔구빵oO]{6}-?[1-4일이둘삼사]{1}[0-9영공일이둘삼사오육칠팔구빵oO]{6}"
        self.num_dic = {'영' : '0', '공' : '0', '일' :'1', '이' : '2', '둘' : '2', '삼' : '3', '사' : '4', '오' : '5', '육' : '6', '칠' : '7', '팔' : '8', '구' : '9', '빵' : '0',\
                        'o' : '0', 'O' : "0", '-' : '-', '0' : '0', '1' :'1', '2':'2', '3':'3', '4':'4', '5':'5', '6':'6', '7':'7', '8':'8', '9':'9'}
   
    def  email(self):
        email_ls = re.findall(self.patt_email, self.str) #이메일 처리 완료
        return email_ls

    def resid(self):
        resid_num_raw = re.findall(self.patt_resid, self.str)    #주민등록번호  #후처리 필요
        resid_num = []
        for i in range(len(resid_num_raw)): #주민번호를 숫자로 변환
            result = ''
            try:
                for num in resid_num_raw[i]:
                    result += self.num_dic['{}'.format(num)]
            except Exception as e:   #오류나면 메세지 호출
                print(e)#'error')
            result = re.sub("([0-9]{6})-?([1-4]{1})([0-9]{6})", "\g<1>"+'-'+'\g<2>'+'******', result)    # 주민번호 뒷번호 블라인드처리
            resid_num.append(result)
        return resid_num

    def phone(self):
        phone_num_raw = re.findall(self.patt_phone_num, self.str) #전화번호 #후처리 필요
        phone_num = []
        for i in range(len(phone_num_raw)):  #전화번호를 숫자로 변환
            result = ''
            try:
                for num in phone_num_raw[i]:
                    result += self.num_dic['{}'.format(num)]
            except Exception as e:    #오류나면 메세지 호출
                print(e)#'error')
            phone_num.append(result)
        return phone_num





In [202]:
extract = ExtractInf(s)

In [203]:
extract.phone()

['010-48933724', '01048933931']