-----

In [1]:
import pandas as pd
pd.options.display.float_format = '{:.5f}'.format
data = pd.read_csv("./data.csv", encoding = 'euc-kr')
data.columns

Index(['일련번호', '이름', '생년', '생월', '생일', '성별', '나이', '거주시도', '휴대폰', '학력', '혼인여부',
       '주거형태', '직업종류코드', '직업종류', '월소득액', '고객등급코드', '월 카드 이용 총 금액',
       '신용카드 일시불 이용금액', '신용카드 할부 이용금액 합', '총 대출 금액', '신용등급', '개설 카드 개수'],
      dtype='object')

## 비식별처리 세부기술 (17가지)

### 1. 휴리스틱 가명화(가명처리)
- 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법

예시) 
- 성명을 홍길동, 임꺽정 등 몇몇 일반화 된 이름으로 대체하여 표기하거나   


- 소속기관명을 화성, 금성 등으로 대체하는 등 사전에 규칙을 정하여 수행

- 식별자의 분포를 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에       사용자가 쉽게 이해하고 활용 가능합니다.  

- 활용할 수 있는 대체 변수에 한계가 있으며, 다른 값으로 대체하는 일정한 규칙이 노출되는 취약점이 있습니다. 

  따라서 규칙 수립 시 개인을 쉽게 식별할 수 없도록 세심한 고려가 필요 합니다.  
  
- 적용 가능 정보 : 성명, 사용자 ID, 소속(직장)명, 기관번호, 주소, 신용등급, 휴대전화번호, 우편번호, 이메일 주소 등

In [2]:
data

Unnamed: 0,일련번호,이름,생년,생월,생일,성별,나이,거주시도,휴대폰,학력,...,직업종류코드,직업종류,월소득액,고객등급코드,월 카드 이용 총 금액,신용카드 일시불 이용금액,신용카드 할부 이용금액 합,총 대출 금액,신용등급,개설 카드 개수
0,1,창인권,1985,11,20,남,34,경상북도,010-1129-7538,초졸,...,2,전문직,49642993,0,70000,0,0,87350000,4,3
1,2,동용덕,1957,11,19,여,62,제주특별자치도,010-0532-5458,대졸,...,4,계열사직원,62415905,1,170000,4000,1000,28910000,4,5
2,3,권수철,1968,3,24,남,51,경기도,010-0205-0162,고졸,...,3,자영업,252678777,2,190000,3000,1000,28180000,7,6
3,4,설인권,1948,5,12,여,71,경상북도,010-1422-5652,고졸,...,0,,10908264,0,200000,4000,1000,27710000,9,3
4,5,곽인성,1978,11,27,남,41,제주특별자치도,010-6986-7211,중졸,...,0,,25793893,1,170000,3000,1000,27620000,2,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9993,9995,양현진,1941,3,19,남,78,서울특별시,010-6656-6602,대졸,...,6,주부,326651213,1,85420000,205000,9000,54390000,5,8
9994,9996,유승호,1972,12,7,여,47,서울특별시,010-0346-2482,중졸,...,6,주부,202403592,2,85400000,214000,8000,54450000,10,5
9995,9997,윤우진,2007,4,5,남,12,대전광역시,010-1620-2914,중졸,...,6,주부,36037440,3,85510000,207000,9000,54350000,9,6
9996,9998,이가온,1994,7,10,남,25,서울특별시,010-7592-5715,박사,...,3,자영업,206460097,3,85850000,210000,12000,54460000,9,0


### 2. 암호화(가명처리)
- 정보 가공 시 일정한 규칙의 알고리즘을 적용하여 암호화 함으로써 개인정보를 대체하는 방법으로,

    통상적으로 다시 복호가 가능하도록 복호화 키를 가지고 있어서 이에 대한 보안 방법도 필요합니다.

 

  - 일방향 암호화(one-way encryption 또는 hash)를 사용하는 경우는 이론상 복호화가 원천적으로 불가능 하지만 

    개인정보의 식별성을 완전히 제거하는 것으로, 양방향 암호화에 비해 더욱 안정하고 효과적인 비식별 기술에 

    해당합니다.  



  - 적용 가능 정보 : 주민등록번호, 여권번호, 의료보험번호, 외국인등록번호, 사용자 ID, 신용카드번호, 생체 정보 등



In [3]:
class Encryption:
    def __init__(self):
        self.table = [None for _ in range(10000)]
        
    def simple_enc(self, name):
        number = ''
        for letter in name:
            number += str(ord(letter)).zfill(5)
        return number

    def simple_dec(self, number):
        if len(number) % 5 == 0:
            length = len(number) // 5
            name = ''
            for char in range(length):
                name += chr(int(number[char*5:char*5+5]))
#                 print(number[char:char+5])
            
            return name
        else:
            return "Error"

In [4]:
data['이름'][0]

'창인권'

In [5]:
name_encrpt = Encryption()
enc_0 = name_encrpt.simple_enc(data['이름'][0])
enc_0

'522855106444428'

In [6]:
name_encrpt.simple_dec(enc_0)

'창인권'

In [7]:
class Hashtable: 
    def __init__(self): 
        self.table = [None for _ in range(10000)] 

    def simple_hash(self, name): 
        return hash(name)

#     def simple_hash(self, name): 
#         sum = 0 
#         for letter in name: 
#             sum += ord(letter) 
        
#         return sum % len(self.table) 
    
#     def put(self, name, num): 
#         self.table[self.simple_hash(name)] = num 
        
#     def show(self): 
#         for idx, value in enumerate(self.table): 
#             if value: # is not None 
#                 print(idx, value) 
                
#     def find(self, name): 
#         return self.table[self.simple_hash(name)]


In [8]:
name_hash = Hashtable()
name_hash.simple_hash(data['이름'][0])

3369740265311879700

### 3. 교환방법(가명처리)
- 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수(항목)값과 연계하여 교환하는 방법 입니다. 

  

  - 적용 가능 정보 : 사용자 ID, 요양기관번호, 기관번호, 나이, 성별, 신체정보(신장, 혈액형 등), 소득, 

                             휴대전화번호, 주소 등



In [9]:
# 거주시도
geo_string = list(set(data['거주시도']))
geo_index = list(range(len(geo_string)))
geo_map = dict(zip(geo_string, geo_index))
geo_map

{'전라북도': 0,
 '인천광역시': 1,
 '경상북도': 2,
 '강원도': 3,
 '세종특별자치시': 4,
 '부산광역시': 5,
 '대전광역시': 6,
 '충청북도': 7,
 '충청남도': 8,
 '울산광역시': 9,
 '대구광역시': 10,
 '경상남도': 11,
 '경기도': 12,
 '서울특별시': 13,
 '전라남도': 14,
 '제주특별자치도': 15,
 '광주광역시': 16}

In [10]:
data['거주시도'] = data['거주시도'].map(lambda x: geo_map[x])
data['거주시도']

0        2
1       15
2       12
3        2
4       15
        ..
9993    13
9994    13
9995     6
9996    13
9997     2
Name: 거주시도, Length: 9998, dtype: int64

### 4. 총계처리(총계처리)
데이터 전체 또는 부분을 집계(총합, 평균 등)하는 방법입니다.

예시) 집단에 소속된 전체 인원의 평균 나이 값을 구한 후 각 개인의 나이값을 평균 나이값(대푯값)으로 대체하거나 

          해당 집단 소득의 전체 평균값을 각 개인의 소득값으로 대체



- 적용 가능 정보 : 나이, 신장, 소득, 카드사용액, 유동인구, 사용자수, 제품 재고량, 판매량 등


In [11]:
data['나이'].describe()

count   9998.00000
mean      48.18604
std       21.61353
min        1.00000
25%       33.00000
50%       51.00000
75%       66.00000
max       94.00000
Name: 나이, dtype: float64

In [12]:
data['나이'].mean()

48.18603720744149

In [13]:
data['나이'].median()

51.0

### 5. 부분총계(총계처리)
- 데이터 셋 내 일정부분 레코드만 총계 처리하는 방법입니다. 

    즉, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계값(평균 등)으로 변환하는 방법입니다.

    예시) 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나

          특정 소득 구성원을 포함하고 있을 경우, 40대의 소득만 선별하여 평균값을 구한 후 40대에 해당하는 

          각 개인의 소득값을 해당 평균 값으로 대체 



  - 적용 가능 정보 : 나이, 신장, 소득, 카드사용액 등




In [14]:
data['나이'].mean()

48.18603720744149

In [15]:
def agg(age):
    if age < 33:
        return 28
    elif age > 66:
        return 70
    else:
        return age
    
data['나이'].map(lambda x: agg(x)).describe()

count   9998.00000
mean      49.78986
std       16.17999
min       28.00000
25%       33.00000
50%       51.00000
75%       66.00000
max       70.00000
Name: 나이, dtype: float64

### 6. 라운딩(총계처리)
- 집계 처리된 값에 대하여 라운딩(올림, 내림, 사사오입) 기준을 적용하여 최종 집계 처리하는 방법으로 

    일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용합니다.

    예시) 23세, 41세, 57세, 26세, 33세 등 각 나이값을 20대, 30대, 40대, 50대 등 각 대표 연령대로 표기하거나

            3,576,000원, 4,210,000원 등의 소득값을 일부 절삭하여 3백만원, 4백만원 등으로 집계 처리하는 방식



  - 적용 가능 정보 : 나이, 신장, 소득, 카드지출액, 유동인구, 사용자 수 등



In [16]:
data['나이']

0       34
1       62
2       51
3       71
4       41
        ..
9993    78
9994    47
9995    12
9996    25
9997    65
Name: 나이, Length: 9998, dtype: int64

In [17]:
data['나이'].map(lambda x: round(x, -1))

0       30
1       60
2       50
3       70
4       40
        ..
9993    80
9994    50
9995    10
9996    20
9997    60
Name: 나이, Length: 9998, dtype: int64

In [18]:
data['월소득액']

0        49642993
1        62415905
2       252678777
3        10908264
4        25793893
          ...    
9993    326651213
9994    202403592
9995     36037440
9996    206460097
9997    438320984
Name: 월소득액, Length: 9998, dtype: int64

In [19]:
def custom_round(string):
    return string[:4] + '0'*(len(string)-4)

data['월소득액'].astype(str).map(lambda x: custom_round(x))

0        49640000
1        62410000
2       252600000
3        10900000
4        25790000
          ...    
9993    326600000
9994    202400000
9995     36030000
9996    206400000
9997    438300000
Name: 월소득액, Length: 9998, dtype: object

### 7. 재배열(총계처리)
- 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열 하는 방법으로, 

    개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법 입니다. 


In [20]:
data['성별']

0       남
1       여
2       남
3       여
4       남
       ..
9993    남
9994    여
9995    남
9996    남
9997    여
Name: 성별, Length: 9998, dtype: object

In [21]:
from sklearn.utils import shuffle
shuffle(data['성별']).reset_index(drop=True)

0       남
1       여
2       남
3       남
4       여
       ..
9993    여
9994    여
9995    남
9996    남
9997    여
Name: 성별, Length: 9998, dtype: object

### 8. 식별자 삭제(데이터 삭제)
- 원본 데이터에서 식별자를 단순 삭제하는 방법 입니다.

   예시) 성명, 생년월일이 나열되어 있는 경우 분석 목적에 따라 생년월일을 생년으로 대체 가능하다면 월일 값은 삭제



  - 적용 가능 정보 : 성명, 전화번호, 계좌번호, 카드번호, 요양기관번호, 이메일 주소 등



In [22]:
data['생년월일'] = data['생년'].map(lambda x: str(x).zfill(4)) + data['생월'].map(lambda x: str(x).zfill(2)) + data['생일'].map(lambda x: str(x).zfill(2))
data['생년월일']

0       19851120
1       19571119
2       19680324
3       19480512
4       19781127
          ...   
9993    19410319
9994    19721207
9995    20070405
9996    19940710
9997    19541112
Name: 생년월일, Length: 9998, dtype: object

In [23]:
data.columns

Index(['일련번호', '이름', '생년', '생월', '생일', '성별', '나이', '거주시도', '휴대폰', '학력', '혼인여부',
       '주거형태', '직업종류코드', '직업종류', '월소득액', '고객등급코드', '월 카드 이용 총 금액',
       '신용카드 일시불 이용금액', '신용카드 할부 이용금액 합', '총 대출 금액', '신용등급', '개설 카드 개수',
       '생년월일'],
      dtype='object')

In [24]:
del data['생년월일']
data.columns

Index(['일련번호', '이름', '생년', '생월', '생일', '성별', '나이', '거주시도', '휴대폰', '학력', '혼인여부',
       '주거형태', '직업종류코드', '직업종류', '월소득액', '고객등급코드', '월 카드 이용 총 금액',
       '신용카드 일시불 이용금액', '신용카드 할부 이용금액 합', '총 대출 금액', '신용등급', '개설 카드 개수'],
      dtype='object')

### 9. 식별자 부분삭제(데이터 삭제)
- 식별자 전체를 삭제하는 방식이 아니라, 해당 식별자의 일부를 삭제하는 방법 입니다.

    예시) 상세 주소의 경우 부분 삭제를 통하여 대표지역으로 표현 

  

  - 수치 또는 텍스트 데이터 등에도 폭넓게 활용 가능 합니다.



  - 적용 가능 정보 : 주소, 위치정보, 전화번호, 계좌번호 등



In [25]:
data['생년월일'] = data['생년'].map(lambda x: str(x).zfill(4)) + data['생월'].map(lambda x: str(x).zfill(2)) + data['생일'].map(lambda x: str(x).zfill(2))
data['생년월일']

0       19851120
1       19571119
2       19680324
3       19480512
4       19781127
          ...   
9993    19410319
9994    19721207
9995    20070405
9996    19940710
9997    19541112
Name: 생년월일, Length: 9998, dtype: object

In [26]:
data['생년월일'].map(lambda x: x[:6])

0       198511
1       195711
2       196803
3       194805
4       197811
         ...  
9993    194103
9994    197212
9995    200704
9996    199407
9997    195411
Name: 생년월일, Length: 9998, dtype: object

### 10. 레코드 삭제(데이터 삭제)
- 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법 입니다. 

    예시) 소득이 다른 사람에 비하여 뚜렷이 구별되는 값을 가진 정보는 해당 정보 전체를 삭제



  - 이 방법은 통계분석에 있어서 전체 평균에 비하여 오차범위를 벗어나는 자료를 제거할 때에도 사용 가능



  - 적용 가능 정보 : 키, 소득, 질병, 카드지출액 등




In [27]:
data['월소득액'].describe()

count        9998.00000
mean    201738880.30086
std     140313687.79026
min         14370.00000
25%      79458864.00000
50%     188448849.50000
75%     298364126.75000
max     499993999.00000
Name: 월소득액, dtype: float64

In [28]:
data['월소득액']

0        49642993
1        62415905
2       252678777
3        10908264
4        25793893
          ...    
9993    326651213
9994    202403592
9995     36037440
9996    206460097
9997    438320984
Name: 월소득액, Length: 9998, dtype: int64

In [29]:
remove_index = list(filter(lambda x: data['월소득액'][x] < 1000000, range(len(data))))
print(len(remove_index))
remove_index

62


[15,
 71,
 99,
 111,
 143,
 228,
 278,
 303,
 326,
 350,
 444,
 546,
 597,
 654,
 686,
 719,
 843,
 884,
 890,
 949,
 966,
 1060,
 1441,
 1476,
 1651,
 1747,
 1779,
 1880,
 2018,
 2197,
 2202,
 2222,
 2304,
 2347,
 2434,
 2435,
 2549,
 2727,
 2806,
 2886,
 2950,
 3007,
 3010,
 3030,
 3040,
 3045,
 3089,
 3116,
 3133,
 3217,
 3273,
 3287,
 3389,
 3419,
 3514,
 3673,
 3695,
 3697,
 3721,
 3745,
 3750,
 3855]

In [30]:
print(len(data.drop(remove_index)))
data.drop(remove_index)

9936


Unnamed: 0,일련번호,이름,생년,생월,생일,성별,나이,거주시도,휴대폰,학력,...,직업종류,월소득액,고객등급코드,월 카드 이용 총 금액,신용카드 일시불 이용금액,신용카드 할부 이용금액 합,총 대출 금액,신용등급,개설 카드 개수,생년월일
0,1,창인권,1985,11,20,남,34,2,010-1129-7538,초졸,...,전문직,49642993,0,70000,0,0,87350000,4,3,19851120
1,2,동용덕,1957,11,19,여,62,15,010-0532-5458,대졸,...,계열사직원,62415905,1,170000,4000,1000,28910000,4,5,19571119
2,3,권수철,1968,3,24,남,51,12,010-0205-0162,고졸,...,자영업,252678777,2,190000,3000,1000,28180000,7,6,19680324
3,4,설인권,1948,5,12,여,71,2,010-1422-5652,고졸,...,,10908264,0,200000,4000,1000,27710000,9,3,19480512
4,5,곽인성,1978,11,27,남,41,15,010-6986-7211,중졸,...,,25793893,1,170000,3000,1000,27620000,2,5,19781127
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9993,9995,양현진,1941,3,19,남,78,13,010-6656-6602,대졸,...,주부,326651213,1,85420000,205000,9000,54390000,5,8,19410319
9994,9996,유승호,1972,12,7,여,47,13,010-0346-2482,중졸,...,주부,202403592,2,85400000,214000,8000,54450000,10,5,19721207
9995,9997,윤우진,2007,4,5,남,12,6,010-1620-2914,중졸,...,주부,36037440,3,85510000,207000,9000,54350000,9,6,20070405
9996,9998,이가온,1994,7,10,남,25,13,010-7592-5715,박사,...,자영업,206460097,3,85850000,210000,12000,54460000,9,0,19940710


### 11. 식별요소 전부삭제(데이터 삭제)
  - 식별자뿐만 아니라 잠재적으로 식별 가능한 속성자까지 전부 삭제하여 프라이버시 침해 위협을 줄이는 방법 입니다.



  - 연예인·정치인 등의 가족정보, 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 등 

    잠재적 식별자까지 사전에 삭제함으로써 연관성 있는 정보의 식별 및 결합을 예방할 수 있습니다. 



  - 개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터 활용에 필요한 정보까지 사전에 모두 없어지기 때문에

    데이터의 유용성이 낮아지는 문제가 발생할 수 있습니다.



  - 적용 가능 정보 : 나이, 소득, 키, 몸무게 등 개별적으로는 단순한 정보이지만 

                      분석 목적에 따라 추후 개인 식별이 가능성이 있다고 판단되는 정보  




In [31]:
data['직업종류'].value_counts()

자영업      2469
주부       2086
무직       1635
학생        861
회사원       721
전문직       232
계열사직원     119
기타        117
군인         30
Name: 직업종류, dtype: int64

In [32]:
data[data['직업종류'] == '군인']

Unnamed: 0,일련번호,이름,생년,생월,생일,성별,나이,거주시도,휴대폰,학력,...,직업종류,월소득액,고객등급코드,월 카드 이용 총 금액,신용카드 일시불 이용금액,신용카드 할부 이용금액 합,총 대출 금액,신용등급,개설 카드 개수,생년월일
109,110,기나리,1973,6,6,여,46,14,010-6141-4759,초대졸,...,군인,182276205,0,170000,3000,2000,12690000,3,4,19730606
587,588,사영아,1971,5,28,남,48,14,010-9032-8052,박사,...,군인,261316437,0,770000,243000,83000,34290000,1,5,19710528
1100,1101,연희준,1948,8,27,남,71,3,010-5394-1721,초대졸,...,군인,14376486,0,1590000,883000,215000,59370000,2,3,19480827
1188,1189,삼철우,1962,2,10,여,57,12,010-7442-4040,고졸,...,군인,82928461,0,1440000,796000,222000,59540000,9,0,19620210
1516,1517,교영실,1960,5,30,남,59,15,010-0692-2393,초졸,...,군인,152548953,0,1550000,838000,259000,68100000,1,4,19600530
1985,1986,국혜수,1952,9,17,여,67,7,010-9593-6790,석사,...,군인,31707688,1,1490000,800000,278000,87250000,8,0,19520917
2867,2868,맹영록,1960,11,17,남,59,2,010-8744-1508,초대졸,...,군인,135160966,0,340000,172000,70000,43270000,8,3,19601117
3159,3160,평주선,1994,4,18,남,25,16,010-2009-1794,초졸,...,군인,81502420,0,82130000,78000,0,50700000,2,3,19940418
3281,3282,경재섭,1976,1,30,남,43,13,010-7303-5120,초대졸,...,군인,98475882,0,120000,50000,16000,55430000,10,7,19760130
3513,3514,은하람,1964,2,1,남,55,15,010-9729-2778,박사,...,군인,266546522,0,65000000,8000,0,56000000,7,2,19640201


In [33]:
def change_job(job):
    if job == '군인':
        return '기타'
    else:
        return job
    
data['직업종류'] = data['직업종류'].map(lambda x: change_job(x))

In [34]:
data['직업종류'].value_counts()

자영업      2469
주부       2086
무직       1635
학생        861
회사원       721
전문직       232
기타        147
계열사직원     119
Name: 직업종류, dtype: int64

### 12. 감추기(데이터 범주화)
- 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주값으로 변환하는 방식 입니다. 



  - 단, 특수한 성질을 지닌 단체 데이터의 평균이나 범주값은 그 집단에 속한 개인의 정보를 쉽게 추론할 수 있습니다. 


In [35]:
data['학력'].value_counts()

초대졸    1784
박사     1654
대졸     1616
중졸     1568
석사     1526
초졸     1515
고졸      335
Name: 학력, dtype: int64

In [36]:
def edu_trans(x):
    if x=='초졸':
        return '고졸이하'
    if x=='중졸':
        return '고졸이하'
    if x=='고졸':
        return '고졸이하'
    else:
        return x
    
data['학력2'] = data['학력'].map(lambda x:edu_trans(x))
data['학력2'].value_counts()

고졸이하    3418
초대졸     1784
박사      1654
대졸      1616
석사      1526
Name: 학력2, dtype: int64

### 13. 랜덤 라운딩(데이터 범주화)
- 수치 데이터를 임의의 수 기준으로 올림 또는 내림 하는 기법 입니다. 

    예시) 나이, 우편번호 등과 같은 수치 정보로 주어진 식별자는 일의 자리, 십의 자리 등 

          뒷자리 수를 숨기고 앞자리 수만 나타내는 방법 (나이 : 42세, 45세 → 40대로 표현)



  - 적용 가능 정보 : 나이, 소득, 카드지출액, 우편번호, 유동인구, 사용자 등 



In [37]:
data['나이'].map(lambda x: str(round(x, -1)) + "대")

0       30대
1       60대
2       50대
3       70대
4       40대
       ... 
9993    80대
9994    50대
9995    10대
9996    20대
9997    60대
Name: 나이, Length: 9998, dtype: object

### 14. 범위 라운딩(데이터 범주화)
- 수치 데이터를 임의의 수 기준의 범위로 설정하는 기법으로, 해당 값의 범위 또는 구간으로 표현 합니다. 

    예시) 소득 3,300만원을 소득 3,000만원~4,000만원으로 대체 표기 



  - 적용 가능 정보 : 서비스 이용 등급, 처방정보, 위치정보, 유동인구, 사용자 수 분석 시간/기간 등



In [38]:
import math
def range_round(money):
    if money < 10000000:
        return "1천만원 미만"
    elif money > 100000000:
        return "1억원 이상"
    result = money // 10000000
    return "{},000만원 ~ {},000만원".format(result, result+1)

data['월소득액'].map(lambda x: range_round(x))

0       4,000만원 ~ 5,000만원
1       6,000만원 ~ 7,000만원
2                  1억원 이상
3       1,000만원 ~ 2,000만원
4       2,000만원 ~ 3,000만원
              ...        
9993               1억원 이상
9994               1억원 이상
9995    3,000만원 ~ 4,000만원
9996               1억원 이상
9997               1억원 이상
Name: 월소득액, Length: 9998, dtype: object

### 15. 제어 라운딩(데이터 범주화)
- '랜덤 라운딩' 방법에서 어떠한 특정값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 

    행과 열이 맞지 않는 것을 제어하여 일치시키는 기법 입니다. 



  - 현재 컴퓨터 프로그램으로 구현하기 어렵고 복잡한 통계표에는 적용하기 어려우며 

    해결할 수 있는 방법이 존재하지 않을 수 있어 아직 현장에서는 잘 사용하지 않습니다. 



  - 적용 가능 정보 : 나이, 소득, 키, 카드지출액, 위치정보 등 



### 16. 임의 잡음 추가(데이터 마스킹)
- 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법 입니다. 

    예시) 실제 생년월일에 6개월의 잡음을 추가할 경우, 원래의 생년원일 데이터에 1일부터 최대 6개월의 날짜가 

             추가되어 기존의 자료와 오차가 날 수 있도록 적용

  

  - 지정된 평균과 분산의 범위 내에서 잡음이 추가되므로 원 자료의 유용성을 해치지 않으나,

    잡음값은 데이터 값과는 무관하기 때문에 유효한 데이터로 활용하기 곤란 합니다. 



  - 적용 가능 정보 : 사용자 ID, 성명, 생년월일, 키, 나이, 병명 코드, 전화번호, 주소 등



### 17. 공백과 대체(데이터 마스킹)
- 특정 항목의 일부 또는 정부를 공백 또는 대체문자(‘ * ’, ‘ _ ’ 등이나 전각 기호)로 바꾸는 기법

    예시) 생년월일 ‘1999-09-09’ ⇒ ‘19 - - ’ 또는 ‘19**-**-**’



  - 적용 가능 정보 : 성명, 생년월일, 전화번호, 주소, 사용자 ID 등 



In [39]:
data['이름'].map(lambda x: x[0]+"**")

0       창**
1       동**
2       권**
3       설**
4       곽**
       ... 
9993    양**
9994    유**
9995    윤**
9996    이**
9997    이**
Name: 이름, Length: 9998, dtype: object