# 1. Import

In [1]:
# 연산 처리를 위한 패키지
import numpy as np
import pandas as pd
from pandas import DataFrame

# 데이터 분석을 위한 패키지
import statsmodels.api as sm
from sklearn.preprocessing import LabelEncoder


# 시각화를 위한 패키지
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

# 필요모듈 import
import os
import openpyxl
from datetime import datetime

# 그래프를 실제로 그리기 위한 설정
%matplotlib inline

# 폰트 처리
# plt.rc('font', family='NanumGothic')        # for windows
plt.rc('font', family='AppleGothic') # For MacOS

import warnings
warnings.filterwarnings('ignore')

# 2.1. 원본 데이터 로딩

In [2]:
'''
path = "data"
test_path = "/test.csv"
train_path = "/train.csv"
sample_submission_path = "/sample_submission.csv"

test = pd.read_csv(path + test_path)
train = pd.read_csv(path + train_path)


# 격자공간고유정보 다운로드 https://www.bigdata-region.kr/#/dataset/0ad3c882-f7ee-4faf-970d-00c53cb65a84

# 격자공간고유번호 파일 병합 과정

import pandas as pd
import glob
import os

input_file = r'TC_NU_SPG_50_METER'
output_file = r'TC_NU_SPG_50_METER/geo_data.csv'

allFile_list = glob.glob(os.path.join(input_file, 'TC_*')) 


print(allFile_list)

allData = []

for file in allFile_list:
    df = pd.read_csv(file) # for구문으로 csv파일들을 읽어 들인다
    allData.append(df) # 빈 리스트에 읽어 들인 내용을 추가한다

dataCombine = pd.concat(allData, axis=0, ignore_index=True) # concat함수를 이용해서 리스트의 내용을 병합
# axis=0은 수직으로 병합함. axis=1은 수평. ignore_index=True는 인데스 값이 기존 순서를 무시하고 순서대로 정렬되도록 한다.
dataCombine.to_csv(output_file, index=False) # to_csv함수로 저장한다. 인데스를 빼려면 False로 설정


geo_path = r"TC_NU_SPG_50_METER/geo_data.csv"

geo = pd.read_csv(geo_path)
'''


'\npath = "data"\ntest_path = "/test.csv"\ntrain_path = "/train.csv"\nsample_submission_path = "/sample_submission.csv"\n\ntest = pd.read_csv(path + test_path)\ntrain = pd.read_csv(path + train_path)\n\n\n# 격자공간고유정보 다운로드 https://www.bigdata-region.kr/#/dataset/0ad3c882-f7ee-4faf-970d-00c53cb65a84\n\n# 격자공간고유번호 파일 병합 과정\n\nimport pandas as pd\nimport glob\nimport os\n\ninput_file = r\'TC_NU_SPG_50_METER\'\noutput_file = r\'TC_NU_SPG_50_METER/geo_data.csv\'\n\nallFile_list = glob.glob(os.path.join(input_file, \'TC_*\')) \n\n\nprint(allFile_list)\n\nallData = []\n\nfor file in allFile_list:\n    df = pd.read_csv(file) # for구문으로 csv파일들을 읽어 들인다\n    allData.append(df) # 빈 리스트에 읽어 들인 내용을 추가한다\n\ndataCombine = pd.concat(allData, axis=0, ignore_index=True) # concat함수를 이용해서 리스트의 내용을 병합\n# axis=0은 수직으로 병합함. axis=1은 수평. ignore_index=True는 인데스 값이 기존 순서를 무시하고 순서대로 정렬되도록 한다.\ndataCombine.to_csv(output_file, index=False) # to_csv함수로 저장한다. 인데스를 빼려면 False로 설정\n\n\ngeo_path = r"TC_NU_SPG_50_METER/geo_da

# 2.2. 데이터정보 추가, 파일 생성
#### final_test.csv와 final_train.csv 파일을 만드는 과정입니다. 시간이 오래걸리기 때문에 이미 파일이 있다면 생략하는게 좋습니다.

In [3]:
'''
# 송하인_격자공간고유번호, 수하인_격자공간고유번호를 geo와 매칭해서 격자공간명, 시군구코드, 시군구명 추가

test = pd.merge(test, geo, left_on=['송하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')
test.rename(columns= {'격자공간명':'송하인_격자공간명', '시군구코드':'송하인_시군구코드', '시군구명':'송하인_시군구명'}, inplace=True)
test = pd.merge(test, geo, left_on=['수하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')
test.rename(columns= {'격자공간명':'수하인_격자공간명', '시군구코드':'수하인_시군구코드', '시군구명':'수하인_시군구명'}, inplace=True)

train = pd.merge(train, geo, left_on=['송하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')
train.rename(columns= {'격자공간명':'송하인_격자공간명', '시군구코드':'송하인_시군구코드', '시군구명':'송하인_시군구명'}, inplace=True)
train = pd.merge(train, geo, left_on=['수하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')
train.rename(columns= {'격자공간명':'수하인_격자공간명', '시군구코드':'수하인_시군구코드', '시군구명':'수하인_시군구명'}, inplace=True)


# 이상하게 들어간 내용들 제거

test.drop(['격자공간고유번호_x', '격자공간고유번호_y'], axis = 1, inplace = True)
test = test[['index', '송하인_격자공간고유번호', '송하인_격자공간명',
       '송하인_시군구코드', '송하인_시군구명', '수하인_격자공간고유번호', '수하인_격자공간명', '수하인_시군구코드', '수하인_시군구명', '물품_카테고리']]

train.drop(['격자공간고유번호_x', '격자공간고유번호_y'], axis = 1, inplace = True)
train = train[['index', '송하인_격자공간고유번호', '송하인_격자공간명',
       '송하인_시군구코드', '송하인_시군구명', '수하인_격자공간고유번호', '수하인_격자공간명', '수하인_시군구코드', '수하인_시군구명', '물품_카테고리', '운송장_건수']]

test['송하인_시군구코드'] = test['송하인_시군구코드'].apply(str)
test['수하인_시군구코드'] = test['수하인_시군구코드'].apply(str)
train['송하인_시군구코드'] = train['송하인_시군구코드'].apply(str)
train['수하인_시군구코드'] = train['수하인_시군구코드'].apply(str)

test['송하인_시도코드'] = test['송하인_시군구코드'].str.slice(0,2)
test['수하인_시도코드'] = test['수하인_시군구코드'].str.slice(0,2)
train['송하인_시도코드'] = train['송하인_시군구코드'].str.slice(0,2)
train['수하인_시도코드'] = train['수하인_시군구코드'].str.slice(0,2)

do_dictionary = {
  '11' : '서울특별시',
  '26' : '부산광역시',
  '27' : '대구광역시',
  '28' : '인천광역시',
  '29' : '광주광역시',
  '30' : '대전광역시',
  '31' : '울산광역시',
  '36' : '세종특별자치시',
  '41' : '경기도',
  '42' : '강원도',
  '43' : '충청북도',
  '44' : '충청남도', 
  '45' : '전라북도',
  '46' : '전라남도',
  '47' : '경상북도', 
  '48' : '경상남도',
  '50' : '제주특별자치도'
  }                               # 행정표준코드관리시스템 https://www.code.go.kr/stdcode/regCodeL.do

train['송하인_시도명'] = train['송하인_시도코드'].map(do_dictionary)
train['수하인_시도명'] = train['수하인_시도코드'].map(do_dictionary)
test['송하인_시도명'] = test['송하인_시도코드'].map(do_dictionary)
test['수하인_시도명'] = test['수하인_시도코드'].map(do_dictionary)

test = test[['index', '송하인_격자공간고유번호', '송하인_격자공간명',
       '송하인_시도코드', '송하인_시도명','송하인_시군구코드', '송하인_시군구명', '수하인_격자공간고유번호', '수하인_격자공간명', '수하인_시도코드', '수하인_시도명', '수하인_시군구코드', '수하인_시군구명', '물품_카테고리']]

train = train[['index', '송하인_격자공간고유번호', '송하인_격자공간명',
       '송하인_시도코드', '송하인_시도명','송하인_시군구코드', '송하인_시군구명', '수하인_격자공간고유번호', '수하인_격자공간명', '수하인_시도코드', '수하인_시도명', '수하인_시군구코드', '수하인_시군구명', '물품_카테고리', '운송장_건수']]


test.to_csv('data/final_test.csv')          # 최종본 저장
train.to_csv('data/final_train.csv')        
'''

"\n# 송하인_격자공간고유번호, 수하인_격자공간고유번호를 geo와 매칭해서 격자공간명, 시군구코드, 시군구명 추가\n\ntest = pd.merge(test, geo, left_on=['송하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')\ntest.rename(columns= {'격자공간명':'송하인_격자공간명', '시군구코드':'송하인_시군구코드', '시군구명':'송하인_시군구명'}, inplace=True)\ntest = pd.merge(test, geo, left_on=['수하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')\ntest.rename(columns= {'격자공간명':'수하인_격자공간명', '시군구코드':'수하인_시군구코드', '시군구명':'수하인_시군구명'}, inplace=True)\n\ntrain = pd.merge(train, geo, left_on=['송하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')\ntrain.rename(columns= {'격자공간명':'송하인_격자공간명', '시군구코드':'송하인_시군구코드', '시군구명':'송하인_시군구명'}, inplace=True)\ntrain = pd.merge(train, geo, left_on=['수하인_격자공간고유번호'], right_on = ['격자공간고유번호'], how='left')\ntrain.rename(columns= {'격자공간명':'수하인_격자공간명', '시군구코드':'수하인_시군구코드', '시군구명':'수하인_시군구명'}, inplace=True)\n\n\n# 이상하게 들어간 내용들 제거\n\ntest.drop(['격자공간고유번호_x', '격자공간고유번호_y'], axis = 1, inplace = True)\ntest = test[['index', '송하인_격자공간고유번호', '송하인_격자공간명',\n       '송하인_시군구코드', 

# 3. EDA

In [4]:
# 뉴 데이터 로딩
test = pd.read_csv('data/final_test.csv', index_col = 0)             # unnamed_0 이라는 index가 추가되어 나오지 않게 'index_col = 0' 을 추가했습니다.
train = pd.read_csv('data/final_train.csv', index_col = 0)
train2 = train.copy()
train.head()

Unnamed: 0,index,송하인_격자공간고유번호,송하인_격자공간명,송하인_시도코드,송하인_시도명,송하인_시군구코드,송하인_시군구명,수하인_격자공간고유번호,수하인_격자공간명,수하인_시도코드,수하인_시도명,수하인_시군구코드,수하인_시군구명,물품_카테고리,운송장_건수
0,0,5011000595017300,다나1395,50,제주특별자치도,50110,제주시,2871000192069300,다사1072,28,인천광역시,28710,강화군,음반,3
1,1,4148000690043300,다사2868,41,경기도,41480,파주시,5011000264024400,다다0901,50,제주특별자치도,50110,제주시,문화컨텐츠,3
2,2,5011000078068400,다다3007,50,제주특별자치도,50110,제주시,1120000007005400,다사5950,11,서울특별시,11200,성동구,농산물,3
3,3,4127100048006400,다사4521,41,경기도,41271,안산시상록구,5011000587019400,다나0595,50,제주특별자치도,50110,제주시,기타식품,7
4,4,5011000078068400,다다3007,50,제주특별자치도,50110,제주시,2823700010076300,다사3145,28,인천광역시,28237,부평구,농산물,3


In [5]:
def setting_data(train, test, one, two, three, four, five, six):
  test['송하인_격자공간고유번호'] = test['송하인_격자공간고유번호'].astype(str)
  test['수하인_격자공간고유번호'] = test['수하인_격자공간고유번호'].astype(str)
  train['송하인_격자공간고유번호'] = train['송하인_격자공간고유번호'].astype(str)
  train['수하인_격자공간고유번호'] = train['수하인_격자공간고유번호'].astype(str)

  train['송하인_코드1'] = train['송하인_격자공간고유번호'].str.slice(int(one),int(two))
  train['송하인_코드2'] = train['송하인_격자공간고유번호'].str.slice(int(two),int(three))
  train['송하인_코드3'] = train['송하인_격자공간고유번호'].str.slice(int(three),int(four))
  train['송하인_코드4'] = train['송하인_격자공간고유번호'].str.slice(int(four),int(five))
  train['송하인_코드5'] = train['송하인_격자공간고유번호'].str.slice(int(five),int(six))

  train['수하인_코드1'] = train['수하인_격자공간고유번호'].str.slice(int(one),int(two))
  train['수하인_코드2'] = train['수하인_격자공간고유번호'].str.slice(int(two),int(three))
  train['수하인_코드3'] = train['수하인_격자공간고유번호'].str.slice(int(three),int(four))
  train['수하인_코드4'] = train['수하인_격자공간고유번호'].str.slice(int(four),int(five))
  train['수하인_코드5'] = train['수하인_격자공간고유번호'].str.slice(int(five),int(six))

  test['송하인_코드1'] = test['송하인_격자공간고유번호'].str.slice(int(one),int(two))
  test['송하인_코드2'] = test['송하인_격자공간고유번호'].str.slice(int(two),int(three))
  test['송하인_코드3'] = test['송하인_격자공간고유번호'].str.slice(int(three),int(four))
  test['송하인_코드4'] = test['송하인_격자공간고유번호'].str.slice(int(four),int(five))
  test['송하인_코드5'] = test['송하인_격자공간고유번호'].str.slice(int(five),int(six))

  test['수하인_코드1'] = test['수하인_격자공간고유번호'].str.slice(int(one),int(two))
  test['수하인_코드2'] = test['수하인_격자공간고유번호'].str.slice(int(two),int(three))
  test['수하인_코드3'] = test['수하인_격자공간고유번호'].str.slice(int(three),int(four))
  test['수하인_코드4'] = test['수하인_격자공간고유번호'].str.slice(int(four),int(five))
  test['수하인_코드5'] = test['수하인_격자공간고유번호'].str.slice(int(five),int(six))

  train = train[['index', 
                  '송하인_코드1','송하인_시도명',
                  '송하인_코드2', '송하인_시군구명',
                  '송하인_코드3', '송하인_코드4', '송하인_코드5',
                  
                  '수하인_코드1', '수하인_시도명',
                  '수하인_코드2', '수하인_시군구명',
                  '수하인_코드3', '수하인_코드4', '수하인_코드5',
                  '물품_카테고리', 
                  '운송장_건수']]

  test = test[['index',
                '송하인_코드1','송하인_시도명',
                '송하인_코드2', '송하인_시군구명', 
                '송하인_코드3', '송하인_코드4', '송하인_코드5',

                '수하인_코드1', '수하인_시도명',
                '수하인_코드2', '수하인_시군구명',
                '수하인_코드3', '수하인_코드4', '수하인_코드5',
                '물품_카테고리',
                ]]
                
  return train, test


In [6]:
def confirm_nun(train):
  print('송하인 코드 1, 2, 3, 4, 5는 각각 ~ 종류의 코드가 존재합니다.')
  print('코드_1 :', train['송하인_코드1'].nunique())
  print('코드_2 :', train['송하인_코드2'].nunique())
  print('코드_3 :', train['송하인_코드3'].nunique())
  print('코드_4 :', train['송하인_코드4'].nunique())
  print('코드_5 :', train['송하인_코드5'].nunique())

  print("*"*50)

  print('수하인 코드 1, 2, 3, 4, 5는 각각 ~ 종류의 코드가 존재합니다.')
  print('코드_1 :', train['수하인_코드1'].nunique())
  print('코드_2 :', train['수하인_코드2'].nunique())
  print('코드_3 :', train['수하인_코드3'].nunique())
  print('코드_4 :', train['수하인_코드4'].nunique())
  print('코드_5 :', train['수하인_코드5'].nunique())

  print('*'*50)
  print('수하인_코드4의 고유값은')
  print(train['수하인_코드4'].unique())


In [7]:
train1, test1 = setting_data(train, test, '0', '2', '5', '8', '10', '16')       # 0, 2, 5, 9, 10, 16번째 위치에서 코드를 잘라서 저장합니다. 이걸로 결정
train2, test2 = setting_data(train, test, '0', '2', '5', '10', '11', '16')      # 0, 2, 5, 10, 11, 16번째 위치에서 코드를 잘라서 저장합니다.
train3, test3 = setting_data(train, test, '0', '2', '5', '8', '10', '16')      # 0, 2, 5, 10, 11, 12번째 위치에서 코드를 잘라서 저장합니다.

### train3은 16자리중 15,16번째 숫자들을 쳐내는 과정입니다.
### 전부 00 이라는 값을 가지기 때문에 학습할 때 제거해도 상관없다고 생각합니다.

In [8]:
train1

Unnamed: 0,index,송하인_코드1,송하인_시도명,송하인_코드2,송하인_시군구명,송하인_코드3,송하인_코드4,송하인_코드5,수하인_코드1,수하인_시도명,수하인_코드2,수하인_시군구명,수하인_코드3,수하인_코드4,수하인_코드5,물품_카테고리,운송장_건수
0,0,50,제주특별자치도,110,제주시,005,95,017300,28,인천광역시,710,강화군,001,92,069300,음반,3
1,1,41,경기도,480,파주시,006,90,043300,50,제주특별자치도,110,제주시,002,64,024400,문화컨텐츠,3
2,2,50,제주특별자치도,110,제주시,000,78,068400,11,서울특별시,200,성동구,000,07,005400,농산물,3
3,3,41,경기도,271,안산시상록구,000,48,006400,50,제주특별자치도,110,제주시,005,87,019400,기타식품,7
4,4,50,제주특별자치도,110,제주시,000,78,068400,28,인천광역시,237,부평구,000,10,076300,농산물,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31679,31679,44,충청남도,710,금산군,002,90,087200,50,제주특별자치도,110,제주시,002,13,073200,스포츠잡화,3
31680,31680,11,서울특별시,290,성북구,000,14,045300,50,제주특별자치도,110,제주시,003,19,087100,스마트디바이스,4
31681,31681,11,서울특별시,290,성북구,000,14,045300,50,제주특별자치도,110,제주시,002,63,065200,스마트디바이스,6
31682,31682,41,경기도,273,안산시단원구,000,65,073100,50,제주특별자치도,110,제주시,002,64,061200,지갑,7


In [9]:
confirm_nun(train3)

송하인 코드 1, 2, 3, 4, 5는 각각 ~ 종류의 코드가 존재합니다.
코드_1 : 17
코드_2 : 99
코드_3 : 14
코드_4 : 100
코드_5 : 400
**************************************************
수하인 코드 1, 2, 3, 4, 5는 각각 ~ 종류의 코드가 존재합니다.
코드_1 : 17
코드_2 : 101
코드_3 : 18
코드_4 : 100
코드_5 : 400
**************************************************
수하인_코드4의 고유값은
['92' '64' '07' '87' '10' '14' '69' '17' '23' '26' '16' '20' '63' '02'
 '27' '21' '96' '09' '48' '31' '03' '18' '06' '39' '24' '55' '04' '33'
 '35' '72' '56' '79' '30' '12' '59' '99' '41' '15' '62' '73' '32' '65'
 '70' '82' '74' '94' '46' '19' '78' '29' '52' '25' '85' '42' '13' '01'
 '08' '28' '05' '90' '53' '60' '66' '11' '77' '88' '00' '67' '98' '54'
 '44' '37' '36' '38' '81' '84' '58' '34' '68' '40' '57' '71' '83' '45'
 '49' '76' '47' '51' '43' '93' '61' '22' '86' '95' '50' '75' '97' '89'
 '91' '80']


In [31]:
print('*'*50)
print('수하인_코드2의 고유값은')
print(test3['수하인_코드2'].unique())

**************************************************
수하인_코드2의 고유값은
['110' '260' '130' '710' '480' '350' '465' '200' '210' '185' '173' '170'
 '570' '560' '440' '810' '470' '113' '237' '410' '390' '650' '590' '800'
 '500' '380' '900' '790' '360' '140' '430' '320' '680' '463' '111' '545'
 '770' '290' '780' '610' '150' '190' '285' '820' '330' '305' '230' '530'
 '135' '197' '310' '287' '270' '370' '131' '281' '450' '133' '750' '280'
 '740' '117' '180' '880' '220' '620' '199' '125' '830' '245' '250' '760'
 '129' '273' '155' '121' '115' '271' '850' '840' '550' '215' '195' '127'
 '123' '730' '461' '670' '630' '171' '870' '720' '890' '910' '240' '825'
 '860' '930' '745' '940' '920']


In [80]:
'''
종로구 : 110
중구 : 140
용산구 : 170
성동구 : 200
광진구 : 215
동대문구 : 230
중랑구 : 260
성북구 : 290



'''
train3[(train3['송하인_시군구명']=='강남구')&(train3['송하인_시도명']=='서울특별시')]

Unnamed: 0,index,송하인_코드1,송하인_시도명,송하인_코드2,송하인_시군구명,송하인_코드3,송하인_코드4,송하인_코드5,수하인_코드1,수하인_시도명,수하인_코드2,수하인_시군구명,수하인_코드3,수하인_코드4,수하인_코드5,물품_카테고리,운송장_건수
210,210,11,서울특별시,680,강남구,000,07,002200,50,제주특별자치도,110,제주시,003,73,011400,선글라스/안경테,3
213,213,11,서울특별시,680,강남구,000,15,064300,50,제주특별자치도,110,제주시,002,66,003200,기타화장품/미용,3
505,505,11,서울특별시,680,강남구,000,12,065400,50,제주특별자치도,110,제주시,003,19,002300,상의,3
750,750,11,서울특별시,680,강남구,000,10,070300,50,제주특별자치도,110,제주시,002,13,022200,상의,4
881,881,11,서울특별시,680,강남구,000,12,071300,50,제주특별자치도,130,서귀포시,006,22,057100,농산물,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30659,30659,11,서울특별시,680,강남구,000,16,020100,50,제주특별자치도,130,서귀포시,005,79,077400,기타패션의류,3
30806,30806,11,서울특별시,680,강남구,000,11,040100,50,제주특별자치도,110,제주시,002,66,031300,다이어트식품,5
31514,31514,11,서울특별시,680,강남구,000,32,011100,50,제주특별자치도,110,제주시,003,74,015300,기타패션의류,4
31599,31599,11,서울특별시,680,강남구,000,11,068300,50,제주특별자치도,110,제주시,002,66,060300,주얼리,4


In [58]:
train3[train3['송하인_시도명']=='서울특별시']['송하인_코드2'].sort_values().unique()

array(['110', '140', '170', '200', '215', '230', '260', '290', '305',
       '320', '350', '380', '410', '440', '470', '500', '530', '545',
       '560', '590', '620', '650', '680', '710', '740'], dtype=object)

In [64]:
train3[(train3['송하인_시군구명']=='용산구')&(train3['물품_카테고리']=='기타디지털/가전')]

Unnamed: 0,index,송하인_코드1,송하인_시도명,송하인_코드2,송하인_시군구명,송하인_코드3,송하인_코드4,송하인_코드5,수하인_코드1,수하인_시도명,수하인_코드2,수하인_시군구명,수하인_코드3,수하인_코드4,수하인_코드5,물품_카테고리,운송장_건수
152,152,11,서울특별시,170,용산구,000,09,037100,50,제주특별자치도,110,제주시,002,64,100200,기타디지털/가전,3
403,403,11,서울특별시,170,용산구,000,09,058400,50,제주특별자치도,110,제주시,003,78,017100,기타디지털/가전,3
562,562,11,서울특별시,170,용산구,000,09,037100,50,제주특별자치도,110,제주시,003,18,029400,기타디지털/가전,3
608,608,11,서울특별시,170,용산구,000,09,037100,50,제주특별자치도,110,제주시,003,19,033100,기타디지털/가전,5
1046,1046,11,서울특별시,170,용산구,000,09,037100,50,제주특별자치도,110,제주시,004,35,063100,기타디지털/가전,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31172,31172,11,서울특별시,170,용산구,000,09,037100,50,제주특별자치도,110,제주시,004,35,073100,기타디지털/가전,4
31197,31197,11,서울특별시,170,용산구,000,09,070100,50,제주특별자치도,130,서귀포시,008,66,019400,기타디지털/가전,4
31376,31376,11,서울특별시,170,용산구,000,09,037100,50,제주특별자치도,110,제주시,003,74,018100,기타디지털/가전,3
31487,31487,11,서울특별시,170,용산구,000,09,037100,50,제주특별자치도,110,제주시,002,65,076100,기타디지털/가전,28


In [65]:
train3[(train3['송하인_시군구명']=='용산구')&(train3['물품_카테고리']=='기타디지털/가전')]['송하인_코드4'].sort_values().unique()

array(['08', '09'], dtype=object)

In [60]:
train3[train3['송하인_시군구명']=='용산구']['송하인_코드4'].sort_values().unique()

array(['01', '02', '03', '05', '08', '09', '10', '12', '13', '15', '18',
       '22', '23'], dtype=object)

In [11]:
# train1(5416), train2(5416)으로 나눠서 각자 고유값들을 확인해봤는데요,
# 5515의 경우 1부분이 [0,1]만 존재하는걸로 봐서, 맨 뒷자리 5와 이어진다고 생각했습니다
# 99999에서 100000 으로 넘어가기 때문에 이런식으로 나왔다고 생각했고,
# 우리나라 좌표에 고유번호를 50미터 단위로 지정을 했기 때문에, 정사각형 격자를 만들려면 제곱수가 나와야 한다고 생각했습니다.
# 때문에 6자리수 안에 들어갈 수 있는 데이터는 100만개로 제곱수이며, 5자리수 안에 들어갈 수 있는 데이터는 10만개로 제곱수가 되지 않아 합리적인 수가 아니라고 생각했습니다.
# 또, 6자리수 맨 뒷자리 2자리는 모두 00이어서, 4자리수만 데이터에 의미가 있는 것으로 보입니다. 
# 우리는 5 4 1 6(4) 단위로 끊어서 데이터를 분석하기로 했습니다.