# 유니콘 기업을 찾아보자

## 가설

##### 유니콘 기업은 '효율적인' 기업일 것이다
* 적은 직원으로 높은 매출액을 내는 기업이 유니콘일 가능성이 크다

##### 유니콘 기업은 '인적자원'을 중시하는 기업일 것이다
* 1인당 연금보험료를 높게 측정하고 있는 기업이 유니콘일 가능성이 크다

## '1인당_매출액' 과 '1인당_연금보험료'를 활용한 점수계산

##### Case1. 두 변수 각각의 ranking을 합산
* 1인당 매출액 순위 + 1인당 연금보험료 순위 = 점수

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as ss
from sklearn.preprocessing import MinMaxScaler

In [2]:
data = pd.read_csv('company_nps_data.csv',encoding='cp949')

In [3]:
data['1인당 매출액'] = data['연매출액'] / data['월별_직원수'] 
data['1인당 연금보험료'] = data['월별_연금보험료'] / data['월별_직원수']
data[np.isinf(data)] = 0 #0으로 나눠서 발생하는 무한값 제거

In [4]:
data = pd.read_csv('company_nps_data.csv',encoding='cp949')
data['1인당 매출액'] = data['연매출액'] / data['월별_직원수'] 
data['1인당 연금보험료'] = data['월별_연금보험료'] / data['월별_직원수']
data[np.isinf(data)] = 0 #0으로 나눠서 발생하는 무한값 제거


In [5]:
def binding(data):
     #회사ID를 기준으로 묶기
    dct = {}
    for i in data.groupby('회사ID'):
        dct[i[0]] = i[1].sort_values(['년도', '월']) #데이터를 시간순서대로 활용할려면 dct에 저장되는 데이터를 index순서대로 활용하면 됨
    #회사ID별 평균값 도출
    dct_mean = {}
    for i in dct.keys():
        dct_mean[i] = dct[i].mean()
    dct_mean_df = pd.DataFrame(dct_mean).T #dict를 dataframe으로 전환   
    return dct_mean_df

In [6]:
dct_mean_df = binding(data)

In [7]:
dct_mean_df['1인당 매출액 순위'] = ss.rankdata(dct_mean_df['1인당 매출액'])
dct_mean_df['1인당 연금보험료 순위'] = ss.rankdata(dct_mean_df['1인당 연금보험료'])
dct_mean_df['점수'] = dct_mean_df['1인당 매출액 순위'] + dct_mean_df['1인당 연금보험료 순위']

In [8]:
dct_mean_df.sort_values(by=['점수'],ascending = False).head(10)

Unnamed: 0,회사ID,연매출액,년도,월,월별_연금보험료,월별_직원수,1인당 매출액,1인당 연금보험료,1인당 매출액 순위,1인당 연금보험료 순위,점수
63,63.0,11328780000.0,2018.0,6.5,410128200.0,1007.166667,11248740.0,407239.467496,4988.0,4995.0,9983.0
60154,60154.0,50805870.0,2018.0,8.0,2477320.0,6.333333,8171949.0,390976.190476,4977.0,4991.0,9968.0
294649,294649.0,3836737000.0,2016.894737,6.763158,102939800.0,270.473684,14188800.0,380563.578053,4990.0,4976.0,9966.0
293402,293402.0,34136100.0,2018.0,6.5,1501150.0,4.0,9102960.0,381050.0,4983.0,4978.0,9961.0
5452,5452.0,252376500.0,2018.0,7.5,15345910.0,39.7,6358736.0,386545.94853,4972.0,4987.0,9959.0
64324,64324.0,55403960.0,2018.0,8.5,1872410.0,5.0,11080790.0,374482.0,4985.0,4963.0,9948.0
40860,40860.0,170914400.0,2018.0,6.5,2570220.0,7.0,24416350.0,367174.285714,4997.0,4944.0,9941.0
381180,381180.0,1459657000.0,2016.894737,6.763158,63779020.0,170.605263,8575456.0,374044.555746,4979.0,4962.0,9941.0
126831,126831.0,2019423000.0,2016.894737,6.763158,227684400.0,584.078947,3457156.0,389804.704049,4916.0,4990.0,9906.0
419998,419998.0,3538393000.0,2017.0,6.5,302617800.0,812.444444,4355804.0,372419.518004,4943.0,4959.0,9902.0


##### Case2. 두 변수를 0-1사이의 값으로 스케일링 한 뒤 단순합산
* scaled_1인당 매출액 + scaled_1인당 연금보험료 = 점수

In [9]:
min_max_scaler = MinMaxScaler()
fitted = min_max_scaler.fit(data[['1인당 매출액','1인당 연금보험료']])
data[['1인당 매출액','1인당 연금보험료']] = min_max_scaler.transform(data[['1인당 매출액','1인당 연금보험료']])
data['점수'] = data['1인당 매출액'] + data['1인당 연금보험료']

In [10]:
dct_mean_df2 = binding(data)

In [11]:
dct_mean_df2.sort_values(by=['점수'],ascending = False).head(10)

Unnamed: 0,회사ID,연매출액,년도,월,월별_연금보험료,월별_직원수,1인당 매출액,1인당 연금보험료,점수
40860,40860.0,170914400.0,2018.0,6.5,2570220.0,7.0,0.496413,0.751726,1.24814
146654,146654.0,639778300.0,2016.894737,6.763158,8863051.0,26.552632,0.491542,0.679348,1.17089
63,63.0,11328780000.0,2018.0,6.5,410128200.0,1007.166667,0.244937,0.84003,1.084967
294649,294649.0,3836737000.0,2016.894737,6.763158,102939800.0,270.473684,0.301086,0.781236,1.082323
567650,567650.0,113663900.0,2018.0,8.0,503566.7,3.0,0.753696,0.312429,1.066124
297874,297874.0,1162102000.0,2016.894737,6.763158,8311988.0,37.5,0.62142,0.428617,1.050037
433492,433492.0,97533660.0,2016.384615,6.884615,1021949.0,4.076923,0.542416,0.481355,1.023771
64324,64324.0,55403960.0,2018.0,8.5,1872410.0,5.0,0.241729,0.767833,1.009562
60154,60154.0,50805870.0,2018.0,8.0,2477320.0,6.333333,0.186176,0.804186,0.990362
293402,293402.0,34136100.0,2018.0,6.5,1501150.0,4.0,0.203956,0.782309,0.986265


##### 두 케이스에 공통으로 상위권을 차지한 5개 기업 추출

In [16]:
a1 = dct_mean_df.sort_values(by=['점수'],ascending = False).head(9).index
a2 = dct_mean_df2.sort_values(by=['점수'],ascending = False).head(9).index
unicon_company = list(set(a1).intersection(a2))
print(str(unicon_company)+"이 유니콘 기업 입니다")

[64324, 294649, 60154, 40860, 63]이 유니콘 기업 입니다
