In [1]:
import numpy as np
import pandas as pd 
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from plotly import graph_objects
import plotly.figure_factory as ff
from plotly.offline import plot, iplot, init_notebook_mode
init_notebook_mode(connected=True)

# 한중일 vs 미국 비교 분석
## - kaggle 유저 설문을 통한 IT산업 발전도 비교
 - Kaggle은 전세계적으로 대표되는 예측모델 및 분석 대회 플랫폼이다. 수 많은 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다.<p>
 - 그런만큼 데이터 분석 분야에 뛰어든 사람이라면 Kaggle에 참여할 것이다.<p>
 - Kaggle 유저 설문은 해당업에 종사하거나, 취업을 위해 공부하는 사람들의 데이터가 집중적으로 모여있다.<p>
 - 이를 비교 분석하여 간단하게나마 IT산업의 선두주자 미국과, 동아시아 3강국 대한민국, 중국, 일본의 IT 산업 발전 정도를 비교해보았다.

In [2]:
df_2021 = pd.read_csv('../input/my-data/kaggle_survey_2021_responses.csv')
df_2018 = pd.read_csv('../input/my-data/2018_kaggle_ds_and_ml_survey_responses_only.csv')


Columns (0,195,201,285,286,287,288,289,290,291,292) have mixed types.Specify dtype option on import or set low_memory=False.


Columns (0,2,8,10,21,23,24,25,26,27,28,44,56,64,83,85,87,107,109,123,125,150,157,172,174,194,210,218,219,223,246,249,262,264,276,277,278,279,280,281,282,283,284,285,286,287,288,289,290,304,306,325,326,329,341,368,371,384,385,389,390,391,393,394) have mixed types.Specify dtype option on import or set low_memory=False.



In [3]:
df_2021_data= df_2021[df_2021['Q3'].isin(['United States of America', 'Japan', 'China', 'South Korea'])].reset_index(drop=True)
df_2021_asia = df_2021[df_2021['Q3'].isin(['Japan', 'China', 'South Korea'])].reset_index(drop=True)
df_2021_usa = df_2021[df_2021['Q3'].isin(['United States of America'])].reset_index(drop=True)
df_2018_data= df_2018[df_2018['Q3'].isin(['United States of America', 'Japan', 'China', 'South Korea'])]

In [4]:
df_2021_data['Q3'].replace(['United States of America', 'South Korea', 'Japan', 'China'],['USA', 'KOR', 'JAP', 'CH'], inplace=True)
df_2021_asia['Q3'].replace(['South Korea', 'Japan', 'China'],['KOR', 'JAP', 'CH'], inplace=True)
df_2021_usa['Q3'].replace('United States of America', 'USA', inplace=True)
df_2018_data['Q3'].replace(['United States of America', 'South Korea', 'Japan', 'China'],['USA', 'KOR', 'JAP', 'CH'], inplace=True)
df_2021_data['Q4'].replace(['Some college/university study without earning a bachelor’s degree', 'No formal education past high school'],['Vocational college', 'A high school graduate'], inplace=True)

# 1. 2018년 vs 2021년 한중일미 Kaggle 응답수 비교
- Kaggle 설문중 총 응답자 수가 2021년도와 비슷한 2018년도를 비교해보았다.

In [5]:
q3_df_2018= df_2018_data.groupby(['Q3']).size().reset_index().rename(columns = {0:"Count"})
q3_df_2021= df_2021_data.groupby(['Q3']).size().reset_index().rename(columns = {0:"Count"})

fig = go.Figure()
fig.add_trace(go.Bar(
             x= q3_df_2021['Q3'],
             y=q3_df_2021['Count'],
             text = q3_df_2021['Count'],
             name='2021 of Kaggle User'
            ))
fig.add_trace(go.Bar(
             x= q3_df_2018['Q3'],
             y=q3_df_2018['Count'],
             text = q3_df_2018['Count'],
             name='2018 of Kaggle User'
            ))
 
fig.update_layout(barmode='group', xaxis_tickangle=-30,showlegend=True,
                 template = "plotly_white", title='2021 of Kaggle users')     
fig.show()

## 분석결과
- 미국과 중국의 경우 18년도에 비해 21년도 응답자 수가 절반가까이 줄어들었다.<p>
- 한국과 일본의 경우 반대로 2배 가까이 늘어났다.<p>
- 이를 통해 현재 중국과 미국에선 kaggle 이용자가 점점 줄어들고 있음을, 반대로 한국과 일본에선 점점 늘어나는 추세를 보일 것이라 예상한다.

# 2. 한중일 vs 미국의 연령대 분포 비교
 - 미국은 IT, 빅데이터 분석 기반 산업군에서 선두를 달리고 있다.<p>
 - 한중일은 후발주자로서 해당 분야에 많은 투자를 하는 중이다.<p>
 - kaggle 유저들의 연령 분포를 각 국가별로 비교해봄으로서 3개국에서 현 분야에 얼마나 많은 관심이 쏠리고 있는지를 확인 할 수 있을 것 이다.<p>
 - 또 연령대를 먼저 비교자료는 후에 분석할 프로그래밍 기간, 학위 수준, 주요 직업군, 급여 부분에 대한 지표로 작용 할 수 있을 것이라 기대한다.
 

In [6]:
q3_q1 = df_2021_data.groupby(['Q3', 'Q1']).size().reset_index().rename(columns = {0:"Count"})

def get_pnt(data, country):
    data_country = data[data['Q3'] == country].reset_index(drop = True)
    data_country['percentage'] = data_country["Count"] / data_country["Count"].sum()
    data_country['%'] = np.round(data_country['percentage'] * 100, 1)
    
    return data_country

usa_df = get_pnt(q3_q1, "USA")
china_df = get_pnt(q3_q1, "CH")
japan_df = get_pnt(q3_q1, "JAP")
korea_df = get_pnt(q3_q1, "KOR")

In [7]:
fig = make_subplots(rows=2, cols=2, #subplot_titles=("USA with Q1", "China with Q1", "Japan with Q1", "Korea with Q1"),
                    column_widths = [2, 2],
                    specs=[[{'type':'domain'}, {'type':'domain'}],
                          [{'type':'domain'}, {'type':'domain'}]])

fig.add_trace(go.Pie(labels = usa_df['Q1'], 
                     values = usa_df['%'], 
                     pull = [0.1,0,0,0,0,0,0,0.1,0.1,0.1,0.1],
                    marker=dict(line=dict(color='#FFFFFF', width=2))),  row = 1, col = 1)

fig.add_trace(go.Pie(labels = china_df['Q1'], 
                     values = china_df['%'], 
                      pull = [0,0,0,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1],
                    marker=dict(line=dict(color='#FFFFFF', width=2))),  row = 1, col = 2)

fig.add_trace(go.Pie(labels = japan_df['Q1'], 
                     values = japan_df['%'], 
                     pull = [0,0,0,0.1,0.1],
                     marker=dict(line=dict(color='#FFFFFF', width=2))),  row = 2, col = 1)

fig.add_trace(go.Pie(labels = korea_df['Q1'], 
                     values = korea_df['%'], 
                     pull = [0.1,0,0.1,0,0,0,0,0,0.1,0.1],
                     marker=dict(line=dict(color='#FFFFFF', width=2))), row = 2, col = 2)

fig.update_traces(hole=.4, hoverinfo="label+percent+name")

fig.update_layout(height = 900,
                  showlegend=True,
                  title = 'Comparison of age groups between Korea, China, Japan and the United States',
                  annotations=[dict(text='USA', x=0.199, y=0.81, font_size=25, showarrow=False),
                               dict(text='CH', x=0.795, y=0.81, font_size=25, showarrow=False),
                               dict(text='JAP', x=0.199, y=0.191, font_size=25, showarrow=False),
                               dict(text='KOR', x=0.795, y=0.191, font_size=25, showarrow=False)],
                 template = "plotly_white")

fig.show()

## 분석 결과
- 미국은 해당 분야에 대한 발전이 오랜기간 이루어졌음을 확인해 볼 수 있다. 특히 22세~49세 라고 응답한 비율이 71.3%에 달한다. 이는 미국내에 많은 수의 사람들이
데이터 분석, IT 산업에 참여하고 있으며, 동시에 발전도도 상당히 높은 것을 예상해 볼 수 있다.<p>
- 일본의 경우 미국과 상당히 유사한 분포를 보이고 있었다. 22세 ~ 49세 라고 응답한 비율이 74.4%로 미국보다 3.1% 높았다. 하지만 두 나라의 차이점은 세부적인
평균나이 분포에서 보여졌다. 미국의 경우 30세 이상의 비율은 69.1%, 일본은 63.5%로 30세 이상 비율은 미국이 5.6% 앞선다.<p>
- 중국의 경우 앞도적으로 젊은 세대 비율이 많았다. 18세 ~ 39세 까지의 비율이 무려 96.8%에 달했다. 이는 후에 분석할 자료들의 결과와 큰 연관성을 보인다.<p>
- 한국의 경우 중간나이대의 분포도가 눈에 띈다. 21세 미만, 55세 이상의 나이대가 다른 나라에 비해 아주 적다. 이는 한국의 교육제도와 55세 이상은 회사에서 정년퇴직을 권장하는 문화를 생각하면 이해가 가능하다.<p>
또, 22 ~ 24세 분포가 12.8% 정도 인 것에 비해 25 ~ 29세 비율이 29.5% 나 되는 것은 kaggle 설문 응답자 대부분이 남자였다는 점과 대한민국 남성들의 평균 군 생활 기간을 생각해 보면 이해가 가능하다. 대부분의 응답자들이 군대 제대 후, 25~34세 까지 현 분야에 대해 공부를 하며 해당 직무 쪽을 희망하고 있음을 예상해 볼 수 있다.

# 3. 한중일 vs 미국 프로그래밍 활동 기간 분포 비교
- 4개 국가의 연령을 비교해 봤다면 이번엔 본격적은 프로그래밍 활동 기간에 대한 국가별 비교다.<p>
- 앞서 분석했던 연령대 비교를 바탕으로 예상해보자면<p>
  1. 미국의 경우 연령대 분포와 비슷 분포를 보일것이라 예상된다.<p>
  2. 일본의 경우 미국과 비슷하지만, 활동 기간에선 좀 더 경력이 짧은 쪽의 분포가 많을 것이라 예상된다.<p>
  3. 중국의 경우 젊은 세대가 많은 만큼 짦은 기간의 분포가 많을 것 이다.<p>
  4. 한국의 경우 중국과 비슷하거나 더 많을 것이다.

In [8]:
q3_q6 = df_2021_data.groupby(['Q3', 'Q6']).size().reset_index().rename(columns = {0:"Count"})

def get_pnt(data, country):
    data_country = data[data['Q3'] == country].reset_index(drop = True)
    data_country['percentage'] = data_country["Count"] / data_country["Count"].sum()
    data_country['%'] = np.round(data_country['percentage'] * 100, 1)
    
    return data_country

usa_df = get_pnt(q3_q6, "USA")
china_df = get_pnt(q3_q6, "CH")
japan_df = get_pnt(q3_q6, "JAP")
korea_df = get_pnt(q3_q6, "KOR")

In [9]:
fig = make_subplots(rows=2, cols=2, subplot_titles=("USA with Q6", "China with Q6", "Japan with Q6", "Korea with Q6"), column_widths = [2, 2],
                    specs=[[{'type':'domain'}, {'type':'domain'}],
                          [{'type':'domain'}, {'type':'domain'}]])

fig.add_trace(go.Pie(labels = usa_df['Q6'], 
                     values = usa_df['%'], 
                     ),  row = 1, col = 1)

fig.add_trace(go.Pie(labels = china_df['Q6'], 
                     values = china_df['%'], 
                      ), row = 1, col = 2)

fig.add_trace(go.Pie(labels = japan_df['Q6'], 
                     values = japan_df['%'], 
                    ),  row = 2, col = 1)

fig.add_trace(go.Pie(labels = korea_df['Q6'], 
                     values = korea_df['%'], 
                     ), row = 2, col = 2)
fig.update_layout(height = 1000,
                  showlegend=True,
                 template = "plotly_white")

fig.show()

## 분석 결과
- 미국의 경우 예상했던 것 처럼 연령대와 어느정도 연관이 있는 비율로 나타났다. 대부분의 활동 기간이 골고루 분포가 되어 있으며, 1년 미만이라 응답한 비율이 12.9%로 가장 적었다. 특히 다른 3개국에 비해 10 ~ 20+ 이상이라 응답한 비율이 30.5% 에 달한다.<p>
- 일본의 경우도 미국처럼 골고루 분포가 이루어졌지만, 세부적인 분포에서 차이를 나타냈다. 가장 크게 눈에 띄는것은 1년 미만 ~ 3년 미만 까지의 비율이다. 미국은 32.9% 인 것에 반해 일본은 46.2% 였다. 이는 위에서 비교했던 연령대 응답 분포와 놓고 본다면 더 큰 차이로 보여진다. 하나 예상해 볼 수 있는 것은 데이터 분석 분야가 미국보다 늦게 발전하기 시작해 다른 직무, 전공을 하던 사람들이 산업 발전에 따라 프로그래밍을 시작하게 되었음을 예상해 볼 수 있다.<p>
- 중국의 경우 5년 미만이라 응답한 비율이 84.7% 로 가장 많았다. 또 10년 이상 경력이라 응답한 비율은 6.4% 에 그쳤다. 이는 현재 중국에서 IT, 빅데이터 분야에 대해 최근에 많은 관심과 투자가 이루어 지고 있음을 짐작해 볼 수 있다.<p>
- 한국의 경우 5년 미만이라 응답한 비율이 68.8% 로 중국에 비해 상대적으로 적었다. 특히 큰 차이를 보인 곳이 1년 미만 경력이라 응답한 비율이였다. 이는 한국에서의 kaggle에 대한 인지도와 국내에서 진행되는 다양한 빅데이터 분석 대회, 대학,기업, 공공기관에서 진행하는 공모전 등, 대체 가능한 미디어가 있기 때문인 것으로 예상된다.

# 4. 한중일 vs 미국 Kaggle 유저 학위 분포 비교
- 한중일 및 미국에서의 데이터 분야 응답자의 학위수준 분포 비교이다.
- 4개 국가별 데이터분야 학위 수준을 분석하여 주요 직업 및 급여 수준과의 연관성을 비교해본다.


In [10]:
q3_q4 = df_2021_data.groupby(['Q3', 'Q4']).size().reset_index().rename(columns = {0:"Count"})

def get_pnt(data, country):
    data_country = data[data['Q3'] == country].reset_index(drop = True)
    data_country['percentage'] = data_country["Count"] / data_country["Count"].sum()
    data_country['%'] = np.round(data_country['percentage'] * 100, 1)
    
    return data_country

usa_df = get_pnt(q3_q4, "USA")
china_df = get_pnt(q3_q4, "CH")
japan_df = get_pnt(q3_q4, "JAP")
korea_df = get_pnt(q3_q4, "KOR")



In [11]:
fig = make_subplots(rows=2, cols=2, subplot_titles=("USA with Q4", "China with Q4", "Japan with Q4", "Korea with Q4"), column_widths = [2, 2],
                    specs=[[{'type':'domain'}, {'type':'domain'}],
                          [{'type':'domain'}, {'type':'domain'}]])

fig.add_trace(go.Pie(labels = usa_df['Q4'], 
                     values = usa_df['%'], 
                     ),  row = 1, col = 1)

fig.add_trace(go.Pie(labels = china_df['Q4'], 
                     values = china_df['%'], 
                      ), row = 1, col = 2)

fig.add_trace(go.Pie(labels = japan_df['Q4'], 
                     values = japan_df['%'], 
                    ),  row = 2, col = 1)

fig.add_trace(go.Pie(labels = korea_df['Q4'], 
                     values = korea_df['%'], 
                     ), row = 2, col = 2)
fig.update_layout(height = 1000,
                  showlegend=True,
                 template = "plotly_white")

fig.show()

## 분석결과
- 한국을 제외한 미국,중국,일본 국가에서 석사 학위 취득자가 40%이상 분포하였다. 반면, 한국의 경우 학사학위 취득자가 35.4%로 가장 비율이 높았다.<p>
- 박사학위 취득자의 비율의 경우 중국이 8.6%로 가장 낮았으며, 나머지 국가에서는 10% 이상 분포하였다.<p>
- 미국의 경우 무학위자 비율이 가장 낮았으며, 일본의 경우 무학위 비율이 가장 높았다.<p>
- 교육수준이 전반적으로 높은 미국과 학사비율이 가장 높은 한국에서 교육수준이 급여수준과 직종에 영향을 미칠 것이라 예상된다.

# 5. 한중일 vs 미국 데이터분석 관련 직종 분포 비교
- 빅데이터 분야는 현재 다양한 영역에서 사용되어지고 있다. <p>
- 이와 관련되어 직종도 점점 세분화되고 있으며, 단순히 IT 분야를 넘어 1,2,3차 산업 분야까지 영향을 주고 있다.이러한 직종에 관한 국가별 분포를 비교해보겠다.

In [12]:
q3_q5 = df_2021_data.groupby(['Q3', 'Q5']).size().reset_index().rename(columns = {0:"Count"})

def get_pnt(data, country):
    data_country = data[data['Q3'] == country].reset_index(drop = True)
    data_country['percentage'] = data_country["Count"] / data_country["Count"].sum()
    data_country['%'] = np.round(data_country['percentage'] * 100, 1)
    
    return data_country

usa_df = get_pnt(q3_q5, "USA")
china_df = get_pnt(q3_q5, "CH")
japan_df = get_pnt(q3_q5, "JAP")
korea_df = get_pnt(q3_q5, "KOR")

In [13]:
fig = make_subplots(rows=2, cols=2, subplot_titles=("USA with Q5", "China with Q5", "Japan with Q5", "Korea with Q5"), column_widths = [2, 2],
                    specs=[[{'type':'domain'}, {'type':'domain'}],
                          [{'type':'domain'}, {'type':'domain'}]])

fig.add_trace(go.Pie(labels = usa_df['Q5'], 
                     values = usa_df['%'], 
                     ),  row = 1, col = 1)

fig.add_trace(go.Pie(labels = china_df['Q5'], 
                     values = china_df['%'], 
                      ), row = 1, col = 2)

fig.add_trace(go.Pie(labels = japan_df['Q5'], 
                     values = japan_df['%'], 
                    ),  row = 2, col = 1)

fig.add_trace(go.Pie(labels = korea_df['Q5'], 
                     values = korea_df['%'], 
                     ), row = 2, col = 2)
fig.update_layout(height = 1000,
                  showlegend=True,
                 template = "plotly_white")

fig.show()

## 분석결과
- 미국의 경우 데이터 사이언티스트, 데이터 애널리스트 비율이 상대적으로 높게 나왔다. 특이한 점은 선택지에 없는 'other' 선택지를 고른 유저가 가장 많은 것이다. 이를 통해 예상해 볼 수 있는 것은, 데이터 분석은 앞서 말한것 처럼 다양한 산업군에서 이용되고 있기 때문에, 직접적인 연관이 있는 산업군이 아니더라도 빅데이터 분야가 이용되고 있으며, 그에 따라 선택지에 없는 직군의 사람들이 참여했음을 예상해 볼 수 있다.<p>
- 일본의 경우 미국과 대비되는 차이점을 보였다. 바로 소프트웨어 엔지니어의 응답 비율이다. 소프트웨어 엔지니어 대부분은 일반적으로 개발자로 분류된다. 이는 일본이 데이터분석 분야를 전문으로하는 직군이 아직 많지 않으며, 고전적인 개발자 분야에서 해당 분야를 이끌어 나가고 있음을 알 수 있다.<p>
- 중국의 경우 압도적으로 학생의 비중이 많았다. 또 학생을 제외한 상위 3개 직군이 빅데이터 분야에 대한 전문적 지식을 요구하는 직군으로 나타났다. 이를 통해 다시한번 중국에서 현재 빅데이터 분야에 많은 투자와 관심이 있음을 알 수 있다.<p>
- 한국의 경우도 중국과 크게 다르지 않았다. 세부적으로는 중국보단 좀 더 다양한 분야에서 빅데이터에 대한 관심을 보이고 있는 수준 정도이다. 

# 6. 한중일 vs 미국 재직 중인 유저의 급여 수준 비교
- 빅데이터 분야는 현재 국내에서 가장 인기 있는 직종이자, 동시에 많은 급여를 받을 수 있는 직종으로 알려져있다.<p>
- 이런 급여 형태가 다른 국가에서도 비슷하게 나타나는지 확인해본다.<p>
- 각 국가마다 일반적인 국가 수준은 다르지만, 위의 학위, 경력, 직종에 따라 유의미한 차이를 확인해 볼 수 있을 것이라 생각한다.

In [14]:
df_2021_data.loc[df_2021_data['Q25'] == '$0-999' , 'Q25'] = '0-4,999'
df_2021_data.loc[df_2021_data['Q25'] == '1,000-1,999' , 'Q25'] = '0-4,999'
df_2021_data.loc[df_2021_data['Q25'] == '2,000-2,999' , 'Q25'] = '0-4,999'
df_2021_data.loc[df_2021_data['Q25'] == '3,000-3,999' , 'Q25'] = '0-4,999'
df_2021_data.loc[df_2021_data['Q25'] == '4,000-4,999' , 'Q25'] = '0-4,999'
df_2021_data.loc[df_2021_data['Q25'] == '5,000-7,499' , 'Q25'] = '5,000-9,999'
df_2021_data.loc[df_2021_data['Q25'] == '7,500-9,999' , 'Q25'] = '5,000-9,999'
df_2021_data.loc[df_2021_data['Q25'] == '10,000-14,999'  , 'Q25'] = '10,000-19,999'
df_2021_data.loc[df_2021_data['Q25'] == '15,000-19,999' , 'Q25'] = '10,000-19,999'
df_2021_data.loc[df_2021_data['Q25'] == '20,000-24,999'  , 'Q25'] = '20,000-29,999'
df_2021_data.loc[df_2021_data['Q25'] == '25,000-29,999' , 'Q25'] = '20,000-29,999'
df_2021_data.loc[df_2021_data['Q25'] == '150,000-199,999' , 'Q25'] = '150,000-249,999'
df_2021_data.loc[df_2021_data['Q25'] == '200,000-249,999' , 'Q25'] = '150,000-249,999'
df_2021_data.loc[df_2021_data['Q25'] == '250,000-299,999' , 'Q25'] = '250,000-499,999'
df_2021_data.loc[df_2021_data['Q25'] == '300,000-499,999' , 'Q25'] = '250,000-499,999'
df_2021_data.loc[df_2021_data['Q25'] == '$500,000-999,999' , 'Q25'] = '> 500000'
df_2021_data.loc[df_2021_data['Q25'] == '>$1,000,000' , 'Q25'] = '> 500000'

In [15]:
df_2021_data_2=df_2021_data.dropna(subset=['Q25'])

In [16]:
q3_q25 = df_2021_data_2.groupby(['Q3', 'Q25']).size().reset_index().rename(columns = {0:"Count"})

def get_pnt(data, country):
    data_country = data[data['Q3'] == country].reset_index(drop = True)
    data_country['percentage'] = data_country["Count"] / data_country["Count"].sum()
    data_country['%'] = np.round(data_country['percentage'] * 100, 1)
    
    return data_country

usa_df = get_pnt(q3_q25, "USA")
china_df = get_pnt(q3_q25, "CH")
japan_df = get_pnt(q3_q25, "JAP")
korea_df = get_pnt(q3_q25, "KOR")

In [17]:

fig = make_subplots(rows = 2, cols = 2, 
                    shared_xaxes=True, 
                    shared_yaxes=True, 
                    vertical_spacing = 0.05,
                    subplot_titles=("USA with Q25", "China with Q25", "Japan with Q25", "Korea with Q25"),
                    column_widths = [0.5, 0.5]) 

fig.add_trace(go.Bar(x = usa_df['Q25'], 
                     y = usa_df['%'], 
                     text = usa_df['%'].astype(str) + "%", 
                     textposition='outside'), 
              row = 1, col = 1)

fig.add_trace(go.Bar(x = china_df['Q25'], 
                     y = china_df['%'], 
                     text = china_df['%'].astype(str) + "%", 
                     textposition='outside'), 
              row = 1, col = 2)

fig.add_trace(go.Bar(x = japan_df['Q25'], 
                     y = japan_df['%'], 
                     text = japan_df['%'].astype(str) + "%", 
                     textposition='outside'), 
              row = 2, col = 1)

fig.add_trace(go.Bar(x = korea_df['Q25'], 
                     y = korea_df['%'], 
                     text = korea_df['%'].astype(str) + "%", 
                     textposition='outside'), 
              row = 2, col = 2)
fig.update_xaxes(categoryorder='array', categoryarray= [ '0-4999','5,000-9,999', '10,000-19,999','20,000-29,999','30,000-39,999','40,000-49,999','50,000-59,999'
,'60,000-69,999','70,000-79,999','80,000-89,999','90,000-99,999','100,000-124,999','125,000-149,999','150,000-249,999','250,000-499,999','> 500000'])


fig.update_layout(height = 1000,
                  showlegend=False,
                 template = "plotly_white")

fig.show()

## 분석결과
- 미국의 경우 급여 수준 분포에서 상위 3개 항목이 100,000불 ~ 250,000불 사이의 비율이 44.8%에 달했다. 또 한가지 중요한 부분은 250,000불 ~ 500,000불 이상이라 응답한 비율이 7.7%로 압도적으로 높다. 이는 미국의 프로그래밍 기간 분포와 어느 정도 연관이 있는 것으로 보이는데, 미국의 프로그래밍 기간이 5년 ~ 20년 이상이라 응답한 유저는 47.1%로 100,000불 ~ 250,000불 이라 응답한 유저의 수와 근사한 비율을 보인다. 물론 재직 중인 기간이 아닌 프로그래밍을 한 기간이기 때문에 어느 정도 오차를 감안하더라도 프로그래밍 기간이 가장 긴 미국의 Kaggle 유저들이 높은 수준의 급여를 받는 것으로 보인다.<p>
- 일본과 한국의 경우 매우 유사한 그래프 형태를 보이고 있다. 0~4,999불 분포가 가장 많고 그 다음 상위 5개 분포도 거의 유사하다. 이는 일본과 한국의 급여 수준이 유사하다는 점이 크게 작용한 것으로 보인다.<p>
- 대한민국, 중국, 일본의 0 ~ 4,999 비율이 가장 높은 것은 3개국의 직업 분포에서 학생의 비율과 근사한 값을 보이고 있다. 중국 47.4% 일본 16.1% 한국 27.3% 로 학생의 응답 비율이 급여 수준 응답에서도 크게 작용한 것으로 보인다. 

# 분석 후기
- 대한민국, 미국, 중국, 일본 이 4개국을 비교해 보았다. 비교 분석하기 전 예상했던 수치와 비슷했던 점도 있었지만, 흥미로운 부분도 알 수 있었다.<p>
- 5년 미만 응답자 수가 많았던 한국의 경우 중국과 다르게 40,000불 이상이라 답한 유저가 압도적으로 많았다. <p>
- 여기에 직군 응답 비율 또한 학생을 제외한 상위 3개 항목이 데이터 분석 분야라는 점을 생각해본다면, 해당 분야가 현재 한국에선 상당히 높은 수준의 급여를 받는 직종이란 것을 알 수 있다. <p>
- 또, 대부분이 경력이 5년 미만, 학위도 학사 비율이 가장 많은 한국의 상황을 종합해서 본다면, 시간이 더 흐름에 따라 경력, 학위, 직종의 다양화, 급여수준 또한 빠르게 성장 할 수 있음을 기대해 볼 수 있다.<p>
- 하지만 최고 수준의 급여 부분에선 아직 대한민국, 중국, 일본은 아직 부족해보인다. 그에 반해 미국은 최고 수준의 급여를 주고 있다. 하지만, 미국의 데이터분야의 초입하는 유저의 수가 다른 국가에 비해 적다. 바꿔말하자면, 한,중,일 3개국의 학생들이 많은 공부와 경력을 쌓고 미국의 진출하는 것이 전망이 좋다고 보여진다.<p>
- 중국의 경우 데이터분야 발전에서 가장 후발주자의 형태를 보이고 있었다. 앞도적으로 높은 학생의 비율, 데이터분석 분야로만 집중되어진 직군 분포, 0 ~ 4,999불 수준의 임금이 전체 응답자의 절반이 넘어간다는 점, 등 하지만, 많은 유저들이 해당 분야의 진출을 위해 공부하는 만큼, 빠른 성장세를 보일 것이라 기대한다.