# 데이터셋 소개:

**work_year**: 데이터 기록 연도입니다. 이 필드는 시간적 맥락을 나타내며 시간에 따른 급여 동향을 이해하는 데 중요합니다.

**job_title**: 직책의 구체적인 제목입니다. 'Data Scientist', 'Data Engineer', 또는 'Data Analyst'와 같이 데이터 분야 내에서 다양한 전문 역할에 대한 급여 분포를 이해하는 데 중요한 열입니다.

**job_category**: 직무 역할을 보다 넓은 범주로 분류하여 쉬운 분석을 위한 것입니다. 'Data Analysis', 'Machine Learning', 'Data Engineering'과 같은 범주로 구분될 수 있습니다.

**salary_currency**: 급여가 지불되는 통화입니다. USD, EUR 등과 같이 급여를 글로벌 맥락에서의 실제 가치를 이해하는 데 중요합니다.

**salary**: 현지 통화로 표시된 직책의 연간 총 급여입니다. 이 원시 급여 수치는 지역별 급여 비교에 중요한 역할을 합니다.

**salary_in_usd**: 미국 달러(USD)로 변환된 연간 총 급여입니다. 이 통일된 통화 변환은 글로벌 급여 비교 및 분석을 돕습니다.

**employee_residence**: 직원의 거주 국가입니다. 이 데이터는 지리적 급여 차이와 생활비 차이를 탐색하는 데 사용될 수 있습니다.

**experience_level**: 직원의 전문 경험 수준을 분류합니다. 'Entry-level', 'Mid-level', 'Senior', 'Executive'와 같은 일반적인 범주가 있으며, 경험이 데이터 관련 역할의 급여에 어떻게 영향을 미치는지에 대한 통찰을 제공합니다.

**employment_type**: 'Full-time', 'Part-time', 'Contract' 등과 같이 고용 유형을 지정합니다. 다른 고용 조건이 급여 구조에 어떤 영향을 미치는지를 분석하는 데 도움이 됩니다.

**work_setting**: 'Remote', 'In-person', 'Hybrid'와 같이 작업 환경이나 환경을 나타냅니다. 이 열은 데이터 산업에서 작업 환경이 급여 수준에 어떻게 영향을 미치는지를 반영합니다.

**company_location**: 회사의 위치가 있는 국가입니다. 회사의 위치가 급여 구조에 어떻게 영향을 미치는지를 분석하는 데 도움이 됩니다.

**company_size**: 고용주 회사의 규모로, 종종 소형 (S), 중형 (M), 대형 (L) 크기로 분류됩니다. 이는 회사 크기가 급여에 어떤 영향을 미치는지를 분석하는 데 사용됩니다.

# 라이브러리 로드

In [1]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import plotly.express as px 
import seaborn as sns
from plotly.offline import iplot , plot 
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings("ignore")

# 데이터 불러오기 및 분석

In [2]:
df = pd.read_csv("/kaggle/input/jobs-in-data/jobs_in_data.csv")

In [3]:
df.sample(5) # sample 무작위 추출

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
6378,2023,Analytics Engineer,Leadership and Management,USD,87000,87000,United States,Senior,Full-time,In-person,United States,M
4766,2023,Applied Scientist,Data Science and Research,USD,222200,222200,United States,Senior,Full-time,In-person,United States,L
2004,2023,Data Analyst,Data Analysis,USD,100000,100000,United States,Senior,Full-time,In-person,United States,M
81,2023,Research Scientist,Data Science and Research,USD,165000,165000,United States,Mid-level,Full-time,Remote,United States,M
6628,2023,Data Engineer,Data Engineering,USD,153600,153600,United States,Senior,Full-time,In-person,United States,M


In [4]:
df.head()

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2023,Data DevOps Engineer,Data Engineering,EUR,88000,95012,Germany,Mid-level,Full-time,Hybrid,Germany,L
1,2023,Data Architect,Data Architecture and Modeling,USD,186000,186000,United States,Senior,Full-time,In-person,United States,M
2,2023,Data Architect,Data Architecture and Modeling,USD,81800,81800,United States,Senior,Full-time,In-person,United States,M
3,2023,Data Scientist,Data Science and Research,USD,212000,212000,United States,Senior,Full-time,In-person,United States,M
4,2023,Data Scientist,Data Science and Research,USD,93300,93300,United States,Senior,Full-time,In-person,United States,M


In [5]:
df.shape #9355행, 12 열

(9355, 12)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9355 entries, 0 to 9354
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           9355 non-null   int64 
 1   job_title           9355 non-null   object
 2   job_category        9355 non-null   object
 3   salary_currency     9355 non-null   object
 4   salary              9355 non-null   int64 
 5   salary_in_usd       9355 non-null   int64 
 6   employee_residence  9355 non-null   object
 7   experience_level    9355 non-null   object
 8   employment_type     9355 non-null   object
 9   work_setting        9355 non-null   object
 10  company_location    9355 non-null   object
 11  company_size        9355 non-null   object
dtypes: int64(3), object(9)
memory usage: 877.2+ KB


모든 데이터 non-null \
정수형(int64)이 3개의 열에서 사용되고, 문자열(object)이 9개의 열에서 사용

In [7]:
# NaN 값 확인, 없음
df.isna().sum()

work_year             0
job_title             0
job_category          0
salary_currency       0
salary                0
salary_in_usd         0
employee_residence    0
experience_level      0
employment_type       0
work_setting          0
company_location      0
company_size          0
dtype: int64

In [8]:
# 정수형 데이터 기초 통계 요약
df.describe()

Unnamed: 0,work_year,salary,salary_in_usd
count,9355.0,9355.0,9355.0
mean,2022.760449,149927.981293,150299.495564
std,0.51947,63608.835387,63177.372024
min,2020.0,14000.0,15000.0
25%,2023.0,105200.0,105700.0
50%,2023.0,143860.0,143000.0
75%,2023.0,187000.0,186723.0
max,2023.0,450000.0,450000.0


In [9]:
# Describe all Data (숫자형 데이터를 제외한)
df.describe(exclude=np.number) # np.number는 NumPy 라이브러리에서 제공되는 숫자 데이터 타입들을 모두 포함하는 범용 클래스

Unnamed: 0,job_title,job_category,salary_currency,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
count,9355,9355,9355,9355,9355,9355,9355,9355,9355
unique,125,10,11,83,4,4,3,70,3
top,Data Engineer,Data Science and Research,USD,United States,Senior,Full-time,In-person,United States,M
freq,2195,3014,8591,8086,6709,9310,5730,8132,8448


In [10]:
pd.DataFrame({'Count':df.shape[0],
              'Null':df.isnull().sum(),
              'Null %':df.isnull().mean() * 100,
              'Cardinality':df.nunique()
})

Unnamed: 0,Count,Null,Null %,Cardinality
work_year,9355,0,0.0,4
job_title,9355,0,0.0,125
job_category,9355,0,0.0,10
salary_currency,9355,0,0.0,11
salary,9355,0,0.0,1507
salary_in_usd,9355,0,0.0,1786
employee_residence,9355,0,0.0,83
experience_level,9355,0,0.0,4
employment_type,9355,0,0.0,4
work_setting,9355,0,0.0,3


 - 9355 행
 - 결측값 없음
 - 각 열에 대한 고유값의 개수
 
### 고유값의 개수가 많을수록 카디널리티가 높다고 말합니다. 반면에 고유값의 개수가 적을수록 카디널리티가 낮습니다. 이 정보는 데이터셋을 이해하고 분석하는 데 중요한 통계적인 특성 중 하나입니다.

### 고유값의 개수가 의미하는 정보:

- 고유값의 다양성 확인: 고유값이 많으면 해당 열이 다양한 값을 가지고 있음을 나타냅니다. 

- 범주형 데이터 탐색: 특히 범주형 열에서 유용합니다. 고유값의 개수가 적은 범주형 열은 해당 범주에 대한 분석이 상대적으로 간단할 수 있습니다.

- 데이터 전처리 결정: 고유값이 많은 열은 처리가 필요한 경우가 있습니다. 예를 들어, 원-핫 인코딩을 적용하는 경우, 많은 고유값이 있는 열은 인코딩 결과가 매우 희소할 수 있습니다.

- 이상치 감지: 특히 수치형 데이터에서는 고유값이 적은 열에서 이상치가 눈에 띄게 나타날 수 있습니다.

In [11]:
# Check Duplicated rows
df.duplicated().any() #True 중복된 열이 있음, False 없음

True

In [12]:
df.duplicated().sum() # 중복된 행의 갯수

4014

In [13]:
df[df.duplicated()]

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
64,2023,Data Analyst,Data Analysis,USD,75000,75000,United States,Entry-level,Full-time,In-person,United States,M
111,2023,Research Scientist,Data Science and Research,USD,165000,165000,United States,Mid-level,Full-time,Remote,United States,M
112,2023,Research Scientist,Data Science and Research,USD,118800,118800,United States,Mid-level,Full-time,Remote,United States,M
115,2023,Data Engineer,Data Engineering,USD,184000,184000,United States,Mid-level,Full-time,In-person,United States,M
116,2023,Data Engineer,Data Engineering,USD,123000,123000,United States,Mid-level,Full-time,In-person,United States,M
...,...,...,...,...,...,...,...,...,...,...,...,...
9079,2022,Data Scientist,Data Science and Research,USD,78000,78000,United States,Mid-level,Full-time,Remote,United States,M
9080,2022,Data Engineer,Data Engineering,USD,135000,135000,United States,Senior,Full-time,Remote,United States,M
9081,2022,Data Engineer,Data Engineering,USD,115000,115000,United States,Senior,Full-time,Remote,United States,M
9214,2021,Data Engineer,Data Engineering,USD,200000,200000,United States,Mid-level,Full-time,Remote,United States,L


# 데이터 전처리 및 분석

In [14]:
df.drop(['salary','company_location'],axis=1,inplace=True)
# 현지 통화 급여와 국가 데이터를 포함한 열을 삭제했다.
# 전세계적으로 공통된 기준으로 데이터를 분석(salary_in_usd) 🤔

In [15]:
# Delete Duplicated(중복 행 삭제)
df.drop_duplicates(inplace=True)

In [16]:
# Check Duplicated rows
df.duplicated().any() # 중복이 사라진 것을 확인

False

In [18]:
df.shape # 데이터 전처리 전 shape: 9355,12 -> 전처리 후 : 5341,10 

(5341, 10)

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5341 entries, 0 to 9354
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           5341 non-null   int64 
 1   job_title           5341 non-null   object
 2   job_category        5341 non-null   object
 3   salary_currency     5341 non-null   object
 4   salary_in_usd       5341 non-null   int64 
 5   employee_residence  5341 non-null   object
 6   experience_level    5341 non-null   object
 7   employment_type     5341 non-null   object
 8   work_setting        5341 non-null   object
 9   company_size        5341 non-null   object
dtypes: int64(2), object(8)
memory usage: 459.0+ KB


In [20]:
# Describe Numiric Data
df.describe()

Unnamed: 0,work_year,salary_in_usd
count,5341.0,5341.0
mean,2022.682082,146258.409099
std,0.608026,66594.117529
min,2020.0,15000.0
25%,2022.0,98506.0
50%,2023.0,140000.0
75%,2023.0,186000.0
max,2023.0,450000.0


In [21]:
# Describe all Data
df.describe(exclude=np.number) #위에서 usd로 통화 기준을 통일했는데 salary_currency 도 필요없을거 같다🤔

Unnamed: 0,job_title,job_category,salary_currency,employee_residence,experience_level,employment_type,work_setting,company_size
count,5341,5341,5341,5341,5341,5341,5341,5341
unique,125,10,11,83,4,4,3,3
top,Data Engineer,Data Science and Research,USD,United States,Senior,Full-time,In-person,M
freq,1100,1655,4707,4255,3444,5296,2913,4688


In [22]:
pd.DataFrame({'Count':df.shape[0],
              'Null':df.isnull().sum(),
              'Null %':df.isnull().mean() * 100,
              'Cardinality':df.nunique()
})

Unnamed: 0,Count,Null,Null %,Cardinality
work_year,5341,0,0.0,4
job_title,5341,0,0.0,125
job_category,5341,0,0.0,10
salary_currency,5341,0,0.0,11
salary_in_usd,5341,0,0.0,1786
employee_residence,5341,0,0.0,83
experience_level,5341,0,0.0,4
employment_type,5341,0,0.0,4
work_setting,5341,0,0.0,3
company_size,5341,0,0.0,3


In [23]:
df.sample(5)

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_size
7035,2023,Research Scientist,Data Science and Research,USD,85000,United States,Mid-level,Full-time,In-person,M
3462,2023,Data Architect,Data Architecture and Modeling,USD,180000,United States,Senior,Full-time,In-person,M
2851,2023,Data Scientist,Data Science and Research,USD,226600,United States,Senior,Full-time,In-person,M
4455,2023,Data Scientist,Data Science and Research,USD,206000,United States,Senior,Full-time,Remote,M
3354,2023,AI Engineer,Machine Learning and AI,USD,227850,United States,Senior,Full-time,Remote,M


# Work Year

In [24]:
# 각 연도별로 employees 수가 가장 많은 연도와 가장 적은 연도를 출력
print(f"Top Year for Number of Employees '{df['work_year'].value_counts().idxmax()}' with value '{df['work_year'].value_counts().max()}'")
print(f"Least Year for Number of Employees '{df['work_year'].value_counts().idxmin()}' with value '{df['work_year'].value_counts().min()}'")

Top Year for Number of Employees '2023' with value '3980'
Least Year for Number of Employees '2020' with value '71'


#### 2020년 employees가 71개로 적었고
#### 2023년도 들어서 3980개로 늘었다.

In [25]:
iplot(px.line(x = df['work_year'].value_counts().index,
              y = df['work_year'].value_counts().values,
              markers=True,
              labels={'x':'Year','y':'Number of Employees'},
              title='Years of Work',
              line_shape="linear",
              color_discrete_sequence=['#cc2114'],
              template='plotly_dark'
              ))

데이터 관련 직무에 종사하는 사람들은 전세계 적으로 증가하고 있는 추세이다.

In [27]:
# 국가별로 그룹화하여 연도별 총 직원 수를 계산
country_year_counts = df.groupby(['employee_residence', 'work_year']).size().reset_index(name='employee_count')
country_year_counts

Unnamed: 0,employee_residence,work_year,employee_count
0,Algeria,2022,1
1,American Samoa,2021,1
2,Andorra,2023,1
3,Argentina,2022,3
4,Argentina,2023,6
...,...,...,...
160,United States,2022,829
161,United States,2023,3310
162,Uzbekistan,2022,1
163,Uzbekistan,2023,2


In [28]:
# Plotly Express를 사용하여 국가별로 연도에 따른 직원 수의 선 그래프를 그림
fig = px.line(
    country_year_counts,
    x='work_year',
    y='employee_count',
    color='employee_residence',
    labels={'work_year': 'Year', 'employee_count': 'Number of Employees'},
    title='Employee Count by Country and Year',
    line_shape="linear",
    template='plotly_dark'
)

# 그래프를 표시
fig.show()

# Job Title

In [33]:
df_job_title_USD = df.groupby('job_title')['salary_in_usd'].sum() # job_title에 대한 급여의 총합
df_job_title_USD

job_title
AI Architect                       1401936
AI Developer                       2540536
AI Engineer                        5925803
AI Programmer                       344087
AI Research Engineer                293086
                                    ...   
Sales Data Analyst                   60000
Software Data Engineer              334883
Staff Data Analyst                  239751
Staff Data Scientist                269000
Staff Machine Learning Engineer     185000
Name: salary_in_usd, Length: 125, dtype: int64

In [34]:
print(f"Top Year for job_title of Employees '{df_job_title_USD.idxmax()}' with Salary '{df_job_title_USD.max()}'")
print(f"Least Year for job_title of Employees '{df_job_title_USD.idxmin()}' with Salary '{df_job_title_USD.min()}'")

Top Year for job_title of Employees 'Data Engineer' with Salary '157928139'
Least Year for job_title of Employees 'BI Data Engineer' with Salary '60000'


In [47]:
iplot(px.bar(df_job_title_USD.sort_values(ascending=False),# 급여가 큰 순서대로 정렬하고, 
             orientation='h',
             labels={'value':'Salary in USD','job_title':'Job Title'},
             title='Job Title with Salaries USD',
             template='plotly_dark',
             color=df_job_title_USD.index,
             text_auto=True
))

In [46]:
iplot(px.bar(df_job_title_USD.sort_values(ascending=False)[:10], # 상위 10개를 선택상위 10개 
             orientation='h',
             labels={'value':'Salary in USD','job_title':'Job Title'},
             title='Job Title with Salaries USD',
             template='plotly_dark',
             color=df_job_title_USD.index[:10],
             text_auto=True
))

- Top Earners:
    - 데이터 엔지니어와 데이터 사이언티스트가 150M 이상의 급여로 가장 높은 수준의 보상을 받고 있습니다.

- High Earners:
    - 그 다음으로는 머신러닝 엔지니어와 데이터 분석가가 80M 이상의 급여를 받아 꾸준한 고소득을 유지하고 있습니다.

- Diverse Roles:
    - 데이터 분야에서 다양한 직종들이 다양한 수준의 급여를 받고 있습니다.
    - 데이터 관련 직종들은 각자의 전문성과 경험에 따라 다르게 보상받고 있습니다.

- Potential Trends:
    - 급여의 편차와 트렌드를 조사하여 데이터 분야에서의 경향성을 확인할 수 있습니다.
    - 업계에서 인기 있는 직종이나 특정 기술 스택을 보유한 직종들이 높은 보상을 받는 경향이 있을 수 있습니다.

# Job Category

In [38]:
df_job_category_general = df['job_category'].value_counts()
df_job_category_general

job_category
Data Science and Research         1655
Data Engineering                  1160
Machine Learning and AI            917
Data Analysis                      809
Leadership and Management          351
BI and Visualization               188
Data Architecture and Modeling     162
Data Management and Strategy        49
Data Quality and Operations         45
Cloud and Database                   5
Name: count, dtype: int64

In [39]:
print(f"Top Job in Needed in 4 Years ago '{df_job_category_general.idxmax()}' with Value '{df_job_category_general.max()}'")
print(f"Least Job in Needed in 4 Years ago '{df_job_category_general.idxmin()}' with Value '{df_job_category_general.min()}'")

Top Job in Needed in 4 Years ago 'Data Science and Research' with Value '1655'
Least Job in Needed in 4 Years ago 'Cloud and Database' with Value '5'


In [50]:
iplot(px.bar(df_job_category_general,
                 labels={'job_category':'Job Category'},
                 title=f"demand of Jobs Category in over the past 4 years", 
                 color_discrete_sequence=['#b3079c'],
                 template='plotly_dark',
                 text_auto=True
))

- 데이터 과학 및 연구 분야가 가장 높은 수요를 기록하며, 현업에서의 과학적 탐구와 데이터 기반 의사 결정에 대한 높은 관심이 이어지고 있습니다.
- 엔지니어링, 기계 학습, 인공 지능, 그리고 데이터 분석 분야가 뒤를 이어 높은 수요를 보이고 있어, 데이터 기술 분야의 성장과 혁신을 주도하고 있습니다.
- 이러한 주요 분야를 지원하는 데이터 아키텍처, 모델링, 관리, 전략, 그리고 데이터 품질 및 운영 분야에서 전문가들의 필요성이 계속해서 높아지고 있습니다.

# Job Category In Each Year

In [52]:
df_job_category = df.groupby('work_year')['job_category'].value_counts()
df_job_category

work_year  job_category                  
2020       Data Science and Research           29
           Data Engineering                    17
           Data Analysis                       15
           Machine Learning and AI             10
2021       Data Science and Research           71
           Data Engineering                    44
           Machine Learning and AI             37
           Data Analysis                       28
           Leadership and Management            9
           Data Architecture and Modeling       5
           Data Management and Strategy         1
2022       Data Science and Research          338
           Data Engineering                   286
           Data Analysis                      185
           Machine Learning and AI            157
           Leadership and Management           71
           Data Architecture and Modeling      30
           Data Management and Strategy        10
           BI and Visualization                 8
        

In [53]:
colors = ['#ccaa14','#8807b3','#07b324','#1007b3']
j = 0
for i in range(2020,2024):
    iplot(px.bar(df_job_category.get(i),
                 labels={'job_category':'Job Category','value':'Number of Employees'},
                 title=f"Needed of Jobs Category in {i}",
                 color_discrete_sequence=[colors[j]],
                 template='plotly_dark',
                 text_auto=True
                 ))
    j+=1

- 데이터 관련 분야의 수요는 매년 지속적으로 증가하고 있습니다. 특히, Data Science, Data Engineering, Machine Learning 및 AI, 그리고 Data Analysis 분야에서 높은 수요가 유지되고 있습니다.

- 동시에, 새로운 분야들이 계속해서 등장하고 있습니다. Leadership 및 Management, BI 및 Visualization, Data Architecture 및 Modeling, Data Quality 및 Operations 등에서도 전문가들에 대한 수요가 높아지고 있습니다.

# Salary Currency

In [55]:
df_salary_currency = df['salary_currency'].value_counts()
df_salary_currency 

salary_currency
USD    4707
EUR     282
GBP     276
CAD      37
AUD      11
PLN       7
SGD       6
CHF       5
BRL       4
TRY       3
DKK       3
Name: count, dtype: int64

In [56]:
print(f"Most Prefered Currency is '{df_salary_currency.idxmax()}'")

Most Prefered Currency is 'USD'


In [57]:
iplot(px.bar(df_salary_currency,
             template='plotly_dark',
             labels={'salary_currency':'Salary Currency','value':'Value'},
             title='Most Prefered Currency',
             text_auto=True,
             color_discrete_sequence=['#cce60e']

             ))

- 역시나 미국이 압도적

# Salary in USD

In [62]:
df_salary_in_usd = df.groupby(['work_year','job_title'])['salary_in_usd'].mean()
df_salary_in_usd

work_year  job_title             
2020       AI Scientist               45896.000000
           Azure Data Engineer       100000.000000
           BI Data Analyst            98000.000000
           Big Data Engineer          97690.333333
           Business Data Analyst     110000.000000
                                         ...      
2023       Research Analyst           92625.083333
           Research Engineer         181270.370787
           Research Scientist        188089.740741
           Software Data Engineer    111627.666667
           Staff Data Analyst        179998.000000
Name: salary_in_usd, Length: 244, dtype: float64

In [60]:
colors = ['#4a289b', '#a53d3d', '#268e7e', '#e60e0e']
j = 0
for i in range(2020,2024):
    iplot(px.bar(df_salary_in_usd.get(i)[:10],
                 labels={'job_title':'Job Title','value':'Mean of Salary'},
                 title=f"Mean Salary of Jobs for Year in {i}",
                 color_discrete_sequence=[colors[j]],
                 template='plotly_dark',
                 text_auto=True,
                 orientation='h'
                 ))
    j+=1

# Employee Residence

In [75]:
df_employee_residence = df['employee_residence'].value_counts() #근로자 거주지
df_employee_residence

employee_residence
United States     4255
United Kingdom     351
Canada             196
Germany             65
Spain               63
                  ... 
Andorra              1
Qatar                1
Mauritius            1
Uganda               1
Malta                1
Name: count, Length: 83, dtype: int64

In [76]:
print(f"Top Country is '{df_employee_residence.idxmax()}' with value '{df_employee_residence.max()}'")
print(f"Least Country is '{df_employee_residence.idxmin()}' with value '{df_employee_residence.min()}'")

Top Country is 'United States' with value '4255'
Least Country is 'Dominican Republic' with value '1'


In [77]:
iplot(px.bar(df_employee_residence[:10],
             template='plotly_dark',
             labels={'employee_residence':'Name of Country','value':'Value'},
             title='Top Country in the World in Data Science',
             text_auto=True,
             color_discrete_sequence=['#dd0be0'],
))

In [78]:
iplot(px.scatter_geo(df, 
                     locations='employee_residence',
                     locationmode='country names',
                     color='salary_in_usd',
                     hover_name='employee_residence',
                     title='Salary by Employee Residence',                    
))

# Experience Level

In [79]:
df_experience_level = df['experience_level'].value_counts()

In [80]:
iplot(px.pie(values=df_experience_level.values,
             names=['Senior','Mid-level','Entry-level','Executive'],
             title='Experience Level for Data Analysts'
).update_traces(textinfo='percent+label'))

# Employment Type

In [81]:
df_employment_type = df['employment_type'].value_counts()
df_employment_type

employment_type
Full-time    5296
Contract       19
Part-time      15
Freelance      11
Name: count, dtype: int64

In [82]:
iplot(px.bar(df_employment_type,
             template='plotly_dark',
             labels={'employment_type':'Employment Type','value':'Value'},
             title='Type of Employment for Data Analysts',
             text_auto=True,
             color_discrete_sequence=['#dd0be0'],
))

# Work Setting

In [84]:
df_work_setting = df['work_setting'].value_counts()
df_work_setting

work_setting
In-person    2913
Remote       2239
Hybrid        189
Name: count, dtype: int64

In [85]:
iplot(px.pie(values=df_work_setting.values,
             names=['In-person','Remote','Hybrid'],
             title='Type of Work Setting',
).update_traces(textinfo='percent+label'))

생각보다 remote가 너무 많아서 혹시 코로나의 여파일지 알고싶어졌다

In [99]:
for i in range(2020,2024):
    print(df[df['work_year']==i]['work_setting'].value_counts())

work_setting
Remote       35
Hybrid       20
In-person    16
Name: count, dtype: int64
work_setting
Remote       106
Hybrid        63
In-person     26
Name: count, dtype: int64
work_setting
Remote       608
In-person    434
Hybrid        53
Name: count, dtype: int64
work_setting
In-person    2437
Remote       1490
Hybrid         53
Name: count, dtype: int64


In [103]:
df.groupby(['work_year', 'work_setting']).size().unstack()

work_setting,Hybrid,In-person,Remote
work_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,20,16,35
2021,63,26,106
2022,53,434,608
2023,53,2437,1490


- 022년까지는 재택근무가 사무실 출근보다 더 많았다.
- 재택근무보다 사무실 출근이 증가했다.
- 이러한 변화는 코로나19 대응 조치의 완화 또는 다른 환경적인 변화로 인한 것으로 해석할 수 있다

# Company Size

In [104]:
df_company_size = df['company_size'].value_counts()
df_company_size

company_size
M    4688
L     495
S     158
Name: count, dtype: int64

In [88]:
iplot(px.pie(values=df_company_size.values,
             names=['M','L','S'],
             title='Size of Company',
).update_traces(textinfo='percent+label'))

- M 규모의 기업의 데이터 관련 직종에 대한 수요가 매우 컸다.