# 서울지역 아르바이트 시급 분석
알바몬(http://www.albamon.com) 서울 지역 시급 데이터 3일 치.

미리 수집된 데이터를 사용한다(`../data/alba_data.csv`)

### 시각화 준비

In [None]:
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt

#### 한글 폰트 설정

In [None]:
# 맥
matplotlib.rc('font', family='AppleGothic')

In [None]:
# 윈도우
font_name = matplotlib.font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
matplotlib.rc('font', family=font_name)

### 데이터 둘러보기

In [None]:
!head ../data/alba_data.csv

### pandas 데이터프레임으로 불러오기

In [None]:
import pandas as pd

df = pd.read_csv('../data/alba_data.csv', delimiter='\t')
df.head()

#### 전체 시급 히스토그램

In [None]:
df.hist('pay')
# df.hist('pay', bins=30)
# df.hist('pay', bins=30, figsize=(15, 10))
plt.show()

#### 구별 시급 분포 박스플롯

In [None]:
df.boxplot('pay', by='area', vert=False, figsize=(20, 10))
plt.show()

#### 10,000원 이상/이하 데이터만 추려내기
아웃라이어가 꽤 많다. 만 원 이상, 만 원 미만 데이터를 따로 본다.

In [None]:
df_outliers = df[df['pay'] >= 10000]
df_ord = df[df['pay'] < 10000]

In [None]:
df_over_10k

In [None]:
df_ord.boxplot('pay', by='area', vert=False, figsize=(15, 10))

plt.show()

### 업종별 비교분석하기

#### 편의점, 패스트푸드 3사 데이터 추려내기
데이터를 확인해보면 회사 이름에 지역 정보(OO점)가 추가돼있다. 여기서는 분석하기 편하게 지역 정보를 제거한 회사 상호를 컬럼에 추가한다.

In [None]:
df[df.apply(lambda x: 'CU' in x.company, axis=1)]

In [None]:
def is_cvs(row):
    company = row['company']
    if company == 'PCCUS PC방':
        return False
    
    return 'GS25' in company or \
            '세븐일레븐' in company or \
            'CU' in company

def is_fastfood(row):
    company = row['company']
    return '롯데리아' in company or \
            '맥도날드' in company or \
            '버거킹' in company

def shorten_cvs_name(company):
    if 'GS25' in company:
        return 'GS25'
    elif '세븐일레븐' in company:
        return '세븐일레븐'
    else:
        return 'CU'

def shorten_fastfood_name(company):
    if '롯데리아' in company:
        return '롯데리아'
    elif '맥도날드' in company:
        return '맥도날드'
    else:
        return '버거킹'

In [None]:
df_cvs = df[df.apply(is_cvs, axis=1)].reset_index()
df_fastfood = df[df.apply(is_fastfood, axis=1)].reset_index()

df_cvs['shortname'] = df_cvs['company'].apply(shorten_cvs_name)
df_fastfood['shortname'] = df_fastfood['company'].apply(shorten_fastfood_name)

#### 편의점 회사별 시급 분포

In [None]:
df_cvs.boxplot('pay', by='shortname', vert=False, figsize=(12, 6))
plt.show()

#### 패스트푸드 회사별 시급 분포

In [None]:
df_fastfood.boxplot('pay', by='shortname', vert=False, figsize=(15, 5))
plt.show()