In [2]:
# 1. 사용자가 평가한 모든 영화의 전체 평균 평점
# 2. 각 사용자별 평균 평점
# 3. 각 영화별 평균 평점
# 4. 평균 평점이 가장 높은 영화의 제목(오름차순)
# 5. Comedy영화 중 가장 평점이 낮은 영화의 제목
# 6. 2015년도에 평가된 모든 Romance 영화의 평균 평점은?

import numpy as np
import pandas as pd

movies_df = pd.read_csv('./data/movies.csv')
ratings_df = pd.read_csv('./data/ratings.csv')

display(movies_df.head())
display(ratings_df.head())

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [3]:
# 1. 사용자가 평가한 모든 영화의 전체 평균 평점

print(ratings_df['rating'].mean())

3.501556983616962


In [4]:
# 2. 각 사용자별 평균 평점

print(ratings_df['rating'].groupby(ratings_df['userId']).mean())

userId
1      4.366379
2      3.948276
3      2.435897
4      3.555556
5      3.636364
         ...   
606    3.657399
607    3.786096
608    3.134176
609    3.270270
610    3.688556
Name: rating, Length: 610, dtype: float64


In [5]:
# 3. 각 영화별 평균 평점

print(ratings_df['rating'].groupby(ratings_df['movieId']).mean())

movieId
1         3.920930
2         3.431818
3         3.259615
4         2.357143
5         3.071429
            ...   
193581    4.000000
193583    3.500000
193585    3.500000
193587    3.500000
193609    4.000000
Name: rating, Length: 9724, dtype: float64


In [6]:
# 4. 평균 평점이 가장 높은 영화의 제목

# 각 영화별 평균 평점
movie_mean_rate = ratings_df['rating'].groupby(ratings_df['movieId']).mean()

# 가장 높은 평균 평점
movie_max_rate = ratings_df['rating'].groupby(ratings_df['movieId']).mean().max()

# 가장 높은 평균 평점을 가진 영화의 ID값
movie_max_id = movie_mean_rate[movie_mean_rate == movie_max_rate]

# 구한 값을 movies_df에 merge
merged_df = pd.merge(movies_df,movie_max_id, on='movieId', how='inner')

# 평균 평점이 가장 높은 영화의 제목 - 오름차순 정렬
display(merged_df.sort_values(by='title'))

# 제목만 뽑아내려면 아래 코드 실행
# merged_df = merged_df.sort_values(by='title')
# print(merged_df['title'])

Unnamed: 0,movieId,title,genres,rating
102,27751,'Salem's Lot (2004),Drama|Horror|Mystery|Thriller,5.0
132,77846,12 Angry Men (1997),Crime|Drama,5.0
228,141816,12 Chairs (1976),Adventure|Comedy,5.0
54,5468,20 Million Miles to Earth (1957),Sci-Fi,5.0
99,27373,61* (2001),Drama,5.0
...,...,...,...,...
295,187717,Won't You Be My Neighbor? (2018),Documentary,5.0
172,108795,Wonder Woman (2009),Action|Adventure|Animation|Fantasy,5.0
255,158398,World of Glory (1991),Comedy,5.0
282,173351,Wow! A Talking Fish! (1983),Animation|Children|Comedy|Fantasy,5.0


In [7]:
# 5. Comedy영화 중 가장 평점이 낮은 영화의 제목(오름차순)
# aloha
# are we there yet?
# .isin() check
# .contains() check

# 장르가 'Comedy'로 분류된 영화 추출
comedy_movie = movies_df.loc[movies_df['genres'].str.contains('Comedy')]

# 각 영화별 평균 평점
movie_mean_rate = ratings_df['rating'].groupby(ratings_df['movieId']).mean()

# Comedy영화와 그에 해당하는 평균 평점을 합쳐 새로운 df 생성
df = pd.merge(comedy_movie,movie_mean_rate, on='movieId', how='inner')

# 평균 평점이 최하점인 Comedy영화를 제목을 기준으로 오름차순 정렬
sorted_df = df[df['rating'] == df['rating'].min()].sort_values(by='title')
display(sorted_df)

# 제목만 뽑아내려면 아래 코드 실행
# print(sorted_df['title'])

Unnamed: 0,movieId,title,genres,rating
3416,134528,Aloha (2015),Comedy|Drama|Romance,0.5
2172,31422,Are We There Yet? (2005),Children|Comedy,0.5
2946,91414,Arthur Christmas (2011),Animation|Children|Comedy|Drama,0.5
3629,165645,Bad Santa 2 (2016),Comedy,0.5
1683,6557,Born to Be Wild (1995),Adventure|Children|Comedy|Drama,0.5
2049,25782,Boudu Saved From Drowning (Boudu sauvé des eau...,Comedy,0.5
2492,54934,"Brothers Solomon, The (2007)",Comedy,0.5
2063,26095,"Carabineers, The (Carabiniers, Les) (1963)",Comedy|Drama|War,0.5
2487,54768,Daddy Day Camp (2007),Children|Comedy,0.5
1863,7312,"Follow Me, Boys! (1966)",Comedy|Drama,0.5


In [8]:
# 6. 2015년도에 평가된 모든 Romance 영화의 평균 평점은?

# 장르가 'Romance'로 분류된 영화 추출
romance_movie = movies_df.loc[movies_df['genres'].str.contains('Romance')]

# ratings_df에서 movieId, rating, timestamp 추출
romance_rating = ratings_df[['movieId','rating','timestamp']]

# romance_movie와 romance_rating DF를 movieId 기준으로 inner join
# 이렇게 하게 되면 movieId가 공통인 row들만 남게 됨
df = pd.merge(romance_movie,romance_rating, on='movieId', how='inner')

from datetime import datetime

# 'date'라는 새로운 컬럼 생성
df['date'] = np.array([0]*len(df))

# forloop를 돌며 'date' column의 값들을 
# timestamp에 해당하는 날짜 값, 그것도 연도만을 저장
for index in range(len(df)) :
    df['date'][index] = datetime.fromtimestamp(int(df['timestamp'][index])).strftime('%Y')

# 2015년에 평가된 영화만 추출
df = df[df['date'] == 2015]
display(df)

# 2015년도에 평가된 모든 Romance 영화의 평균 평점
answer = df['rating'].mean()
print(answer)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,movieId,title,genres,rating,timestamp,date
30,3,Grumpier Old Men (1995),Comedy|Romance,0.5,1421374465,2015
78,7,Sabrina (1995),Comedy|Romance,1.0,1435534432,2015
137,11,"American President, The (1995)",Comedy|Drama|Romance,3.0,1435890660,2015
221,17,Sense and Sensibility (1995),Drama|Romance,3.5,1447210004,2015
233,17,Sense and Sensibility (1995),Drama|Romance,3.5,1422640288,2015
...,...,...,...,...,...,...
18044,139747,Before We Go (2014),Romance,3.5,1448243169,2015
18045,139915,How to Make Love Like an Englishman (2014),Comedy|Romance,2.5,1441393919,2015
18047,140162,Love (2015),Drama|Romance,4.5,1450717949,2015
18048,140301,The Escort (2015),Comedy|Romance,3.0,1441393974,2015


3.396375098502758


In [9]:
# 1. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 
# 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 확인하세요.

# 2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 한다. 
# "audi"와 "toyota" 중 어느 manufacturer(제조회사)의 cty(도시 연비)가 
# 평균적으로 더 높은지 확인하세요.

# 3. "chevrolet", "ford", "honda" 자동차의 고속도로 연비 평균을 알아보려고 한다. 
# 이 회사들의 데이터를 추출한 후 hwy(고속도로 연비) 평균을 구하세요.

# 4. "audi"에서 생산한 자동차 중에 어떤 자동차 모델의 hwy(고속도로 연비)가 
# 높은지 알아보려고 한다. "audi"에서 생산한 자동차 중 hwy가 1~5위에 해당하는 
# 자동차의 데이터를 출력하세요.

# 5. mpg 데이터는 연비를 나타내는 변수가 2개입니다. 
# 두 변수를 각각 활용하는 대신 하나의 통합 연비 변수를 만들어 사용하려 합니다. 
# 평균 연비 변수는 두 연비(고속도로와 도시)의 평균을 이용합니다. 
# 회사별로 "suv" 자동차의 평균 연비를 구한후 내림차순으로 정렬한 후 1~5위까지 데이터를 출력하세요.

# 6. mpg 데이터의 class는 "suv", "compact" 등 자동차의 특징에 따라 
# 일곱 종류로 분류한 변수입니다. 어떤 차종의 도시 연비가 높은지 비교하려 합니다. 
# class별 cty 평균을 구하고 cty 평균이 높은 순으로 정렬해 출력하세요.

# 7. 어떤 회사 자동차의 hwy(고속도로 연비)가 가장 높은지 알아보려 합니다. 
# hwy(고속도로 연비) 평균이 가장 높은 회사 세 곳을 출력하세요.

# 8. 어떤 회사에서 "compact" 차종을 가장 많이 생산하는지 알아보려고 합니다. 
# 각 회사별 "compact" 차종 수를 내림차순으로 정렬해 출력하세요.


import numpy as np
import pandas as pd

mpg_df = pd.read_csv('./data/mpg.txt')
display(mpg_df)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [10]:
# 1. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 
# 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 확인하세요.

# displ(배기량)이 4 이하인 자동차의 hwy 평균
under_4_df = mpg_df[mpg_df['displ'] <= 4]
print('배기량이 4 이하인 자동차의 평균 hwy : {}'.format(under_4_df['hwy'].mean()))

# displ(배기량)이 5 이상인 자동차의 hwy 평균
over_5_df= mpg_df[mpg_df['displ'] >= 5]
print('배기량이 5 이상인 자동차의 평균 hwy : {}'.format(over_5_df['hwy'].mean()))

배기량이 4 이하인 자동차의 평균 hwy : 25.96319018404908
배기량이 5 이상인 자동차의 평균 hwy : 18.07894736842105


In [11]:
# 2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 한다. 
# "audi"와 "toyota" 중 어느 manufacturer(제조회사)의 cty(도시 연비)가 
# 평균적으로 더 높은지 확인하세요.

# audi의 평균 cty
audi_df = mpg_df[mpg_df['manufacturer'].str.contains('audi')]
print('audi의 평균 cty : {}'.format(audi_df['cty'].mean()))

# toyota의 평균 cty
toyota_df = mpg_df[mpg_df['manufacturer'].str.contains('toyota')]
print('toyota의 평균 cty : {}'.format(toyota_df['cty'].mean()))

audi의 평균 cty : 17.61111111111111
toyota의 평균 cty : 18.529411764705884


In [12]:
# 3. "chevrolet", "ford", "honda" 자동차의 고속도로 연비 평균을 알아보려고 한다. 
# 이 회사들의 데이터를 추출한 후 hwy(고속도로 연비) 평균을 구하세요.

#"chevrolet", "ford", "honda" 자동차 데이터 추출
new_df = mpg_df[mpg_df['manufacturer'].str.contains('chevrolet|ford|honda')]
print('chevrolet, ford, honda 자동차의 hwy 평균 : {}'.format(new_df['hwy'].mean()))

chevrolet, ford, honda 자동차의 hwy 평균 : 22.50943396226415


In [13]:
# 4. "audi"에서 생산한 자동차 중에 어떤 자동차 모델의 hwy(고속도로 연비)가 
# 높은지 알아보려고 한다. "audi"에서 생산한 자동차 중 hwy가 1~5위에 해당하는 
# 자동차의 데이터를 출력하세요.

audi_df = mpg_df[mpg_df['manufacturer'].str.contains('audi')]

# audi 생산 모델을 hwy 기준으로 내림차순 정렬
sorted_audi_df = audi_df.sort_values(by='hwy', ascending=False)

# 상위 5개 데이터 출력
sorted_audi_df.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


In [14]:
# 5. mpg 데이터는 연비를 나타내는 변수가 2개입니다. 
# 두 변수를 각각 활용하는 대신 하나의 통합 연비 변수를 만들어 사용하려 합니다. 
# 평균 연비 변수는 두 연비(고속도로와 도시)의 평균을 이용합니다. 
# 회사별로 "suv" 자동차의 평균 연비를 구한후 내림차순으로 정렬한 후 1~5위까지 데이터를 출력하세요.

# suv 차량 데이터
suv_df = mpg_df.loc[mpg_df['class'].str.contains('suv')]
suv_df['fuel_efficiency'] = (suv_df['cty'] + suv_df['hwy']) / 2

# 연비를 제조사별로 grouping하여 평균을 구함
mean_fuel_efficiency = suv_df['fuel_efficiency'].groupby(suv_df['manufacturer']).mean()

# 평균 연비 기준으로 내림차순 정렬
mean_fuel_efficiency = mean_fuel_efficiency.sort_values(ascending=False)

# 상위 5개 데이터 출력
print(mean_fuel_efficiency[:5])

manufacturer
subaru     21.916667
toyota     16.312500
nissan     15.875000
mercury    15.625000
jeep       15.562500
Name: fuel_efficiency, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [15]:
# 6. mpg 데이터의 class는 "suv", "compact" 등 자동차의 특징에 따라 
# 일곱 종류로 분류한 변수입니다. 어떤 차종의 도시 연비가 높은지 비교하려 합니다. 
# class별 cty 평균을 구하고 cty 평균이 높은 순으로 정렬해 출력하세요.

# class별 cty 평균
cty_by_clsass = mpg_df['cty'].groupby(mpg_df['class']).mean()

# class별 cty 평균을 내림차순 정렬
print(cty_by_clsass.sort_values(ascending=False))

class
subcompact    20.371429
compact       20.127660
midsize       18.756098
minivan       15.818182
2seater       15.400000
suv           13.500000
pickup        13.000000
Name: cty, dtype: float64


In [16]:
# 7. 어떤 회사 자동차의 hwy(고속도로 연비)가 가장 높은지 알아보려 합니다. 
# hwy(고속도로 연비) 평균이 가장 높은 회사 세 곳을 출력하세요.

# 회사별 hwy 평균
hwy_by_manufacturer = mpg_df['hwy'].groupby(mpg_df['manufacturer']).mean()

# 평균이 높은 회사순으로 내림차순 정렬
hwy_by_manufacturer = hwy_by_manufacturer.sort_values(ascending=False)

# 평균이 가장 높은 회사 세 곳 출력
print(hwy_by_manufacturer[:3])

manufacturer
honda         32.555556
volkswagen    29.222222
hyundai       26.857143
Name: hwy, dtype: float64


In [17]:
# 8. 어떤 회사에서 "compact" 차종을 가장 많이 생산하는지 알아보려고 합니다. 
# 각 회사별 "compact" 차종 수를 내림차순으로 정렬해 출력하세요.

# class가 compact인 차종을 제조사별로 grouping하여 사이즈를 구함
compact_size = mpg_df[mpg_df['class']=='compact'].groupby(mpg_df['manufacturer']).size()

# 내림차순 정렬
compact_size = compact_size.sort_values(ascending=False)

# 출력
print(compact_size)

manufacturer
audi          15
volkswagen    14
toyota        12
subaru         4
nissan         2
dtype: int64


In [18]:
# 1. 성별에 따른 월급 차이
# 과거에 비해 여성의 사회 진출이 활발하지만 직장에서의
# 위상에서는 여전히 차별이 존재하고 있는것이 사실.
# 실제로 그러한지 월급의 차이를 이용하여 사실을 확인해보자


# 2. 나이와 월급의 관계
# 몇 살 때 월급을 가장 많이 받을까? 또 그때의 월급은 얼마인가?


# 3. 연령대에 따른 월급 차이
# 30세 미만을 초년(young), 
# 30~59세 : 중년(middle), 
# 60세 이상 : 노년(old)
# 위의 범주로 연령대에 따른 월급의 차이를 알아보자


# 4. 연령대 및 성별 월급 차이
# 성별 월급 차이는 연령대에 따라 다른 양상을 보일 수 있습니다.
# 성별 월급 차이가 연령대에 따라 다른지 분석해보자

# 기존에는 3그룹(초년,중년,노년)이었지만 이젠 6그룹으로
# 그룹핑을 해야 한다.(초년남성,초년여성,..)


# 5. 직업별 월급 차이
# 어떤 직업이 월급을 가장 많이 받을까?
# 직업별 월급을 분석해 보자
# 직업코드는 제공된 Koweps_Codebook.xlsx을 이용하면 
# 편하게 코드값을 이용 할 수 있습니다.


# 6. 성별 직업 빈도
# 성별로 어떤 직업이 가장 많을까?


# 7. 종교 유무에 따른 이혼율
# 종교가 있는 사람들이 이혼을 덜 할까??


# 8. 지역별 연령대 비율
# 노년층이 많은 지역은 어디일까?


import pandas
import savReaderWriter

with savReaderWriter.SavReader('./data/Koweps_hpc10_2015_beta1.sav', ioUtf8 = True) as reader:
    df = pandas.DataFrame(reader.all(), columns = [s for s in reader.header])

display(df)

Unnamed: 0,h10_id,h10_ind,h10_sn,h10_merkey,h_new,h10_cobf,h10_reg5,h10_reg7,h10_din,h10_cin,...,c1007_4aq19,c1007_4aq20,c1007_4aq21,c1007_4aq22,c1007_4aq23,h10_pers_income1,h10_pers_income2,h10_pers_income3,h10_pers_income4,h10_pers_income5
0,1.0,1.0,1.0,10101.0,0.0,,1.0,1.0,864.0,864.0,...,,,,,,,,,0.0,
1,2.0,1.0,1.0,20101.0,0.0,,1.0,1.0,600.0,600.0,...,,,,,,,,,0.0,
2,3.0,1.0,1.0,30101.0,0.0,,1.0,1.0,1571.0,1619.0,...,,,,,,,1440.0,,0.0,
3,4.0,1.0,1.0,40101.0,0.0,,1.0,1.0,3579.0,3687.0,...,,,,,,,2400.0,,0.0,
4,4.0,1.0,1.0,40101.0,0.0,,1.0,1.0,3579.0,3687.0,...,,,,,,,,,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16659,9800.0,7.0,1.0,98000701.0,1.0,,4.0,5.0,9764.0,11600.0,...,,,,,,,,,0.0,
16660,9800.0,7.0,1.0,98000701.0,1.0,,4.0,5.0,9764.0,11600.0,...,,,,,,3630.0,,,0.0,
16661,9800.0,7.0,1.0,98000701.0,1.0,,4.0,5.0,9764.0,11600.0,...,,,,,,,700.0,,0.0,
16662,9800.0,7.0,1.0,98000701.0,1.0,,4.0,5.0,9764.0,11600.0,...,,,,,,,,,0.0,


In [19]:
# 1. 성별에 따른 월급 차이
# 과거에 비해 여성의 사회 진출이 활발하지만 직장에서의
# 위상에서는 여전히 차별이 존재하고 있는것이 사실.
# 실제로 그러한지 월급의 차이를 이용하여 사실을 확인해보자

# 성별에 따른 월 평균 임금
wage_by_gender = df['p1002_8aq1'].groupby(df['h10_g3']).mean()
print(wage_by_gender)

h10_g3
1.0    312.293165
2.0    162.199670
Name: p1002_8aq1, dtype: float64


In [20]:
# 2. 나이와 월급의 관계
# 몇 살 때 월급을 가장 많이 받을까? 또 그때의 월급은 얼마인가?

wage_by_age = df['p1002_8aq1'].groupby(df['h10_g4']).mean()

# 월급이 높은 순으로 정렬
wage_by_age = wage_by_age.sort_values(ascending=False)

# 가장 많이 받을 때의 월급
wage_max = wage_by_age.max()

# 가장 월급을 많이 받는 사람의 출생연도
# print(len(wage_by_age[wage_by_age == wage_max]))
birth_year = wage_by_age[wage_by_age == wage_max].index[0]

# 가장 월급을 많이 받는 사람의 나이
age = 2020 - birth_year + 1

print('{}살 때 {}만원으로 월급을 가장 많이 받는다.'.format(age,wage_max))

58.0살 때 318.67774774774773만원으로 월급을 가장 많이 받는다.


In [21]:
# 3. 연령대에 따른 월급 차이
# 30세 미만을 초년(young), 
# 30~59세 : 중년(middle), 
# 60세 이상 : 노년(old)
# 위의 범주로 연령대에 따른 월급의 차이를 알아보자

young = df['p1002_8aq1'].groupby(df['h10_g4'] > 1991)
young_wage = young.get_group(True).mean()
# print(young.get_group(True).mean())
print('초년의 월급은 평균 {}만원이다.'.format(young_wage))

middle = df['p1002_8aq1'].groupby((df['h10_g4'] <= 1991) & (df['h10_g4'] > 1961))
middle_wage = middle.get_group(True).mean()
# print(middle.get_group(True).mean())
print('중년의 월급은 평균 {}만원이다.'.format(middle_wage))

old = df['p1002_8aq1'].groupby(df['h10_g4'] <= 1961)
old_wage = old.get_group(True).mean()
print('노년의 월급은 평균 {}만원이다.'.format(old_wage))


초년의 월급은 평균 128.55379562043797만원이다.
중년의 월급은 평균 271.9224127372933만원이다.
노년의 월급은 평균 173.80345247766044만원이다.


In [22]:
# 4. 연령대 및 성별 월급 차이
# 성별 월급 차이는 연령대에 따라 다른 양상을 보일 수 있습니다.
# 성별 월급 차이가 연령대에 따라 다른지 분석해보자

young_man = df['p1002_8aq1'].groupby((df['h10_g4'] > 1991) & (df['h10_g3'] == 1.0))
young_man = young_man.get_group(True).mean()
print('초년 남성의 월급은 평균 {}만원이다.'.format(young_man))

young_woman = df['p1002_8aq1'].groupby((df['h10_g4'] > 1991) & (df['h10_g3'] == 2.0))
young_woman = young_woman.get_group(True).mean()
print('초년 여성의 월급은 평균 {}만원이다.'.format(young_woman))

middle_man = df['p1002_8aq1'].groupby((df['h10_g4'] <= 1991) & (df['h10_g4'] > 1961) & (df['h10_g3'] == 1.0))
middle_man = middle_man.get_group(True).mean()
print('중년 남성의 월급은 평균 {}만원이다.'.format(middle_man))

middle_woman = df['p1002_8aq1'].groupby((df['h10_g4'] <= 1991) & (df['h10_g4'] > 1961) & (df['h10_g3'] == 2.0))
middle_woman = middle_woman.get_group(True).mean()
print('중년 여성의 월급은 평균 {}만원이다.'.format(middle_woman))

old_man = df['p1002_8aq1'].groupby((df['h10_g4'] <= 1961) & (df['h10_g3'] == 1.0))
old_man = old_man.get_group(True).mean()
print('노년 남성의 월급은 평균 {}만원이다.'.format(old_man))

old_woman = df['p1002_8aq1'].groupby((df['h10_g4'] <= 1961) & (df['h10_g3'] == 2.0))
old_woman = old_woman.get_group(True).mean()
print('노년 여성의 월급은 평균 {}만원이다.'.format(old_woman))

초년 남성의 월급은 평균 130.24825만원이다.
초년 여성의 월급은 평균 127.85505154639176만원이다.
중년 남성의 월급은 평균 339.64098552338527만원이다.
중년 여성의 월급은 평균 189.18597959183674만원이다.
노년 남성의 월급은 평균 244.37938311688313만원이다.
노년 여성의 월급은 평균 103.11276422764229만원이다.


In [23]:
# 5. 직업별 월급 차이
# 어떤 직업이 월급을 가장 많이 받을까?
# 직업별 월급을 분석해 보자
# 직업코드는 제공된 Koweps_Codebook.xlsx을 이용하면 
# 편하게 코드값을 이용 할 수 있습니다.

# 직업별 월급 추출해서 평균값을 내림차순 정렬
wage_by_job = df['p1002_8aq1'].groupby(df['h10_eco9'])
wage_by_job = wage_by_job.mean().sort_values(ascending=False)

# 직종코드표 호출
code_table = pd.read_excel('./data/Koweps_Codebook.xlsx', sheet_name='직종 코드')

# float64로 설정된 코드값을 int64 변환 후 데이터프레임으로 생성
wage_by_job.index = wage_by_job.index.astype(np.int64)
wage_by_job_df = pd.DataFrame(wage_by_job)

# 직종코드표와 직업코드별 평균월급을 merge하여 평균월급을 기준으로 내림차순
new_df = pd.merge(code_table, wage_by_job_df, left_on='code_job', right_on='h10_eco9', how='inner')
new_df = new_df.sort_values(by='p1002_8aq1', ascending=False)

# 직업별 월급 체크
display(new_df)

# 가장 높은 월급을 받는 직업 == 금속 재료 공학 기술자 및 시험원
display(new_df.loc[new_df['p1002_8aq1'] == new_df['p1002_8aq1'].max()])

Unnamed: 0,code_job,job,p1002_8aq1
23,233,금속 재료 공학 기술자 및 시험원,845.066667
29,241,의료진료 전문가,843.642857
0,111,의회의원 고위공무원 및 공공단체임원,750.000000
3,132,보험 및 금융 관리자,726.180000
86,742,제관원 및 판금원,572.406667
...,...,...,...
79,620,임업관련 종사자,83.330000
137,951,가사 및 육아 도우미,80.166484
80,630,어업관련 종사자,
102,812,음료제조관련 기계조작원,


Unnamed: 0,code_job,job,p1002_8aq1
23,233,금속 재료 공학 기술자 및 시험원,845.066667


In [61]:
# 6. 성별 직업 빈도
# 성별로 어떤 직업이 가장 많을까?

# 직업에 따른 성별의 수를 각각 추출
job_by_gender_man = df[df['h10_g3']==1.0].groupby(df['h10_eco9']).size()
job_by_gender_woman = df[df['h10_g3']==2.0].groupby(df['h10_eco9']).size()

# float64가 된 직업코드를 int64로 변경
job_by_gender_man.index = job_by_gender_man.index.astype(np.int64)
job_by_gender_woman.index = job_by_gender_woman.index.astype(np.int64)

job_by_gender_man = pd.DataFrame(job_by_gender_man, columns=['man'])
job_by_gender_woman = pd.DataFrame(job_by_gender_woman, columns=['woman'])
job_by_gender_df = pd.merge(job_by_gender_man, job_by_gender_woman, on='h10_eco9', how='inner')

# 직종코드표 호출
code_table = pd.read_excel('./data/Koweps_Codebook.xlsx', sheet_name='직종 코드')

# 직업별 성별이 입력된 새로운 DF 생성
new_df =  pd.merge(code_table, job_by_gender_df, left_on='code_job',right_on='h10_eco9', how='inner')
display(new_df)

# 남성 여성 모두 작물재배에 종사하는 사람들이 많다.
display(new_df[new_df['man'] == new_df['man'].max()])
display(new_df[new_df['woman'] == new_df['woman'].max()])

Unnamed: 0,code_job,job,man,woman
0,131,연구 교육 및 법률 관련 관리자,6,4
1,132,보험 및 금융 관리자,8,3
2,133,보건 및 사회복지 관련 관리자,3,6
3,135,정보통신관련 관리자,6,1
4,151,판매 및 운송 관리자,23,3
...,...,...,...,...
95,953,판매관련 단순 종사원,28,45
96,991,농립어업관련 단순 종사원,10,35
97,992,계기검침 수금 및 주차 관련 종사원,9,3
98,999,기타 서비스관련 단순 종사원,68,73


Unnamed: 0,code_job,job,man,woman
61,611,작물재배 종사자,640,680


Unnamed: 0,code_job,job,man,woman
61,611,작물재배 종사자,640,680


In [126]:
# 7. 종교 유무에 따른 이혼율
# 종교가 있는 사람들이 이혼을 덜 할까??

# 비해당, 미혼을 제외한 혼인상태를 종교 유무 여부로 grouping
status_by_religion = df[(df['h10_g10'] != 0) & (df['h10_g10'] != 5)].groupby(df['h10_g11'])

# 이혼한 사람들을 종교 유무로 grouping하여 size 체크
divorce_by_religion = df[df['h10_g10']==3].groupby(df['h10_g11'])

# 이혼율 계산
ratio_religion = len(divorce_by_religion.get_group(1.0)) / len(status_by_religion.get_group(1.0)) * 100
ratio_no_religion = len(divorce_by_religion.get_group(2.0)) / len(status_by_religion.get_group(2.0)) * 100

print('종교가 있는 사람 중 이혼한 사람의 비율은 {} 입니다.'.format(ratio_religion))
print('종교가 없는 사람 중 이혼한 사람의 비율은 {} 입니다.'.format(ratio_no_religion))

종교가 있는 사람 중 이혼한 사람의 비율은 5.577282775038259 입니다.
종교가 없는 사람 중 이혼한 사람의 비율은 6.995809801421024 입니다.


In [127]:
# 8. 지역별 연령대 비율
# 노년층이 많은 지역은 어디일까

# 지역별로 grouping
total = df['h10_g4'].groupby(df['h10_reg7'])

# 지역별로 노년인구 grouping
old = df[df['h10_g4'] <= 1961].groupby(df['h10_reg7'])

# 지역별 노년인구 비율
old_ratio = old.size() / total.size() * 100

print('가장 노년인구 비율이 높은 지역의 코드는 {} 입니다.'.format(int(old_ratio[old_ratio == old_ratio.max()].index[0])))

가장 노년인구 비율이 높은 지역의 코드는 4 입니다.
