In [1]:
import numpy as np
import pandas as pd
import sys

# encoding이 "utf-8" 한글이 깨지는 경우가 종종 있다. 
# sizeKorea의 data의 경우 encoding을 "euc_kr"로 하였을 경우 문제 해결
sizeKoreaData = pd.read_csv("data/2015_7_sizeKoreaData.csv", encoding = "euc_kr") #ISO-8859-1
print("{}".format(sys.stdout.encoding))
print("{}".format(sizeKoreaData.head()))
print("{}".format(sizeKoreaData.shape))

UTF-8
  02 성별  06_나이_반올림  001_오른쪽어깨경사각  002_왼쪽어깨경사각  003_키 005_목뒤높이  017_샅높이  \
0     남         25          24.0         20.0  1,736    1,462    791.0   
1     남         28          16.0         18.0  1,833    1,575    848.0   
2     남         19          20.0         18.0  1,744    1,470    794.0   
3     남         20          22.0         18.0  1,751    1,473    767.0   
4     남         22          16.0         16.0  1,851    1,564    859.0   

   031_몸무게  037_목둘레  038_목밑둘레  ... 064_팔길이 065_팔안쪽길이 069_다리가쪽길이 111_머리둘레  \
0     72.1    385.0       NaN  ...   590.0     450.0      1,022    575.0   
1    106.2    418.0       NaN  ...   660.0     464.0      1,120    610.0   
2     69.1    400.0       NaN  ...   576.0     453.0      1,027    613.0   
3     68.4    355.0       NaN  ...   581.0     460.0      1,049    605.0   
4     81.9    394.0       NaN  ...   615.0     499.0      1,132    580.0   

  121_넙다리둘레 122_넙다리중간둘레 123_무릎둘레  125_장딴지둘레  130_위팔둘레  131_팔꿈치둘레  
0     564.0       533.0  

In [2]:
#null data에 대한 전처리
sizeKoreaData.isnull().sum()

02 성별            0
06_나이_반올림        0
001_오른쪽어깨경사각     1
002_왼쪽어깨경사각      1
003_키            1
005_목뒤높이         2
017_샅높이          3
031_몸무게          7
037_목둘레         35
038_목밑둘레        96
039_가슴둘레         5
040_젖가슴둘레        5
042_허리둘레         5
043_배꼽수준허리둘레     5
044_배둘레          5
045_엉덩이둘레        5
052_총길이          5
054_어깨사이길이       5
055_어깨가쪽사이길이     5
063_위팔길이         5
064_팔길이          5
065_팔안쪽길이        5
069_다리가쪽길이       6
111_머리둘레         3
121_넙다리둘레        3
122_넙다리중간둘레      3
123_무릎둘레         3
125_장딴지둘레        3
130_위팔둘레         4
131_팔꿈치둘레        4
dtype: int64

In [3]:
#null data가 있는 row는 삭제
sizeKoreaData.dropna(inplace=True)

sizeKoreaData.isnull().sum()

02 성별           0
06_나이_반올림       0
001_오른쪽어깨경사각    0
002_왼쪽어깨경사각     0
003_키           0
005_목뒤높이        0
017_샅높이         0
031_몸무게         0
037_목둘레         0
038_목밑둘레        0
039_가슴둘레        0
040_젖가슴둘레       0
042_허리둘레        0
043_배꼽수준허리둘레    0
044_배둘레         0
045_엉덩이둘레       0
052_총길이         0
054_어깨사이길이      0
055_어깨가쪽사이길이    0
063_위팔길이        0
064_팔길이         0
065_팔안쪽길이       0
069_다리가쪽길이      0
111_머리둘레        0
121_넙다리둘레       0
122_넙다리중간둘레     0
123_무릎둘레        0
125_장딴지둘레       0
130_위팔둘레        0
131_팔꿈치둘레       0
dtype: int64

In [4]:
# 연령 범위가 20~50대 사이인 남성 데이터 만을 추출한 데이터 처리 후 이를 저장
sizeKoreaMale2040 = sizeKoreaData[((sizeKoreaData['06_나이_반올림']>=20) 
                                   & (sizeKoreaData['06_나이_반올림']<50)) 
                                   & sizeKoreaData['02 성별'].str.contains('남')]
print(sizeKoreaMale2040.head())
print('{}'.format(sizeKoreaMale2040.shape))
sizeKoreaMale2040.to_csv("data/sizeKoreaMale2040.csv", encoding="euc-kr")

    02 성별  06_나이_반올림  001_오른쪽어깨경사각  002_왼쪽어깨경사각  003_키 005_목뒤높이  017_샅높이  \
450     남         44          21.0         17.0  1,713    1,454    790.0   
452     남         23          24.0         24.0  1,714    1,450    783.0   
453     남         23          23.0         23.0  1,731    1,477    737.0   
454     남         23          25.0         23.0  1,730    1,468    770.0   
462     남         24          23.0         20.0  1,685    1,442    793.0   

     031_몸무게  037_목둘레  038_목밑둘레  ... 064_팔길이 065_팔안쪽길이 069_다리가쪽길이 111_머리둘레  \
450     78.2    407.0     458.0  ...   584.0     430.0      1,036    572.0   
452     70.3    364.0     418.0  ...   601.0     487.0      1,034    587.0   
453     74.7    380.0     439.0  ...   630.0     504.0      1,067    583.0   
454     95.0    422.0     461.0  ...   612.0     479.0      1,038    609.0   
462     70.0    374.0     437.0  ...   597.0     463.0      1,022    558.0   

    121_넙다리둘레 122_넙다리중간둘레 123_무릎둘레  125_장딴지둘레  130_위팔둘레  131_팔꿈치둘레  
450  