In [1]:
# %load my_init
import numpy as np
import pandas as pd
import scipy as sp
import statsmodels as sm
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from matplotlib import font_manager




# import warnings
# warnings.filterwarnings('ignore')

font_fname = 'C:/Windows/Fonts/malgun.ttf'
font_family = font_manager.FontProperties(fname=font_fname).get_name()

plt.rcParams["font.family"] = font_family
plt.rcParams["axes.unicode_minus"] = False


%matplotlib inline

In [2]:
df = pd.read_csv('data/student_10.csv', index_col='학번')
df

Unnamed: 0_level_0,학년,몸무게,키
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,60.2,154.0
2,1,50.2,174.5
3,1,68.8,177.0
4,2,59.0,167.5
5,2,70.9,182.0
6,2,76.5,170.5
7,3,66.6,171.5
8,3,86.2,187.0
9,3,66.0,178.0
10,3,77.4,172.5


In [3]:
np.__version__

'1.23.5'

In [4]:
pd.__version__

'1.5.3'

In [5]:
# header='infer' 열의 인덱싱을 정해줄 수 있음 
# index_col=None 행의 인덱싱을 정해줄 수 있음
# na_values=None 결측치를 정해줄 수 있음
df_2 = pd.read_csv('data/student_10_2.csv',header=None)
df_2

Unnamed: 0,0,1,2,3
0,1,1,60.2,154.0
1,2,1,50.2,174.5
2,3,1,68.8,177.0
3,4,2,59.0,167.5
4,5,2,70.9,182.0
5,6,2,76.5,170.5
6,7,3,66.6,171.5
7,8,3,86.2,187.0
8,9,3,66.0,178.0
9,10,3,77.4,172.5


In [6]:
df['몸무게']  # series 객채로 변함 인덱스레인지 + 넌파이배열  아레에는 인덱스 이름과 데이터 타입이 적혀있음

학번
1     60.2
2     50.2
3     68.8
4     59.0
5     70.9
6     76.5
7     66.6
8     86.2
9     66.0
10    77.4
Name: 몸무게, dtype: float64

In [7]:
df.몸무게    # 컬럼도 프로포티다. 

학번
1     60.2
2     50.2
3     68.8
4     59.0
5     70.9
6     76.5
7     66.6
8     86.2
9     66.0
10    77.4
Name: 몸무게, dtype: float64

In [8]:
def get_bmi(bmi_score):
    if bmi_score < 18.5:
        return '저체중'
    elif bmi_score <= 23:
        return '정상'
    elif bmi_score <= 25:
        return '과체중'
    else:
        return '비만'

In [9]:
# numpy를 기반으로 하고 있어 roof가 없이 작동함.
# 함수를 쓰는경우 nominal이나 ordinal을 원하는 데로 만들 수 있음.
df['BMI점수'] = np.round(df['몸무게'] / np.power(df['키'] / 100 , 2), 2)
df['BMI등급'] = df['BMI점수'].apply(get_bmi)    # python의 map()과 같은 작동을 함.
df

Unnamed: 0_level_0,학년,몸무게,키,BMI점수,BMI등급
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,60.2,154.0,25.38,비만
2,1,50.2,174.5,16.49,저체중
3,1,68.8,177.0,21.96,정상
4,2,59.0,167.5,21.03,정상
5,2,70.9,182.0,21.4,정상
6,2,76.5,170.5,26.32,비만
7,3,66.6,171.5,22.64,정상
8,3,86.2,187.0,24.65,과체중
9,3,66.0,178.0,20.83,정상
10,3,77.4,172.5,26.01,비만


##### cut: 연속형(numeric)을 이산형(cateforial, 범주형)으로 반꾸어 주는 함수
##### 범주형은 명목형(nominal ex.혈액형) 그리고 순서형(ordinal ex.성적 등급, 상 중 하)이 있음
##### 별점과같이 연속형과 범주형 둘다 해당하는 경우도 있음. 원하는 데로 선택해서 사용.


In [10]:
# right=False를 해야 이상,미만을 사용함. 기본은 초과,이하(개구간 설정)
pd.cut(df['BMI점수'], bins=[0, 18.5, 23, 25, 100], right=False)

학번
1     [25.0, 100.0)
2       [0.0, 18.5)
3      [18.5, 23.0)
4      [18.5, 23.0)
5      [18.5, 23.0)
6     [25.0, 100.0)
7      [18.5, 23.0)
8      [23.0, 25.0)
9      [18.5, 23.0)
10    [25.0, 100.0)
Name: BMI점수, dtype: category
Categories (4, interval[float64, left]): [[0.0, 18.5) < [18.5, 23.0) < [23.0, 25.0) < [25.0, 100.0)]

In [11]:
# BMI등급은 ordinal데이터이다.(일정한 간격이 아니라서)
df['BMI등급'] = pd.cut(df['BMI점수'], bins=[0, 18.5, 23, 25, 100], labels=['저체중','정상','과체중','비만'], right=False)
df

Unnamed: 0_level_0,학년,몸무게,키,BMI점수,BMI등급
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,60.2,154.0,25.38,비만
2,1,50.2,174.5,16.49,저체중
3,1,68.8,177.0,21.96,정상
4,2,59.0,167.5,21.03,정상
5,2,70.9,182.0,21.4,정상
6,2,76.5,170.5,26.32,비만
7,3,66.6,171.5,22.64,정상
8,3,86.2,187.0,24.65,과체중
9,3,66.0,178.0,20.83,정상
10,3,77.4,172.5,26.01,비만


In [12]:
df.columns

Index(['학년', '몸무게', '키', 'BMI점수', 'BMI등급'], dtype='object')

In [13]:
df.columns[0:-1]

Index(['학년', '몸무게', '키', 'BMI점수'], dtype='object')

In [14]:
df_2 = df[df.columns[0:-1]]
df_2

Unnamed: 0_level_0,학년,몸무게,키,BMI점수
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,60.2,154.0,25.38
2,1,50.2,174.5,16.49
3,1,68.8,177.0,21.96
4,2,59.0,167.5,21.03
5,2,70.9,182.0,21.4
6,2,76.5,170.5,26.32
7,3,66.6,171.5,22.64
8,3,86.2,187.0,24.65
9,3,66.0,178.0,20.83
10,3,77.4,172.5,26.01


In [15]:
df_3 = df[['학년', '키','BMI점수']]
df_3

Unnamed: 0_level_0,학년,키,BMI점수
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,154.0,25.38
2,1,174.5,16.49
3,1,177.0,21.96
4,2,167.5,21.03
5,2,182.0,21.4
6,2,170.5,26.32
7,3,171.5,22.64
8,3,187.0,24.65
9,3,178.0,20.83
10,3,172.5,26.01
