# 데이터프레임 (조건에 따른 조작)

In [1]:
# 라이브러리 임포트
import numpy as np
import pandas as pd

# 소수점 3자리까지 표시
%precision 3

'%.3f'

In [2]:
data = pd.read_csv('https://raw.githubusercontent.com/KwangyeolBaek/biodata2026/main/health2018.csv')
data_raw = data
data

Unnamed: 0,ID,sex,age,height,weight,waist,BMI,Blood_glucose
0,A901020501,M,80,162.4,56.0,82.2,21.233226,103
1,A901021301,M,78,167.7,76.4,98.3,27.166096,127
2,A901021302,F,75,157.7,53.2,80.7,21.391845,134
3,A901022601,F,43,151.0,53.5,79.7,23.463883,99
4,A901023303,F,80,146.1,57.6,93.0,26.984977,111
...,...,...,...,...,...,...,...,...
5963,R904028502,F,35,159.8,55.6,70.1,21.773149,90
5964,R904028503,F,66,156.9,63.9,87.3,25.957028,93
5965,R904028902,F,73,145.2,51.8,77.2,24.569512,99
5966,R904029201,M,43,176.8,84.1,99.2,26.904906,108


### 데이터프레임 객체의 조건 지정

In [3]:
data[data.age < 30]

Unnamed: 0,ID,sex,age,height,weight,waist,BMI,Blood_glucose
12,A901024803,M,27,188.4,126.7,106.9,35.695611,90
13,A901024804,M,26,177.9,85.5,90.5,27.015575,96
68,A903022202,F,23,158.8,42.5,61.6,16.853416,86
104,A904024203,M,29,188.2,67.0,71.6,18.916273,93
113,A904027203,F,26,169.9,58.5,66.5,20.266050,85
...,...,...,...,...,...,...,...,...
5931,R903029201,M,25,193.0,74.5,76.4,20.000537,95
5934,R903033301,M,25,174.7,73.8,89.2,24.180794,97
5935,R903034901,M,22,173.2,67.1,73.1,22.367979,94
5936,R903035101,M,22,175.5,63.0,74.1,20.454379,99


In [4]:
data[data.age < 30].describe()

Unnamed: 0,age,height,weight,waist,BMI,Blood_glucose
count,737.0,737.0,737.0,737.0,737.0,737.0
mean,24.093623,168.515061,65.646269,76.980597,22.945924,89.761194
std,2.950806,8.59485,15.413515,11.323265,4.16524,8.308584
min,19.0,145.1,35.7,57.2,14.840366,63.0
25%,22.0,161.7,54.7,68.8,20.035106,85.0
50%,24.0,168.1,62.8,75.2,22.0748,89.0
75%,26.0,175.4,73.8,83.5,24.923062,94.0
max,29.0,193.0,144.2,130.3,43.918639,171.0


In [5]:
# 다중조건 지정 실습
# (아래는 작동하지 않음)
data[data.age >= 20 & data.age < 30]

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [None]:
# 아래는 작동하나, and를 사용할 경우 작동하지 않음 
# (and: 논리연산자, &: 비트연산자).
data[(data.age >= 20) & (data.age < 30)]

In [None]:
# df.query() 함수를 이용하는 방법
data.query('age >= 20 and age < 30')

### 데이터프레임 객체의 내부 변수값 조작

In [None]:
# 단일 조건을 사용한 경우에도, 내부 변수값을 조작할 수 없음.
# data[조건식] 형태로 지정한 경우, 해당 조건에 대응하는 행+열만 추출하여 '새로운' 데이터프레임 객체로 반환하기 때문.
data[data.sex == 'M'].BMI = 0
data

In [None]:
d1 = data[data.sex == 'M']
d1.BMI = 0
d1

In [None]:
# 참고 (.loc[]으로 지정한 경우)
# 데이터프레임 객체.loc[행 조건, 열 조건]
data.loc[data.sex == 'M', :]

In [None]:
# 참고 (.loc[]으로 지정한 경우)
data.loc[data.sex == 'M', 'BMI'] = 0
data

### 단일조건: 비만 (BMI >= 25) 조건 열 추가하기

In [None]:
# for 문과 if 문을 이용한 방법
data['obesity'] = ['Obese' if b >= 25 else 'Normal' for b in data['BMI']]
data

In [None]:
# np.where() 메소드 활용
data['obesity'] = np.where(data['BMI'] > 25, '비만', '정상')
data

### 다중조건: 정상 (BMI 18.5 ~ 23), 과체중 (BMI 23 ~ 25), 비만 (BMI >= 25) 조건 분류

In [None]:
# for문과 if문 활용
data['obesity'] = ['Obese' if b >= 25 else 'Overweight' if b >= 23  else 'Normal' for b in data['BMI']]
data

In [None]:
# np.select() 메소드 활용
condition_list = [(data.BMI >=25), 
                  (data.BMI < 25) & (data.BMI >= 23), 
                  (data.BMI < 23) ]
choice_list = [ '비만', '과체중', '정상' ]
data['obesity'] = np.select(condition_list, choice_list, default = 'NaN')
data

***