# [문제] BMI 지수 계산 및 과체중 이상인 BMI 값 확인
- 10명에 대한 키와 몸무게가 들어있는 'height_weight.txt'를 읽어 각 사람별 BMI 지수를 구하고 비만 전단계 이상인 BMI 값 확인하기

<pre>
 BMI 지수 = 몸무게(kg) / 키(M)의 제곱
 체질량지수의 범위 값에 따른 비만도 값 지정
 18.5 미만 ▶ 저체중
 18.5 ~ 22.9 ▶ 정상
 23 ~ 24.9 ▶ 비만 전단계
 25 ~ 29 ▶ 1단계 비만
 30 ~ 34.9 ▶ 2단계 비만
 35이상 ▶ 고도비만
</pre>

In [2]:
import numpy as np

# 데이터 로딩
data = np.loadtxt('height_weight.txt', delimiter=',', dtype=float)


weight = data[1]
height = data[0] / 100

In [3]:
BMI = weight / height ** 2  # np.divide(weight, squared_height)

print(BMI[BMI < 18.5])
print(BMI[18.5 <= BMI])
print(BMI[23<= BMI])
print(BMI[25 <= BMI <= 29])
print(BMI[30 <= BMI <= 34.9])
print(BMI[35 <= BMI])

[16.03543423]
[21.37153104 27.07018468 25.86122449 24.20652885 20.14486193 23.14392095
 21.69720651 23.62028791 25.59220998]
[27.07018468 25.86122449 24.20652885 23.14392095 23.62028791 25.59220998]


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

# [문제] 국가건강검진 혈압혈당 데이터 분석

* '국가건강검진_혈압혈당데이터.csv' 파일 내용을 읽기
    - 성별: 1(남자), 2(여자)
    - 연령그룹: 1(20-24), 2(25-26),...25-74세까지 2살 간격으로 1개 그룹으로 지정, 27(74세 이상)
    - 고혈압 당뇨병 진료여부: 1(고혈압 및 당뇨진료내역 있음), 2(고혈압 진료내역 있음), 3(당뇨 진료내역 있음), 4(고혈압 및 당뇨 진료내역 없음)
    - 정상혈압: 수축기 혈압 120nnHg 미만, 이완기 혈압 80mmHg 미만
    - 공복혈당 수치: 126 mg/dL 이상 -> 당뇨병, 100mg/dL-> 정상
* 전체 레코드 수와 상위 5개 데이터 확인
* 데이터 모양 확인
* 여성과 남성의 데이터 수 확인
* 여성과 남성의 수축기혈압과 이완기혈압의 평균값 확인
* 정상 혈압 남자 및 여자 수 확인
* 당뇨병 질환(공복혈당 수치 126mg/dL 이상)을 가지고 있는 사람들의 평균 체질량지수

In [92]:
import numpy as np

# 데이터 로드
data = np.loadtxt("국가건강검진_혈압혈당데이터.csv", delimiter=",", skiprows=1)

In [89]:
print(data.shape[0])  # = print(len(data))
print(data[0:5])

print(data.shape)

1000000
[[  1.    1.  116.   78.   94.    4.   16.6]
 [  1.    1.  100.   60.   79.    4.   22.3]
 [  1.    1.  100.   60.   87.    4.   21.9]
 [  1.    1.  111.   70.   72.    4.   20.2]
 [  1.    1.  120.   80.   98.    4.   20. ]]
(1000000, 7)


In [90]:
# 각 컬럼별 유니크 값 확인
print('성별 값: ', np.unique(data[:,0]))
print('고혈압 당뇨병 진료여부 값: ', np.unique(data[:,5]))

성별 값:  [1. 2.]
고혈압 당뇨병 진료여부 값:  [1. 2. 3. 4.]


In [91]:
# 여성과 남성의 데이터 수 확인
# print(data[:,0] == 1)
print(f'남성 데이터 수: {np.sum(data[:,0]==1):,}')
# print(f'남성 데이터 수: {len(data[data[:,0]==1])}개')
print(f'여성 데이터 수: {np.sum(data[:,0]==2):,}')

남성 데이터 수: 510,227
여성 데이터 수: 489,773


In [98]:
# 여성과 남성의 수축기혈압과 이완기혈압의 평균값 확인
# 수축기혈압: SBP, 이완기혈압; DBP
# 두 번 인덱싱
male_sbp_mean = np.mean(data[data[:,0]==1][:,2])
print(f'남성의 수축기 평균 혈압: {male_sbp_mean:.2f}')
male_dbp_mean = np.mean(data[data[:,0]==1][:,3])
print(f'남성의 이완기 평균 혈압: {male_dbp_mean:.2f}')
female_sbp_mean = np.mean(data[data[:,0]==2][:,2])
print(f'여성의 수축기 평균 혈압: {female_sbp_mean:.2f}')
female_dbp_mean = np.mean(data[data[:,0]==2][:,3])
print(f'여성의 이완기 평균 혈압: {female_dbp_mean:.2f}')

남성의 수축기 평균 혈압: 124.28
남성의 이완기 평균 혈압: 77.61
여성의 수축기 평균 혈압: 119.36
여성의 이완기 평균 혈압: 73.88


In [104]:
# 정상 혈압 남자 및 여자 수 확인
normal_bp = np.logical_and(data[:,2] < 120, data[:,3] < 80)    # 3개 비교하려면 logical_and 안에 또 logical_and 삽입
nbp = data[normal_bp]
print('정상 혈압 남자 수:', len(nbp[nbp[:,0]==1]))
print('정상 혈압 여자 수:', len(nbp[nbp[:,0]==2]))

정상 혈압 남자 수: 158007
정상 혈압 여자 수: 230707


In [107]:
# 당뇨병 질환(공복혈당 수치 126mg/dL 이상)을 가지고 있는 사람들의 평균 체질량지수
diabetes = data[data[:,4] >= 126]
print(np.mean(diabetes[:,6]))

25.168695210981763


# [문제] 시에틀 강수량 데이터 분석
- 'Seattle2014.csv' 파일 내용 읽기
- 강수량('PRCP')이 많은 날 상위 10일 확인
- 1월 강수량만 출력
- 1월에 내린 강수량의 합, 평균강수량 확인
- 1년동안 강수량이 40미만으로 내린 날이 몇일인가?

In [39]:
import numpy as np

# 데이터 로드
data = np.loadtxt("Seattle2014.csv", delimiter=",", dtype=object, skiprows=1)

# 강수량('PRCP')이 많은 날 상위 10일 확인
RPCP = data[:,[2,3]].astype('int32')
print(RPCP[RPCP[:,1].argsort()][::-1][:10])
# m_rain = np.sort(RPCP)[::-1][:10]
# print(m_rain)

[[20140305      467]
 [20141128      343]
 [20140503      333]
 [20140308      323]
 [20141022      320]
 [20140316      277]
 [20140216      264]
 [20141030      254]
 [20140328      221]
 [20140129      216]]


In [56]:
# 1월 강수량만 출력 - 방법1
print(data[:31][:,3].astype(int))
print('-'*30)

# 1월 수량만 출력 - 방법2
prcp_data = data[:,[2,3]].astype(int)
jan_prcp_data = prcp_data[prcp_data[:,0] < 20140201]
print(jan_prcp_data[:,1])
print('-'*30)

# 1월 강수량만 출력 - 방법 3
prcp_data2 = data[:,[2,3]].astype(int)
prcp_data2[:,0] = (prcp_data2[:,0] - 20140000) // 100
# print(prcp_data[:40])
jan_prcp_data2 = prcp_data2[prcp_data2[:,0]==1][:,1]
print(jan_prcp_data2)
print('-'*30)

# 1월 강수량만 출력 - 방법 4
prcp_data3 = data[:,[2,3]]
prcp_data3 = np.array([[date[4:6], prcp] for date, prcp in prcp_data3])
# print(prcp_data3[:40])
jan_prcp_data3 = prcp_data3[prcp_data3[:,0] == '01'][:,1].astype(int)
print(jan_prcp_data3)

[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]
------------------------------
[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]
------------------------------
[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]
------------------------------
[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]


In [57]:
# 1월 강수량만 출력
month = data[data[:,2].astype(int) < 20140200]
jan_PRCP = month[:,3]
print('1월 강수량: ', jan_PRCP)

1월 강수량:  ['0' '41' '15' '0' '0' '3' '122' '97' '58' '43' '213' '15' '0' '0' '0' '0'
 '0' '0' '0' '0' '0' '5' '0' '0' '0' '0' '0' '89' '216' '0' '23']


In [62]:
# 1월에 내린 강수량의 합, 평균강수량 확인
print('1월 강수량 합', np.sum(jan_PRCP.astype('int')))
print('1월 평균강수량', np.mean(jan_PRCP.astype('int')))

1월 강수량 합 940
1월 평균강수량 30.322580645161292


In [63]:
# 1년동안 강수량이 40미만으로 내린 날이 몇일인가?
prcp_data = data[:,3].astype(int)
under_40 = prcp_data[prcp_data < 40]
print(len(under_40))

277


# [문제] 영화 평점 분석
- 'ratings.dat' 파일 내용 읽기 (데이터 형식: user_id::item_id::rating::timestamp)
- 상위 10개 데이터 출력하기
- 데이터 정보 확인(크기, 차원)
- 전체 데이터 평점 구하기
- 사용자 아이디 1인 데이터 출력하기
- 사용자 아이디 1인 사람의 평점 평균 구하기
- 각 사용자별 평점 구하기 (사용자 ID 수집: ID컬럼에 대한 np.unique() 함수 적용)
- 각 사용자별 평균 평점이 4점 이상인 사용자 및 인원수 구하기

In [111]:
import numpy as np

# 상위 10개 데이터 출력하기
data = np.loadtxt('ratings.dat', delimiter=':', dtype=np.int64)
print(data[:10])

# 데이터 정보 확인(크기, 차원)
print(data.shape, data.ndim)

[[        1      1193         5 978300760]
 [        1       661         3 978302109]
 [        1       914         3 978301968]
 [        1      3408         4 978300275]
 [        1      2355         5 978824291]
 [        1      1197         3 978302268]
 [        1      1287         5 978302039]
 [        1      2804         5 978300719]
 [        1       594         4 978302268]
 [        1       919         4 978301368]]
(1000209, 4) 2


In [112]:
# 전체 데이터 평균 평점 구하기
rating = np.mean(data[:,2])
print(f'전체 사용자 평균 평점: {rating:.2f}')

전체 사용자 평균 평점: 3.58


In [113]:
# 사용자 아이디 1인 데이터 출력하기
# user_id_1 = data[:,0] == 1
# print(data[user_id_1])
print(data[data[:,0] == 1])

[[        1      1193         5 978300760]
 [        1       661         3 978302109]
 [        1       914         3 978301968]
 [        1      3408         4 978300275]
 [        1      2355         5 978824291]
 [        1      1197         3 978302268]
 [        1      1287         5 978302039]
 [        1      2804         5 978300719]
 [        1       594         4 978302268]
 [        1       919         4 978301368]
 [        1       595         5 978824268]
 [        1       938         4 978301752]
 [        1      2398         4 978302281]
 [        1      2918         4 978302124]
 [        1      1035         5 978301753]
 [        1      2791         4 978302188]
 [        1      2687         3 978824268]
 [        1      2018         4 978301777]
 [        1      3105         5 978301713]
 [        1      2797         4 978302039]
 [        1      2321         3 978302205]
 [        1       720         3 978300760]
 [        1      1270         5 978300055]
 [        1

In [115]:
# 사용자 아이디 1인 사람의 평점 평균 구하기
one_ratings = np.mean(data[data[:,0] == 1][:,2])
# print(f'user id 1인 사람의 평균 평점: {np.mean(data[user_id_1][:,2]):.2f}')
print(f'user id 1인 사람의 평균 평점: {one_ratings:.2f}')

user id 1인 사람의 평균 평점: 4.19


In [116]:
# 각 사용자별 평균 평점 구하기 (사용자 ID 수집: ID컬럼에 대한 np.unique() 함수 적용)
user_ids = np.unique(data[:,0])
print(f'전체 유저 수: {len(user_ids):,}명')
user_avg_rating = [[id, np.mean(data[data[:,0]==id][:,2])] for id in user_ids]
for id, rating in user_avg_rating[:10]:
    print(f'{id} 유저 평점: {rating:.2f}')
# for i in user_ids:
#     print(f'사용자 {i}의 평균 평점: {np.mean(data[data[:,0]==i][:,2]):.2f}')

전체 유저 수: 6,040명
1 유저 평점: 4.19
2 유저 평점: 3.71
3 유저 평점: 3.90
4 유저 평점: 4.19
5 유저 평점: 3.15
6 유저 평점: 3.90
7 유저 평점: 4.32
8 유저 평점: 3.88
9 유저 평점: 3.74
10 유저 평점: 4.11


In [119]:
# 각 사용자별 평균 평점이 4점 이상인 사용자 및 인원수 구하기
user_avg_rating = np.array(user_avg_rating)
print(f'평균 평점이 4점 이상인 유저 수: {np.sum(user_avg_rating[:,1] >= 4):,}명')

평균 평점이 4점 이상인 유저 수: 1,544명
