# [문제] BMI 지수 계산 및 과체중 이상인 BMI 값 확인
- 10명에 대한 키와 몸무게가 들어있는 'height_weight.txt'를 읽어 각 사람별 BMI 지수를 구하고 비만 전단계 이상인 BMI 값 확인하기

<pre>
 BMI 지수 = 몸무게(kg) / 키(M)의 제곱
 체질량지수의 범위 값에 따른 비만도 값 지정
 18.5 미만 ▶ 저체중
 18.5 ~ 22.9 ▶ 정상
 23 ~ 24.9 ▶ 비만 전단계
 25 ~ 29 ▶ 1단계 비만
 30 ~ 34.9 ▶ 2단계 비만
 35이상 ▶ 고도비만
</pre>

In [17]:
import numpy as np

# 데이터 로딩
data = np.loadtxt('height_weight.txt', delimiter=',', dtype=float)
print(data)

weight = data[1]
# print(weight)
height = (data[0]/100)
# print(height)
squared_height = height ** 2

[[175.2 180.3 175.  169.2 185.2 188.  177.6 178.2 177.  179. ]
 [ 65.6  88.   79.2  69.3  55.   71.2  73.   68.9  74.   82. ]]


In [20]:
bmi = weight / squared_height # np.divide(weight, squared_height)
print(bmi)
print(bmi[bmi >= 25])

[21.37153104 27.07018468 25.86122449 24.20652885 16.03543423 20.14486193
 23.14392095 21.69720651 23.62028791 25.59220998]
[27.07018468 25.86122449 25.59220998]


# [문제] 국가건강검진 혈압혈당 데이터 분석

* '국가건강검진_혈압혈당데이터.csv' 파일 내용을 읽기
    - 성별: 1(남자), 2(여자)
    - 연령그룹: 1(20-24), 2(25-26),...25-74세까지 2살 간격으로 1개 그룹으로 지정, 27(74세 이상)
    - 고혈압 당뇨병 진료여부: 1(고혈압 및 당뇨진료내역 있음), 2(고혈압 진료내역 있음), 3(당뇨 진료내역 있음), 4(고혈압 및 당뇨 진료내역 없음)
    - 정상혈압: 수축기 혈압 120nnHg 미만, 확장기 혈압 80mmHg 미만
    - 공복혈당 수치: 126 mg/dL 이상 -> 당뇨병, 100mg/dL-> 정상
* 전체 레코드 수와 상위 5개 데이터 확인
* 데이터 모양 확인
* 여성과 남성의 데이터 수 확인
* 여성과 남성의 수축기혈압과 이완기혈압의 평균값 확인
* 정상 혈압 남자 및 여자 수 확인
* 당뇨병 질환(공복혈당 수치 126mg/dL 이상)을 가지고 있는 사람들의 평균 체질량지수

In [56]:
import numpy as np

# 데이터 로드
data = np.loadtxt("국가건강검진_혈압혈당데이터.csv", delimiter=",", skiprows=1, encoding='cp949') # skiprows = 1 : 첫번째 행은 스킵
print(data)

# 전체 레코드 수와 상위 5개 데이터 확인
print(len(data)) # print(data.shape[0])
print(data[:5])

# 데이터 모양 확인
print(np.shape(data))

# 여성과 남성의 데이터 수 확인
# print(data[:,0]==1)
# print(f'남성 데이터 수: {np.sum(data[:,0]==1):,}개')
print(f'남성 데이터 수: {len(data[data[:,0]==1]):,}개') 
print(f'여성 데이터 수: {len(data[data[:,0]==2]):,}개') 

[[  1.    1.  116.  ...  94.    4.   16.6]
 [  1.    1.  100.  ...  79.    4.   22.3]
 [  1.    1.  100.  ...  87.    4.   21.9]
 ...
 [  2.   27.  115.  ... 110.    1.   25.2]
 [  2.   27.  120.  ...  90.    2.   19.7]
 [  2.   27.  116.  ...  92.    4.   17.6]]
1000000
[[  1.    1.  116.   78.   94.    4.   16.6]
 [  1.    1.  100.   60.   79.    4.   22.3]
 [  1.    1.  100.   60.   87.    4.   21.9]
 [  1.    1.  111.   70.   72.    4.   20.2]
 [  1.    1.  120.   80.   98.    4.   20. ]]
(1000000, 7)
남성 데이터 수: 510,227개
여성 데이터 수: 489,773개


In [69]:
# 여성과 남성의 수축기혈압과 이완기혈압의 평균값 확인
# 수축기혈압 : SBP, 이완기혈압: DBP
male_sbp_mean = np.mean(data[data[:,0]==1][:,2])
print(f'남성의 수축기 평균 혈압: {male_sbp_mean:.2f}')
male_dbp_mean = np.mean(data[data[:,0]==1][:,3])
print(f'남성의 이완기 평균 혈압: {male_dbp_mean:.2f}')
female_sbp_mean = np.mean(data[data[:,0]==2][:,2])
print(f'여성의 수축기 평균 혈압: {female_sbp_mean:.2f}')
female_dbp_mean = np.mean(data[data[:,0]==2][:,3])
print(f'여성의 이완기 평균 혈압: {female_dbp_mean:.2f}')

# 정상 혈압 남자 및 여자 수 확인
normal_bp = np.logical_and(data[:,2] < 120, data[:,3] < 80) 
nbp = data[normal_bp]
print('정상 혈압 남자 수:', len(nbp[nbp[:,0]==1]))
print('정상 혈압 여자 수:', len(nbp[nbp[:,0]==2]))

남성의 수축기 평균 혈압: 124.28
남성의 이완기 평균 혈압: 77.61
여성의 수축기 평균 혈압: 119.36
여성의 이완기 평균 혈압: 73.88
정상 혈압 남자 수: 158007
정상 혈압 여자 수: 230707


In [68]:
# 당뇨병 질환(공복혈당 수치 126mg/dL 이상)을 가지고 있는 사람들의 평균 체질량지수
diabetes = data[data[:,4] >= 126]
print(np.mean(diabetes[:,6]))

25.168695210981763


In [48]:
# 각 컬럼별 유니크 값 확인
print('성별 값: ', np.unique(data[:,0]))
print('고혈압 당뇨병 진료 여부 값: ', np.unique(data[:,5]))

성별 값:  [1. 2.]
고혈압 당뇨병 진료 여부 값:  [1. 2. 3. 4.]


# [문제] 시에틀 강수량 데이터 분석
- 'Seattle2014.csv' 파일 내용 읽기
- 강수량('PRCP')이 많은 날 상위 10일 확인
- 1월 강수량만 출력
- 1월에 내린 강수량의 합, 평균강수량 확인
- 1년동안 강수량이 40미만으로 내린 날이 몇일인가?

In [122]:
import numpy as np

# 데이터 로드
data = np.loadtxt("Seattle2014.csv", delimiter=",", dtype=object, skiprows=1) # object : 데이터를 전부 문자열 형태로 불러옴
print(data[:5,])

[['GHCND:USW00024233' 'SEATTLE TACOMA INTERNATIONAL AIRPORT WA US'
  '20140101' '0' '0' '0' '72' '33' '12' '340' '310' '36' '40' '-9999'
  '-9999' '-9999' '-9999']
 ['GHCND:USW00024233' 'SEATTLE TACOMA INTERNATIONAL AIRPORT WA US'
  '20140102' '41' '0' '0' '106' '61' '32' '190' '200' '94' '116' '-9999'
  '-9999' '-9999' '-9999']
 ['GHCND:USW00024233' 'SEATTLE TACOMA INTERNATIONAL AIRPORT WA US'
  '20140103' '15' '0' '0' '89' '28' '26' '30' '50' '63' '72' '1' '-9999'
  '-9999' '-9999']
 ['GHCND:USW00024233' 'SEATTLE TACOMA INTERNATIONAL AIRPORT WA US'
  '20140104' '0' '0' '0' '78' '6' '27' '40' '40' '45' '58' '1' '-9999'
  '-9999' '-9999']
 ['GHCND:USW00024233' 'SEATTLE TACOMA INTERNATIONAL AIRPORT WA US'
  '20140105' '0' '0' '0' '83' '-5' '37' '10' '10' '67' '76' '-9999'
  '-9999' '-9999' '-9999']]


In [123]:
# 강수량('PRCP')이 많은 날 상위 10일 확인
prcp_data= data[:,3].astype('int32') # dtype이 object라서 문자열. 문자열을 정수형으로 변환
a = np.sort(prcp_data)[::-1]
print(a[:10])

[467 343 333 323 320 277 264 254 221 216]


In [130]:
# 강수량('PRCP')이 많은 날 상위 10일 확인 (날짜 포함)
prcp_data= data[:,[2,3]].astype('int32')
# print(prcp_data[:10])
print(prcp_data[prcp_data[:,1].argsort()][::-1][:10])

[[20140305      467]
 [20141128      343]
 [20140503      333]
 [20140308      323]
 [20141022      320]
 [20140316      277]
 [20140216      264]
 [20141030      254]
 [20140328      221]
 [20140129      216]]


In [133]:
# 1월 강수량만 출력 - 방법 1
print(data[:31][:,3].astype(int))

[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]


In [134]:
# 1월 강수량만 출력 - 방법 2
prcp_data = data[:,[2,3]].astype(int) # 날짜와 강수량
jan_prcp_data = prcp_data[prcp_data[:,0] < 20140201]
print(jan_prcp_data[:,1])

[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]


In [140]:
# 1월 강수량만 출력 - 방법 3
prcp_data = data[:,[2,3]].astype(int)
prcp_data[:,0] = (prcp_data[:,0] - 20140000) // 100 # 100으로 나뉘었을 때 몫만 취하기
# print(prcp_data[:40])
jan_prcp_data = prcp_data[prcp_data[:,0]==1][:,1]
print(jan_prcp_data)

[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]


In [148]:
# 1월 강수량만 출력 - 방법 4
prcp_data = data[:,[2,3]]
prcp_data = np.array([ [date[4:6], prcp] for date, prcp in prcp_data])
# print(prcp_data[:40])
jan_prcp_data = prcp_data[prcp_data[:,0]=='01'][:,1].astype(int)
print(jan_prcp_data)

[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]


In [150]:
# 1월에 내린 강수량의 합, 평균강수량 확인
print('1월 강수량 합:', np.sum(jan_prcp_data))
print('1월 평균 강수량:', np.mean(jan_prcp_data))

1월 강수량 합: 940
1월 평균 강수량: 30.322580645161292


In [154]:
# 1년동안 강수량이 40미만으로 내린 날이 몇일인가?
prcp_data = data[:,3].astype(int)
under_40 = prcp_data[prcp_data < 40]
print(len(under_40), '일')

277 일


# [문제] 영화 평점 분석
- 'ratings.dat' 파일 내용 읽기 (데이터 형식: user_id::item_id::rating::timestamp)
- 상위 10개 데이터 출력하기
- 데이터 정보 확인(크기, 차원)
- 전체 데이터 평점 구하기
- 사용자 아이디 1인 데이터 출력하기
- 사용자 아이디 1인 사람의 평점 평균 구하기
- 각 사용자별 평균 평점 구하기 (사용자 ID 수집: ID컬럼에 대한 np.unique() 함수 적용)
- 각 사용자별 평균 평점이 4점 이상인 사용자 및 인원수 구하기

In [205]:
import numpy as np

# 상위 10개 데이터 출력하기
data = np.loadtxt('ratings.dat', delimiter=':', dtype=np.int64)
print(data[:10])

[[        1      1193         5 978300760]
 [        1       661         3 978302109]
 [        1       914         3 978301968]
 [        1      3408         4 978300275]
 [        1      2355         5 978824291]
 [        1      1197         3 978302268]
 [        1      1287         5 978302039]
 [        1      2804         5 978300719]
 [        1       594         4 978302268]
 [        1       919         4 978301368]]


In [209]:
# 데이터 정보 확인(크기, 차원)
print(data.shape)
print(data.ndim)

(1000209, 4)
2


In [211]:
# 전체 데이터 평균 평점 구하기
avg_rating = np.mean(data[:,2])
print(f'전체 사용자 평균 평점: {avg_rating:.2f}점')

전체 사용자 평균 평점: 3.58점


In [None]:
# 사용자 아이디 1인 데이터 출력하기
user_id_1 = data[:,0] == 1
print(data[user_id_1])

In [217]:
# 사용자 아이디 1인 사람의 평점 평균 구하기
print(f'user ID 1인 사람의 평균 평점 : {np.mean(data[user_id_1][:,2]):.2f}')

user ID 1인 사람의 평균 평점 : 4.19


In [None]:
# 각 사용자별 평균 평점 구하기 (사용자 ID 수집: ID컬럼에 대한 np.unique() 함수 적용)

In [224]:
user_ids = np.unique(data[:,0])
print(f'전체 유저 수: {len(user_ids):,}명')

user_avg_rating = [ [id, np.mean(data[data[:,0]==id][:,2])]for id in user_ids]

for id, rating in user_avg_rating[:10]:
    print(f'{id}유저 평점: {rating:.2f}')

전체 유저 수: 6,040명
1유저 평점: 4.19
2유저 평점: 3.71
3유저 평점: 3.90
4유저 평점: 4.19
5유저 평점: 3.15
6유저 평점: 3.90
7유저 평점: 4.32
8유저 평점: 3.88
9유저 평점: 3.74
10유저 평점: 4.11


In [225]:
# 각 사용자별 평균 평점이 4점 이상인 사용자 및 인원수 구하기
user_avg_rating = np.array(user_avg_rating)
print(f'평균 평점이 4점 이상인 유저 수: {np.sum(user_avg_rating[:,1]>=4):,}명')

평균 평점이 4점 이상인 유저 수: 1,544명
