In [None]:
# CSV 파일 불러오기
import pandas as pd
df = pd.read_csv("framingham.csv")

# 1) 분석에 필요한 열만 결측치 제거
df = df.dropna(subset=["currentSmoker", "TenYearCHD"])

# 2) 흡연 여부별 평균 CHD 발생률 계산
smoker_group = df.groupby("currentSmoker")["TenYearCHD"].mean()

# 3) % 단위로 변환
non_smoker_rate = smoker_group[0] * 100   # 0 = 비흡연자
smoker_rate = smoker_group[1] * 100      # 1 = 흡연자

# 4) 결과 출력
print("=== 흡연 여부에 따른 CHD 발생률 ===")
print("비흡연자 :", round(non_smoker_rate, 1), "%")
print("흡연자   :", round(smoker_rate, 1), "%")

=== 흡연 여부에 따른 CHD 발생률 ===
비흡연자 : 14.5 %
흡연자   : 15.9 %


In [None]:
# CSV 파일 불러오기
import pandas as pd
df = pd.read_csv("framingham.csv")

# 1) 분석에 필요한 열만 결측치 제거
df = df.dropna(subset=["male", "TenYearCHD"])

# 2) 성별에 따른 평균 CHD 발생률 계산
gender_group = df.groupby("male")["TenYearCHD"].mean()

# 3) % 단위로 변환
female_rate = gender_group[0] * 100   # 여성 (0 = female)
male_rate   = gender_group[1] * 100   # 남성 (1 = male)

# 4) 결과 출력
print("=== 성별에 따른 CHD 발생률 ===")
print("여성 :", round(female_rate, 1), "%")
print("남성 :", round(male_rate, 1), "%")

=== 성별에 따른 CHD 발생률 ===
여성 : 12.4 %
남성 : 18.9 %


In [None]:
# CSV 파일 불러오기
import pandas as pd
df = pd.read_csv("framingham.csv")

# 1) 필요한 열만 결측치 제거
df = df.dropna(subset=["age", "TenYearCHD"])

# 2) 나이대를 10살 단위로 구간 나누기
bins = [30, 40, 50, 60, 70]
df["age_group"] = pd.cut(df["age"], bins)

# 3) 발생률 계산 (경고 제거: observed=False)
age_group_rate = df.groupby("age_group", observed=False)["TenYearCHD"].mean() * 100

# 4) 출력 시 깔끔한 표 형태로 변환
age_rate_table = age_group_rate.reset_index()
age_rate_table.columns = ["나이대", "CHD 발생률(%)"]
age_rate_table["CHD 발생률(%)"] = age_rate_table["CHD 발생률(%)"].round(1)

# 5) 최종 출력
print(age_rate_table)

        나이대  CHD 발생률(%)
0  (30, 40]         5.1
1  (40, 50]        10.9
2  (50, 60]        20.4
3  (60, 70]        28.5


In [None]:
# CSV 파일 불러오기
import pandas as pd
df = pd.read_csv("framingham.csv")

# 1) 필요한 열만 결측치 제거
df = df.dropna(subset=["prevalentHyp", "TenYearCHD"])

# 2) 고혈압 여부별 CHD 발생률 계산
hyp_group = df.groupby("prevalentHyp")["TenYearCHD"].mean() * 100

# 3) 문자열로 깔끔하게 출력
print("=== 고혈압 여부에 따른 CHD 발생률(%) ===")

# prevalentHyp: 0 = 고혈압 없음, 1 = 고혈압 있음
for hyp, rate in zip(hyp_group.index, hyp_group.round(1)):
    if hyp == 0:
        print(f"고혈압 없음 : {rate}%")
    else:
        print(f"고혈압 있음 : {rate}%")

=== 고혈압 여부에 따른 CHD 발생률(%) ===
고혈압 없음 : 10.9%
고혈압 있음 : 24.7%


In [None]:
# CSV 파일 불러오기
import pandas as pd
df = pd.read_csv("framingham.csv")

# 1) 필요한 열만 결측치 제거
df = df.dropna(subset=["diabetes", "TenYearCHD"])

# 2) 당뇨 여부별 CHD 발생률 계산
diab_group = df.groupby("diabetes")["TenYearCHD"].mean() * 100

# 3) 문자열로 깔끔하게 출력
print("=== 당뇨병 여부에 따른 CHD 발생률(%) ===")

# diabetes: 0 = 당뇨병 없음, 1 = 당뇨병 있음
for d, rate in zip(diab_group.index, diab_group.round(1)):
    if d == 0:
        print(f"당뇨병 없음 : {rate}%")
    else:
        print(f"당뇨병 있음 : {rate}%")

=== 당뇨병 여부에 따른 CHD 발생률(%) ===
당뇨병 없음 : 14.6%
당뇨병 있음 : 36.7%
