<a href="https://colab.research.google.com/github/TAEO2474/python-dev/blob/main/402_Pandas__diabetes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 0. 당뇨병 데이터셋
1) load_diabetes() 데이터셋 설명
- 출처: scikit-learn에서 제공하는 내장 의료 데이터셋
- 용도: 당뇨병 진행도 예측(회귀)
- 샘플 수: 442명
- 특성 수: 10개 (모두 연속형, 이미 정규화된 상태)
- 타겟 값: 1년 후 환자의 당뇨병 진행 정도 (0~346 범위의 연속형 변수)


2) 데이터셋 컬럼 정보


| 컬럼명        | 설명         |
| ---------- | ---------- |
| `age`      | 나이 (표준화됨)  |
| `sex`      | 성별 (표준화됨)  |
| `bmi`      | 체질량 지수     |
| `bp`       | 평균 혈압      |
| `s1`\~`s6` | 혈청 검사 수치   |
| `target`   | 당뇨병 진행도 지표 |






In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes

In [None]:
# 모든 컬럼을 한 줄에 출력하도록 설정
pd.set_option('display.expand_frame_repr', False)

# 필요시 컬럼 개수도 충분히 보이도록 설정
pd.set_option('display.max_columns', None)

## 1. 시리즈 생성



# Pandas의 Series란?
- Series는 1차원 배열 같은 데이터 구조로, 데이터 값과 인덱스(index)를 함께 가지는 자료형이에요.

- 데이터 묶음이라고 할 수 있지만, 단순한 리스트랑 다른 점은 각 데이터에 **인덱스(라벨)**가 붙어 있다는 거예요.

- 인덱스를 통해 데이터에 쉽게 접근하고 조작할 수 있어요.

- 숫자, 문자열 등 다양한 데이터 타입을 담을 수 있어요.

# Series에서 name ?
-  그 시리즈 전체의 이름(열 이름) 을 의미.

In [None]:
ages = [45, 56, 67, 70, 72]
print(dir(pd.Series))
s = pd.Series(ages)
print(s)

s = pd.Series(ages, name='나이')
print(s)

print(s.index)  # RangeIndex ('행 row' 인덱스)
e = pd.Series(ages, index=['a','b','c','d','e'], name='나이')
print(e)
print(e.index)

['T', '_AXIS_LEN', '_AXIS_ORDERS', '_AXIS_TO_AXIS_NUMBER', '_HANDLED_TYPES', '__abs__', '__add__', '__and__', '__annotations__', '__array__', '__array_priority__', '__array_ufunc__', '__bool__', '__class__', '__column_consortium_standard__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__divmod__', '__doc__', '__eq__', '__finalize__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__imod__', '__imul__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lt__', '__matmul__', '__mod__', '__module__', '__mul__', '__ne__', '__neg__', '__new__', '__nonzero__', '__or__', '__pandas_priority__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfl

In [None]:
ages = [45, 56, 67, 70, 72]
m = pd.Series(ages)
print(dir(pd.Series))

m.index = ['a', 'b','c','d','e']
print(m)

m.name = '나이'  # name = 해당 시리즈에서 '열'의미
print(m)



['T', '_AXIS_LEN', '_AXIS_ORDERS', '_AXIS_TO_AXIS_NUMBER', '_HANDLED_TYPES', '__abs__', '__add__', '__and__', '__annotations__', '__array__', '__array_priority__', '__array_ufunc__', '__bool__', '__class__', '__column_consortium_standard__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__divmod__', '__doc__', '__eq__', '__finalize__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattr__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__imod__', '__imul__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lt__', '__matmul__', '__mod__', '__module__', '__mul__', '__ne__', '__neg__', '__new__', '__nonzero__', '__or__', '__pandas_priority__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfl

## 2. 데이터프레임 생성 및 입출력


# Pandas에서 데이터 타입이 object라고 표시되면 ?
- 일반적으로 문자열(텍스트) 데이터를 의미하는 경우가 많습니다.

- 하지만 object 타입은 문자열 외에도 파이썬의 다양한 객체 타입 (리스트, 딕셔너리, 사용자 정의 객체 등)을 포함할 수 있는 가장 일반적인 데이터 타입입니다.

- Pandas가 컬럼의 데이터 타입을 명확하게 특정 타입(예: int64, float64, bool, datetime64[ns])으로 지정하기 어려울 때 object 타입으로 저장하기도 합니다.

In [None]:
data = {
    '환자ID': [101, 102, 103, 104],
    '나이': [65, 72, 58, 45],
    '진단결과': ['양성', '음성', '양성', '음성']
}

df = pd.DataFrame(data)
print(df)
print(df.index) # RangeIndex(start=0, stop=4, step=1)
print(df.columns) # Index(['환자ID', '나이', '진단결과'], dtype='object')
print(df.shape) # (4, 3)

# 데이터프레임을 'patients.csv' 파일로 저장
# index=False 옵션은 데이터프레임의 행 인덱스를 CSV 파일에 쓰지 않도록 합니다.
df.to_csv('patients.csv', index=False)

# 저장된 'patients.csv' 파일을 다시 읽어와서 새로운 데이터프레임 df_loaded에 저장
df_loaded = pd.read_csv('patients.csv')
print('\n 저장 후 다시 불러오기:\n', df_loaded)

   환자ID  나이 진단결과
0   101  65   양성
1   102  72   음성
2   103  58   양성
3   104  45   음성
RangeIndex(start=0, stop=4, step=1)
Index(['환자ID', '나이', '진단결과'], dtype='object')
(4, 3)

 저장 후 다시 불러오기:
    환자ID  나이 진단결과
0   101  65   양성
1   102  72   음성
2   103  58   양성
3   104  45   음성


## 3. 데이터 로드

In [None]:
raw = load_diabetes()
print(raw)

{'data': array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
         0.01990749, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
        -0.06833155, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
         0.00286131, -0.02593034],
       ...,
       [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
        -0.04688253,  0.01549073],
       [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
         0.04452873, -0.02593034],
       [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
        -0.00422151,  0.00306441]]), 'target': array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
        69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
        68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
        87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
       259.,  53., 190., 142.,  75., 142., 155., 225.,  59., 104., 182.,
  

In [None]:
print(dir(raw))

['DESCR', 'data', 'data_filename', 'data_module', 'feature_names', 'frame', 'target', 'target_filename']


In [None]:
# 컬럼명(feature_names) 출력
print(raw.feature_names)


['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']


In [None]:
# 데이터셋의 데이터 개수 (행의 개수) 출력
print(len(raw.data))

442


In [None]:
# 데이터셋의 특성 데이터(raw.data)의 형태(shape)를 출력합니다. (행, 열)
print(raw.data.shape)
# 데이터셋의 타겟 데이터(raw.target)의 형태(shape)를 출력합니다. (행,)
print(raw.target.shape)

(442, 10)
(442,)


# 특성 데이터 (Feature Data)?
#  - 환자의 나이, 성별, BMI, 혈압, 혈청 검사 수치(s1부터 s6까지)와 같은 10가지 정보들
 -  머신러닝이나 데이터 분석에서 모델을 학습시키거나 예측을 수행하는 데 사용되는 입력 변수들을 의미합니다.

- 당뇨병 데이터셋의 경우, "특성 데이터"는 환자의 나이, 성별, BMI, 혈압, 혈청 검사 수치(s1부터 s6까지)와 같은 10가지 정보들을 말합니다. 이 특성 데이터를 바탕으로 환자의 당뇨병 진행 정도(target)를 예측하게 됩니다.

- 쉽게 말해, 예측하려는 값(target)에 영향을 줄 수 있는 입력 값들이라고 생각하시면 됩니다.

In [None]:
# 데이터셋의 특성 데이터 (NumPy 배열 형태) 출력
print(raw.data)

[[ 0.03807591  0.05068012  0.06169621 ... -0.00259226  0.01990749
  -0.01764613]
 [-0.00188202 -0.04464164 -0.05147406 ... -0.03949338 -0.06833155
  -0.09220405]
 [ 0.08529891  0.05068012  0.04445121 ... -0.00259226  0.00286131
  -0.02593034]
 ...
 [ 0.04170844  0.05068012 -0.01590626 ... -0.01107952 -0.04688253
   0.01549073]
 [-0.04547248 -0.04464164  0.03906215 ...  0.02655962  0.04452873
  -0.02593034]
 [-0.04547248 -0.04464164 -0.0730303  ... -0.03949338 -0.00422151
   0.00306441]]


# 타겟 데이터 (Target data)?
# - 1년 후 환자의 당뇨병 진행 정도를 나타내는 값 (종속변수 또는 레이블)
 - 머신러닝이나 데이터 분석에서 우리가 예측하려고 하거나 분류하려는 대상 값을 의미합니다. 종속 변수(dependent variable) 또는 레이블(label)이라고도 불립니다.

- 당뇨병 데이터셋의 경우, "타겟 데이터"는 1년 후 환자의 당뇨병 진행 정도를 나타내는 값입니다. 우리는 환자의 특성 데이터(나이, 성별, BMI 등)를 사용하여 이 타겟 값을 예측하는 모델을 만들게 됩니다.

- 요약하면, 특성 데이터는 예측을 위한 입력 값이고, 타겟 데이터는 예측하려는 결과 값입니다.



In [None]:
# 데이터셋의 타겟 데이터 (NumPy 배열 형태) 출력
print(raw.target)

[151.  75. 141. 206. 135.  97. 138.  63. 110. 310. 101.  69. 179. 185.
 118. 171. 166. 144.  97. 168.  68.  49.  68. 245. 184. 202. 137.  85.
 131. 283. 129.  59. 341.  87.  65. 102. 265. 276. 252.  90. 100.  55.
  61.  92. 259.  53. 190. 142.  75. 142. 155. 225.  59. 104. 182. 128.
  52.  37. 170. 170.  61. 144.  52. 128.  71. 163. 150.  97. 160. 178.
  48. 270. 202. 111.  85.  42. 170. 200. 252. 113. 143.  51.  52. 210.
  65. 141.  55. 134.  42. 111.  98. 164.  48.  96.  90. 162. 150. 279.
  92.  83. 128. 102. 302. 198.  95.  53. 134. 144. 232.  81. 104.  59.
 246. 297. 258. 229. 275. 281. 179. 200. 200. 173. 180.  84. 121. 161.
  99. 109. 115. 268. 274. 158. 107.  83. 103. 272.  85. 280. 336. 281.
 118. 317. 235.  60. 174. 259. 178. 128.  96. 126. 288.  88. 292.  71.
 197. 186.  25.  84.  96. 195.  53. 217. 172. 131. 214.  59.  70. 220.
 268. 152.  47.  74. 295. 101. 151. 127. 237. 225.  81. 151. 107.  64.
 138. 185. 265. 101. 137. 143. 141.  79. 292. 178.  91. 116.  86. 122.
  72. 

In [None]:
print(df)

   환자ID  나이 진단결과
0   101  65   양성
1   102  72   음성
2   103  58   양성
3   104  45   음성


In [None]:
print(type(raw))

<class 'sklearn.utils._bunch.Bunch'>


In [None]:

df = pd.DataFrame(raw.data, columns= raw.feature_names )
df['target'] = raw['target'] # 타켓컬럼(열) 추가
print(df.head())


        age       sex       bmi        bp        s1        s2        s3        s4        s5        s6  target
0  0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401 -0.002592  0.019907 -0.017646   151.0
1 -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412 -0.039493 -0.068332 -0.092204    75.0
2  0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356 -0.002592  0.002861 -0.025930   141.0
3 -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038  0.034309  0.022688 -0.009362   206.0
4  0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142 -0.002592 -0.031988 -0.046641   135.0


In [None]:
# info() 데이터
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 442 entries, 0 to 441
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     442 non-null    float64
 1   sex     442 non-null    float64
 2   bmi     442 non-null    float64
 3   bp      442 non-null    float64
 4   s1      442 non-null    float64
 5   s2      442 non-null    float64
 6   s3      442 non-null    float64
 7   s4      442 non-null    float64
 8   s5      442 non-null    float64
 9   s6      442 non-null    float64
 10  target  442 non-null    float64
dtypes: float64(11)
memory usage: 38.1 KB
None


In [None]:
# 상위데이터 5개 출력
df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,135.0


In [None]:
df.head(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,141.0


In [None]:
# 아래 5개 출력
df.tail()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
437,0.041708,0.05068,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207,178.0
438,-0.005515,0.05068,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485,104.0
439,0.041708,0.05068,-0.015906,0.017293,-0.037344,-0.01384,-0.024993,-0.01108,-0.046883,0.015491,132.0
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.02656,0.044529,-0.02593,220.0
441,-0.045472,-0.044642,-0.07303,-0.081413,0.08374,0.027809,0.173816,-0.039493,-0.004222,0.003064,57.0


In [None]:
df.tail(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
439,0.041708,0.05068,-0.015906,0.017293,-0.037344,-0.01384,-0.024993,-0.01108,-0.046883,0.015491,132.0
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.02656,0.044529,-0.02593,220.0
441,-0.045472,-0.044642,-0.07303,-0.081413,0.08374,0.027809,0.173816,-0.039493,-0.004222,0.003064,57.0


In [None]:
# random으로 1개 출력
df.sample()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
8,0.041708,0.05068,0.061696,-0.040099,-0.013953,0.006202,-0.028674,-0.002592,-0.01496,0.011349,110.0


# describe() 메서드
 - Pandas DataFrame 객체의 메서드(method)입니다.
 -  함수처럼 호출하지만, 특정 객체(df라는 DataFrame)에 속해서 그 객체의 데이터를 가지고 동작하는 것이 특징입니다.

 -
 DataFrame의 숫자형 컬럼들(열들)에 대한 기술 통계(descriptive statistics)를 계산하고 요약하여 보여줍니다.

In [None]:
# 숫들자형 컬럼들(열)에 대한 기술 통계(descriptive statistics)를 계산하고 요약
df.describe()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
count,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0
mean,-2.511817e-19,1.23079e-17,-2.245564e-16,-4.79757e-17,-1.3814990000000001e-17,3.9184340000000004e-17,-5.777179e-18,-9.04254e-18,9.293722000000001e-17,1.130318e-17,152.133484
std,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,77.093005
min,-0.1072256,-0.04464164,-0.0902753,-0.1123988,-0.1267807,-0.1156131,-0.1023071,-0.0763945,-0.1260971,-0.1377672,25.0
25%,-0.03729927,-0.04464164,-0.03422907,-0.03665608,-0.03424784,-0.0303584,-0.03511716,-0.03949338,-0.03324559,-0.03317903,87.0
50%,0.00538306,-0.04464164,-0.007283766,-0.005670422,-0.004320866,-0.003819065,-0.006584468,-0.002592262,-0.001947171,-0.001077698,140.5
75%,0.03807591,0.05068012,0.03124802,0.03564379,0.02835801,0.02984439,0.0293115,0.03430886,0.03243232,0.02791705,211.5
max,0.1107267,0.05068012,0.1705552,0.1320436,0.1539137,0.198788,0.1811791,0.1852344,0.1335973,0.1356118,346.0


# describe(percentiles=None, include=None, exclude=None)
- percentiles	백분위수 지정 (예: [.1, .5, .9])
- include	포함할 자료형 지정 (예: include='all', include=['object'])
- exclude	제외할 자료형 지정 (예: exclude=['float'])

[옵션 설명]  
1. percentiles: list-like, default None
   출력할 백분위수(percentile) 를 지정합니다.

   기본값은 [0.25, 0.5, 0.75] (25%, 50%, 75%)입니다.

   예를 들어, **10%, 25%, 50%, 75%, 90%**를 출력하고 싶다면:  
   df.describe(percentiles=[.1, .25, .5, .75, .9])  
   > 백분위수는 0 < p < 1 사이의 값으로 지정해야 합다.  

2. include: ‘all’, list-like of dtypes or None, default None
   어떤 데이터 유형의 컬럼을 포함할지 지정한다.  

| 값                            | 의미                         |
| ---------------------------- | -------------------------- |
| `None`                       | 수치형(numeric) 데이터만 포함 (기본값) |
| `'all'`                      | 모든 컬럼 포함 (수치형, 문자열 등)      |
| `['object', 'float', 'int']` | 특정 자료형만 포함                 |

  df.describe(include='all')   # 모든 열에 대해 통계 제공
  df.describe(include=['object'])  # 문자열형 열만 포함

3. exclude: list-like of dtypes, default None
  어떤 데이터 유형의 컬럼을 제외할지를 지정한다.
  df.describe(exclude=['object'])  # 문자열(object) 제외
  df.describe(exclude=['float'])   # 실수형 제외

```python
import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')
```

```python
# 1. 기본 describe
print(df.describe())

# 2. 모든 컬럼 포함
print(df.describe(include='all'))

# 3. 10%, 50%, 90% 백분위수 추가
print(df.describe(percentiles=[.1, .5, .9]))

# 4. object 타입 제외
print(df.describe(exclude=['object']))
```

| 행 이름      | 의미         | 설명                             |
| --------- | ---------- | ------------------------------ |
| **count** | 개수         | 결측치(NaN)를 제외한 값의 개수            |
| **mean**  | 평균         | 값들의 산술 평균                      |
| **std**   | 표준편차       | 데이터의 흩어진 정도 (작을수록 값들이 평균에 가까움) |
| **min**   | 최소값        | 가장 작은 값                        |
| **25%**   | 1사분위수 (Q1) | 아래쪽 25% 경계값 (하위 25%)           |
| **50%**   | 중앙값 (Q2)   | 데이터의 중간값 (median)              |
| **75%**   | 3사분위수 (Q3) | 위쪽 25% 경계값 (상위 75%)            |
| **max**   | 최대값        | 가장 큰 값                         |


In [None]:
# 기본 통계처리 함수
df.describe()  # describe(percentiles=None, include=None, exclude=None)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
count,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0,442.0
mean,-2.511817e-19,1.23079e-17,-2.245564e-16,-4.79757e-17,-1.3814990000000001e-17,3.9184340000000004e-17,-5.777179e-18,-9.04254e-18,9.293722000000001e-17,1.130318e-17,152.133484
std,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,0.04761905,77.093005
min,-0.1072256,-0.04464164,-0.0902753,-0.1123988,-0.1267807,-0.1156131,-0.1023071,-0.0763945,-0.1260971,-0.1377672,25.0
25%,-0.03729927,-0.04464164,-0.03422907,-0.03665608,-0.03424784,-0.0303584,-0.03511716,-0.03949338,-0.03324559,-0.03317903,87.0
50%,0.00538306,-0.04464164,-0.007283766,-0.005670422,-0.004320866,-0.003819065,-0.006584468,-0.002592262,-0.001947171,-0.001077698,140.5
75%,0.03807591,0.05068012,0.03124802,0.03564379,0.02835801,0.02984439,0.0293115,0.03430886,0.03243232,0.02791705,211.5
max,0.1107267,0.05068012,0.1705552,0.1320436,0.1539137,0.198788,0.1811791,0.1852344,0.1335973,0.1356118,346.0


## 4.인덱싱 & 슬라이싱 실습

In [None]:
print(df['bmi'])

0      0.061696
1     -0.051474
2      0.044451
3     -0.011595
4     -0.036385
         ...   
437    0.019662
438   -0.015906
439   -0.015906
440    0.039062
441   -0.073030
Name: bmi, Length: 442, dtype: float64


# loc[ ]란?

- df.loc[행, 열]

- "이름(label)" 기반으로 행과 열을 선택할 때 사용합니다.

- 숫자 인덱스가 아니라, 데이터프레임의 실제 인덱스 값이나 컬럼 이름을 사용합니다.

# iloc [ ]란?
- iloc은 pandas에서 사용하는 인덱싱 방식 중 하나로,
- 👉 "정수 위치(index number)" 기반으로 행/열을 선택할 때 사용합니다.

In [None]:
#print(df['bmi'].head())
#print(df[['sex', 'bmi', 'target']].head())
#print(df[df['bmi']>0.15])  # boolean indexing
#print(df[:5])  # 행번호
#print(df['bmi'][:5])  #df['열이름'][행번호]
#print(df[['bmi', 'bp']][:5])  # '열이름'에는 fancy indexing을 사용할 수 있고 행번호엔는 slicing을 사용할 수 있다. 단 반대는 안된다.

#print(df.loc[:5]) # 행이름
#print(df.loc[:5, 'bmi'])  # df.loc['행이름', '열이름']
#print(df.loc[:5, ['bmi', 'bp']])
#print(df.loc[[0,2,4], ['bmi', 'bp']]) # df.loc([,]) : 행, 열에 slicing, fancy indexing을 모두 사용할 수 있다.

#print(df.iloc[:5, 1:5])   # df.iloc[행번호, 열번호]

print(df.at[0,'bmi'])  # df.at['행이름','열이름']
print(df.iat[0, 2])    # df.iat[행번호, 열번호]


0.061696206518683294
0.061696206518683294


## 5. unique(),    value_counts(),     sort_values()

| 항목       | `unique()`        | `value_counts()`                  | `sort_values()`              |
| -------- | ----------------- | --------------------------------- | ---------------------------- |
| 목적    | 고유한 값 추출          | 값의 빈도수 계산                         | 값 기준 정렬                      |
|  적용 대상 | 시리즈 (`df['col']`) | 시리즈 (`df['col']`)                 | 시리즈 또는 데이터프레임                |
| 반환 형태 | `np.ndarray`      | `pd.Series` (index: 값, value: 빈도) | 정렬된 시리즈 또는 데이터프레임            |
|  주요 옵션 | 없음                | `normalize`, `sort`, `ascending`  | `by`, `ascending`, `inplace` |
|  사용 시기 | 고유 값 목록이 궁금할 때    | 분포/빈도 파악할 때                       | 정렬 기준으로 순서 정할 때              |

In [None]:
df['sex']

Unnamed: 0,sex
0,0.050680
1,-0.044642
2,0.050680
3,-0.044642
4,-0.044642
...,...
437,0.050680
438,0.050680
439,0.050680
440,-0.044642


In [None]:
# 성별의종류가 몇개인지 확인
df['sex'].unique()

array([ 0.05068012, -0.04464164])

In [None]:
# 성별(남/녀 기준) 각각의 총합
df['sex'].value_counts()

Unnamed: 0_level_0,count
sex,Unnamed: 1_level_1
-0.044642,235
0.05068,207


# sort_values()
# df['bmi'].sort_values()
-  bmi 값을 오름차순으로 정렬 (작은 값 → 큰 값)

# df['bmi'].sort_values(ascending=False)
-  bmi 값을 내림차순으로 정렬 (큰 값 → 작은 값)

In [None]:
df['bmi'].sort_values()  # default: ascending=True 오름차순

df['bmi'].sort_values(ascending=False) # 내림차순

Unnamed: 0,bmi
367,0.170555
256,0.160855
366,0.137143
145,0.128521
262,0.127443
...,...
247,-0.081653
10,-0.083808
358,-0.084886
381,-0.089197


## 6. isin() 함수
- 여러 값 중 포함 여부를 확인할 때 사용
- SQL의 IN (...)과 유사한 동작을 함
- df[column].isin([값1, 값2, 값3, ...])

*※ bp = blood pressure (혈압)*

In [None]:
df['bp'][0]  # 첫 번째 행(인덱스 0)에 있는 값을 가져오는 코드

np.float64(0.0218723855140367)

In [None]:
df['bp'].isin([0.0218723855140367, 0.059744, -0.081413]).unique()
df[df['bp'].isin([0.0218723855140367, 0.059744, -0.081413])].head(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,135.0
40,0.005383,0.05068,-0.008362,0.021872,0.054845,0.073215,-0.024993,0.034309,0.012551,0.094191,100.0


# ~  논리 부정(NOT) 연산자

- 조건의 결과가 True면 False로, False면 True로 바꿔버려요.
- 사실 부정 조건(~) 같은 거 처음 접하면 "왜 굳이 이렇게까지 해야 하지?" 싶을 때 많죠.

- 근데 이런 조건문을 잘 활용하면

필터링을 더 유연하게 할 수 있고

데이터 다룰 때 훨씬 깔끔하고 효율적인 코드 작성이 가능해져요.

-예를 들어,
"이 값들만 빼고 다 보고 싶다!" 할 때 ~ 없으면 반대로 조건 다 적어야 하니까 엄청 번거롭거든요.

In [None]:
# 부정 조건 (~연산자)
#“0.021872..., 0.059744, -0.081413 이 세 값은 빼고 나머지 행들 중 상위 3개 보여줘”
df[~df['bp'].isin([0.0218723855140367, 0.059744, -0.081413])].head(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,206.0


## 7. query() 함수
- 문자열 형태로 조건식을 작성해서 간결하고 가독성 좋게 필터링하는 방법
- 일반적인 df[...] 조건식보다 직관적
- df.query("조건식")


In [None]:
# &대신에 and을 사용한다.
df.query('bmi > 0.05 and bp > 0').head(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
23,0.045341,0.05068,0.060618,0.031065,0.028702,-0.047347,-0.054446,0.07121,0.133597,0.135612,245.0
32,0.034443,0.05068,0.125287,0.028758,-0.053855,-0.0129,-0.102307,0.108111,0.000272,0.027917,341.0


In [None]:
# |대신에 or을 사용
df.query('s1 < 0 or s2 > 0.05').head(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,141.0


In [None]:
df['sex'][0]

np.float64(0.05068011873981862)

In [None]:
# not : ~대신에서 query에서는 not()을 사용한다.
df.query('not(sex==0.05068011873981862)').head(3)  #sex==0.05068011873981862가 아닌 사람 상위 3행 가져와

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,135.0


# 1. threshold = 0.05
- 변수 threshold에 0.05라는 값을 저장한 것

# 2. df.query('bmi > @threshold')
- query() 함수는 문자열 안에 조건을 써서 데이터프레임을 필터링하는 방법이에요.

- 여기서 'bmi > @threshold'는

- bmi 컬럼 값이 변수 threshold 값보다 큰 행들을 선택한다는 뜻입니다.

- @threshold는 query() 안에서 파이썬 변수를 사용할 때 붙이는 기호에요.

# 3. .head(3)
- 조건에 맞는 행 중에서 앞 3개 행만 보여주기



In [None]:
#변수 사입
threshold = 0.05
df.query('bmi> @threshold').head(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
8,0.041708,0.05068,0.061696,-0.040099,-0.013953,0.006202,-0.028674,-0.002592,-0.01496,0.011349,110.0
23,0.045341,0.05068,0.060618,0.031065,0.028702,-0.047347,-0.054446,0.07121,0.133597,0.135612,245.0


In [None]:
df['bp'][50]

np.float64(0.014986683562338177)

In [None]:
# isin과 query()
allowed = [0.0218723855140367, -0.019441826196154435, 0.014986683562338177]  # allowed 변수를 리스트[]로 3개 넣어둠
df.query('bp in @allowed and target >= 100').head(3) # bp가 allowed 리스트에 포함된 값이고, target이 100 이상인 데이터 중에서 상위 3개 보여줘!



Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,135.0
30,-0.060003,-0.044642,0.044451,-0.019442,-0.009825,-0.007577,0.022869,-0.039493,-0.027129,-0.009362,129.0


# 8. 기본 통계 함수

| 함수            | 설명        | 반환값        | 예시                  |
| ------------- | --------- | ---------- | ------------------- |
| `count()`     | 결측치 제외 개수 | 시리즈        | `df.count()`        |
| `mean()`      | 평균        | 시리즈        | `df.mean()`         |
| `median()`    | 중앙값       | 시리즈        | `df.median()`       |
| `mode()`      | 최빈값       | 시리즈/데이터프레임 | `df.mode()`         |
| `std()`       | 표준편차      | 시리즈        | `df.std()`          |
| `var()`       | 분산        | 시리즈        | `df.var()`          |
| `min()`       | 최소값       | 시리즈        | `df.min()`          |
| `max()`       | 최대값       | 시리즈        | `df.max()`          |
| `quantile(q)` | 분위수       | 시리즈        | `df.quantile(0.25)` |
| `sum()`       | 합계        | 시리즈        | `df.sum()`          |
| `describe()`  | 요약통계량     | 데이터프레임     | `df.describe()`     |
| `corr()`      | 상관계수      | 데이터프레임     | `df.corr()`         |
| `cov()`       | 공분산       | 데이터프레임     | `df.cov()`          |


# 8-1 count() 함수
- 데이터프레임 df 안에서 각 열(column)마다

- 결측치(비어있는 값, NaN)를 제외하고,
-  값이 실제로 존재하는 개수를 세는 함수입니다.

In [None]:
# 1. 결측치(비어있는 값, NaN) 제외한 값 개수
print('count:')
print(df.count())

count:
age       442
sex       442
bmi       442
bp        442
s1        442
s2        442
s3        442
s4        442
s5        442
s6        442
target    442
dtype: int64


# 8-2 mean() 함수
- 평균값을 계산하는 함수

- 데이터프레임이나 시리즈(열)에서 숫자 데이터들의 평균을 구할 때 사용해요.

```
import pandas as pd

data = {'score': [80, 90, 70, 60, 100]}
df = pd.DataFrame(data)

print(df['score'].mean())
```

결과 값
( 80.0 )

In [None]:
# 2. 평균
print('mean:')
print(df.mean()) # "df(DataFrame)의 각 열의 값들을 모두 더해서, 값이 있는 개수로 나눈 평균을 보여줘"



mean:
age      -1.444295e-18
sex       2.543215e-18
bmi      -2.255925e-16
bp       -4.854086e-17
s1       -1.428596e-17
s2        3.898811e-17
s3       -6.028360e-18
s4       -1.788100e-17
s5        9.243486e-17
s6        1.351770e-17
target    1.521335e+02
dtype: float64


# 8-3 median() 함수
-  각 열(column)의 중앙값(중간값) 을 계산해주는 함수

- 중앙값 (데이터를 크기 순서대로 정렬했을 때 가운데 위치하는 값)

- 만약 데이터 개수가 짝수라면, 가운데 두 값의 평균을 중앙값으로 사용,

- 결측치(비어있는 값, NaN) 는 자동으로 제외하고 계산

In [None]:
# 3. 중앙값
print('median:')
print(df.median())

median:
age         0.005383
sex        -0.044642
bmi        -0.007284
bp         -0.005670
s1         -0.004321
s2         -0.003819
s3         -0.006584
s4         -0.002592
s5         -0.001947
s6         -0.001078
target    140.500000
dtype: float64


# ✅ 평균 (Mean) 과  중간값 (Median) 차이

#🟢 평균 (Mean)
 - 모든 값의 합 ÷ 값의 개수

- 모든 값이 동등하게 계산에 반영

- **극단값(아주 크거나 작은 값)**에 민감하게 흔들림

```
[10, 20, 30, 40, 1000]
평균 = (10 + 20 + 30 + 40 + 1000) / 5 = 220
```

 → 실제 대부분 값은 10~40인데,
1000 하나 때문에 평균이 크게 왜곡됨.


#  🟢 중간값 (Median)
 - 데이터를 크기순으로 정렬한 후, 가운데 있는 값

 - 핵심: 극단값 영향을 받지 않음

 - 데이터의 분포 중심을 더 정확히 보여줌

```
[10, 20, 30, 40, 1000] → 정렬됨

중간값 = 30
```
 → 대부분 값이 10~40이니까, 30이 훨씬 현실적인 중심값



## 🟢  평균 vs 중간값 비교

| 값들                      | 평균 (Mean) | 중간값 (Median) |
|---------------------------|--------------|------------------|
| [10, 20, 30, 40, 1000]    | 220          | 30               |
| [10, 20, 30, 40, 50]      | 30           | 30               |

- → 데이터가 **정상적(고르게 분포)**이면 평균 ≈ 중간값
- → 하지만 **이상치(튀는 값)**가 있으면 평균 ≠ 중간값

# 8-4 mode()함수
- 각 열(column)에서 **가장 자주 등장한 값(최빈값)**을 구해주는 함수

- 즉, 가장 많이 나타난 값이 무엇인지 알려준다.

- 결측치(NaN)는 자동으로 제외하고 계산,

-  최빈값이 여러 개일 경우, 모두 반환합니다! (그래서 결과가 여러 행일 수도 있어요)

In [None]:
# 4. 최빈값 (각 열(column)에서 **가장 자주 등장한 값)
print('mode:')
print(df.mode())


mode:
        age       sex       bmi        bp        s1        s2        s3        s4        s5        s6  target
0  0.016281 -0.044642 -0.030996 -0.040099 -0.037344 -0.001001 -0.013948 -0.039493 -0.018114  0.003064    72.0
1       NaN       NaN -0.024529 -0.005670 -0.007073  0.016222       NaN       NaN       NaN       NaN   200.0


# 8-5 std()함수 (표준편차)
- 각 열(column)에 대해 **표준편차(Standard Deviation)**를 계산해주는 함수

- 표준편차는 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 값,
- 즉 "값들이 평균에서 얼마나 멀리 떨어져 있는지를 수치로 알려주는 것"


```
[10, 10, 10, 10, 10]
평균 = 10
```
값들이 전부 평균이랑 똑같죠?

→ 표준편차 = 0 (전혀 퍼져있지 않음)


````
[5, 10, 15]
평균 = 10
````

값들이 평균에서 ±5씩 차이나요

→ 표준편차 = 약 5

In [None]:
# 5. 표준편차
print('std:')
print(df.std())

std:
age        0.047619
sex        0.047619
bmi        0.047619
bp         0.047619
s1         0.047619
s2         0.047619
s3         0.047619
s4         0.047619
s5         0.047619
s6         0.047619
target    77.093005
dtype: float64


 # 8-6 var( ) 함수(분산)
- 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 값
→ 표준편차의 제곱
```
분산 = (각 값 - 평균)²의 평균
→  단, pandas의 기본 설정은 표본 분산이라서 n-1로 나눕니다.
```

In [None]:
# 6. 분산
print("\n6. var()")
print(df.var())


6. var()
age          0.002268
sex          0.002268
bmi          0.002268
bp           0.002268
s1           0.002268
s2           0.002268
s3           0.002268
s4           0.002268
s5           0.002268
s6           0.002268
target    5943.331348
dtype: float64


# 8- 7 min() 함수 (최소값)
# 8-8 max() 함수  (최대값)

In [None]:

# 7. 최소값
print("\n7. min()")
print(df.min())

# 8. 최대값
print("\n8. max()")
print(df.max())


7. min()
age       -0.107226
sex       -0.044642
bmi       -0.090275
bp        -0.112399
s1        -0.126781
s2        -0.115613
s3        -0.102307
s4        -0.076395
s5        -0.126097
s6        -0.137767
target    25.000000
dtype: float64

8. max()
age         0.110727
sex         0.050680
bmi         0.170555
bp          0.132044
s1          0.153914
s2          0.198788
s3          0.181179
s4          0.185234
s5          0.133597
s6          0.135612
target    346.000000
dtype: float64


# 8-9 quantile() 함수 (분위수)
- 분위수란?
- 데이터를 작은 값부터 큰 값까지 정렬한 후, 특정 비율 위치에 있는 값

| 수치  | 의미               | 또 다른 이름             |
|-------|--------------------|-------------------------|
| 0.25  | 1사분위수 (25%)    | Q1 (하위 25%)           |
| 0.5   | 2사분위수 (50%)    | Q2 = 중앙값 (median)    |
| 0.75  | 3사분위수 (75%)    | Q3 (상위 25%)           |


- 0.25 → "가장 작은 쪽에서 25% 위치에 있는 값"

- 0.50 → "가운데(50%) = 중앙값"

- 0.75 → "위쪽에서 25% 위치에 있는 값"

이 데이터를 작은 값부터 큰 값까지 나눠서 위치를 알려주는 숫자예요.

특히 4등분으로 나누면 각 구간을 나누는 경계선 같은 숫자를 뜻해요.

# 구간을 4등분하면?
- Q1 (1사분위수, 25%): 가장 작은 값부터 25% 지점에 있는 값
→ 예시: 25% 위치의 값은 25 (실제로 계산된 값)

- Q2 (2사분위수, 50%): 가운데 위치한 값, 즉 중앙값(median)
→ 예시: 50% 위치의 값은 45

-  Q3 (3사분위수, 75%): 상위 25% 구간의 경계선 값
→ 예시: 75% 위치의 값은 65


 # 왜 중요할까?
- 데이터의 분포(퍼짐)를 이해할 수 있는 핵심 지표

- 이상치 탐지, 박스플롯 시각화, 통계 분석 등에서 필수

In [None]:
# 9. 분위수 (25%, 50%, 75%)
print("\n9. quantile()")
print(df.quantile([0.25, 0.5, 0.75]))


9. quantile()
           age       sex       bmi        bp        s1        s2        s3        s4        s5        s6  target
0.25 -0.037299 -0.044642 -0.034229 -0.036656 -0.034248 -0.030358 -0.035117 -0.039493 -0.033246 -0.033179    87.0
0.50  0.005383 -0.044642 -0.007284 -0.005670 -0.004321 -0.003819 -0.006584 -0.002592 -0.001947 -0.001078   140.5
0.75  0.038076  0.050680  0.031248  0.035644  0.028358  0.029844  0.029312  0.034309  0.032432  0.027917   211.5


In [None]:
# 10. 전체 합계
print("\n10. sum()")
print(df.sum())


10. sum()
age      -6.383782e-16
sex       1.124101e-15
bmi      -9.971191e-14
bp       -2.145506e-14
s1       -6.314393e-15
s2        1.723274e-14
s3       -2.664535e-15
s4       -7.903400e-15
s5        4.085621e-14
s6        5.974821e-15
target    6.724300e+04
dtype: float64


# 8-11 corr( ) (상관계수 correlation coefficient)
- 두 변수 사이에 어떤 관계가 얼마나 강하고 어떤 방향인지 나타내는 수치예요.

- 값은 -1에서 1 사이에 있어요.

 - 1에 가까울수록: 두 변수는 완전한 양의 상관관계 (같이 증가함)

 - -1에 가까울수록: 두 변수는 완전한 음의 상관관계 (한 쪽이 증가하면 다른 쪽은 감소)

 - 0에 가까울수록: 두 변수는 상관관계가 거의 없음


- 쉽게 말하면,
키와 몸무게가 같이 커지는 경향이 있다면 상관계수는 양수 (예: 0.8)

- 공부시간이 많아질수록 시험 점수가 내려간다면 상관계수는 음수 (예: -0.6)

- 두 변수 사이에 아무런 관계가 없으면 상관계수는 0 근처

| 변수 A | 변수 B   | 상관계수 예시         |
| ---- | ------ | --------------- |
| 키    | 몸무게    | 0.8 (강한 양의 상관)  |
| 공부시간 | 게임시간   | -0.7 (강한 음의 상관) |
| 키    | 신발 사이즈 | 0.2 (약한 양의 상관)  |
| 성별   | 키      | 0 (거의 상관 없음)    |


In [None]:

# 11. 상관계수
print("\n12. corr()")
print(df.corr())


12. corr()
             age       sex       bmi        bp        s1        s2        s3        s4        s5        s6    target
age     1.000000  0.173737  0.185085  0.335428  0.260061  0.219243 -0.075181  0.203841  0.270774  0.301731  0.187889
sex     0.173737  1.000000  0.088161  0.241010  0.035277  0.142637 -0.379090  0.332115  0.149916  0.208133  0.043062
bmi     0.185085  0.088161  1.000000  0.395411  0.249777  0.261170 -0.366811  0.413807  0.446157  0.388680  0.586450
bp      0.335428  0.241010  0.395411  1.000000  0.242464  0.185548 -0.178762  0.257650  0.393480  0.390430  0.441482
s1      0.260061  0.035277  0.249777  0.242464  1.000000  0.896663  0.051519  0.542207  0.515503  0.325717  0.212022
s2      0.219243  0.142637  0.261170  0.185548  0.896663  1.000000 -0.196455  0.659817  0.318357  0.290600  0.174054
s3     -0.075181 -0.379090 -0.366811 -0.178762  0.051519 -0.196455  1.000000 -0.738493 -0.398577 -0.273697 -0.394789
s4      0.203841  0.332115  0.413807  0.257650  0.54

# 8-12 cov( ) 함수 (공분산 covariance)
- 두 변수의 함께 변하는 정도를 나타내는 수치

- 즉, 두 변수가 어떻게 같이 움직이는지 보여줘요.

- 값은 음수, 0, 양수 모두 될 수 있어요.

- 쉽게 설명하면
  - (+)양수 공분산: 한 변수가 증가할 때 다른 변수도 증가하는 경향 있음

  - (-) 음수 공분산: 한 변수가 증가할 때 다른 변수는 감소하는 경향 있음

  - 0에 가까운 공분산: 두 변수 사이에 특별한 관계가 없음

```
# 코드로 형식 지정됨
```



In [None]:

# 12. 공분산
print("\n13. cov()")
print(df.cov())


13. cov()
                 x  y_linear  y_monotonic  y_noisy
x            250.0     250.0        55.00   497.50
y_linear     250.0     250.0        55.00   497.50
y_monotonic   55.0      55.0        13.30   124.55
y_noisy      497.5     497.5       124.55  1236.30


# 상관계수(correlation)와 공분산 차이



| 항목   | 공분산 (covariance)                   | 상관계수 (correlation)                  |
|--------|--------------------------------------|----------------------------------------|
| 의미   | 두 변수의 공동 변동성                 | 두 변수의 선형 관계 정도                 |
| 단위   | 원래 데이터 단위 곱 (단위 의존적)    | 단위에 무관한 무차원 수치 (−1~1 사이)   |
| 해석   | 양/음/0 여부로 관계 방향만 알 수 있음 | 관계 방향과 강도 모두 알 수 있음         |



<예시>
- 키와 몸무게가 같이 커진다면 공분산은 양수

- 공부시간이 많아질수록 게임시간이 줄어든다면 공분산은 음수



# 상관관계에서 method 옵션
- pearson, kendall, spearman

# 1. Pearson 상관계수 (피어슨 상관계수)  
- 측정 방식: 선형 상관관계(linear correlation) 측정
- 전제 조건:
  - 변수는 **연속형(수치형)**이어야 함  
  - 정규분포를 가정 (또는 거의 정규분포일 때 유리)  
  - **선형 관계(linearity)**가 있어야 의미 있음  
- 값의 범위: -1 ~ +1  
- 해석:  
  - +1: 완전한 양의 선형 관계
  - 0: 선형 관계 없음
  - -1: 완전한 음의 선형 관계
- 민감도: 이상치(outlier)에 매우 민감

2. Spearman 상관계수 (스피어만 순위 상관계수)
- 측정 방식: 순위 기반(rank-based) 상관관계
- 전제 조건:
  - 비선형 관계도 어느 정도 파악 가능 (단, 순차적 관계일 경우)
  - 데이터가 **연속형 or 서열형(ordinal)**이면 사용 가능
- 값의 범위: -1 ~ +1
- 해석:
  - 피어슨과 동일하게 해석 가능
  - 단, 순위 기반이므로 단조(monotonic) 관계 파악에 적합
- 민감도: 이상치에 덜 민감

3. Kendall's Tau (켄달의 타우)
- 측정 방식: 쌍(pairwise) 비교를 통한 순위 일관성 측정
- 전제 조건:
  - 순서형 데이터, 또는 순위를 줄 수 있는 데이터
  - 비선형적이고 단조적인 관계에 적합
- 값의 범위: -1 ~ +1
- 해석:
  - 두 변수의 순서쌍 일치 비율과 불일치 비율을 바탕으로 상관 측정
  - 해석은 스피어만과 유사하나 더 보수적인 경향
- 민감도: 이상치에 가장 덜 민감

※ 비교

| 항목     | Pearson   | Spearman          | Kendall's Tau      |
| ------ | --------- | ----------------- | ------------------ |
| 데이터 조건 | 연속형, 정규분포 | 연속형 또는 서열형        | 서열형 또는 순위 가능       |
| 관계 유형  | **선형**    | **단조(monotonic)** | **단조(monotonic)**  |
| 이상치 영향 | 매우 큼      | 중간                | 적음                 |
| 계산 방식  | 값 자체      | **순위**를 기반        | 순서쌍의 **일치/불일치** 비교 |
| 계산 복잡도 | 낮음        | 낮음                | 비교적 높음             |
| 해석 직관성 | 높음        | 높음                | 중간 (다소 보수적)        |

※어떤 경우에 무엇을 쓰면 좋을까?
- 데이터가 정규분포 + 선형 관계 기대: → Pearson
- 비선형이지만 단조적 관계 또는 이상치 존재 가능성 있음: → Spearman
- 데이터가 순위 데이터거나 이상치가 많고 보수적으로 해석하고 싶을 때: → Kendall's Tau


!pip list | grep scipy

In [None]:
import pandas as pd
from scipy.stats import pearsonr, spearmanr, kendalltau
import numpy as np

# 샘플 데이터 생성
data = {
    'x': [10, 20, 30, 40, 50],
    'y_linear': [15, 25, 35, 45, 55],      # x와 선형 관계
    'y_monotonic': [1, 2, 3, 6, 10],       # 단조 증가 (비선형)
    'y_noisy': [10, 22, 29, 41, 100]       # 이상치 포함
}

df = pd.DataFrame(data)

# Pearson 상관계수
pearson_corr, _ = pearsonr(df['x'], df['y_linear'])
print("Pearson 상관계수:", round(pearson_corr, 3))

# Spearman 상관계수
spearman_corr, _ = spearmanr(df['x'], df['y_monotonic'])
print("Spearman 상관계수:", round(spearman_corr, 3))

# Kendall 상관계수
kendall_corr, _ = kendalltau(df['x'], df['y_noisy'])
print("Kendall 상관계수:", round(kendall_corr, 3))

Pearson 상관계수: 1.0
Spearman 상관계수: 1.0
Kendall 상관계수: 1.0


y_linear는 x와 완전한 선형 관계 → Pearson = 1
y_monotonic은 비선형이지만 증가하는 관계 → Spearman = 1 y_noisy는 이상치가 포함되어 있을때 관계 → Kendall = 1

In [None]:
# 이상치 감지 (IQR)
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
iqr_mask = ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR)))
print(iqr_mask)
print(iqr_mask.sum())

print('- IQR 방식 이상치 개수:', iqr_mask.sum().sum())

       age    sex    bmi     bp     s1     s2     s3     s4     s5     s6  target
0    False  False  False  False  False  False  False  False  False  False   False
1    False  False  False  False  False  False  False  False  False  False   False
2    False  False  False  False  False  False  False  False  False  False   False
3    False  False  False  False  False  False  False  False  False  False   False
4    False  False  False  False  False  False  False  False  False  False   False
..     ...    ...    ...    ...    ...    ...    ...    ...    ...    ...     ...
437  False  False  False  False  False  False  False  False  False  False   False
438  False  False  False  False  False  False  False  False  False  False   False
439  False  False  False  False  False  False  False  False  False  False   False
440  False  False  False  False  False  False  False  False  False  False   False
441  False  False  False  False  False  False   True  False  False  False   False

[442 rows x 11 