# 예측적 데이터 분석 (PDA)

- 전통 통계 : 회귀 분석 (추출된 데이터를 모두 이용해 회귀식 구성 -> 검증 : P.value
- 데이터 마이닝 : 기계 학습 (학습 데이터와 검증 데이터를 분할 -> 검증 : Test Data)
- 전통 통계에서 말하는 회귀 분석과 데이터 마이닝에서 말하는 기계학습과 다른 매커니즘을 가진다.
- 전통 통계에서 회귀 분석 절차
  - 연속형 자료간의 상관 분석을 실시 : 변수 간 산점도나 상관계수를 확인해 경향성을 파악
  - 목표 변수와 설명변수를 선택하여 회귀 모델을 구성 (최소제곱법 [해석학적기법 - 대수적기법])
  - 회귀모델의 적합성을 확인
    - 추정된 표중 오차를 확인 / 결정 계수 (설명력 / R² ) 확인
    - 모델 유형의 적합성을 나타내는 ANOVA 분석결과를 확인
  - 회귀 계수를 확인
    - 회귀 계수의 유의성 확인 (P.value)
    - 다중공산성 (Multi-Collinearity) : 설명변수간의 상관관계가 높아 발생하는 문제 -> 상관관계가 높은 변수들 간의 통제할 수 없는 오차를 확인
  - 오차 (실제데이터값 - 예측데이터값)의 가정확인
    - 오차의 기본 가정 (오차의 정규성, 등분산성, 독립)
  - 모델 선정

In [1]:
import pandas as pd
import plotly.express as px

In [2]:
# df1 = pd.read_csv(r'C:\Users\UserK\Desktop\Ranee\data\ML\12_Data.csv')
df1 = pd.read_csv(r'C:\Users\MSI\Desktop\study\12_Data.csv')
print(df1.shape)
df1.info()

# 구강 내 체강세포 이미지 데이터
# 세포를 현미경으로 촬영해 세포가 갖는 기하적 특성을 통계량으로 정리

(569, 32)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 32 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Image ID             569 non-null    int64  
 1   Diagnosis            569 non-null    object 
 2   Mean Radius          569 non-null    float64
 3   Mean Perimeter       569 non-null    float64
 4   Mean Area            569 non-null    float64
 5   Mean Texture         569 non-null    float64
 6   Mean Smoothness      569 non-null    float64
 7   Mean Compactness     569 non-null    float64
 8   Mean Concavity       569 non-null    float64
 9   Mean Concave Points  569 non-null    float64
 10  Mean Symmetry        569 non-null    float64
 11  Mean Fractal Dim     569 non-null    float64
 12  Max Radius           569 non-null    float64
 13  Max Perimeter        569 non-null    float64
 14  Max Area             569 non-null    float64
 15  Max Texture          569 non-n

In [6]:
df1.head() # Diagnosis : M - 암세포 / B - 일반세포

Unnamed: 0,Image ID,Diagnosis,Mean Radius,Mean Perimeter,Mean Area,Mean Texture,Mean Smoothness,Mean Compactness,Mean Concavity,Mean Concave Points,...,SE Radius,SE Perimeter,SE Area,SE Texture,SE Smoothness,SE Compactness,SE Concavity,SE Concave Points,SE Symmetry,SE Fractal Dim
0,842302,M,17.99,122.8,1001.0,10.38,0.12,0.2776,0.3001,0.1471,...,1.095,8.589,153.4,0.9053,0.0064,0.049,0.0537,0.0159,0.03,0.0062
1,842517,M,20.57,132.9,1326.0,17.77,0.08,0.07864,0.0869,0.0702,...,0.5435,3.398,74.08,0.7339,0.0052,0.0131,0.0186,0.0134,0.0139,0.0035
2,84300903,M,19.69,130.0,1203.0,21.25,0.11,0.1599,0.1974,0.1279,...,0.7456,4.585,94.03,0.7869,0.0062,0.0401,0.0383,0.0206,0.0225,0.0046
3,84348301,M,11.42,77.58,386.1,20.38,0.14,0.2839,0.2414,0.1052,...,0.4956,3.445,27.23,1.156,0.0091,0.0746,0.0566,0.0187,0.0596,0.0092
4,84358402,M,20.29,135.1,1297.0,14.34,0.1,0.1328,0.198,0.1043,...,0.7572,5.438,94.44,0.7813,0.0115,0.0246,0.0569,0.0189,0.0176,0.0051


In [4]:
px.scatter(df1, x='Mean Compactness' , y='Mean Concavity' , color = 'Diagnosis')

In [5]:
import statsmodels.api as sm

In [6]:
# X값과 Y값을 설정
X = df1['Mean Compactness']
Y = df1['Mean Concavity']

In [7]:
# 절편을 계산하기 위한 상수항을 임의로 생성
X2 = sm.add_constant(X)

In [9]:
# 회귀모델 계산
model = sm.OLS(Y,X2)
result = model.fit()

# 모델 해석
result.summary()

0,1,2,3
Dep. Variable:,Mean Concavity,R-squared:,0.78
Model:,OLS,Adj. R-squared:,0.78
Method:,Least Squares,F-statistic:,2009.0
Date:,"Sat, 18 May 2024",Prob (F-statistic):,1.6199999999999998e-188
Time:,19:22:49,Log-Likelihood:,1062.9
No. Observations:,569,AIC:,-2122.0
Df Residuals:,567,BIC:,-2113.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-0.0503,0.003,-14.463,0.000,-0.057,-0.043
Mean Compactness,1.3331,0.030,44.823,0.000,1.275,1.391

0,1,2,3
Omnibus:,143.185,Durbin-Watson:,1.915
Prob(Omnibus):,0.0,Jarque-Bera (JB):,914.547
Skew:,0.941,Prob(JB):,2.56e-199
Kurtosis:,8.919,Cond. No.,19.2


- R²(R Square, 결정계수) : 0 ~ 1 범위 
  - R2는 데이터의 총 변동 중에서 회귀식에 의해 설명되는 변동의 비율
  - 회귀식이 데이터를 얼마나 잘 설명하고 있는가 / 회귀식이 얼마나 데이터와 가까운지
  - 회귀 모델에 입력변수(X)의 개수가 많을 수록 자연스럽게 증가
    
- adj R² (Adjusted R Square, 수정된 결정 계수
  - 다중회귀분석(X가 여럿있는 회귀식을 구성)에서 데이터 수가 많아지면 결정계수 값이 올라가는 현상을 방지하기 위해 계산

- F-statistic (F-검정 통계량) : 해당 회귀식이 기울기가 존재하고, 회귀선이 특정 경향성을 따르는지에 대한 가설검정 결과 통계량
- Prob (F-statistic): 회귀식의 기울기가 유의미한지 검정한 결과 Pvalue
  - 귀무가설 : 기울기가 없고, 점들이 흩어져 있다.
  - 대립가설 : 기울기가 있고, 점들이 특정 경향을 갖고 있는 상태
  - Prob (F-statistic) < 0.05 / 대립가설 / 회귀식이 유의미하다

- **여러개의 모델끼리 비교할 때 사용**
- Log Likelihood : 통계 모델의 적합도를 나타내는 척도 (AIC와 BIC 계산)
- AIC (이케아케 정보 기준) : 모델의 적합도와 복잡성을 동시에 고려한 통계량 (Log Likelihood으로 부터 계산) / 낮으면 낮을수록 좋음
- BIC (베이지안 정보기준) : 모델의 적합도와 복잡성을 동시에 고려한 통계량 / 낮으면 낮을수록 좋음 (0으로 갈수록)

- Covariance Type :  공분산 행렬에 대한 추측
  - non-robust : 특이값과 이상치에 대해 민감하게 반응하는 모델 (전통적인 최소제곱법을 사용하여 공분산을 추정한다는 의미)
  - robust : 특이값과 이상치에 대해 민감하게 반응하지 않는 모델

- coef : 회귀 계수
  - Y = 1.3331 x Mean Compactness - 0.0503
    
- P >|t| : 해당 회귀 계수값이 유의미한지에 대한 P.value
  - 귀무가설 : 회귀 계수는 0이다. (해당 독립변수는 종속변수에 영향을 미치지 못한다. / 해당 회귀 계수가 회귀식에 유의하지 않음)
  - 대립가설 : 회귀 계수는 0이 아니다. (해당 독립변수는 종속변수에 영향을 주고 있다. / 해당 회귀 계수가 회귀식에 유의하다)
- [0.025 - 0.975] : 회귀 계수의 신뢰구간
  - 신뢰구간 : 현재 표본으로 모집단을 추정했을때, 모집단에 평균값이 포함될 수 있는 구간

- Omnibus(옴니버스 검정) : 회귀 모델의 전반적인 유효성을 검정
  - 모델의 적합성에 대한 종합적인 통계량을 F 통계량으로 확인
  - 옴니버스 검정이 유의하다 : 적어도 하나의 X가 Y에 유의미한 영향을 주고 있다는 의미 ( Prob(Omnibus) < 0.05 )

- Durbin-Watson (더빈왓슨) 통계량 : 회귀모델의 오차항 간의 자기상관성을 판별 통계량 / 오차가 한쪽으로 편향되어 있는지 아닌지를 판별하는 수치
  - 0~4사이의 값을 가지며, 2로 가면 갈 수록 오차의 편향이 없는 상태
  - 다른 여러 모델과 비교했을 때, 가장 2에 가까운 모델을 찾는 형태

- Jarque-Bera (JB 자크베라 검정): 회귀 모델의 오차항이 정규분포를 따르는지 따르지 않는지 검정
  - 귀무가설 : 오차 항의 분포는 정규분포를 따른다 (회귀식이 대부분의 데이터를 잘 설명하고 있다.) 
  - 대립가설 : 오차 항의 분포는 정규분포를 따르지 않는다
  - P.value > 0.05 (귀무가설 참) : 오차 항의 분포는 정규분포를 따른다.
    - 회귀식이 데이터에 대해 안정적인 분포를 취하고 있다. 