# 데이터 과학 프로젝트의 진행과정

1. 데이터 수집
2. 데이터 가공
3. 데이터 분석
    - 데이터 시각화
    - 탐색적 데이터 분석(exploratory data analysis; EDA)
        - 데이터를 이해하고 해석
        - 데이터의 분포, 연관성, 확률 등을 통계적으로 깊이 있게 분석
            - 이를 통해 효과적인 머신러닝 모델을 기획하고 적용할 수 있음
            
4. ML 모델링
5. 결과 해석 및 적용
    - 모델을 적용할 때는 수 많은 테스트와 수정을 반복
    - 모델의 결괏값을 통해 문제점을 찾아내고 개선 방향을 도출하는 것은 통계학과 데이터 분석이 뒷받침돼야 함

# 기술 통꼐와 추론 통계

## 기술 통계(descriptive statistics)

- 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것
- 가장 기본적인 방법은 데이터의 대푯값을 설명하는 것
    - 예) 15명이 있는 반의 학생들의 키를 설명(기술통계)하고자 한다면 평균 키를 통해 반 학생들의 키를 파악
- 전체 데이터를 쉽고 직관적으로 파악할 수 있도록 설명해주는 것이 기술 통계의 본질
- 데이터를 설명하는 방법은 평균, 중앙값, 최빈값, 데이터가 퍼진 정도, 최댓값과 최솟값의 범위 등
- 기술통계를 통해 날 것의 데이터를 의사결정을 위한 정보로 변환하는 것이 탐색적 데이터 분석(EDA)
- 기술통계는 보통 시각화를 많이 사용
    - 단순 수치 보다는 그림이나 그래프를 통해서 표현하는 것이 훨씬 효과적이기 때문

## 추론 통계(inferential statistics)

- 표본 집단으로 부터 모집단의 특성을 추론하는 것이 목적
    - 모집단 : 연구자가 관심있어하는 대상 전체 집합
    - 표본 집단 : 연구자가 모집단에서 일부를 추출한 부분집합
    
- 추론 통계는 한 반의 통계치를 통해 학교 전체 학생의 통계치를 추정 하는 것
    - 한 반의 평균 키가 170cm라고 했을 때, '학교 전체 학생의 평균 키가 167 ~ 173 구간 내에 존재할 확률이 95% 정도' 라는 식으로 추론
    - 노트북 생산 공장에서 노트북 표본의 배터리 수명이 5시간 30분이라고 할 때, 공장에서 생산되는 모든 노트북의 평균 배터리 수명도 정확히 5시간 30분 일 수 없음. 따라서 표본으로 구한 5시간 30분이라는 통곗값을 통해 모집단의 배터리 수명을 나타내는 모수 값이 얼마인지, 모수 값이 특정 구간 내에 존재할 확률이 얼마인지 추정하는 것이 추론 통계
    
- 데이터 과학을 통해 머신러닝 모델을 만들고 예측이나 분류를 하는 것 등이 추론 통계에 해당됨

# 변수와 척도

## 변수의 종류

- 데이터과학, 데이터 분석은 변수와 변수의 관계를 밝혀내는 활동
- 양적 변수 : 사칙연산을 하는 것이 의미가 있는 변수
    - 이산변수(discrete variable) : 사람 수나 휴대폰 판매량과 같이 정숫값만 취할 수 있는 변수
    - 연속변수(continuous varialbe) : 길이나 무게처럼 연속적인 모든 실숫값을 취할 수 있는 변수

- 질적 변수 : 사칙 연산을 하는 것이 의미가 없는 변수
    - 성별, 종교, 직업 등과 같은 비계량적 변수
    - 속성을 숫자로 변환하더라도 수치적 의미는 가지고 있지 않음
        - 예) 남성을 1, 여성을 2로 변환했을 때, 여성(2) - 남성(1) = 남성(1)

### 변수의 관계적 측면

- 독립변수(independent variable)
    - 원인
    
- 종속변수(dependent variable)
    - 결과
    
- 예) 흡연과 폐암의 관계라면, 흡연은 원인인 독립변수이고 폐암은 결과인 종속변수
- 독립변수와 종속변수는 서로 상관관계를 갖고 있음
    - 예) 독립변수가 혈중알콜농도이고 종속변수가 운전 중 사고 발생률이라 가정한다면, 혈중알콜농도가 증가할수록 사고 발생률이 증가함
        - 이렇게 두 변수의 수치가 상관성을 갖는 것을 상관관계라고 함
        - 독립변수 간에도 상관관계를 가질 수 있음
    - 위의 예시에 전날 수면시간 이라는 독립변수가 추가된다면, 혈중알콜농도와 전날 수면시간은 약간의 상관관계를 가질 수 있음
    - 독립변수 간에는 상관관계를 최소화해야함
        - 독립변수 간의 상관관계가 높으면 독립변수들과 종속변수와의 연관성을 측정하기 어려워짐
    -  독립변수와 종속변수는 단순한 상관관계가 아닌 원인과 결과의 관계를 가지고 있어야 함
        - 혈중알콜농도가 원인이고 사고 발생률이 결과인 관계는 성립하지만
        - 사고발생률이 원인이고 혈중알콜농도가 결과인 관계는 어색함
            - 어떠한 현상을 종속변수로서 설명하기 위해 원인이 될 수 있는 요소를 찾아내고 올바른 독립변수의 관계로 설정해야함

# 가설검정

## 귀무가설과 대립가설

- 추론통계는 통계량을 사용하여 검정을 하는 것
- 검정하고자 하는 주제가 곧 가설(Hypothesis)
    - 가설이란 연구문제에 대한 잠정적 결론
    - 대부분의 연구나 데이터 분석은 알고싶은 정답을 미리 가설로 설정하고, 그 가설이 정말 맞는지를 검정하는 방식으로 진행
    - 가설은 둘 혹은 그 이상의 변수들 간의 관계에 대한 잠정적 결론
    
- 예) 컴퓨터게임 시간이 독립변수, 성적 이 종속변수라면 컴퓨터 게임 시간이 길어질수록 성적이 낮아질 것이라고 가정할 수 있음
    - 이때 내린 잠정적인 결론이 가설
    
- 일반적으로 가설은 연구나 데이터 분석의 목적이 설정되면 자연스럽게 뒤따라오게 됨
    - 만약 학교 학생들의 성적이 부진하여, 학생들의 성적을 향상시키는 것이 목적이라면, 이 목적을 이루기 위한 다양한 가설을 설정할 수 있음
        - 수면 시간이 길어질수록 성적이 향상될 것이다
        - 선생님과 면담시간이 길어질수록 성적이 향상될 것이다
        - 자율학습 시간에 휴대폰 사용을 통제하면 성적이 향상될 것이다
        - 통학 거리가 짧을수록 성적이 향상될 것이다
        - 성적 목표를 구체적으로 설정하면 성적이 향상될 것이다
        
- 통계학 가설 검정의 궁극적인 목표는 기존의 주장이 옳은지, 아니면 새로운 연구나 분석을 통한 주장이 맞는지를 검정하는 것
    - 따라서 기존의 주장과 새로운 주장에 대한 두 가지 가설이 필요
        - 귀무가설(Null hypothesis)
            - H0로 표기하며, 새로이 증명하고자 하는 가설과 반대되는 가설
            - 즉, 집단 간 차이가 없거나 변수의 영향력이 없는 상태를 의미
            - '컴퓨터 게임 시간이 짧아질수록 성적이 향상될 것이다'라는 가설을 설정한다면, '컴퓨터 게임 시간과 성적은 관련이 없다'가 귀무가설이 됨
            - 무죄추정의 원칙과 같이 충분한 증거가 있기 전까지는 귀무가설이 옳은 것으로 가정
        
        - 대립가설(Alternative hypothesis)
            - H1으로 표기하며, 귀무가설과 대립되는 결과에 대한 가설
            - '컴퓨터 게임 시간이 짧아질수록 성적이 향상될 것이다' 가 증명하고자 하는 대립가설
            
    - 통계기반의 가설검정은 자신이 옳다고 주장하는 내용과 정반대의 가설인 귀무가설을 세우고 가설검정을 하여 귀무가설이 잘못된 것임을 밝힘
    - 귀무가설이 옳지 않다면 반대되는 주장인 대립가설이 옳다고 볼 수 있으므로 이러한 방식으로 가설 설정
        - 대립 가설이 참임을 증명하는 것보다, 귀무가설이 참이 아님을 증명하는 것이 훨씬 쉽기 때문

## 가설검정의 절차

1. 가설 설정
    - 검정하고자 하는 가설을 설정
    - 귀무가설은 '차이가 없다', '영향력이 없다', '연관성이 없다'와 같이 설정
    - 대립가설은 '차이가 있다', '영향력이 있다', '연관성이 있다'와 같이 설정
    
2. 유의수준 설정
    - 귀무가설이 맞거나 틀린 것을 판단하기 위한 통곗값
    - 일반적으로는 0.1, 0.05, 0.01 등으로 설정
        - 가장 흔히 사용되는 기준은 0.05
            - 표본의 통계치가 귀무가설과 같이 나올 확률이 5% 미만이라는 뜻

3. 실험 수행
    - 통계 모델을 통해 실험을 수행
    - 집단 간의 평균 차이를 검정하기 위해서는 t-test나 ANOVA를 사용, 종속변수에 대한 독립변수의 영향력을 검정하기 위해서는 회귀모델을 사용하는 등, 데이터 형태와 분석 목적에 따라 알맞은 모델을 설정
    
4. 검정 통계량 산출

5. 대립가설 기각/채택
    - 통계적 검증을 통해 유의확률(p값)이 산출됐으면, 앞에서 설정한 유의수준을 통과하는지 확인
    - p값이 유의수준보다 작을 때 귀무가설을 기각하고 대립가설을 채택
    - p값이 유의수준보다 높다면 귀무가설과 같은 결과가 나올 확률이 높다는 뜻이므로, 대립가설을 채택할 수 있음
        - 예) 혈압 개선 약품의 효과를 검정하려고 한다면, 실험군에는 해당 약품을 처방하고, 대조군에는 위약(Placebo)을 처방
            - 가설 검정 프로세스
                1. 가설 검정
                    - 귀무가설 : 혈압 개선 약품을 먹었을 때, 혈압의 변화가 없을 것이다
                    - 대립가설 : 혈압 개선 약품을 먹었을 때, 혈압이 변화할 것이다
                    
                2. 유의수준 설정
                    - 보편적 기준인 p-value < 0.05 로 설정
                    
                3. 실험 수행
                    - 실험군 집단의 투약 전과 후의 혈압 평균 t-test
                    - 대조군 집단의 투약 전과 후의 혈압 평균 t-test
                    
                4. 검정 통계량 산출
                    - 실험군의 p값 : 0.0001
                    - 대조군의 p값 : 0.21
                    
                5. 대립가설 기각/채택 판단
                    - 위약을 투약했던 대조군은 실험 전과 후의 혈압 차이가 없었으나, 실험군은 유의수준내에서 차이가 있으며 혈압이 감소했으므로 귀무가설을 기각하고 대립 가설 채택

##  가설 검정의 유의수준과 p 값

- 가설검정 : 모집단에 대한 가설이 통계쩍으로 옳은가를 판별하기 위한 방법
    - 모집단에서 표본을 추출하여 얻은 표본 통계량으로 모집단의 모수가 귀무가설과 맞지 않고 연구가설에 합당한지 판단하기 위한 평가 방법
- 귀무가설에 대한 p값(p-value)이 유의수준(Significance level) 안에 들어오는지에 따라 가설의 기각과 채택을 판별
- 표본의 통계량을 사용하기 때문에 귀무가설을 기각하거나 채택하는 것은 표본의 통계량이 나올 확률을 통해 판단
    - 따라서 표본의 크기에 따라서 같은 통계치라도 귀무가설을 채택할 수도, 기각할 수도 있음
    - 예) A마트와 B마트의 평균 고객 체류 시간이 다른지 가설 검정하고자 한다면
        - A마트의 평균 고객 체류 시간 : 50분
        - B마트의 평균 고객 체류 시간 : 55분
        - 귀무가설 : A마트와 B마트의 평균 고객 쳬류 시간은 차이가 없다
        - 대립가설 : A마트와 B마트의 평균 고객 체류 시간은 차이가 있다
            - 위의 통계치가 10명의 표본으로 산출된 값이라면 귀무가설이 채택될 가능성이 높음
            - 1000명의 표본으로 산출된 값이라면 귀무가설이 기각되고 대립가설이 채택될 가능성이 높음

- 데이터 분석은 목적성에 따라 네 가지로 분류할 수 있음
    1. 기술적 분석(Descriptive Analytics) : 과거나 현재에 어떤 일이 일어났는지를 파악하기 위한 분석
        - 데이터의 분포, 추세 등을 분석하여 상황을 모니터링 함
        
    2. 진단적 분석(Diagnostic Analytics) : 과거나 현재에 발생한 사건의 원인을 밝히기 위한 분석
        - 데이터 간의 관계를 분석하여 인과관계를 찾음
    
    3. 예측 분석(Predictive Analytics) : 기계학습 모델 등을 사용하여, 미래에 어떤 일이 어느 정도의 확률로 일어날지를 예측
        - 현재는 알 수 없는 결과의 가능성을 파악
        
    4. 처방적 분석(Prescriptive Analytics) : 예측되는 미래의 결과를 위해 어떻게 하면 좋을지 처방하기 위한 분석
        - 제한된 자원을 효과적으로 활용하여 최적의 성과를 낼 수 있도록 방향을 도출

# 인지적 편향

- 데이터 분석은 숫자를 면밀히 살펴보고 결론을 도출해 내는 작업
    - 하지만 분석가가 표본을 어떻게 선택하는가에 따라서 결과가 정반대로 나올수도 있고, 주관적인 판단이나 고정관념이 결과에 많은 영향을 미침
- 인지적 편향의 종류
    - 확증 편향
        - 자신이 본래 믿고 있는 대로 정보를 선택적으로 받아들이고 임의로 판단하는 편향
        
    - 기준점 편향
        - 분석가가 가장 처음에 접하는 정보에 지나치게 매몰되는 편향
        
    - 선택 지원 편향
        - 본인이 의사결정을 내리는 순간 그 선택의 긍정적인 부분에 대해 더 많이 생각하고 그 결정에 반대되는 증거를 무시하게 되는 편향
        
    - 분모 편향
        - 분수 전체가 아닌 분자에만 집중하여 현황을 왜곡하여 판단하게 되는 편향
        
    - 생존자 편향
        - 소수의 성공한 사례를 일반화된 것으로 인식함으로써 나타나는 편향