# [기초 통계] 가설 검정

# 1. 기계학습의 개요
## 1. 기계 학습의 개요
1. 데이터 사이언스 (Data Science)
    * 데이터에서 지식을 얻기 위한 **절차와 방법론**을 연구함
    * Ex) 데이터 수집, 클리닝, 분석, 시각화, 배포 등 반복적인 절차를 연구하는 학문 분야
2. 데이터 마이닝 (Data Mining)
    * **대용량의 데이터로부터 유용한 정보를 캐내는(mining) 작업**
    * 대용량 데이터에 존재하는 **데이터 간의 관계, 패턴, 규칙** 등을 찾아내고 모형화하여 기업의 경쟁력 확보를 위한 **의사결정을 돕는** 일련의 과정
3. 기계 학습 (Machine Learning)
    1. 데이터 과학에서 도출된 개념과 방법론의 분석과 모델링에 사용되는 보편적 **알고리즘과 기술**을 연구함
    2. 컴퓨터가 스스로 학습 X
    3. 지도 학습(Supervised Learning) : 학습용 데이터로 작업하고, 입력과 출력(결과물, 해답)이 주어짐
    4. 비지도 학습(Unsupervised Learning) : 답을 미리 알려주지 않고 알고리즘에 의하여 데이터의 숨겨진 패턴을 찾아내는 방법
4. 기계학습의 활용
    - Ex) 스팸탐지, 음성인식, 주가예측, 헬스케어 등
5. 기계학습을 위한 프로그래밍 언어
    - Python, R, Java, ...

## 기계학습 프로세스
1. 기계학습 순환 주기
    1. 데이터와 문제 정의 : 해결하려는 문제는 무엇인가? 왜 중요한가? 답은 무엇인가?
    2. 데이터 수집
    3. 데이터 전처리(데이터 클리닝) : 결측값 처, 노이즈 제거, 이상치 제거
    4. 데이터 분석과 모델링
    5. 평가 : 학습 모델을 올바르게 평가하고, 새로운 데이터에서도 만족스러운 결과를 낼 수 있는지 확인
2. 데이터와 문제의 정의
    1. 데이터 : 숫자, 단어, 측정값, 관찰 결과, 사물에 대한 묘사, 이미지 등으로 구성된 값의 모음
    2. **범주형 데이터** (Categorical Data)
        * 사전에 정해진 특정 유형으로 분류되는 데이터
        * 명목형 : 값의 크기 비교 불가능, 상호 배타적이며 순서와 무관한 데이터
            * Ex) 성별, MBTI, 지역 등
        * 순서형 : 대, 중, 소와 같이 값에 순서를 매길 수 있는 경우 (값의 크기 비교 가능)
            * Ex) 성적 등급, 학력 등
    3. **연속형 데이터**(Continuous Data)
        * 정량적 데이터, 평균이 의미가 있음
            * 등간척도 : 온도, 시간 등
            * 비율척도 : 키, 몸무게, 점수, 투표율 등
3. 데이터 수집
    1. 데이터의 발견과 관찰
    2. 데이터 수집 : 설문조사, 스크레이핑. 공공데이터 포탈, kaggle, 실험 및 시뮬레이션
        * 실험 및 시뮬레이션
            * 실제로 실행하기 어려운 실험을 컴퓨터를 이용하여 간단히 행하는 모의실험
            * 물리적 시뮬레이션 : 모델하우스, 댐 건설을 위한 모형 제작
            * 컴퓨터 시뮬레이션 : 비행 시뮬레이션, 게임 시뮬레이션
    3. 데이터 샘플링
    4. 데이터 전처리 (데이터 클리닝, Data Cleaning)
        * 본격적인 기계학습 절차가 진행되기 전에 정확하지 않거나 불충분한, 관련성 떨어지는 데이터 제거
        * 종류
            1. 결측치 채우기
                - 레코드 제거 : 결측치가 포함된 행 제거
                - 필드 제거 : 일정 비율 이상이 결측치라면 필드를 삭제
                - N/A 값 부여 : 데이터 존재하지 않는다는 의미로 부여
                - 평균, 최빈치 등 다른 속성 값으로 대체
            2. 이상치의 제거
            3. 데이터 변환 : 머신러닝에 적합한 포맷으로 변환하는 작업
            4. 데이터 축소 : 고차원 데이터를 저차원으로 변환
    5. 분석할 데이터의 종류
        1. 원시 텍스트 : 데이터가 구조적이지 않기 때문에 분석 어려움
        2. .csv : 가장 많이 사용되는 형식으로 각각의 필드가 쉼표(,)로 구분됨
        3. .json (Java Script Object Notation): 자바스크립트 객체 표기법 {"office" : {"dobby" : {"name" : "Woolim"} } } 
        4. .xml (Extensible Markup Language) : 사용자 정의 태그를 사용해 문서의 구조 및 규칙 포함하는 파일 --> <office><dobby><name>Woolim</name></dobby></office>
        5. excel 파일
        5. 데이터베이스 (Database, DB)
        6. 이미지 파일 (.jpg, .png, ...) : 안면 인식, 패턴 인식 등 다양한 분야에서 활용

        


## 2. 기초통계와 검정
1. 데이터 마이닝 (Data Mining)
- 대용량의 데이터로부터 유용한 정보를 캐내는(mining) 작업
- 대용량 데이터에 존재하는 데이터 간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 기업의 경쟁력 확보를 위한 의사결정을 돕는 일련의 과정
    1. CRISP-DM(CRoss-Industry Standard Processing for Data Mining) : 데이터마이닝을 위한 업계 표준 프로세스
        1. 비즈니스 이해 (Business Understanding) : 각종 참고 자료와 현업 책임자와의 의사소통을 통해 해당 비즈니스를 이해하는 단계, 반드시 그 분야의 전문가가 함께 참여해야 함
        2. 데이터 이해 (Data Understanding) : 초기 데이터 수집, 데이터 이해, 데이터 품질 검증 등 현업에서 보유하고 관리하는 데이터를 이해하는 단계
        3. 데이터 준비 (Data Preparation) : 모델링에 필요한 데이터 변환 및 정제 등의 작업
        4. 모델링 (Modeling) : 데이터 분석을 위한 모델링 기법을 사용하고 모델을 생성하는 단계
        5. 평가 (Evaluation) : 결과에 대한 분석 및 평가 & 필요하다면 모형 재구축
        6. 배포 (Deployment) : 최종 보고서 작성 및 배포, 검토가 끝난 모형을 실제 현업에 적용하는 단계
    2. 인공지능/데이터 마이닝의 다양한 기법들
        1. 분류모형(Classification Models)
            - 어떤 기준(정답)에 의해 분석 대상을 2~3개 이상의 집단으로 분류하는 예측 모형(부도 예측, MBTI 예측 등)
                * 다중판별분석(MDA, Multi Discriminant Analysis)
                * 로지스틱 회귀분석 (LOGIT, Logistic Regression)
                * 인공신경망 (ANN, Artificial Neural Networks)
                * 사례기반추론 (CBR, Case-Based Reasoning)
                * 의사결정나무 (DT, Decision Trees)
                * SVM (Support Vector Machines)
        2. 최적화 기법(Optimization Methods)
            - 주어진 제약 조건 하에서 특정 목적함수를 최대, 최소화하는 변수들의 최적값을 도출하는 기법 (공장의 생산량 최대화 문제, 비용을 최소화하는 최적 유통 경로 등)
                * 선형계획법(LP, Linear Programming)
                * 유전자 알고리즘(GA, Genetic Algorithms)
        3. 가치평가 기법(Valuation Methods)
            - 정성적 측정대상에 대한 가치를 비교, 평가하는 기법 (대선 예측 등)
                * 분석적 계층 프로세스(AHP, Analytic Hierarchy Process)
                * 분석적 네트워크 프로세스(ANP, Analytics Network Process)
                * 자료포락분석(DEA, Data Envelopment Analysis)
        4. 분류/군집화 기법 (Clustering Methods)
            - 사전에 정해진 기준없이 서로 동질한 데이터들을 같은 그룹으로 묶어주는 기법(고객 세분화 등)
                * K-means 분류기법(K-means clustering)
        5. 전처리 기법(Preprocessing Methods)
            - 예측 모형의 성과를 향상시키기 위해 입력데이터에 대해 사전 처리를 수행하는 기법
                * 주성분분석(PCA, Principal Component Analysis)
                * 퍼지이론(Fuzzy theory)

2. 척도의 4가지 종류
- 명목척도, 서열척도 => 이산형 변수
- 등간척도, 비율척도 => 연속형 변수
    1. 명목척도(Nominal Scales)
        * 정의 : 대상의 특성을 분류하거나 확인할 목적으로 사용하는 척도
        * Ex : 축구선수 등번호, 출신학교 코드 등
    2. 서열척도(Ordinal Scales)
        * 정의 : 측정 대상간의 순서를 밝히기 위해 사용하는 척도(양적 비교 X)
        * Ex : 선호도 우선순위, 수학시험 석차
    3. 등간척도(Internal Scales)
        * 정의 : 부여된 순위 사이의 간격이 동일한 척도(양적 비교 O)
        * Ex : 온도
    4. 비율척도(Ratio Scales)
        * 정의 : 순위 사이의 간격이 동일하고, 비율계산 가능한 척도
        * Ex : 무게, 투표율

3. 모집단과 표본
    1. 모집단(population)
        * 모집단(population) : 관심의 대상이 되는 집단 전체 
        * 모수(parameter) : 모집단이 가지고 있는 특징을 나타내는 수치, Ex) 평균값
        * 전수조사(census) : 모집단의 모든 개체를 전부 조사하는 방법
    2. 표본(sample)
        * 표본(sample) : 모수값을 알아내기 위 추출된 모집단의 일부분으로, 시간과 비용 절약 가능
        * 표본 추출 : 표본이 모집단을 대표할 수 있도록 추출하는 것이 중요함


## 3. 기술통계량
- 분산, 표준편차 : 관측치들이 평균을 중심으로 얼마나 퍼져있는지를 알려주는 척도로서 분산&표준편차 ⬆️ = 평균값으로부터 널리 퍼져있음
- 왜도(Skewness) : 분포의 치우침을 나타내는 지표로서, 왜도 > 0 => 좌측에 치우침, 왜도 = 0 => 중앙에 위치, 왜도 < 0 = 우측에 치우침
- 첨도(Kurtosis) : 분포의 뾰족한 정도를 나타내는 지표
1. 카이제곱 검정(교차분석)
    1. 이산형 변수로 구성된 2개의 변수가 서로 독립인지 아닌지를 확인하고자 할때 사용
