# 데이터 분석 개요

R이나 Python을 활용하여 데이터 분석을 진행하기 위해서는 데이터 분석에 필요한 기본 개념들에 대한 숙지가 필요합니다. 이 포스팅에서는 데이터 분석 전에 숙지해야 할 기본 용어들과 개념을 소개합니다.

## #01. 통계의 이해

### [1] 데이터

> 세상을 이해하는 창

어떤 현상을 이해하기 위해 그 현상을 관찰하여 데이터를 수집

전통적인 데이터 수집 방법 -> 관찰, 설문조사, 실험등

#### 데이터 폭발(Data explosion)

컴퓨터와 정보통신 기술의 발달로 매일 방대한 양의 데이터가 생산됨

> 뉴욕타임즈가 하루에 싣는 정보의 양은 17세기 영국의 평범한 한 사람이 평생 소비 하는 정보의 양과 비슷하다<br/>(Wurman, S.A. (1987) "Information Anxiety" New York: Doubleday , p.32)

> 페이스북에서는 하루에 4페타 바이트의 정보가 생성된다<br/>(https://kinsta.com/blog/facebook-statistics/, Jan 3, 2021)

1페타바이트 = 1024테라바이트

### [2] 통계의 의미

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

> 데이터에서 쓸모 있는 정보를 얻기 위한 별도의 과정

#### (1) 통계학

불확실한 현상을 이해하기 위해 데이터를 **수집**하고, 데이터 패턴을 **요약**, **분석**하여 불확실한 현상에 대한 결론을 찾는 학문

- 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
- 일기예보, 물가/ 실업률, 정당 지지도，의식조사와 사회조사 분석 통계，임상실험 등의 실험 결과 분석 통계


#### (2) 통계의 단계 구분

- 데이터 수집 및 전처리
- 데이터 요약(기술통계, 탐색적 데이터 분석)
- 데이터 추론(추론통계, 확증적 데이터 분석)

|  | 탐색적 데이터 분석(EDA) | 확증적 데이터 분석(CDA) |
| --- | --- | --- |
| 활동 | **기술통계** | **추론통계** |
| 정의 | 데이터를 요약해 설명하는 기법 | 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법.<br/>모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다. |
| 예시 | 사람들이 받는 월급을 집계해 전체 월급 평균을 구한다. | 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때 이런 차이가 우연히 발생할 확률을 계산한다. |
| 과정 | 데이터 수집 > 시각화 탐색 > 패턴 도출 > 인사이트 발견 | 가설 설정 > 데이터 수집 > 탐색적 데이터 분석 > 추론통계 > 가설검증 |



## #02. 통계학의 주요 개념

### [1] 모집단(population)과 모수(paramter)

![data](res/data0.png)

#### (1) 모집단

조사하고자 하는 대상 집단 전체로서 관심 대상이 되는 모든 개체의 모임을 의미한다.

대부분의 경우 모집단은 너무 커서 모든 개체를 조사할 수 없다.

- 원소(element) : 모집단을 구성하는 개체

##### 모집단의 종류

| 종류 | 설명 |
|:---:|:---:|
| 유한모집단 | 개체 수가 유한개 |
| 무한모집단 | 개체 수가 무한개 |

#### (2) 모수

모집단의 특성을 나타내는 대표값(평균)

대부분의 경우 값을 알 수 없다.

예외) 개체수가 적은 유한모집단인 경우 모든 개체를 조사하면 모수를 알아낼 수 있다.

     
### [2] 표본(sample)

모집단을 알기 위해 실제로 관측한 모집단의 일부로서 모집단을 잘 반영하는 표본을 뽑는 것은 매우 중요하다.

#### (1) 확률화

모집단으로부터 편의되지 않은 표본을 추출하는 절차

#### (2) 확률표본

확률화 절차에 의해 추출된 표본 // 신뢰할 수 있는 표본

#### (3) 표본조사의 오차

표본오차: 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로서 발생하는 오차

##### 표본편의

- 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차.
- 표본 추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차를 의미.
- 표본편의(Sampling Bias)는 확률화(Randomization)에 의해 **최소화하거나 없앨 수 있다.**

##### 비표본오차

- 표본오차를 제외한 모든 오차로 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미한다.
- 조사대상이 증가하면 비표본오차도 커진다.

#### (4) 표본 추출 방법

##### 단순랜덤표집(simple random sampling)

유한모집단에서 n개의 개체로 이루어진 가능한 모든 부분집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법

- 각 샘플에 번호를 부여하여 임의의 n 개를 추출하는 방법
- 각 샘플은 선택될 확률이 동일
- 비복원，복원(추출한 element 를 다시 집어넣어 추출하는 경우) 추출

##### 계통추출법 (systematic sampling)

- 단순랜덤추출법의 변형
- 변형된 방식으로 번호를 부여한 샘플을 나열하여 K 개씩 (K=N/n) n 개의 구간 으 로 나누고 첫 구간 (1, 2, … , K) 에서 하 나 를 임의로 선택한 후에 K 개씩 띄 어서 n 개의 표본을 선택
- 임의 위치에서 매 k 번째 항 목 을 추 출

![res/data1.png](res/data1.png)

##### 집락추출법 (cluster random sampling)

- 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후，모든 자료를 활용하거나 샘플링
- 지역표본추출, 다단계표본추출

![res/data2.png](res/data2.png)

##### 층화추출법 (stratified random sampling)

- 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법
- 유사한 원소끼리 몇 개의 층으로 나누어 각 층에서 랜덤 추출
=> 군집(비지도학습)

![res/data3.png](res/data3.png)

군집분석을 한 후 해당 군집에서 샘플링을 한 후 지도학습을 하고 결론을 내는것이 일반적인 비지도학습 사용방법임.

=> 군집분석으로 결론을 내면 신뢰성이 떨어짐.

### [3] 통계량(statistic)

표본의 특성을 나타내는 대표값

표본의 평균

모수를 추정하기 위해 표본에서 얻은값

표본을 새로 뽑으면 통계량의 값이 달라진다

##### 예시: 주거비

대한민국의 1가구당 평균 주거비를 알아보려고 한다. 전국의 모든 가구의 주거비를 설문하는 것은 너무 많은 시간과 비용이 필요하므로, 랜덤으로 뽑은 1,000가구에 방문하여 주거비를 조사한다.

| 구분 | 내용 |
|---|---|
| 모집단 | 대한민국의 모든가구 |
| 표본 | 랜덤으로 뽑은 1000가구 |
| 모수 | 대한민국의 가구당 평균 주거비 |
| 통계량 | 표본 1000가구의 평균 주거비 |

## #02. 데이터 수집(측정)과 전처리

| 구분 | 설명 |
|---|---|
| 측정 | 조사 또는 실험을 통해 관측된 자료(=데이터)를 확보하는 과정<br/>알고 싶은 현상을 왜곡되지 않게, 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용한다. |
| 전처리 | 분석에 적합한 형태로 데이터를 가공하는 것 |

## #03. 데이터 요약 (기술통계, 탐색적 데이터 분석, EDA)

데이터가 가진 특징과 패턴을 정확하고 효과적으로 드러내기 위한 통계적 방법을 사용: `기술통계`

- 다양한 차원과 값을 조합 : 파생변수 생성
- 특이한 점이나 의미있는 사실을 도출 : 인사이트 도출
- 분석의 최종 목적을 달성해가는 과정
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭 : 전체과정에서 중간중간 계속해서 사용됨

`데이터 수집 => 어떤 통계기법을 적용하는것이 좋을지 알아보기 위해 기술통계를 사용한다. => 기술통계를 통해 알아낸 통계기법을 적용하여 추론통계`

##### 예시: 소아의 몸무게

> 소아의 몸무게를 조사하여 나이별로 몸무게의 평균, 중간값, 사분위수 등 요약통계량을 구한다. 나이에 따른 몸무게의 변화를 보여주기 위해 그래프를 작성한다.

##### 예제: 미세먼지

> 지역별 미세먼지 농도를 수집하여 지도 위에 미세먼지 농도를 색깔로 표현한다.

## #04. 데이터 추론 (추론통계, 확증적 데이터 분석, CDA)

데이터를 이용하여 우리의 관심 대상(모수)에 대해 추측하고 그 추측의 **신뢰성**을 계량화: `추측통계(추론통계)`

모집단으로부터 추출된 표본의 표본통계량으로 부터 모집단의 특성인 <strong>모수에 관해 통계적으로 추론하는 절차</strong>

자료의 정보를 이용해 집단에 관한 추측, 결론을 이끌어내는 과정

수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것으로 샘플을 통해 모집단을 추정하는 것을 의미

실질적인 데이터 분석(통계)를 의미하는 과정

##### 예시: 평균연봉

> 대한민국 임금노동자의 평균 연봉을 알아내기 위해서 랜덤 표집한 300명의 연봉을 조사하여 평균 연봉 추정치와95% 신뢰구간을구한다.

##### 예시: 항암제 효과

> 새로 개발된 항암제의 효과를 알아보기 위하여 무작위 배정 임상시험에서 관측한 치료군과 대조군의 암재발률을 비교한다.

## #05. 데이터마이닝(머신러닝)

추론통계를 수행하기 위한 컴퓨터적인 접근 방법

대용량의 데이터로부터 정보를 요약하여 데이터의 관계, 패턴, 규칙 등을 탐색하고 이를 모형화(공식화/수식화)한다.

이를 활용하여 유용한 지식을 추출하거나 미래에 대한 예측을 수행한다.

### 활용분야

| 분야 | 예시 |
| --- | --- |
| 정부의 경제 정책 수립 | 실업률, 고용률, 물가지수 |
| 농업 | 가뭄,수해,병충해 등에 강한 품종 개발/개량 |
| 의학 | 임상실험 결과 분석 |
| 스포츠 | 선수들의 체질향상 및 개선, 경기 분석, 전략 분석, 선수 평가/기용 등 |
| 경영 | 제품 개발, 품질관리, 시장조사, 영업관리 등 |
| 마케팅 | 방대한 고객의 행동정보를 활용<br/>`예) 목표 마케팅, 고객세분화, 장바구니 분석, 추천 시스템 등` |
| 신용평가 및 조기경보 시스템 | 신용카드 발급, 보험, 대출 업무 등 |
| 생물정보학 | 유전자 분석, 질병 진단, 치료법/신약 개발 |
| 텍스트마이닝 | 전자우편, SNS 등 디지털 텍스트 정보를 통한 고객 성향 분석, 감성 분석, 사회관계망 분석 등 |