# 데이터 분석 개요

R이나 Python을 활용하여 데이터 분석을 진행하기 위해서는 데이터 분석에 필요한 기본 개념들에 대한 숙지가 필요합니다. 이 포스팅에서는 데이터 분석 전에 숙지해야 할 기본 용어들과 개념을 소개합니다.

## #01. 통계의 이해

### [1] 통계의 의미

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

> 데이터에서 쓸모 있는 정보를 얻기 위한 별도의 과정

### [2] 통계학

불확실한 현상을 이해하기 위해 데이터를 **수집**하고, 데이터 패턴을 **요약**, **분석**하여 불확실한 현상에 대한 결론을 찾는 학문

                                                        탐색,  추론

- 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
- 일기예보, 물가/ 실업률, 정당 지지도，의식조사와 사회조사 분석 통계，임상실험 등의 실험 결과 분석 통계

### [3] 통계의 단계 구분

- 데이터 수집 및 전처리
- 데이터 요약(기술통계, 탐색적 데이터 분석)
- 데이터 추론(추론통계, 확증적 데이터 분석)

|  | 탐색적 데이터 분석(EDA) | 확증적 데이터 분석(CDA) |
| --- | --- | --- |
| 활동 | **기술통계** | **추론통계** |
| 정의 | 데이터를 요약해 설명하는 기법 | 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법.<br/>모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다. |
| 예시 | 사람들이 받는 월급을 집계해 전체 월급 평균을 구한다. | 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때 이런 차이가 우연히 발생할 확률을 계산한다. |
| 과정 | 데이터 수집 > 시각화 탐색 > 패턴 도출 > 인사이트 발견 | 가설 설정 > 데이터 수집 > 탐색적 데이터 분석 > 추론통계 > 가설검증 |

## #02. 데이터 수집(측정)과 전처리

### [1] 측정

조사 또는 실험을 통해 관측된 자료(=데이터)를 확보하는 과정

알고 싶은 현상을 왜곡되지 않게, 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용한다.

조사대상에 따라 총조사 (census)와 표본조사로 구분한다.

#### (1) 총조사/전수조사(cencus)

대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용 되지 않는다.

##### 예시: 선거 여론조사

> 대통령 선거를 앞두고 유권자의 지지성향을 조사하여 선거전략을 세우고자 한다. 전체 유권자의 연령별, 성별 분포를 고려하여 전체를 대표할 수 있는 일부 유권자를 뽑아 조사한다.

#### (2) 표본조사

모집단 내에서 그 집단의 특성을 잘 나타낼 수 있는 일부를 추출하여 이들로부터 자료를 수집하고 수집된 자료를 토대로 전체의 특성을 추정 (대부분의 설문조사)

##### 예시: 임상시험

> 특정 감염병 예방을 위해 개발된 백신의 효과를 알아 보기 위해, 3만명의 자원자를 모집한 후 랜덤으로 두 그룹으로나누고, 한그룹은백신, 다른 그룹은 플라시보를 투여한다. 3개월 동안 추적 관찰하여 백신의 효과를 증명할 수 있는 데이터를 얻는다.

### (2) 변수(variable) = Data

각 단위에 대해 관측되는 특성

### (3) 데이터 전처리

분석에 적합한 형태로 데이터를 가공하는 것

> `D-03`에서 이미 확인한 내용입니다.


## #03. 데이터 요약 (기술통계, 탐색적 데이터 분석, EDA)

데이터가 가진 특징과 패턴을 정확하고 효과적으로 드러내기 위한 통계적 방법을 사용: `기술통계`

### [1] 개요

- 다양한 차원과 값을 조합
- 특이한 점이나 의미있는 사실을 도출
- 분석의 최종 목적을 달성해가는 과정
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭
- 프린스톤 대학의 튜키교수가 1977년 발표한 저서에서 소개

### [2] 탐색적 데이터 분석의 과정

| 단계 | 주요 활동 |
|---|---|
| 데이터 이해 단계 | 변수의 분포와 특성 파악을 위해 기술통계 시행 |
| 변수생성 단계 | 분석 목적에 맞도록 데이터 요약 및 파생변수 및 더미변수 생성 |
| 변수선택 단계 | 목적변수에 의미있는 후보 변수 선택 |
| 데이터 시각화 | 데이터의 상태를 한눈에 확인할 수 있도록 요약하여 그래픽으로 표현 |

#### 예시: 소아의 몸무게

> 소아의 몸무게를 조사하여 나이별로 몸무게의 평균, 중간값, 사분위수 등 요약통계량을 구한다. 나이에 따른 몸무게의 변화를 보여주기 위해 그래프를 작성한다.

#### 예제: 미세먼지

> 지역별 미세먼지 농도를 수집하여 지도 위에 미세먼지 농도를 색깔로 표현한다.

### [3] 기술통계

모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차

- 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단 들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
- Sample에 대한 특성인 평균， 표준편차, 중위수， 최빈값， 그래프, 왜도， 첨도 등을 구하는 것을 의미

#### (1) 기술통계의 대주제

- 저항성의 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 시각화

##### 저항성

자료의 일부가 파손되었을 때 영향을 적게 받는 성질

자료의 파손은 자료 일부가 뜬금없는 값으로 대체되는 경우를 의미함.

저항성이 있다면 이러한 자료의 변동에 민감하지 않다.

> ex) 평균은 저항성에 민감, 중앙값은 저항성에 민감하지 않음.

##### 잔차

실제 관측된 데이터와 예측된 값 사이의 차이를 나타내는 오차.

즉, 주어진 데이터를 이용하여 회귀모델을 통해 예측한 값과 실제 값 간의 차이

##### 자료 변수의 재표현

원래의 변수를 적당한 척도로 바꾸는 것.

보통 로그 변환이나 제곱근 변환을 통해 수행함(데이터 정규화)

이를 통해 분포의 대칭성, 선형성, 분산 안정성등 데이터의 구조를 파악하는데 도움을 얻을 수 있음.

### [4] 데이터 시각화

가장 낮은 수준의 분석이지만 때로는 복잡한 분석보다도 더 효율적

빅데이터에서 시각화는 필수

특히, 탐색적 분석의 결과를 요약하는데 효과적

### [5] 공간분석(GIS)

데이터 시각화 기법중 하나.

공간적 차원과 관련된 속성들을 시각화 하는 분석으로 지도 위에 관련 속성들을 크기, 모양, 선 굵기, 색상 등으로 표시한다.

> 도시공학 분야에서 활발히 사용한다.

## #04. 데이터 추론 (추론통계, 확증적 데이터 분석, CDA)

### [1] 개요

모집단으로부터 추출된 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차

> 실질적인 데이터 분석(통계)를 의미하는 과정

- 자료의 정보를 이용해 집단에 관한 추측, 결론을 이끌어내는 과정
- 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것으로 Sample을 통해 모집 단을 추정하는 것을 의미
- 제한된 표본을 바탕으로 모집단에 대한 일반적인 결론을 유도하려는 시도이므로 본질적으로 불확실성을 수반함.

### [2] 추론 통계의 결론

- 성별에 따른 월급의 차이가 **우연히 나타날 확률이 작다**면 통계적으로 **유의하다(statistically signficant)**라고 결론 내린다.
- 성별에 따른 월급의 차이가 **우연히 나타날 확률이 크다**면 통계적으로 **유의하지 않다(not statistically signficant)**고 결론 내린다.

> 일반적으로 통계 분석을 수행했다는 것은 추론 통계를 이용해 가설 검정을 했다는 의미.

데이터를 이용하여 우리의 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화: `추측통계(추론통계)`

#### 예시: 평균연봉

> 대한민국 임금노동자의 평균 연봉을 알아내기 위해서 랜덤 표집한 300명의 연봉을 조사하여 평균 연봉 추정치를 구한다.

#### 예시: 항암제 효과

> 새로 개발된 항암제의 효과를 알아보기 위하여 무작위 배정 임상시험에서 관측한 치료군과 대조군의 암재발률을 비교한다.

### [3] 데이터마이닝(머신러닝)

추론통계를 수행하기 위한 컴퓨터적인 접근 방법

대용량의 데이터로부터 정보를 요약하여 데이터의 관계, 패턴, 규칙 등을 탐색하고 이를 모형화한다.

이를 활용하여 유용한 지식을 추출하거나 미래에 대한 예측을 수행한다.

### [4] 활용분야

| 분야 | 예시 |
| --- | --- |
| 정부의 경제 정책 수립과 근거자료 | 실업률, 고용률, 물가지수 |
| 농업 | 가뭄,수해,병충해 등에 강한 품종 개발/개량 |
| 의학 | 임상실험 결과 분석 |
| 스포츠 | 선수들의 체질향상 및 개선, 경기 분석, 전략 분석, 선수 평가/기용 등 |
| 경영 | 제품 개발, 품질관리, 시장조사, 영업관리 등 |
| 마케팅 | 방대한 고객의 행동정보를 활용<br/>`예) 목표 마케팅, 고객세분화, 장바구니 분석, 추천 시스템 등` |
| 신용평가 및 조기경보 시스템 | 신용카드 발급, 보험, 대출 업무 등 |
| 생물정보학 | 유전자 분석, 질병 진단, 치료법/신약 개발 |
| 텍스트마이닝 | 전자우편, SNS 등 디지털 텍스트 정보를 통한 고객 성향 분석, 감성 분석, 사회관계망 분석 등 |


