# 탐색적 데이터 분석(EDA: Exploratory Data Analsis)

## 1) EDA 정의
- 다양한 방법(요약정보, 기초통계, 시각화 등)을 통해서 자룔를 관찰하고 이해하는 과정
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해
- 데이터 분석 진행 전에 해당 데이터의 탐색과 이해를 위해 전반적인 사전 탐색

## 2) 필요성
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 잠재적 문제에 대해 인식하고 해결안을 도출
    - 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정할 수 있음
- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 인지 못한 새로운 양상/패턴을 발견
    - 새로운 양상 발견 시 초기설정 문제의 가설을 수정하거나 또는 새로운 가설을 설립할 수 있음

3) 분석 과정 및 절차
- 분석 목적과 변수를 확인
    - 개별 변수의 이름과 특성을 확인
- 데이터의 문제성 확인
    - 결측치와 이상치 유무 등을 확인
    - 분포상의 이상 형태 확인(Head 또는 Tail 부분 확인)
- 데이터의 개별 속상값 분포 확인
    - 기초통계량을 통해 데이터가 예상한 범위와 분포를 가지는지 확인
- 데이터 사이의 관계 확인
    - 개별 속성에서 보이지 않는 상관관계 등을 확인

## 4) 개별 데이터 관찰
- 데이터 값을 눈으로 살펴보면서 전체적인 추세와 특이사항을 관찰
    - 데이터의 앞/뒤 부분 관찰, 무작위 표본 추출 등을 사용
    - 분석목적과 변수를 파악

## 5) 데이터 문제성 확인
- 결측치와 이상치 유무를 확인
- 결측치와 이상치가 왜 발생했는지 의미를 파악하는 것이 중요
    - 어떻게 대처해야 할지(제거, 대체, 유지 등)를 판단
    - 결측치 대치 방법 : 단순대치법, 다중대치법 등
    - 이상치 대처 방법 : 제거, 대체, 유지 등

- 데이터 문제성 확인 방법

|**결측치 발견방법**|**이상치 발견방법**|
|--|--|
|개별 데이터 관찰|개별 데이터 관찰|
|관련 함수 활용|통계값 활용|
|상관관계 활용|시각화 활용|
||머신러닝 기법 활용|

## 6) 데이터의 개별 속성값 분포 확인
- 적절한 요약 통계지표를 사용해서 데이터를 이해할 수 있음
    - 데이터의 중심 : 평균(mean), 중앙값(median), 최빈값(mode)
    - 데이터의 분산 : 범위(range), 분산(variance), 표준편차(standard deviation)
- 사분위범위(IQR, Inter Quartile Range) 방법을 사용
- 시각화를 통해 주어진 데이터의 개별 속성을 파악
    - 확률밀도 함수, 히스토그램, 박스플롯, 산점도 등
    - 워드클라우드, 시계열 차트, 지도 등

## 7) 데이터의 속성간 관계 파악
- 상관관계 분석을 통해 데이터 속성 간의 관계를 파악
    - 두 변수 간에 선형적 관계가 있는 지 분석하는 방법
    - 관계가 없으면 독립적인 관계, 관계가 존재하면 상관된 관계

## 데이터 탐색 실습

import seaborn as sns
import pandas as pd

# seaborn에서 제공하는 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 데이터 확인
print(df.head())