# 한국 데이터 산업진흥원 가이드 라인
## 1. 데이터 수집 작업
### 1) 데이터 수집하기
- 정형, 반정형, 비정형 등 다양한 형태의 데이터를 읽을 수 있다.
- 필요시 공개 데이터를 수집할 수 있다.
## 2. 데이터 전처리 작업
### 1) 데이터 정제하기
- 정제가 필요한 결측값, 이상값 등이 무엇인지 파악할 수 있다.
- 결측값과 이상값에 대한 처리 기준을 정하고 제거 또는 임의의 값으로 대체할 수 있다.
### 2) 데이터 변환하기
- 데이터의 유형을 원하는 형태로 변환할 수 있다.
- 데이터의 범위를 표준화 또는 정규화를 통해 일치시킬 수 있다.
- 기존 변수를 이용하여 의미 있는 새로운 변수를 생성하거나 변수를 선택할 수 있다. 
## 3. 데이터 모형 구축 작업
### 1) 분석모형 선택하기
- 다양한 분석모형을 이해할 수 있다.
- 주어진 데이터와 분석 목적에 맞는 분석모형을 선택할 수 있다.
- 선정모형에 필요한 가정 등을 이해할 수 있다.
### 2) 분석모형 구축하기
- 모형 구축에 부합하는 변수를 지정할 수 있다.
- 모형 구축에 적합한 형태로 데이터를 조작할 수 있다.
- 모형 구축에 적절한 매개변수를 지정할 수 있따.
## 4. 데이터 모형 평가작업
### 1) 구축된 모형 평가하기
- 최종 모형을 선정하기 위해 필요한 모형 평가 지표들을 잘 사용할 수 있다.
- 선택한 평가지표를 이용하여 구축된 여러 모형을 비교하고 선택할 수 있다.
- 성능 향상을 위해 구축된 여러 모형을 적절하게 결합할 수 있다.
### 2) 분석결과 활용하기
- 최종모형 또는 분석결과를 해석할 수 있다.
- 최종모형 또는 분석결과를 저장할 수 있다.

  #

# 작업형 1유형
- 제1유형 작업은 수집된 데이터를 대상으로 다양한 명령어를 이용하여 분석에 용이한 형태로 전처리하는 것이다.  
- 데이터 탐색, 데이터 변환, 이상치, 결측치 처리 등 데이터 전처리에 필요한 개념을 이해하고 이를 코드로 구현한다.  
- 수집된 데이터를 대상으로 다양한 명령어를 이용하여 분석에 용이한 형태로 전처리하는 것이 주 목표이다.

## 탐색적 데이터 분석(EDA;Exploratory Data Analysis)
### ㅁ EDA정의
- 다양한 방법(요약정보, 기초통계, 시각화 등)을 통해서 자료를 관찰하고 이해하는 과정이다.
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해한다.
- 데이터 분석 진행 전에 해당 데이터의 탐색과 이해를 위해 전반적인 사전 탐색을 한다.
### ㅁ 필요성
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 이해하며 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있다.
- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 인지 못한 새로운 양상, 패턴을 반결할 수 있다.
### ㅁ 분석 과정 및 절차
#### 데이터의 문제성 확인
- 결측치와 이상치 유무 확인
- 분포상의 이상 형태 확인(Head 또는 Tail)
#### 데이터의 개별 속성값 분포, 상관관계 확인
- 기초통계량을 통해 데이터가 예상한 범위와 분포를 가지는지 확인  
ㅇ데이터 중심 : 평균, 중앙값, 최빈값, 사분위수  
ㅇ데이터 분산 : 범위, 분산, 표준편차
ㅇ데이터 시각화 : 확률밀도함수, 히스토그램, 박스플롯, 산점도 등
- 개별 속성에서 보이지 않는 상관관계 확인  
ㅇ두 변수 간 선형적 관계가 있는지 확인

#

# 파이썬 데이터 탐색 - 타이타닉 셋

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 깃 허브에서 제공하는 타이타닉 데이터셋 불러오기
df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
