# 환경 설정

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib import font_manager,rc
# 한글 폰트
font_location = "C:\Windows\Fonts\malgun.ttf"
font_name = font_manager.FontProperties(fname=font_location).get_name()
rc('font',family=font_name)
plt.rcParams['axes.unicode_minus'] = False  # 유니코드 마이너스 기호 사용

## 주요절차

### 데이터 수집

* 데이터 소스 명시

### 1. 초기데이터 확인

#### 1-1. 데이터딕셔너리(각 열의 의미, 데이터의 의미해석관련 스펙 또는 메뉴얼) 확인

#### 1-2 데이터 기초정보 확인 (사이즈, 열이름, 데이터형)

#### 1-3 기초통계정보 확인

### 2. 데이터 정제

#### 2.1. 원본데이터에서 분석가능한 형태로 데이터 전처리 (형변환, 열이름 변경등)
#### 2.2. 데이터 클리닝: 이상치, 결측치처리

### 3. 초기데이터 분석

#### 3.1 데이터 정제후 데이터딕셔너리 재확인
#### 3.2 기초통계 정보 확인 (최대값, 최소값, 평균값, 표준편차, 최빈값, 유일값 등)
#### 3.3 시각화를 통한 데이터이해 심화 

* 3.3.1 단일 열: 데이터의 성격에 따른 다양한 차트 적용  
* 3.3.2 복수 열: 두개의 열간 연관관계 분석(Pair Plot 또는 Seaborn의 관련 지원 차트등)

#### 3.4 데이터 분석 결과도출

# 4. 탐색적연구

#### Step0] 데이터 분석을 위한 목적, 대상 또는 주요 가설을 세워본다. 주요가설 도출후 우선순위를 설정한다.

#### Step1] 우선순위가 높은 가설을 구체화 한다.
* 예) 나이와 월급간에 상관관계가 있을 것이다. (40~60대 사이에서 급여가 가장 높을 것이다)

#### Step2] 가설증명: 데이터 재 구조화, 시각화를 통해 새로운 insight 및 정보를 습득 및 가설을 검증한다. 
* 예) 나이별 월급에 대한 평균값을 구하고 line차트로 시각화하여 추세를 파악하여 가설을 검증한다.

#### Step3] 가설결론: 해당 가설에 대한 결론을 내린다.

#### Step4] 탐색적연구 반복
* 추가 가설 설정 하고 가설의 우선순위를 재조정한다.
* 시간 일정이 허락하는 범위내에서 Step1~Step3를 반복한다.

#### Step5] 최종결론: 지금까지 진행했던 모든 탐색적연구의 결과를 반영하여 최종 결론을 내린다.

---

---

# 데이터분석 적용 실습 템플릿

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

## 필요한 모듈 import

## 데이터 수집

In [1]:
# 데이터 소스를 확보하세요


## 1. 초기데이터 확인

### 1-1. 데이터스키마 확인

#### 각 열의 의미, 데이터의 의미해석관련 스펙 또는 메뉴얼을 확인 가능시 진행 하세요
* A열: A열의 의미를 기술
* B열: B열의 의미를 기술  
...

### 1-2. 데이터 기초정보 확인

* 사이즈, 데이터형, 기초통계항목등을 확인하세요  

In [None]:
#df.shape
#df.info()

* 기초통계항목

In [None]:
# df.desribe()

## 2. 데이터 정제

### 2-1. 간단한 데이터 전처리

In [5]:
# 원본데이터로에서 읽기 가능한 형태로 데이터처리를 하세요. (열이름 변경, 형변환 등)

### 2-2. 데이터 클리닝

In [6]:
# 결측치, 중복값, 이상치 처리등의 작업을 진행하세요

* 결측치

    - 결측치 열 확인

In [None]:
# missing_values = df.isnull().any()  
# column_missing_values = missing_values[ missing_values == True ]
# column_missing_values

In [None]:
# df.isnull().any(axis=1)

* 결측치 보정

In [None]:
# df['나이'] = df['나이'].fillna(0)

In [1]:
# df = df.fillna(0)

* 중복값 삭제 (필요시)

In [None]:
# df[df.duplicated(keep=False)]

In [None]:
# df.drop_duplicates(inplace=True)

## 3. 초기데이터 분석

### 3.1. 데이터 정제후 데이터스키마 재확인

* 1-2 작업을 다시 해보세요.

### 3.2 데이터 기초정보 정보 확인

* 최대값, 최소값, 평균값, 표준편차, 최빈값, 유일값, 결측치, 이상치 등의 정보를 재확인해 보세요

### 3.3 시각화를 통한 데이터이해 심화

* 데이터의 성격에 따라 이해도를 올리기 위해 시각화가 필요한 데이터차트를 만들어 보세요.  
  (Seaborn 추천: 페어플롯, 막대차트, 파이차트, 라인차트, 히스토그램등..)
  * 범주형: countplot, barplot
  * 단일수치값: histogram, boxplot등
  * 시계열: lineplot
  * 연관관계: pairplot, heatmap
* 시각화한 차트에 대한 분석

# 4. 탐색적연구

#### Step1] 가설: 데이터 분석을 위한 목적, 대상 또는 가설을 세워본다.
* 예) 나이와 월급간에 상관관계가 있을 것이다. (40~60대 사이에서 급여가 가장 높을 것이다)

#### Step2] 가설증명: 데이터 재 구조화, 시각화를 통해 새로운 insight 및 정보를 습득 및 가설을 검증한다. 
* 예) 나이별 월급에 대한 평균값을 구하고 line차트로 시각화하여 추세를 파악하여 가설을 검증한다.

#### Step3] 가설결론: 해당 가설에 대한 결론을 내린다.

#### Step4] 탐색적연구 반복: 시간 일정이 허락하는 범위내에서 Step1~Step3를 반복한다.

#### Step5] 최종결론: 지금까지 진행했던 모든 탐색적연구의 결과를 반영하여 최종 결론을 내린다.
* 개별가설에 대한 인사이트 취합
* 인사이트별 비즈니스 전략 도출
* 추가로 분석하지 못한 항목 및 향후 분석 아이디어등을 명시