# 1. 탐색적 데이터 분석

## 1.1 정형화된 데이터의 요소
- ## 수치형 데이터: 숫자를 이용해 표현할 수 있는 데이터
    - ### 연속형 데이터: 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (ex. 풍속, 지속시간)
    - ### 이산 데이터: 횟수와 같은 정수 값만 취할 수 있는 데이터

- ## 범주형 데이터: 가능한 범주 안의 값만을 취하는 데이터
    - ### 이진 데이터: 두 개의 값(0/1 또는 참/거짓)만을 갖는 특수한 경우
    - ### 순서형 데이터: 값들 사이에 분명한 순위가 있는 데이터(ex. 평점)

## 1.2 테이블 데이터
- ### 데이터 프레임(Data Frame): 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조
- ### 피처(Feature): 테이블의 각 열이 하나의 피처를 의미
- ### 결과
- ### 레코드: 테이블의 각 행은 하나의 레코드를 의미

## 1.3 위치 추정
- ### 데이터가 주어졌을때, 데이터를 살펴보는 가장 기초적인 단계는 각 피처의 대표값을 구하는 것.
- ### 즉 대부분의 값이 어디쯤에 위치하는지(중심경향성)를 나타내는 추정값
    - #### 평균
    - #### 가중평균: 가중치를 곲한 값의 총합을 가중치의 총합으로 나눈 값
    - #### 중간값
    - #### 백분위수: 전체 데이터의 P%를 아래에 두는 값
    - #### 가중 중간값: 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 떄, 총합의 중간이 위치하는 데이터 값
    - #### 절사평균: 
        - ##### 정해진 개수의 극단값을 제외한 나머지 값들의 평균
        - ##### 값들의 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구하는 평균
    - #### 로버스트하다: 극단값들에 민감하지 않다는 것을 의미
    - #### 특잇값: 대부분의 값과 매우 다른 데이터 값

In [11]:
import numpy as np
import pandas as pd
import wquantiles

from scipy.stats import trim_mean


In [6]:
state = pd.read_csv("data/state.csv")
state.head()

Unnamed: 0,State,Population,Murder.Rate,Abbreviation
0,Alabama,4779736,5.7,AL
1,Alaska,710231,5.6,AK
2,Arizona,6392017,4.7,AZ
3,Arkansas,2915918,5.6,AR
4,California,37253956,4.4,CA


In [9]:
print(state['Population'].mean())  # 평균
print(trim_mean(state['Population'], 0.1))  # 절사평균, 각 끝에서 10%를 제외한다
print(state['Population'].median())  # 중간값

6162876.3
4783697.125
4436369.5


In [12]:
print(np.average(state['Murder.Rate'], weights=state['Population']))  # 가중 평균
print(wquantiles.median(state['Murder.Rate'], weights=state['Population']))  # 가중 중간

4.445833981123393
4.4
