# pandas 소개

* pandas는 궁극적인 목적은 진정한 의미를 포함한 정보를 데이터로부터 신속히 선별해는 것
* Wes McKinney가 2008년 개발 시작, 2009년 오픈소스로 공개
* pandas는 원래 금융 부문, 특히 시계열(Time Series) 데이터 조작과 주가 정보처리를 염두고 설계

# 데이터 조작할 수 있는 도구

* 데이터는 여러 다른 포맷으로 구성되어 있음 => 이 데이터를 조작할 수 있는 도구 필요
* 도구의 조건
  * 재사용과 공유를 위한 프로그래밍 가능성
  * 외부 데이터로의 접근성
  * 데이터의 로컬 저장 능력
  * 효율적인 검색을 위한 데이터 인덱싱
  * 속성에 기반을 둔 서로 다른 데이터셋의 정렬
  * 서로 다른 데이터셋의 조합
  * 다른 방식으로 표현하게 데이터 변형
  * 지저분한 데이터로부터의 정제
  * 불량 데이터의 효과적인 처리
  * 데이터 그룹핑
  * 데이터 집계
  * 계산과 변형을 위한 함수 적용
  * 탐색을 위한 쿼리와 슬라이싱
  * 다른 형태로 재구성
  * 범주형, 연속형, 이산형, 시계열 등과 같은 서로 다른 분류의 데이터 모델링
  * 각기 다른 빈도의 데이터 재표집(resampling)
* 데이터 조작할 수 있는 범용적인 도구
  * SQL Server(RDBMS)
  * Excel
  * Spark
  * R
  * Pandas

# pandas의 정적 영역의 분석도구

* pandas는 기술통계와 그 기능을 중심으로 설계된 라이브러리
* pandas는 데이터 과학을 위한 종합 툴킷이 아님
* pandas는 전형적인 데이터 조작 도구
  * Python으로 분석을 위해서는 Scipy, Numpy, Scikit-learn 다른 라이브러리를 이용
  * 시각화는 matplotlib, seaborn, ggvis, plotnine(ggplot2) 이용

# 데이터 분석 프로세스

* pandas의 공식 웹사이트에서 말하는 분석 프로세스 단계
  1. 데이터 먼징과 정제
  1. 분석 및 모델링
  1. 의사소통에 적합한 형태로 정비

## 프로세스

* 데이터 프로세스(단방향이 아닌 지속적인 Iteration)
  1. 발상 
  1. 획득
  1. 준비
  1. 탐색
  1. 모델링
  1. 프리젠테이션
  1. 재현
* pandas 는 준비, 탐색, 프리젠테이션, 재현 부분을 지원한다.

## 발상

* 발상이란? 
  * 모든 데이터 관련 문제는 첫 단계는 밝히고자 하는 대상을 파악하는 일
  * 실행하거나 판명하고자 하는 아이디어 구상하는 일
  * 현명한 의사결정에 사용될 수 있는 데이터 패턴에 대해 가설을 세우는 작업

* **<u>발상의 질문</u>**
  * 어떤 사건이 발생한 이유는?
  * 과거 데이터를 통해 미래를 예측할 수 있는가?
  * 향후 운영을 최적화하는 방안은?

## 획득

* 발상단계에서 가설을 세우고 가설을 지지하는 데이터를 찾아야 함
* 데이터를 구하게 되면 데이터는 체계적이지 않고, 여러 포맷이고, 오류도 있으며, 불완전 수작업 보완이 필요한 데이터임

## 준비

* 준비 단계에서 데이터는 순수 전처리 작업을 해야 함

* 전처리가 필요한 이유
  * 그냥 잘못된 데이터
  * 데이터셋의 일부가 유실
  * 데이터가 분석에 적합한 측정 방식으로 표현되지 않음
  * 데이터가 분석에 적합한 수준의 상세함을 갖고 있지 않음
  * 필요한 필드들이 소스 하나에 모두 들어있지 않음
  * 데이터 표현 방법이 공급자에 따라 다름

* pandas는 tidy 데이터를 만드는데 훌륭한 도구임
  * 결측 데이터 처리
  * 데이터 유형 변환
  * 데이터 포맷 변환
  * 측정 빈도 변경
  * 다수의 데이터셋으로 데이터 결합
  * 공통 표현 방식으로의 매핑이나 변환
  * 데이터 그룹화 등

## 탐색

* 탐색의 역할
  * 변수들 사이의 관련성 조사
  * 데이터 분포 양상의 판단
  * 이상치(outlier)의 발견과 배제
  * **<u>빠른 시각화 구현</u>**
  * 더 지속적이고 상세한 모델링 프로세스로 진행하기 위한 데이터 표현이나 모델의 빠른 생성

* pandas는 탐색 도구 중 가장 큰 강점을 가지고 있음

## 모델링

* 모델링이란?
  * 탐색단계에서 발굴한 사항을 데이터에 내포된 의미를 알아내기 위해 필요한 단계로 데이터 구조로 정형화하는 단계
  * 정형화된 데이터를 모델이라고 함.
    * 모델은 데이터 구조
    * 또한, 원래 데이터로부터 정보와 결론을 도출하기 위한 코드 안의 단계도 포함
* 모델링은 반복적인 프로세스
    1. 분석 결과를 뒷받침할 변수를 선택
    1. 분석 프로세스에 입력할 변수들을 조직화
    1. 모델을 실행
    1. 그 모델이 당초 추정을 적절히 지원하는지 파악
* 데이터 구조를 만든다는 전형적인 모델링 있지만, 통계, 머신러닝, 경영과학 다양한 영역에서의 기법이 조합될 수 있음  

## 프리젠테이션

* 주피터 노트북에서 Pandas와 함께 마크다운과 plotting을 지원함

## 재현

* SCM을 통해서 바로바로 읽고 실행해 볼 수 있음

# pandas 사용하기 위한 데이터와 분석의 기초 개념

## 데이터 유형

* 원시 데이터를 다루다 보면 pandas 구조에 맞출 필요가 있는 다양한 데이터 범주가 존재
* 데이터에 따라서 pandas가 처리하는 방법이 다를 수 있음
* 유형
  - 정형 데이터
  - 비정형 데이터
  - 반정형 데이터

### 정형데이터

* 관계형 데이터베이스나 스프레드시트와 유사
* 레코드나 파일 안에 고정된 필드로 구성된 데이터
* 정형 데이터는 데이터 모델에 의존
  * 데이터 모델은 데이터의 구성과 의미를 정의하며 종종 데이터처리 방법도 포함
  * 데이터 유형 뿐만 아니라 데이터 제약사항도 포함
    * 유형: 정수(integer), 부동소수점(float), 문자열(string) 등
    * 제약사항: 자릿수, 최대값, 최소값, 허용 값 등
* pandas는 원래 정형데이터를 이용하게 설계

### 비정형 데이터

* 어떤 정의된 구조도 갖지 않는 데이터
* 사진, 이미지, 비디오, 스트리밍 센서 데이터, 웹페이지, PDF, 파워포인트, 텍스트

### 반정형 데이터

* 정형과 비정형 사이에서 존재하는 개념
* 데이터 모델 구조가 없는 정형 데이터의 일종
* 대표적인 예는 JSon 파일
  * 포맷은 있지만 반드시 지켜야 하는 특정 스키마는 없음

## 변수

pandas를 사용할 때 다루게 되는 통계 변수의 유형

* 범주형 변수
* 연속형 변수
* 이산형 변수

### 범주형(categorial) 변수

* 정해진 값 중 하나를 가질 수 있는 변수
  * 성별
  * 사회 계층
  * 혈액형
  * 국적
  * 관측 시간
  * 평점
* 가능한 값 각각을 때로는 변수(level)이라고 함
* pandas에서는 Categorial 로 표현

### 연속형 변수

* 무한히 많은 값을 가질 수 있는 변수
* 어떤 실수 값 사이의 어떤 값도 가능
  * 높이
  * 시간
  * 온도
* pandas 에서는 float 타입

### 이산형 변수

* 서로 구분되는 값들 이루어진 집합에서의 개수에 근거한 변수
* 분수는 이산형 변수의 값이 될 수 없음
* 셀 수 있는 단위를 측정
  * 자동차 등록 대수
  * 사업장 수
  * 자녀 수
* pandas에서는 int 타입

# 분석과 통계의 pandas

## 기술 통계

* 일반적으로 단일 변수(단변량 데이터)의 모집단이나 표본을 나타내는 **<u>데이터셋을 요약</u>**하는 역할
* 데이터셋을 설명하며 중심경향성을 나타내는 측정치와 변동성 나타냄
* 분포
  * 정규 분포(normal distribution)
  * 푸아송 분포(poisson distribution)
* 중심경향성
  * 평균(mean)
  * 중위수(median)
  * 최빈수(mode)
* 분산성
  * 분산(variance)
  * 표준편차(standard deviation)

## 추리 통계

* 데이터를 단순하게 요약하는 것이 아닌 데이터 결과로부터 추론
  * t 검정(t-test)
  * 카이제곱(chi square) 검정
  * 분산분석(ANOVA)
  * 부스트래핑(boostrapping)
* pandas는 Scipy, StatsModels 라이브러리를 이용

# 기타 유용한 파이썬 라이브러리

## 스토캐스틱 모델

* 목적: 서로 다른 상황을 만드는 예상 조건에서의 예측치 안에 실제 결과가 포함될 가능성을 추정
  * 하나 이상의 확률 변수(random variable)를 포함하는 통계 모델의 한 형태
  * 보통 시계열 데이터도 함께 사용
  * 스토캐스틱의 대표적인 모델: 몬테카를로 시뮤레이션(Monte Carlo Simulation) 
* pandas 에서는 PyMC 라이브러리 이용

## 수학과 과학

* NumPy
* SciPy
* StatsModels
  * 선형 회귀 모델(linear regression model)
  * 일반 선형 모델(generalized linear model): GLM
  * 이산 선택 모델(discrete choice model)
  * 로버스트 회귀 모델(robust regression model)
  * 시계열 분석을 위한 다수의 모델과 함수
  * 비모수 추정량(nonparametric estimator)
  * 예제로서의 데이터셋 모음
  * 다양한 통계 검정
  * 여러 다양한 포맷(텍스트, LaTex, HTML 등)의 테이블 생성
  * 플로팅 함수
* 머신러닝
  * Scikit-learn
  * 분류, 회귀, 군집화(clustering), 차원축소(dimensionality reduction), 모델 선택(model selection), 전처리(preprocessing)

## 시각화

* matplotlib
* seaborn
* plotnine: ggplot2 대안
* folium: 지도 시각화