# 1장 시작하기 전에

## 1.1 이 책에서 다루는 내용 

이 책은 데이터 분석 방법론이 아닌 파이썬 프로그래밍, 라이브러리 그리고 사용하는 도구에 집중한다.

데이터는 구조화된 데이터를 의미한다.
- 각 컬럼의 형식이 문자열, 숫자, 날짜 등으로 서로 다른 표 혹은 스프레드 시트와 비슷한 데이터. 이는 관계형 데이터베이스 혹은 탭이나 쉽표로 구분되는 텍스트 파일 형식으로 저장되는 대부분의 데이터를 포함한다.
- 다차원 배열(행렬)
- SQL에서 기본키나 외래키 같은 키 컬럼에 의해 서로 연관되는 여러 가지 표
- 일정하거나 일정하지 않은 간격의 시계열

## 1.2 왜 데이터 분석에 파이썬을 사용하나

스크립트 언어란 루비와 파이썬처럼 작은 프로그램이나 업무 자동화 스크립트를 빠르고 간단하게 만들 수 있는 언어를 말한다.

파이썬은 C, C++, 포트란 코드와 통합이 쉬워서 자주 쓰이게 되었다. 대부분의 최신 컴퓨팅 환경에서 선형대수, 최적화, 통합, 고속 푸리에 변환 같은 알고리즘을 위해 C 라이브러리나 포트란 레거시를 공유한다. 이 때문에 수십 년이 지난 소프트웨어를 파이썬과 함께 사용할 수 있다.

프로그램은 실행 시간의 대부분을 차지하는 작은 부분의 코드와 실행 시간을 얼마 차지하지 않는 많은 양의 글루 코드(접착제 코드, 바인딩 코드라고도 함)로 이루어져 있다. 연산 병목을 최적화하기 위해 글루 코드 부분을 C언어 같은 저수준 언어로 옮겨 쓴다면 유익한 결가를 얻을 수 있다.

파이썬은 동시다발적인 멀티스레드를 처리하거나 CPU에 집중된 많은 스레드를 처리하는 애플리케이션에 적합한 언어가 아니다. 바로 GIL(global interpreter lock, 전역 인터프리터 잠금) 때문인데 이는 인터프리터가 한 번에 하나의 파이썬 명령만 실행하도록 한다.

대체로 빅데이터 처리 애플리케이션에서는 단일 클러스터가 적절한 시간 안에 데이터를 처리해야 하기에 단일 프로세스, 멀티스레드 시스템을 선호하는 경우도 있다.

네이티브 수준(C 또는 C++)에서 멀티스레드를 활용하는 파이썬 C 확장을 통해 GIL에 구애받지 않고 병렬 코드를 실행할 수 있다.

## 1.3 필수 파이썬 라이브러리

### NumPy
제공 기능
- 빠르고 효율적인 다차원 배열 객체 ndarray
- 배열 원소를 다루거나 배열 간의 수학 계산을 수행하는 함수
- 디스크로부터 배열 기반의 데이터를 읽거나 쓸 수 있는 도구
- 선형대수 계산, 푸리에 변환, 난수 생성기
- 파이썬 확장과 C, C++ 코드에서 NumPy의 자료구조에 접근하고 계산 기능을 사용할 수 있도록 해주는 C API

고속 배열 처리 외에도 NumPy는 데이터 분석 알고리즘에 사용할 데이터 컨테이너의 역할을 한다. NumPy 배열은 파이썬 내장 자료구조보다 훨씬 효율적인 방법으로 데이터를 저장하고 다룰 수 있다. 또한 C나 포트란 같은 저수준 언어로 작성한 라이브러리는 NumPy 배열에 저장된 데이터를 복사하지 않고 바로 사용할 수 있다.

### pandas
- 자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 잇는 자료구조. 이러한 자료구조는 잘못 정렬된 데이터에 의한 일반적인 오류를 예방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있다.
- 통합된 시계열 기능
- 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료구조
- 메타데이터를 보존하는 산술 연산과 축약 연산
- 누락된 데이터를 유연하게 처리할 수 있는 기능
- 일반 데이터베이스 (예를 들면 SQL)처럼 데이터를 합치고 관계 연산을 수행하는 기능

pandas는 금융 문제와 사업 분석 문제를 해결할 목적으로 개발되었기에 사업 진행에 따라 생성된 데이터를 다룰 수 있는 시계열 기능과 도구가 핵심 특성이다.

pandas의 많은 기능은 R 핵심 구현의 일부 또는 애드온 패키지에서 따왔다.

### matplotlib
생태계 내 다른 라이브러리들과 잘 연동되어 있기에 가장 많이 사용되고 있고 기본 시각화 도구로 가장 안전한 선택이다.

### SciPy
SciPy는 과학 계산 컴퓨팅 영역의 여러 기본 문제를 다루는 패키지 모음이다. NumPy와 SciPy를 함께 사용하면 전통적인 과학 계산 애플리케이션에서 제공하는 거의 모든 기능을 대체할 수 있다.

### scikit-learn
- 분류, 회귀, 클러스터링, 차원 축소, 모델 선택, 전처리 등의 하위 모듈을 포함한다.

### statsmodels
statsmodels은 R 언어용 회귀분석 모델을 구현한 스탠퍼드 대학의 통계학 교수인 조나단 테일러의 작업을 기반으로 만들어진 통계분석 패키지이다.

scikit-learn과 비교하여 statsmodels는 전통적인 통계(주로 빈도주의적 접근)와 계량경제학 알고리즘을 포함하고 있다. 다음과 같은 하위 모듈을 포함한다.

- 회귀 모델 : 선형회귀, 일반화 선형 모델, 로버스트 선형 모델, 선형 혼합효과 모델 등
- 분산분석(ANOVA)
- 시계열분석 : AR, ARMA, ARIMA, VAR 및 기타 모델
- 비모수 기법 : 커널 밀도추정, 커널 회귀
- 통계 모델 결과의 시각화

statsmodels는 통계추론에 좀 더 초점을 맞추고 있다. 인자를 위한 불확실성 예측치와 p값을 제공한다. 반면 scikit-learn은 좀 더 예측에 초점을 맞추고 있다



## 1.4 설치 및 설정

패키지를 설치하기 위해 conda와 pip를 모두 사용할 수 있다.

conda 패키지를 pip 명령어로 업데이트하면 환경 설정에 문제가 발생할 수 있다. 아나콘다나 미니콘다를 사용하고 있다면 conda를 이용한 업데이트를 먼저 시도하는 것이 안전하다.

## 1.6 이 책을 살펴보는 방법

데이터 분석 순서
- 외부와 연동하기 : 다양한 파일 포맷과 데이터 저장소로부터 데이터를 읽고 쓰기
- 데이터 준비 : 데이터 분석을 위해 데이터를 정제, 조합, 정규화, 변형 다듬는 작업
- 변환 : 수학이나 통계 작업을 통해 새로운 데이터셋을 도출(그룹 변수를 이용하여 큰 테이블 데이터를 집계)
- 모델링과 연산 : 통계 모델, 머신러닝 알고리즘 또는 다른 연산 도구를 데이터와 연동하기
- 프레젠테이션 : 대화형, 정적 시각화 또는 텍스트 요약 생성

### 1.6.3 import 컨벤션

- from numpy import *

NumPy와 같은 거대한 패키지에서 모든 것을 임포트하는 것은 파이썬 소프트웨어 개발에 있어 나쁜 습관이다.

### 1.6.4 용어

- 신택틱 슈거(syntactic sugar) : 문법적 기능은 그대로지만 기존에 비해 좀 더 편리하거나 타이핑이 간단해지는 프로그래밍 문법