<a href="https://colab.research.google.com/github/JunHyeong-data/python-data-analysis-book-study/blob/main/ch01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📘 Chapter 1. 시작하기 전에

## 1.1 다루는 내용

- 이 책은 파이썬으로 데이터를 다루는 다양하고 기본적인 방법을 소개합니다.
- 데이터 분석 방법론보다는 파이썬 프로그래밍, 라이브러리, 그리고 사용하는 도구에 집중합니다.

---

## 1.2 데이터 분석에 파이썬을 사용하는 이유

### 1.2.1 접착제처럼 쓰는 파이썬
- 파이썬은 C, C++, 포트란 코드와의 통합이 쉬워 과학기술 컴퓨팅 분야에서 널리 사용됩니다.

### 1.2.2 한 가지 언어만 사용하자
- 파이썬 하나로 데이터 수집, 정제, 분석, 시각화를 모두 처리할 수 있습니다.

---

## 1.3 필수 파이썬 라이브러리

### 1.3.1 NumPy
- **Numerical Python**의 줄임말로, 파이썬 수치 계산의 핵심 라이브러리입니다.
- 주요 기능:
  1. 빠르고 효율적인 다차원 배열 객체 `ndarray`
  2. 배열 간 수학 연산 및 원소 단위 함수
  3. 배열 기반의 디스크 입출력 도구
  4. 선형대수 계산, 푸리에 변환, 난수 생성
  5. C/C++ 확장에서 NumPy 자료구조 및 기능을 활용할 수 있는 C API

### 1.3.2 pandas
- 구조화된 데이터나 표 형식의 데이터를 유연하게 다룰 수 있는 고수준 라이브러리입니다.
- NumPy의 성능을 기반으로 스프레드시트, SQL과 같은 기능을 제공합니다.
- 주요 기능:
  1. 축 이름 기반의 자동 또는 명시적 정렬을 지원하는 자료구조
  2. 통합된 시계열 처리 기능
  3. 메타데이터를 유지하는 산술/축약 연산
  4. 결측값 처리 기능
  5. SQL 유사한 데이터 병합 및 관계 연산 기능

### 1.3.3 Matplotlib
- 2D 그래프 및 시각화를 위한 가장 널리 사용되는 파이썬 라이브러리입니다.

### 1.3.4 IPython과 Jupyter
- **IPython**은 실행-탐색 방식의 인터랙티브 셸입니다.
- **Jupyter Notebook**은 코드, 시각화, 마크다운을 통합해 문서화와 실행을 동시에 할 수 있습니다.

### 1.3.5 SciPy
- 과학 계산을 위한 여러 기능을 제공하는 확장 패키지입니다.
- 주요 서브모듈:
  1. `scipy.integrate`: 수치적분 및 미분방정식 풀이
  2. `scipy.linalg`: 고급 선형대수 계산
  3. `scipy.optimize`: 함수 최적화 및 방정식의 해 구하기
  4. `scipy.signal`: 신호 처리 도구
  5. `scipy.sparse`: 희소 행렬 처리
  6. `scipy.special`: 감마 함수 등 특수 함수
  7. `scipy.stats`: 다양한 확률분포 및 통계 함수 제공

### 1.3.6 scikit-learn
- 파이썬 기반의 범용 머신러닝 라이브러리입니다.
- 주요 기능:
  1. 분류 (Classification)
  2. 회귀 (Regression)
  3. 클러스터링 (Clustering)
  4. 차원 축소 (Dimensionality Reduction)
  5. 모델 선택 (Model Selection)
  6. 전처리 (Preprocessing)

### 1.3.7 statsmodels
- 전통적인 통계 모델 및 계량경제학 모델을 제공하는 라이브러리입니다.
- 주요 기능:
  1. 회귀분석
  2. 분산분석 (ANOVA)
  3. 시계열 분석
  4. 비모수 분석
  5. 통계 모델의 시각화 도구

---

## 1.4 설치 및 설정
📌 *해당 섹션은 생략되었습니다.*

---

## 1.5 커뮤니티와 콘퍼런스
📌 *해당 섹션은 생략되었습니다.*

---

## 1.6 이 책을 살펴보는 방법

- 분석 과정은 크게 다음과 같이 나뉩니다:
  - **외부 연동**: 다양한 파일 포맷 및 저장소와 데이터 입출력
  - **데이터 준비**: 정제, 병합, 변형, 정규화 등
  - **변환**: 수학적/통계적 연산
  - **모델링과 연산**: 통계 모델, 머신러닝 등의 적용
  - **프레젠테이션**: 시각화 및 텍스트 요약

### 1.6.1 예제 코드 형식
```python
In [5]: 예시 코드
Out[5]: 출력 결과
```

### 1.6.2 예제 데이터
- 예제 데이터는 GitHub 저장소 또는 Gitee 미러에서 내려받을 수 있습니다.

### 1.6.3 import 컨벤션
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
```
