# 1. 머신러닝의 개념

- 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법
- 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출함

## 1. 머신러닝의 분류

- 지도학습(Supervised Learning)
    - 분류
    - 회귀
    - 추천 시스템
    - 시각/음성 감지/인지
    - 텍스트 분석, NLP
- 비지도학습(Unsupervised Learning)
    - 클러스터링
    - 차원 축소
    - 강화학습

## 2. 데이터 전쟁

- 데이터 + 머신러닝 알고리즘
- 데이터에 매우 의존적 → 머신러닝의 가장 큰 단점
- 최적의 머신러닝 알고리즘과 모델 파라미터를 구축하는 능력
- 데이터를 이해하고 효율적으로 가공, 처리, 추출해 최적의 데이터를 기반으로 알고리즘을 구동할 수 있도록 준비하는 능력

## 3. 파이썬과 R 기반의 머신러닝 비교

- R
    - 통계 전용 프로그램 언어
    - 다양하고 많은 통계 패키지 존재
- 파이썬
    - 다양한 영역에서 사용되는 개발 전문 프로그램 언어
    - 직관적인 문법, 객체지향, 함수형 프로그래밍 모두 포괄
    - 쉽고 뛰어난 개발 생산성
    - 오픈 소스, 방대한 양의 라이브러리
    - 인터프리터 언어, 뛰어난 확장성/유연성/호환성
    - 다양한 애플리케이션 개발 가능
    - 엔터프라이즈 아키텍쳐 확장, 마이크로서비스 기반 실시간 연계 가능
    - 딥러닝 라이브러리 → 텐서플로(Tensorflow), 케라스(Keras), 파이토치(Pytorch)

# 2. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

- 머신러닝 패키지 → 사이킷런(Scikit-Learn) : 데이터 마이닝 기반의 머신러닝에서 독보적인 위치 차지
- 행렬/선형대수/통계 패키지
    - 넘파이(Numpy) : 파이썬 대표적인 행렬/선형대수 패키지
    - 사이파이(SciPy) : 자연과학과 통계를 위한 다양한 패키지 존재
- 데이터 핸들링 → 판다스(Pandas) : 파이썬 대표적인 데이터 처리 패키지
    - 2차원 데이터 처리에 특화
    - 데이터 처리를 할 수 있는 많은 기능 제공
- 시각화
    - 맷플롯립(Matplotlib) : 파이썬 대표적인 시각화 패키지
        - 너무 세분화된 API로 익히기 어려움
        - 시각적인 디자인 부분에서도 투박함 존재
    - 시본(Seaborn) : 맷플롯립의 단점 보완
        - 판다스와 쉬운 연동, 함축적인 API, 분석을 위한 다양한 유형의 그래프/차트 제공
        - 세밀한 부분의 제어는 맷플롯립의 API 그대로 사용
- 방대한 양의 라이브러리 오픈 소스로 존재
- 주피터 노트북(Jupyter Notebook) : 아이파이썬(IPython, Interactive Python) 툴
    - 대화형 파이썬 툴
    - 특정 코드 영역별로 개별 수행 지원

## 1. 파이썬 머신러닝을 위한 S/W 설치

- Anaconda
    - 파이썬 기반 머신러닝에 필요한 패키지 일괄 설치 가능
    - XGBoost, LightGBM 등 설치가 어려운 패키지도 간편하게 설치 가능

# 3. 넘파이(Numpy)

- Numerical Python, 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
- 루프 미사용 대량 데이터의 배열 연산 가능 → 빠른 배열 연산 속도 보장
- C/C++ 저수준 언어 기반 호환 API 제공
- 다양한 데이터 핸들링 기능 제공 → 판다스가 더 우수
- 많은 머신러닝 알고리즘이 넘파이 기반으로 작성

## 1. 넘파이 ndarray 개요

- `import numpy as np` : 넘파이 모듈 임포트
- `array()` : 파이썬 리스트와 같은 다양한 인자를 ndarray로 변환
    - `shape` : ndarray 차원과 크기를 튜플 형태로 표현

## 2. ndarray의 데이터 타입

- 숫자, 문자열, 불 모두 가능
- ndarray 데이터 타입 : 특성상 같은 데이터 타입
- `astype()` : 데이터 값 타입 변경

## 3. ndarray를 편리하게 생성하기 - arange, zeros, ones

- 테스트용 데이터 생성
- 대규모 데이터를 일괄적으로 초기화
- `arange()` : array를 range()로 표현
- `zeros()` : 모든 값을 0으로 채운 ndarray 반환
- `ones()` : 모든 값을 1로 채운 ndarray 반환

## 4. ndarray의 차원과 크기를 변경하는 reshape()

- `reshape()` : ndarray를 특정 차원 및 크기로 변환
    - `-1` 인자 : 원래 ndarray와 호환하는 새로운 shape 변환
    - `reshape(-1, 1)` : 원본이 어떤 형태라도 2차원에 반드시 1개의 컬럼을 가진 ndarray로 변환

## 5. 넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing)

- 특정 데이터만 추출 : 원하는 위치의 인덱스 값 지정 → 해당 위치의 데이터 반환
    - `[인덱스]` : 해당 위치 데이터값 추출
    - `[-인덱스]` : 뒤에서부터 데이터값 추출
    - axis : 축 방향
- 슬라이싱(Slicing) : 연속된 인덱스상 ndarray 추출
    - `[시작 : 종료]` : 시작부터 종료-1 위치 데이터 반환
    - 시작 생략 → 맨 처음 인덱스인 0부터
    - 종료 생략 → 맨 마지막 인덱스까지
    - 시작, 종료 생략 → 모든 인덱스
- 팬시 인덱싱(Fancy Indexing) : 일정 인덱싱 집합을 리스트 또는 ndarray 형태로 지정 → 해당 위치에 있는 데이터의 ndarray 반환
- 불린 인덱싱(Boolean Indexing) : 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터 ndarray 반환

## 6. 행렬의 정렬 - sort()와 argsort()

- `np.sort()` : 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬 반환
- `sort()` : 원 행렬 자체를 정렬된 형태로 변환, 미반환
- `-1` : 내림차순 정렬
- `np.argsort()` : 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환

## 7. 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

- `np.dot()` : 행렬 내적(행렬 곱)
- `np.transpose()` : 전치 행렬, 원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬

# 4. 데이터 핸들링 - 판다스

- 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리
- 행과 열로 이루어진 2차원 데이터를 효율적으로 가공/처리할 수 있는 기능 제공
- Dataframe : 판다스의 핵심 객체, 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체
- Index : 개별 데이터를 고유하게 식별하는 Key 값
- Series : 칼럼이 하나인 데이터 구조체

## 1. 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

- `import pandas as pd` : 판다스 모듈 임포트
- `read_csv()` : CSV 파일 포맷 변환을 위한 API
    - `filepath` : 로드하려는 데이터 파일의 경로를 포함한 파일명 입력
- `read_table()` : 필드 구분 문자가 탭인 파일 포맷 변환
- `read_fwf()` : 고정 길이 기반의 칼럼 포맷을 DataFrame으로 로딩
- `head()` : 맨 앞에 있는 N개의 로우 반환
- `info()` : 총 데이터 건수와 데이터 타입, Null 건수 파악 가능
- `describe()` : 칼럼별 숫자형 데이터값의 n-percentile 분포도, 평균값, 최댓값, 최솟값 표현
- `value_counts()` : 해당 칼럼값의 유형과 건수 확인 가능
    - `dropna` : Null값 포함 여부

## 2. DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

- 리스트, ndarray → DataFrame
    - 1차원 데이터 → 칼럼 1개 필요
    - 칼럼명 리스트 입력받아 생성
- 딕셔너리 → DataFrame
    - 딕셔너리 키 → 칼럼명, 문자열
    - 딕셔너리 값 → 키에 해당하는 칼럼 데이터, 리스트
- DataFrame → 넘파이 ndarray
    - DataFrame 객체의 values 사용
- DataFrame → 딕셔너리
    - values 사용 → `tolist()` 호출

## 3. DataFrame의 칼럼 데이터 세트 생성과 수정

- `[ ]` : 새로운 칼럼명 입력, 값 할당

## 4. DataFrame 데이터 삭제

- `drop()` : 데이터 삭제
    - `axis` : 특정 칼럼 또는 특정 행 드롭
    - `labels` : 특정 라벨 드롭
    - `inplace()` : 자신의 DataFrame 삭제 여부

## 5. Index 객체

- `index` : DataFrame, Series 레코드를 고유하게 식별
    - 식별성 데이터를 1차원 array로 가짐
    - 단일 값 반환, 슬라이싱 가능
- `reset_index()` : 새롭게 인덱스를 연속 숫자 형으로 할당

## 6. 데이터 셀렉션 및 필터링

### 1. DataFrame의 [] 연산자

- `[ ]` : 칼럼명 문자, 인덱스로 변환 가능한 표현식만 넣기 가능, 칼럼 지정 연산자
    - 슬라이싱 사용 가능 → but 사용하지 않는 것이 좋음
    - 불린 인덱싱 표현 가능

### 2. DataFrame iloc[], loc[] 연산자

- `iloc[]` : 위치 기반 인덱싱 방식, 행과 열 위치를, 0을 출발점으로 하는 세로축, 가로축 좌표 정수값으로 지정
- `loc[]` : 명칭 기반 인덱싱 방식, 인덱스 값으로 행 위치, 칼럼의 명칭으로 열 위치 지정

### 3. 불린 인덱싱

- 가져올 조건으로 [] 내에 입력 → 자동으로 원하는 값 필터링
- `&` : AND
- `|` : OR
- `~` : NOT

## 7. 정렬, Aggregation 함수, GroupBy 적용

- `sort_values()` : 정렬
    - `by` : 특정 칼럼으로 정렬 수행
    - `ascending` : 오름차순/내림차순 구분
    - `inplace` : 데이터 프레임 유지 및 정렬 데이터 프레임 반환 여부 설정
- `min()` : 최솟값 반환
- `max()` : 최대값 반환
- `sum()` : 총합 반환
- `count()` : 모든 칼럼에 대한 결과 반환, Null값 미반영
- `groupby()` : SQL의 groupby와 유사
    - `agg()` : 딕셔너리 형태로 aggregation이 적용될 칼럼과 함수 입력

## 8. 결손 데이터 처리하기

- 결손 데이터 : Null인 경우, NaN으로 표현
- `isna()` : NaN 여부 확인
- `fillna()` : NaN 값을 다른 값으로 대체

## 9. apply lambda 식으로 데이터 가공

- lambda : 파이썬에서 제공하는 함수형 프로그래밍
    - `lambda 입력_인자 : 입력_인자_계산식`