------------------------- 데이터 전처리 -------------------------

# 파이썬 기초

## 파이썬 다루기

### 패키지 사용하기

#### 기본 명령어
- ADP 시험에서 사용할 수 있는 패키지 확인 (공식 홈페이지)
- 설치된 패키지 목록을 확인 : pip list (conda list)
- pwd, ls 등

### 데이터 타입

#### 데이터 타입 종류

1. Numeric Types: int(정수), float(소수), complex(복소수)
2. Sequence Types: str(문자열), list(리스트), tuple(튜플)
3. Mapping Type: dict(딕셔너리)
4. Set Types: set(집합)
5. Boolean Type: bool(불린)
6. Binary Types: bytes, bytearray, memoryview


1. Numeric Types : Int / Float / Complex
- Int(정수형) : 숫자형의 하나로 소수점이 없는 정수
- Float(소수형) : 숫자형의 하나로 소수점이 있는 실수
- Complex(복소수) : 실수와 허수의 합인 복소수
- 일반적으로 수학에서 가능한 모든 기능을 사용할 수 있음
- import math를 통해 수학적 기능을 확장시켜 활용 가능

2. Sequence Types : Str / List / Tuple
    1. 문자형(str)
    - 문자열(String)이란 문자, 단어 등으로 구성된 문자들의 집합을 의미함
    - 문자형은 문자를 다룰 수 있는 다양한 추가, 삽입, 수정, 삭제 기능을 제공함
    - 길이 구하기, 인덱싱, 슬라이싱, 갯수 세기, 위치 찾기, 삽입, 대체하기, 나누기 등..
    2. 리스트(list)
    - 리스트를 사용하여 데이터를 묶어서 사용할 수 있음
    - 불필요하게 각 각의 변수를 생성하여 데이터를 하나씩 담아줘야하는 문제점을 개선
    - 리스트는 문자형처럼 인덱싱(indexing)과 슬라이싱(slicing) 사용 가능
    - 또한, 수정, 삭제, 추가, 정렬, 뒤집기, 삽입 등 모두 가능
    3. 튜플(tuple)
    - 튜플은 2가지 점을 제외하고는 전반적으로 리스트와 유사함
    - 차이점1. 리스트는 []로 감싸지만, 튜플은 ()로 감쌈
    - 차이점2. 리스트는 요소의 생성, 삭제, 수정이 가능하지만 튜플은 그 값을 바꿀 수 없음
    - 다만, 튜플은 인덱싱, 슬라이싱, 더하기, 곱하기, 길이구하기 처럼 기본적인 것은 가능
    - 덧셈은 튜플끼리도 가능하지만, 곱셈은 튜플에 숫자를 곱해서만 가능(튜플끼리 곱셉 안됨)
    - 또한 튜플이 1개의 값을 갖고 있다면 값 뒤에 콤마(,)를 찍어줘야하고, ()를 생략해도 가능

3. Mapping Type : dict
    1. 딕셔너리(dict)
    - 자바스크립트에서 배열과 유사하기 key와 value를 갖고 있음
    - 리스트와 같이 순차적인 index값을 요구하지 않고 key값을 통해 value를 얻음
    - {} 중괄호로 감싸서 만들 수 있음. {key1:value1, key2:value2, key3:value3, ...key(N):value(N)}
    - 요소를 추가, 삭제, 값 가져오기, 지우기 등...

4. Set Type : set
    1. 집합(set)
    - 집합 자료형은 set 키워드를 사용해 만들 수 있음. 비어있는 집합 : set()
    - 집합은 중복을 허용하지 않기 때문에 집합으로 변환시켰을 때 중복된 값은 제거됨(종종 중복을 없애는 필터 기능으로 사용됨)
    - 집합은 순서가 없기 때문에 저장된 값을 인덱싱으로 접근 불가
    - 집합에서 인덱싱으로 저장된 값을 저장하기 위해서는 자료형을 리스트나 튜플로 변환 후 제어해야 함
    - 집합은 교집합, 합집합, 차집합을 구하는데 이용함

5. Boolean Type : bool
- 불 자료형은 참(True)와 거짓(False)로 나타내는 자료형임. 이 2가지 값만 가질 수 있음
- 빈 자료값("", (), {}, [] 등), 숫자 0, None 는 False, 나머지는 True
- 조건문과 함께 활용

#### 형 변환

- type, astype (df)

### 데이터 구조

#### 리스트
- 데이터 타입에 대한 글에서 숫자, 문자형 데이터는 변할 수 없는(immutable) 데이터라고 설명한 적 있습니다. 리스트의 경우 변할 수 있는(mutable) 데이터 입니다.

##### 내장 함수

In [11]:
# 과일을 담은 리스트
fruits = ['수박', '참외', '자몽', '멜론']

# 리스트 끝에 추가
fruits.append('망고')
print(fruits) # ['수박', '참외', '자몽', '멜론', '망고']

# 리스트 특정 위치에 삽입 --> 지정한 인덱스에 값을 저장한다.
fruits.insert(2, '망고')
print(fruits) # ['수박', '참외', '망고', '자몽', '멜론', '망고']

# 리스트에서 값으로 제거(첫번 째 값 만 제거된다)
fruits.remove('망고')
print(fruits) # ['수박', '참외', '자몽', '멜론', '망고']

# 리스트에서 인덱스로 값 제거하고 반환한다
print(fruits.pop(4)) # 망고
print(fruits) # ['수박', '참외', '자몽', '멜론']

# 리스트 역순으로 재배치한다.
fruits.reverse()
print(fruits) # ['멜론', '자몽', '참외', '수박']

# 리스트의 모든 값을 제거한다.
fruits.clear()
print(fruits) # []

['수박', '참외', '자몽', '멜론', '망고']
['수박', '참외', '망고', '자몽', '멜론', '망고']
['수박', '참외', '자몽', '멜론', '망고']
망고
['수박', '참외', '자몽', '멜론']
['멜론', '자몽', '참외', '수박']
[]


##### Slicing

In [12]:
# Object[start:end:step]

# 과일을 담은 리스트
fruits = ['수박', '참외', '자몽', '멜론']

# 인덱스 2 전까지 범위로 한다.
print(fruits[:2]) # ['수박', '참외']

# 인덱스 2를 포함해서 끝까지 범위로 한다.
print(fruits[2:]) # ['자몽', '멜론']

# 인덱스 1부터 4 전까지 범위로 한다.
print(fruits[1:4]) # ['참외', '자몽', '멜론']

# 인덱스 0 부터 4 전까지 범위로 잡고 2개씩 건너 뛴다.
print(fruits[0:4:2]) # ['수박', '자몽']

['수박', '참외']
['자몽', '멜론']
['참외', '자몽', '멜론']
['수박', '자몽']


##### del 예약어
- 인덱스로 리스트의 값을 제거하는 방법으로 del 예약어를 사용하는 방법이 있습니다. 리스트의 pop 메소드와의 차이는 값을 반환해주지 않는 다는 점입니다. 그리고 slicing을 통해서 범위로 값을 삭제할 수 있습니다.

In [15]:
# 과일을 담은 리스트
fruits = ['수박', '참외', '자몽', '멜론']

# 인덱스 1의 값을 삭제한다.
del fruits[1]
print(fruits) # ['수박', '자몽', '멜론']

# 인덱스 1부터 3 전까지의 범위를 삭제한다.
del fruits[1:3]
print(fruits) # ['수박']

# 리스트의 모든 값을 삭제한다. --> clear함수와 동등합니다.
del fruits[:]
print(fruits) # []

['수박', '자몽', '멜론']
['수박']
[]


##### pop

In [21]:
fruits = ['수박', '참외', '자몽', '멜론']
fruits.pop(2)

'자몽'

#### Tuple
- Tuple은 immutable한 list입니다. list와 똑같이 인덱스를 이용해서 읽을 수 있고 데이터가 순차적으로 되어 있는 데이터 구조입니다.
- 리스트와는 다르게 immutable하기 때문에 append나 remove와 같이 데이터를 변경하는 함수를 사용할 수 없고 직접 인덱스에 접근해서 데이터를 수정할수도 없습니다.
- 성능의 차이가 있다는 것이 가장 큰 차이 입니다. list와는 다르게 tuple은 immutable하기 때문에 append나 remove처럼 데이터를 제어하는 메소드를 객체에서 갖고 있지 않습니다. 그러다보니 메모리에서는 상대적은 적은 공간을 차지하게 될 것이고 객체를 생성하거나 탐색할 때 더 적은 시간이 소요됩니다.

##### packing / unpacking
- packing : 튜플로 데이터를 묶어주는 것을 패킹이라고 힙니다. 즉 튜플로 데이터들을 할당해주는 것이 packing 입니다.
- unpacking : 튜플의 데이터를 풀어서 각각 변수에 할당해주는 것이 unpacking입니다.

In [26]:
# tuple packing
result = '수학', 100, '영어', 95.5

# tuple unpacking
math, m_score, english, e_score = result

# 함수의 반환값을 tuple packing
def report(x, y):
    result = '불합격'
    is_smart = False
    if x + y > 90:
        result = '합격'
        is_smart = True
    return result, is_smart, x + y

# 함수의 반환값을 tuple unpacking
pass_result, smart_bool, score = report(50, 45)
print(pass_result, smart_bool, score) # 합격 True 95

합격 True 95


#### Set
- 세트는 순서가 없고 중복이 없는 데이터 집합입니다. 과일 가게에서 판매하고 있는 과일들의 종류를 알기 위해 사용한다던가... 회사에서 프로그래머들이 사용할 수 있는 프로그래밍 언어의 종류가 어떤것이 있는지 확인하는 등 중복을 없애고 존재하고 있는 데이터를 확인하기 위해 많이 사용됩니다.
- 세트는 중괄호를 이용해서 초기화할 수 있습니다. 하지만... 뒤에서 알아볼 dictionary 타입도 중괄호를 사용하기 때문에 빈 세트를 생성할 때는 set함수를 꼭 사용해야합니다.
- set도 mutable 데이터 구조입니다. 값을 변경할 수 있습니다.

In [27]:
fruits = {'apple', 'lemon', 'watermelon', 'apple'}
print(type(fruits)) # <class 'set'>
print(fruits) # {'lemon', 'watermelon', 'apple'} 순서가 없으므로 출력이 매번 변경됩니다.

# 빈 세트는 함수를 통해서만 생성할 수 있다.
d = {}
print(type(d)) # <class 'dict'>

s = set()
print(type(s)) # <class 'set'>
print(s) # set()

<class 'set'>
{'watermelon', 'lemon', 'apple'}
<class 'dict'>
<class 'set'>
set()


In [28]:
fruits = {'apple', 'lemon', 'watermelon', 'apple'}
print(fruits) # {'lemon', 'watermelon', 'apple'} 순서가 없으므로 출력이 매번 변경됩니다.

# 세트에 추가하기
fruits.add('melon')
print(fruits) # {'apple', 'melon', 'lemon', 'watermelon'}

# 세트에 모든 엘러멘트 추가하기
fruits.update(['grape', 'watermelon', 'mango'])
print(fruits) # {'melon', 'apple', 'lemon', 'mango', 'grape', 'watermelon'}

# 세트에서 제거하기(매개변수로 받은 값이 세트에 없으면 오류가 발생한다.)
fruits.remove('grape')
print(fruits) # {'apple', 'watermelon', 'lemon', 'mango', 'melon'}
# fruits.remove('grape') # KeyError: 'grape'

# 세트에서 제거하기(매개변수로 받은 값이 세트에 있으면 삭제한다. 오류가 발생하지 않는다.)
fruits.discard('watermelon')
print(fruits) # {'lemon', 'melon', 'mango', 'apple'}
fruits.discard('watermelon')

# 세트에서 무작위로 값을 반환하고 제거한다.
print(fruits.pop()) # 무작위로 값이 나오기 때문에 어떤 값이 나올지 모른다.

# 세트에서 모든 값을 제거한다.
fruits.clear()
print(fruits) # set()

{'watermelon', 'lemon', 'apple'}
{'watermelon', 'melon', 'lemon', 'apple'}
{'watermelon', 'apple', 'melon', 'mango', 'grape', 'lemon'}
{'watermelon', 'apple', 'melon', 'mango', 'lemon'}
{'apple', 'melon', 'mango', 'lemon'}
apple
set()


In [29]:
fruits1 = {'apple', 'lemon', 'watermelon', 'apple'}
fruits2 = {'apple', 'lemon'}
fruits3 = {'apple', 'lemon'}
fruits4 = {'apple', 'grape'}
"""
비교 연산으로 크다 작다의 개념으로 이해하면 됩니다. subset
이하, 이상 --> 같은 경우를 포함
초과, 미만 --> 같은 경우는 미포함
"""
# fruits1이 fruits2의 상위집합인가?
print(fruits1 >= fruits2) # True
print(fruits1 > fruits2) # True

# fruits1이 fruits2의 부분집합인가?
print(fruits1 <= fruits2) # False
print(fruits1 < fruits2) # False

# fruits2가 fruits3의 상위 집합인가?
print(fruits2 >= fruits3) # True
# 같은 경우는 False
print(fruits2 > fruits3) # False

# 합집합
print(fruits2 | fruits4) # {'grape', 'lemon', 'apple'}

# 교집합
print(fruits2 & fruits4) # {'apple'}

# 차집합
print(fruits1 - fruits2) # {'watermelon'}

# 여집합
print(fruits1 ^ fruits4) # {'grape', 'watermelon', 'lemon'}

True
True
False
False
True
False
{'grape', 'lemon', 'apple'}
{'apple'}
{'watermelon'}
{'watermelon', 'grape', 'lemon'}


#### Dictionary
- 다른 언어에서의 Map이라는 오브젝트와 동일한 데이터 구조 입니다. key, value를 쌍으로 구성된 집합입니다. list나 tuple은 인덱스가 숫자의 형태로 되어 있는데 dictionary의 경우 인덱스를 문자형이나 숫자형처럼 immutable한 데이터 타입으로 되어 있습니다. 숫자보다는 문자형으로 key를 사용합니다.
- dictionary는 key의 값만 mutable한 데이터 타입으로 지정해주면 됩니다. value로는 숫자형, 문자형과 같은 데이터 타입이나 list, set과 같은 데이터 구조가 들어갈수도 있습니다.

In [31]:
d = {
    'name': 'tom',
    'age': 30,
    'items': {
        'pockets': 3,
        'baskets': [
            [
                'grape',
                'lemon'
            ],
            [
                'apple',
                'watermelon'
            ]
        ]
    },
    1: 25
}

print(d['name']) # tom
print(d['items']['pockets']) # 3
print(d['items']['baskets'][1]) # ['apple', 'watermelon']
print(d[1]) # 25

tom
3
['apple', 'watermelon']
25


##### dict 생성 예제

In [33]:
a = {'name': 'jamong', 'age': 30}
b = dict(name='jamong', age=30)
c = dict(zip(['name', 'age'], ['jamong', 30]))
d = dict([('name', 'jamong'), ('age', 30)])
e = dict({'age': 30}, name='jamong')

print(a == b == c == d == e) # True

True


##### dict 데이터 제어

In [35]:
d = {'name': 'tom'}

# dictionary 데이터 추가
d['age'] = 30 # {'name': 'tom', 'age': 30}
print(d)

# dictionary 데이터 삭제
del d['name']
print(d) # {'age': 30}

{'name': 'tom', 'age': 30}
{'age': 30}


In [36]:
d = {
    'name': 'tom',
    'age': 30
}

# dictionary에 key의 존재여부 확인
print('name' in d) # True
print('name' not in d) # False

# dictionary (key, value) 형식으로 데이터 추출
print(d.items()) # dict_items([('name', 'tom'), ('age', 30)])

# dictionary key 값들을 추출한다.
print(d.keys()) # dict_keys(['name', 'age'])

# dictionary value 값드을 추출한다.
print(d.values()) # dict_values(['tom', 30])

# dictionary의 value를 key값으로부터 얻을 수 있다.
# key가 없는 경우 default로 None을 반환하고 2번째 인자를 지정해주면 해당 값을 반환한다.
print(d.get('name')) # tome
print(d.get('height')) # None
print(d.get('height', 123)) # 123

# dictionary의 데이터를 수정한다.
# 이미 존재하는 key이면 overwrite하고 없으면 추가한다.
d.update({'age': 20})
print(d) # {'name': 'tom', 'age': 20}

# key에 해당하는 값을 반환하고 dictionary에서 삭제한다.
# key가 없으면 오류를 발생시킨다.
# 2번째 인가자 지정되어 있으면 오류가 아닌 해당 값을 반환한다.
# popitem 함수는 같은 기능이지만 값이 아닌 key:value 아이템을 반환한다.
print(d.pop('age')) # 20
print(d) # {'name': 'tom'}
print(d.pop('age')) # KeyError: 'age'
print(d.pop('age', 123)) # 123

# dictionary 데이터 모두 삭제
d.clear()
print(d) # {}

True
False
dict_items([('name', 'tom'), ('age', 30)])
dict_keys(['name', 'age'])
dict_values(['tom', 30])
tom
None
123
{'name': 'tom', 'age': 20}
20
{'name': 'tom'}


KeyError: 'age'

# 데이터 전처리

## 제어문

- 조건문
- 반복문

## 데이터 변환

### 파생변수 생성

- 파생 데이터 프레임 생성은 꼭 .copy()로 해라
- 열 추가, 행 추가 방법 공부
    - 조건에 따라 새로운 열(변수)를 추가하는 방법

### 변수 축소

#### 주성분 분석

주성분 (변수) 선택 시
- 기여율
- Scree Plot
- 산점도를 활용한 변수간 상관관계 파악
- 행렬도 (biplot)

#### 요인 분석

- 주성분 분석과 요인 분석 비교

### 표준화와 정규화

#### 표준화 

- 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값으로 변환하는 과정
- z-score 표준화는 각 요소의 값에서 평균을 뺀 후 표준편차로 나누어 수행한다

#### 정규화

- 데이터의 범위를 0과 1 사이로 변환하여 데이터의 분포를 조정하는 방법
- scale 함수? 사용자 정의 normalize?

# 데이터 결합 및 요약

## 데이터 결합

- rbind, cbind, merge 등

## 데이터 요약

- aggregate, table (도수분포표), prop.table, subset 등

## apply 계열 함수

- apply, lapply, sapply, vapply, mapply, tapply

# 패키지를 활용한 데이터 전처리

## plyr

- 데이터를 분할한 뒤 원하는 방향(행, 열)으로 특정 함수를 적용하고(apply), 그 결과를 재조합(combine)하여 반환해 준다. 여러 함수로 처리해야 할 데이터의 분할, 함수 적용, 재조합을 한 번에 처리할 수 있기 때문에 매우 효율적이고 편리한 패키지이다.
- plyr 함수는 xxply로 이루어져 있으며, 첫 번째 글자는 데이터의 입력 형태를 의미하고 두 번째 글자는 출력 데이터의 형태를 의미한다.
- a: array, l: list, d: data frame, _: 출력 없음
- adply, ddply 등

## dplyr

- 데이터의 일부 추출, 새로운 변수 생성, 다른 데이터와 병합 등 다양한 기능을 지원한다.
- select: 지정한 열 추출
- summarise: 요약 통계량 계산
- filter: 조건에 맞는 행 추출
- arrange: 데이터 정렬
- mutate: 변수 추가
- left, right, inner, full join
- group_by: 그룹화
- bind rows, cols

## reshape2

- melt & cast

## data.table

- 여기서 loc, iloc이랑 비슷한 듯 

# 결측치 처리

## 결측치 인식

- is.na()
- 

## 결측치 처리

- 단순 대치법
- 다중 대치법
- 결측치가 존재하는 행 제거
- 평균 대치법
- 패키지 활용

## 이상치 인식

- 사분위수
- boxplot을 활용한 이상치 판별

# 날짜 데이터 전처리

## 날짜 데이터 다루기

### 날짜 데이터 형식 확인

### 날짜 표시 형식 변경

### 날짜 데이터의 연산

- 날짜 간 거리 계산

------------------------- 통계 분석 -------------------------

# 데이터 샘플링

## 표본추출 방법

### 표본 추출 방법

- 단순 임의 추출법
- 계통 추출법
- 집락 추출법
- 층화 추출법
- 다단계 추출

## R을 이용한 표본 추출

### 단순 임의 추출

### 층화 임의 추출

## T-test

## 일표본 T-검정

## 대응표본 T-검정

## 독립 표본 T-검정

# 교차 분석

## 교차 분석의 개념

- 범주형 자료인 두 변수 간의 관계를 알아보기 위해 실시하는 분석 기법
- 적합성 검정, 독립성 검정, 동질성 검정에 사용되며, 카이제곱 검정 통계량을 이용
- 교차표를 이용

## 적합성 검정

- 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정

## 독립성 검정

## 동질성 검정

# 분산 분석 (ANOVA)

## 일원배치 분산 분석 (one-way ANOVA)

## 이원배치 분산 분석 (two-way ANOVA)

# 상관 분석

## 상관 분석의 개념

## 상관 분석의 유형

## 상관 계수 검정

# 회귀 분석 

## 회귀 분석의 개념

## 단순선형회귀분석

## 다중선형회귀분석

------------------------- 시각화 -------------------------

# 산점도

## 산점도란?

## Plot 함수의 옵션

## 그래프 서식

# 그래프

## 점 그래프

## 선 그래프

## 막대 그래프

## 히스토그램

## 히스토그램

## 파이 차트

## 산점도 행렬

------------------------- 정형 데이터 마이닝 -------------------------

# 데이터 분할과 성과 분석 

## 데이터 분할

## 성과 분석

### 오분류표

# 분류 분석

## 로지스틱 회귀 분석

## 의사결정나무

## 앙상블 기법

### 배깅

### 부스팅

### 랜덤 포레스트

## SVM (Support Vector Machine)

## 나이브 베이즈 분류

## K-NN (K-Nearest Neighbor)

## 인공신경망 모형 (Artificial Neural Network)

# 군집 분석

## 군집 분석

- 군집 분석의 개념

## 계층적 군집 분석

## 비계층적 군집 분석

## 혼합 분포 군집

# 연관 분석

## 연관 규칙

------------------------- 비정형 데이터 마이닝 -------------------------

# 텍스트 마이닝

## 데이터 전처리

## Term-Document Matrix