# Chapter 01 : 파이썬 기반의 머신러닝과 생태계 이해
## 01 머신러닝의 개념
### 머신러닝 ?
> Machine Learning : 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법
- 데이터를 기반으로 통계적 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 패턴을 스스로 인지하고 신뢰도 높은 예측 결과를 도출해낸다.

### 머신러닝의 분류
> 지도학습(Supervised Learning)과 비지도학습(Un-supervised Learning)

**지도학습**
- 분류
- 회귀
- 추천 시스템
- 시각/음성의 감지/인지
- 텍스트 분석, NLP

**비지도학습**
- 클러스터링
- 차원 축소
- 강화학습

## 02 파이썬 머신러닝 생태계를 구성하는 주요 패키지
**머신러닝 패키지**
- Scikit-Learn : 가장 대표적인 데이터 마이닝 기반의 머신러닝 패키지 -> 이 책에서 다룰 내용
- Tensorflow, Keras : 딥러닝 라이브러리

**행렬/선형대수/통계 패키지**
- 머신러닝의 이론적 백그라운드는 선형대수와 통계
- Numpy : 선형대수와 행렬을 다루는 패키지
- SciPy : 자연과학과 통계를 위한 다양한 패키지 (사이킷런 내 여러 패키지의 기반)

**데이터 핸들링**
- Pandas : 데이터 처리 패키지로, 2차원 데이터 처리에 특화. 행렬 기반인 넘파이의 약점 보완

**시각화**
- Matplotlib : 대표적 시각화 패키지. 
- Seaborn : Matplotlib의 단점(너무 세분화된 API, 디자인적 투박함 등)을 보완하는 시각화 패키지

**기타 서드파티 라이브러리**
- Graphviz, KoNLPy, Surprise 등

## 03 넘파이
### 넘파이 ?
> Numpy : Numerical Python. 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적 패키지. 루프를 사용하지 않고 대량 데이터의 배열 연산이 가능하며, 빠른 배열 연산 속도를 보장한다.

### 넘파이 ndarray 개요
- array() 함수 : 파이썬의 리스트와 같은 다양한 인자의 입력을 받아 ndarray로 변환하는 기능 수행. 
- 생성된 ndarray 배열의 shape 변수는 ndarray의 크기, 즉 행과 열의 수를 튜플 형태로 가지고 있다.

In [8]:
# 넘파이 모듈 임포트
import numpy as np 

# array 생성
print('1차원 array 생성')
array1 = np.array([1, 2, 3])
print('array1 : ', array1)
print('array1 type : ', type(array1))
print('array1 array 형태 : ', array1.shape, ' -> tuple 형태로 표현')
print()

print('2차원 array 생성')
array2 = np.array([[1, 2, 3],[2,3,4]]) # list에 list를 한 번 더 묶는다.
print('array2 : ', array2)
print('array2 type : ', type(array2))
print('array2 array 형태 : ', array2.shape, ' -> tuple 형태로 표현')
print()

print('2차원 array 생성 (로우가 1개(inner list를 한 개만 작성)이나, 2차원인 경우)')
array2_1 = np.array([[1, 2, 3]])
print('array2_1 : ', array2_1)
print('array2_1 type : ', type(array2_1))
print('array2_1 array 형태 : ', array2_1.shape, ' -> tuple 형태로 표현')
print()

# 각 array의 차원 확인하기
print('array dimension check (ndim)')
print('array1 : {:0}차원, array2 : {:1}차원, array2_1 : {:2}차원'.format(array1.ndim,array2.ndim, array2_1.ndim))

1차원 array 생성
array1 :  [1 2 3]
array1 type :  <class 'numpy.ndarray'>
array1 array 형태 :  (3,)  -> tuple 형태로 표현

2차원 array 생성
array2 :  [[1 2 3]
 [2 3 4]]
array2 type :  <class 'numpy.ndarray'>
array2 array 형태 :  (2, 3)  -> tuple 형태로 표현

2차원 array 생성 (로우가 1개(inner list를 한 개만 작성)이나, 2차원인 경우)
array2_1 :  [[1 2 3]]
array2_1 type :  <class 'numpy.ndarray'>
array2_1 array 형태 :  (1, 3)  -> tuple 형태로 표현

array dimension check (ndim)
array1 : 1차원, array2 : 2차원, array2_1 :  2차원


### ndarray의 데이터 타입
- 숫자 값, 문자열 값, bool 값 등이 모두 가능하며, 숫자형의 경우 int형(8/16/32 bit), unsigned int형(8/16/32 bit), float형(16/32/64/128 bit), complex 타입(더 큰 숫자 값이나 정밀도를 위해)도 제공
- 같은 데이터 타입끼리만 연산 가능 (한 개의 ndarray 객체에 int와 float 공존 불가)

**데이터 타입 확인**
- dtype : 데이터 타입 확인

In [11]:
# 파이썬의 type함수와 넘파이의 .dtype 속성
list1 = [1, 2, 3]
print(type(list1))

array1 = np.array(list1)
print(type(array1))

print(array1, array1.dtype)
print()

print('다른 데이터 유형이 섞인 리스트를 ndarray로 변경하는 경우 : ')
list2 = [1, 2, 'test'] # 숫자 + 문자
array2 = np.array(list2)
print(array2, array2.dtype, ' -> 유니코드 문자열 값으로 변환된다.')

list3 = [1, 2, 3.0] # int와 float
array3 = np.array(list3)
print(array3, array3.dtype, ' -> float 값으로 변환된다.')

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32

다른 데이터 유형이 섞인 리스트를 ndarray로 변경하는 경우 : 
['1' '2' 'test'] <U11  -> 유니코드 문자열 값으로 변환된다.
[1. 2. 3.] float64  -> float 값으로 변환된다.


**데이터 타입 변경**
- astype() : 인자로 원하는 타입을 문자열로 지정
- int형으로 충분한데, float 타입으로 작업하면 더 많은 메모리가 소요된다. 이런 경우 메모리 절약을 위해 이용한다. 

In [13]:
# astype으로 데이터 타입 변경
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print('int32 to float64 : ', array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print('float64 to int32 : ', array_int1, array_int1.dtype)

int32 to float64 :  [1. 2. 3.] float64
float64 to int32 :  [1 2 3] int32


### ndarray를 편리하게 생성하기 - arange, zeros, ones
- 특정 크기와 차원의 ndarray를 연속값이나 0 또는 1로 쉽게 생성한다.
- 테스트용 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우에 사용한다.

**arange()**
- 파이썬 표준 함수인 range()와 유사한 기능 (array를 range()로 표현하는 개념)

In [26]:
sequence_array = np.arange(10) # 최소 인자 : stop값 (0부터 1씩 증가한다.)
print(sequence_array)
print(type(sequence_array),sequence_array.dtype, sequence_array.shape)
print()

sequence_array = np.arange(0, 10, 2, dtype='int32') # np.arange(시작값, 정지값(n-1), 간격, 데이터타입 지정)
print(sequence_array)
print(type(sequence_array),sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'> int32 (10,)

[0 2 4 6 8]
<class 'numpy.ndarray'> int32 (5,)


**zeros()**
- 함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운, 해당 shape를 가진 ndarray 반환

**ones()**
- 모든 값을 1로 채운 ndarray 반환

(dtype 미지정 시 default : float64)

In [25]:
zero_array = np.zeros(10, dtype='int32') # 10
print(zero_array)
print(type(zero_array), zero_array.dtype, zero_array.shape)
print()

one_array = np.ones((3,2), dtype='str') # 3행 2열, 문자형
print(one_array)
print(type(one_array), one_array.dtype, one_array.shape)

[0 0 0 0 0 0 0 0 0 0]
<class 'numpy.ndarray'> int32 (10,)

[['1' '1']
 ['1' '1']
 ['1' '1']]
<class 'numpy.ndarray'> <U1 (3, 2)


### ndarray의 차원과 크기를 변경하는 reshape()
- ndarray를 특정 차원 및 크기로 변환

In [31]:
array1 = np.arange(10)
print('array1 :\n', array1,'\n')

array2 = array1.reshape(2,5)
print('array2(2행 5열 reshape) :\n', array2, '\n')

array3 = array1.reshape(5,2)
print('array3(5행 2열 reshape) :\n', array3, '\n')

# rows*columns와 값의 길이가 일치하지 않으면 오류 발생

array1 :
 [0 1 2 3 4 5 6 7 8 9] 

array2(2행 5열 reshape) :
 [[0 1 2 3 4]
 [5 6 7 8 9]] 

array3(5행 2열 reshape) :
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]] 



- reshape의 인자로 -1을 적용하는 경우 : 원래 ndarray와 호환되는 새로운 shape로 변환
- reshape(-1, 1) 형태로 자주 사용된다. 여러 개의 로우를 갖되 반드시 1개의 칼럼을 가진 ndarray로 변환하는 경우
- 여러 개의 ndarray는 stack이나 concat으로 결합할 때 각각의 ndarray 형태를 통일해 유용하게 사용된다.

In [40]:
array1 = np.arange(12)
print(array1,'\n')
array2 = array1.reshape(-1, 6) # column 수를 6으로 고정하고, 데이터 개수에 따라 row 자동 설정
print(array2,'\n')
array3 = array1.reshape(4, -1) # row 수를 4로 고정하고, 데이터 개수에 따라 column 자동 설정
print(array3)

[ 0  1  2  3  4  5  6  7  8  9 10 11] 

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]] 

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [49]:
# reshape(-1, 1) 활용
array1 = np.arange(8)
array3d = array1.reshape(2,2,2)
print('array3d :\n', array3d.tolist()) # print할 때 시각적으로 이해하기 쉽도록 리스트로 변환
print()

print('3차원 ndarray를 2차원 ndarray로 변환')
array5 = array3d.reshape(-1, 1)
print('array5 :\n', array5.tolist())
print('array5 shape : ', array5.shape, ' / array5 type : ', type(array5))
print()

print('1차원 ndarray를 2차원 ndarray로 변환')
array6 = array1.reshape(-1, 1)
print('array6 : \n', array6.tolist())
print('array6 shape : ', array6.shape, ' / array6 type : ', type(array6))

array3d :
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]

3차원 ndarray를 2차원 ndarray로 변환
array5 :
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape :  (8, 1)  / array5 type :  <class 'numpy.ndarray'>

1차원 ndarray를 2차원 ndarray로 변환
array6 : 
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape :  (8, 1)  / array6 type :  <class 'numpy.ndarray'>


### 넘파이 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing)
1. 특정한 데이터만 추출 : 원하는 위치의 인덱스 값 지정
2. 슬라이싱(Slicing) : 범위 인덱싱 [시작 index : 종료 index -1]
3. Fancy Indexing : 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환
4. Boolean Indexing : 특정 조건 해당 여부(True/False값)의 인덱싱 집합을 기반으로 True에 해당하는 데이터 ndarray 반환

**단일 값 추출**

In [51]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1, stop=10)
print('array1 : ', array1)
# index는 0부터 시작하므로, array1[2]는 3번째 index 위치의 데이터값을 의미
value = array1[2]
print('value of array1[2] : ', value)
print(type(value))
print()

# 음수의 인덱스
print('맨 뒤의 값 : ', array1[-1], '\n 맨 뒤에서 두 번째 값 : ', array1[-2])

array1 :  [1 2 3 4 5 6 7 8 9]
value of array1[2] :  3
<class 'numpy.int32'>

맨 뒤의 값 :  9 
 맨 뒤에서 두 번째 값 :  8


- 단일 indexing으로 데이터값 수정

In [55]:
# ndarray 데이터값 수정
array1[0] = 9
array1[8] = 0
array1[-2] = 1
print('array 1 modified : ', array1)

array 1 modified :  [9 2 3 4 5 6 7 1 0]


- 다차원 ndarray에서 단일 값 추출

In [62]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print(array2d)
print()

print('array2d[0,0] 값 (1행 1열): ', array2d[0,0])
print('array2d[0,1] 값 (1행 2열): ', array2d[0,1])
print('array2d[1,0] 값 (2행 1열): ', array2d[1,0])
print('array2d[2,2] 값 (3행 3열): ', array2d[2,2])

# ndarray에서는 사실 로우와 칼럼의 개념을 사용하지 않으며, axis 0, axis 1로 표현한다.
# [row=0, col=1] -> [axis 0 = 0, axis 1 = 1]

[[1 2 3]
 [4 5 6]
 [7 8 9]]

array2d[0,0] 값 (1행 1열):  1
array2d[0,1] 값 (1행 2열):  2
array2d[1,0] 값 (2행 1열):  4
array2d[2,2] 값 (3행 3열):  9


**슬라이싱**

[시작 인덱스 : 종료 인덱스 -1]

In [64]:
array1 = np.arange(1,10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [66]:
# 슬라이싱 시 숫자 생략
array1 = np.arange(start=1, stop=10)
array4 = array1[:3] # 처음(0)부터 3-1까지
print(array4)

array5 = array1[3:] # 3부터 끝(10-1)까지
print(array5)

array6 = array1[:] # 처음부터 끝까지
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


- 2차원 ndarray 슬라이싱

In [70]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print('array2d : \n', array2d)
print()

print('array2d[0:2, 0:2] : \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] : \n', array2d[1:3, 0:3])
print('array2d[1:3, :] : \n', array2d[1:3, :])
print('array2d[:, :] : \n', array2d[:, :])
print('array2d[:2, 1:] : \n', array2d[:2, 1:])
print('array2d[:2, 0] : \n', array2d[:2, 0])

array2d : 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]

array2d[0:2, 0:2] : 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] : 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] : 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] : 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] : 
 [[2 3]
 [5 6]]
array2d[:2, 0] : 
 [1 4]


**팬시 인덱싱(Fancy Indexing)**
: 리스트나 ndarray로 인덱스 집합을 지정해 해당 위치의 인덱스에 맞는 ndarray를 반환

In [107]:
array1d = np.arange(1, 10)
array2d = array1d.reshape(3, 3)
print(array2d, '\n')

array3 = array2d[[0,1], 2] # (row, col) = ((0,2), (1,2))
print('array2d[[0,1], 2] : ', array3.tolist())

array4 = array2d[[0,1,2], 0:2] # (row,col) = ((0,0), (0,1)), ((1,0),(1,1)), ((2,0),(2,1))
print('array2d[[0,1,2], 0:2] : ', array4.tolist())

array5 = array2d[[0,1]] # (row, col) = ((0, :), (1, :))
print('array2d[[0,1]] : ', array5.tolist())

array6 = array2d[[1,2], [0,2]] # (row, col) = ((1,0), (2,2))
print('array2d[[1,1], [0,2]] : ', array6.tolist())

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

array2d[[0,1], 2] :  [3, 6]
array2d[[0,1,2], 0:2] :  [[1, 2], [4, 5], [7, 8]]
array2d[[0,1]] :  [[1, 2, 3], [4, 5, 6]]
array2d[[1,1], [0,2]] :  [4, 9]


[4, 9]

**불린 인덱싱(Boolean Indexing)** : 조건 필터링과 검색이 동시에 가능
- for loop/if else로 하나씩 추출값을 비교 추출하는 것보다 훨씬 간단

In [111]:
array1d = np.arange(start=1, stop=10)
# [ ] 안에 array1d > 5 Boolean indexing을 적용
array3 = array1d[array1d > 5]
print('array1d > 5 : ', array1d>5 )
print('array1d > 불린 인덱싱 결과 값 : ', array3)
# False 값은 무시하고 True 값에 해당하는 인덱스값만 저장

array1d > 5 :  [False False False False False  True  True  True  True]
array1d > 불린 인덱싱 결과 값 :  [6 7 8 9]


### 행렬의 정렬 - sort()와 argsort()
- np.sort() : 넘파이에서 sort() 호출 -> 원 행렬은 유지한 채 정렬된 행렬 반환
- ndarray.sort() : 행렬 자체에서 sort() 호출 -> 원 행렬 자체를 정렬한 형태로 변환 (반환 값은 None)
- argsort() : 정렬 행렬의 원본 행렬 인덱스를 ndarray형으로 반환

**행렬 정렬**

In [120]:
org_array = np.array([3, 1, 9, 5])
print('원본 행렬 : ', org_array), print()
# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬 : ', sort_array1)
print('np.sort() 호출 후 원본 행렬 : ', org_array), print()

# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬 : ', sort_array2)
print('org_array.sort() 호출 후 원본 행렬 : ', org_array), print()

# 내림차순 정렬
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬 : ', sort_array1_desc), print()

# 다차원 행렬 정렬 : axis 설정
array2d = np.array([[8, 12], [7,1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬 : \n', sort_array2d_axis0), print()

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('칼럼 방향으로 정렬 : \n', sort_array2d_axis1)

원본 행렬 :  [3 1 9 5]

np.sort() 호출 후 반환된 정렬 행렬 :  [1 3 5 9]
np.sort() 호출 후 원본 행렬 :  [3 1 9 5]

org_array.sort() 호출 후 반환된 행렬 :  None
org_array.sort() 호출 후 원본 행렬 :  [1 3 5 9]

내림차순으로 정렬 :  [9 5 3 1]

로우 방향으로 정렬 : 
 [[ 7  1]
 [ 8 12]]

칼럼 방향으로 정렬 : 
 [[ 8 12]
 [ 1  7]]


**정렬된 행렬의 인덱스를 반환하기**

- argsort() : 넘파이의 ndarray는 RDBMS의 TABLE 칼럼이나 Pandas Dataframe 칼럼과 같은 메타 데이터를 가질 수 없어, 별도의 ndarray로 메타 데이터 값을 가져야 한다.

In [124]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스 : ', sort_indices)

# 내림차순 정렬
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스 : ', sort_indices_desc)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스 :  [1 0 3 2]
행렬 내림차순 정렬 시 원본 행렬의 인덱스 :  [2 3 0 1]


In [126]:
# ndarray 생성
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

# np.argsort()를 이용해 반환된 인덱스를 ndarray의 팬시 인덱스로 적용해 정렬
sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array 인덱스 : ', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력 : ', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array 인덱스 :  [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력 :  ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

**행렬 내적(행렬의 곱)**
- np.dot(A,B)

In [129]:
A = np.array([[1,2,3], 
              [4,5,6]])
B = np.array([[7,8], 
              [9,10], 
              [11,12]])
dot_product = np.dot(A, B)
print('행렬 내적 결과 : \n', dot_product)

행렬 내적 결과 : 
 [[ 58  64]
 [139 154]]


**전치 행렬**
- transpose()

In [131]:
C = np.array([[1,2,3], 
              [4,5,6]])
transpose_mat = np.transpose(C)
print('C의 원본 행렬 : \n', C)
print('C의 전치 행렬 : \n', transpose_mat)

C의 원본 행렬 : 
 [[1 2 3]
 [4 5 6]]
C의 전치 행렬 : 
 [[1 4]
 [2 5]
 [3 6]]


## 04 데이터 핸들링 - 판다스

### 판다스 ?
> Pandas : Wes McKinney가 개발한 Data Handling Framework. 
- 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터 뿐 아니라 CSV 등의 파일을 DataFrame으로 변경해 데이터 가공/분석을 편리하게 수행할 수 있다.


> - DataFrame : 판다스의 핵심 객체로, 2차원 데이터(칼럼이 여러 개)를 담는 데이터 구조체.
> - Series : 칼럼이 하나 뿐인 데이터 구조체. DataFrame은 여러 개의 Series로 이루어진다.
> - Index : 개별 데이터를 고유하게 식별하는 Key 값을 나타내는 객체. Series와 Dataframe이 key 값으로 갖는다.

### 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API
> DataFrame으로 파일을 로딩하는 편리한 API들
> - read_csv(), read_table() : 필드 구분 문자(Delimiter)가 ',' 또는 '\t'에 따라 구분. 다른 경우 sep= 옵션 추가
> - read_fwf() : Fixed Width. 고정 길이 기반의 칼럼 포맷

In [15]:
# 판다스 모듈 임포트
import pandas as pd

# Kaggle 데이터 파일 로드
titanic_df = pd.read_csv('C:/DATA_WORKS/PYTHON_WORKS/data/titanic_train.csv')
display(titanic_df.head(3))
print('titanic 변수 type : ', type(titanic_df)), print()
print('titanic DF 크기 : ', titanic_df.shape), print()
display('titanic DF 정보 : ', titanic_df.info()), print()
print('titanic 데이터 분포도 : \n', titanic_df.describe()), print()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


titanic 변수 type :  <class 'pandas.core.frame.DataFrame'>

titanic DF 크기 :  (891, 12)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


'titanic DF 정보 : '

None


titanic 데이터 분포도 : 
        PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  



(None, None)

- value_counts()

In [22]:
# titanic_df['Pclass']는 Series의 Index와 데이터 값으로 구성
display(titanic_pclass.head())

# value_counts() 적용하면 선실 등급을 Index로 받는 Series가 된다.
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>


### DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환
**넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기**

- 1차원 형태의 리스트와 ndarray -> DataFrame

In [25]:
import numpy as np
col_name1=['col1']
list1 = [1,2,3]
array1 = np.array(list1)
print('array1 shape : ', array1.shape)

# 리스트를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns = col_name1)
print('1차원 리스트로 만든 DataFrame : \n', df_list1)

# 넘파이 ndarray를 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns = col_name1)
print('1차원 ndarray로 만든 DataFrame : \n', df_array1)

array1 shape :  (3,)
1차원 리스트로 만든 DataFrame : 
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame : 
    col1
0     1
1     2
2     3


- 2차원 형태의 리스트와 ndarray -> DataFrame

In [27]:
# 3개의 칼럼명 필요
col_name2 = ['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성 후 DataFrame 변환
list2 = [[1, 2, 3],
        [11, 12, 13]]
array2 = np.array(list2)
print('array2 shape : ', array2.shape)
df_list2 = pd.DataFrame(list2, columns = col_name2)
print('2차원 리스트로 만든 DataFrame : \n', df_list2)
df_array2 = pd.DataFrame(array2, columns = col_name2)
print('2차원 ndarray로 만든 DataFrame : \n', df_array2)

array2 shape :  (2, 3)
2차원 리스트로 만든 DataFrame : 
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame : 
    col1  col2  col3
0     1     2     3
1    11    12    13


- 딕셔너리를 DataFrame으로 변환

In [28]:
# Key는 문자열 칼럼명으로 매핑, Value는 리스트 형(또는 ndarray) 칼럼 데이터로 매핑
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame : \n', df_dict)

딕셔너리로 만든 DataFrame : 
    col1  col2  col3
0     1     2     3
1    11    22    33


**DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기**

In [30]:
# DataFrame을 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입 : ', type(array3),'\n', 'df_dict.values shape : ', array3.shape)
print(array3)

df_dict.values 타입 :  <class 'numpy.ndarray'> 
 df_dict.values shape :  (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [35]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입 :', type(list3))
print(list3)

df_dict.values.tolist() 타입 : <class 'list'>
[[1, 2, 3], [11, 22, 33]]


In [37]:
# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list') # 딕셔너리의 값이 리스트형으로 반환
print('\n df_dict.to_dict() 타입 : ', type(dict3))
print(dict3)


 df_dict.to_dict() 타입 :  <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


### DataFrame의 칼럼 데이터 세트 생성과 수정
- 인덱싱의 형태로 칼럼 정의하고(Series) 데이터 지정

In [38]:
# 새 칼럼 추가 (상수값 0 일괄 할당)
titanic_df['Age_0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [39]:
# 기존 칼럼 가공하여 추가
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_no'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_no
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [40]:
# 기존 칼럼 업데이트
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_no
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


### DataFrame 데이터 삭제

- drop() 메서드 이용
- DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
- 가장 중요한 파라미터는 labels, axis, inplace -> axis는 행/열 방향(0 = row, 1 = column)

In [41]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_no
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [46]:
# inplace parameter
titanic_df
# 원본 DF에 Age_0 칼럼이 그대로 남아있다.
titanic_df.drop('Age_0', axis=1, inplace=True)
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_no
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,360.0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,450.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,450.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,370.0,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,290.0,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,,4
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,360.0,1


In [48]:
# 여러 개 칼럼 삭제
drop_result = titanic_df.drop(['Age_by_10', 'Family_no'], axis=1, inplace=True)
print('inplace=True로 drop 후 반환된 값 : ', drop_result)
titanic_df.head(3)

inplace=True로 drop 후 반환된 값 :  None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


- drop 시 inplace=True로 설정하면 dataframe.drop()의 반환 값은 None이 된다. 따라서, titanic_df = titanic_df.drop(inplace=True)와 같이 다시 자신의 DataFrame 객체로 할당하면 안 된다. 다른 이름의 새 변수를 만들거나, 아예 변수 지정 없이 사용한다.

In [49]:
# axis = 0
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15) # 출력 화면 설정

print('###### before axis 0 drop ######')
print(titanic_df.head(3))

titanic_df.drop([0, 1, 2], axis=0, inplace=True)
print('###### after axis 0 drop ######')
print(titanic_df.head(3))

###### before axis 0 drop ######
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
###### after axis 0 drop ######
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


### Index 객체
- RDBMS의 PK와 유사하게 DF, Series의 레코드를 고유하게 식별하는 객체
- DataFrame.index 또는 Series.index

In [50]:
# 원본 파일 다시 로딩
titanic_df = pd.read_csv('C:/DATA_WORKS/PYTHON_WORKS/data/titanic_train.csv')
# Index 객체 추출
indexes = titanic_df.index
print(indexes)
# Index 객체를 실제 값 array로 변환
print('Index 객체 array값 : \n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값 : 
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 2