## 넘파이


### Numpy ndarray 개요

In [2]:
import numpy as np

- 넘파이 기반 데이터 타입 : ndarray (다차원 배열 생성 및 연산 수행 기능)

- 넘파이 **array()** 함수 : 파이썬의 리스트와 같은 다양한 인자 입력받아 ndarray로 변환하는 기능

- ndarray의 **shape** 변수는 ndarray의 크기, 즉 행과 열의 수를 튜플 형태로 가짐 ⇒ **ndarray 배열의 차원 파악 가능**

In [None]:
array1 = np.array([1,2,3])
print('array1 type:',type(array1))              # 데이터 타입 : ndarray
print('array1 array 형태:',array1.shape)        # shape : (3,) → 1차원 array, 3개의 데이터 가짐


array2 = np.array([[1,2,3],
                  [2,3,4]])
print('array2 type:',type(array2))              # 데이터 타입 : ndarray
print('array2 array 형태:',array2.shape)        # shape : (2,3) → 2차원 array, row 2개 * column 3개 = 6개의 데이터 가짐

array3 = np.array([[1,2,3]])                    
print('array3 type:',type(array3))              # 데이터 타입 : ndarray
print('array3 array 형태:',array3.shape)        # shape : (1,3) → 2차원 array, row 1개 * column 3개 = 3개의 데이터 가짐

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)


In [None]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim,array2.ndim,array3.ndim))       # ndim : 차원 파악

array1: 1차원, array2: 2차원, array3:  2차원


- array3은 array1과 동일한 데이터 건수를 가지지만 **차원이 다름** 
- 리스트 [ ]는 1차원, 리스트의 리스트 [[ ]]는 2차원 (array1은 1차원, array3은 2차원)



#### Example 1


In [None]:
array4 = np.array([[1,2,3,4,5,6],[2,3,4,5,6,7],[3,4,5,6,7,8]])
print('array1 type:',type(array4))                                      # 데이터 타입 : ndarray
print('array1 array 형태:',array4.shape)                                # shape : (3,6) → 2차원 array, row 3개 * column 6개 = 18개의 데이터 가짐

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3, 6)


In [None]:
print('array4: {:0}차원'.format(array4.ndim))                           # ndim : 차원 파악

array4: 2차원


### ndarray의 데이터 타입

- ndarray **내의** 데이터 타입은 같은 데이터 타입만 가능 (Ex. 한 개의 ndarray 객체에 int와 float가 함께 있을 수 없음)

- ndarray **자체의** 데이터 타입 : type(array)
- ndarray **내의** 데이터 타입 : array.dtype

In [None]:
list1 = [1,2,3]                         # list1 내의 값 : int
print(type(list1))                      # list1의 데이터 타입 : list
array1 = np.array(list1)                
print(type(array1))                     # array1의 데이터 타입 : ndarray
print(array1, array1.dtype)             # array1 내의 데이터 타입 : int

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


- ndarray는 데이터값이 모두 같은 데이터 타입이어야 하므로 서로 다른 데이터 타입이 섞여 있을 경우 데이터 타입이 **더 큰 데이터 타입으로 변환되어야함.**

In [None]:
list2 = [1, 2, 'test']                  # list2 내의 값 : int & 문자열
array2 = np.array(list2)                
print(array2, array2.dtype)             # array2 내의 데이터 타입 : 문자열 (int < 문자열이므로 int가 문자열로 변환됨)

list3 = [1, 2, 3.0]                     # list3 내의 값 : int & float
array3 = np.array(list3)                
print(array3, array3.dtype)             # list3 내의 데이터 타입 : float (int < float 이므로 int가 float으로 변환됨)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


#### Example 2

In [None]:
list4 = [100,200,'가나다',300,400.5]            # list4 내의 값 : int & float & 문자열
print(type(list4))                              # list4의 데이터 타입 : list
array4 = np.array(list4)                
print(type(array4))                             # array1의 데이터 타입 : ndarray
print(array4, array4.dtype)                     # array1 내의 데이터 타입 : 문자열

<class 'list'>
<class 'numpy.ndarray'>
['100' '200' '가나다' '300' '400.5'] <U32


- **astype() 메서드** : ndarray 내 데이터값의 타입 변경 (메모리를 절약하기 위해 작은 데이터 타입으로 변경할 때 사용)


In [None]:
array_int = np.array([1, 2, 3])                     # 데이터 값 : int
array_float = array_int.astype('float64')           # 데이터 값 : int → float
print(array_float, array_float.dtype)               

array_int1= array_float.astype('int32')             # 데이터 값 : float → int
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])            # 데이터 값 : float
array_int2= array_float1.astype('int32')            # 데이터 값 : float → int
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


- float를 int형으로 변경할 때 소수점 이하는 모두 사라짐

#### Example 3

In [None]:
array_string = np.array(['1','2','3'])                                                          # 데이터 값 : 문자열
array_int = array_string.astype('int32')                                                        # 데이터 값 : 문자열 → int
print('array_string :', array_string)
print('array_int : {0}, array_int의 데이터 값 : {1}'.format(array_int, array_int.dtype))

array_string : ['1' '2' '3']
array_int : [1 2 3], array_int의 데이터 값 : int32


#### Example 4

In [None]:
array_string = np.array(['1','2','3.5'])                                                        # 데이터 값 : 문자열
array_int = array_string.astype('int32')                                                        # 데이터 값 : 문자열 → int
print('array_string :',array_string)
print('array_int : {0}, array_int의 데이터 값 : {1}'.format(array_int, array_int.dtype))

ValueError: ignored

- 문자열에서 int로 곧바로 변경되지 않는다.
- 이 경우에는 3.5가 int가 아닌 float이기 때문에 오류가 발생하는데 먼저 문자열을 float으로 변경한 후, 다시 float에서 int로 변경하면 된다.

In [None]:
array_string = np.array(['1','2','3.5'])                                                        # 데이터 값 : 문자열
array_float = array_string.astype('float64')                                                    # 데이터 값 : 문자열 → float
array_int = array_float.astype('int32')                                                         # 데이터 값 : float → int

print('array_string :',array_string)
print('array_float : {0}, array_float의 데이터 값 : {1}'.format(array_float, array_float.dtype))
print('array_int : {0}, array_int의 데이터 값 : {1}'.format(array_int, array_int.dtype))

array_string : ['1' '2' '3.5']
array_float : [1.  2.  3.5], array_float의 데이터 값 : float64
array_int : [1 2 3], array_int의 데이터 값 : int32


### ndarray를 편리하게 생성하기 - arange, zeros, ones

- 주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우 arrange(), zeros(), ones()를 이용


- **arange()** : array를 range()로 표현   
(0부터 함수 인자값 - 1까지의 값을 순차적으로 ndarray의 데이터값으로 변환)  
(start값도 부여해 0이 아닌 다른 값부터 시작한 연속 값을 부여 가능)

In [None]:
sequence_array = np.arange(10)                              # 0부터 함수 인자값 -1까지의 값을 순차적으로 데이터 값으로 가지므로 0 ~ 9를 순차적으로 데이터값으로 가짐
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


#### Example 5

In [None]:
sequence_array = np.arange(100,102.5)                              # 100부터 102.5까지의 값을 데이터 값으로 가져야 하는데, 이때 stop값이 102.5로 float이므로 데이터 타입은 float.  
print(sequence_array)                                              # 또한 start값인 100부터 stop 값인 102.5보다 작은 정수인 100, 101, 102를 데이터 값으로 가진다.
print(sequence_array.dtype, sequence_array.shape)                  # shape : (3,) → 1차원 array, 3개의 데이터 가짐

[100. 101. 102.]
float64 (3,)


- **zeros()** : 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운 해당 shape를 가진 ndarray를 반환
- **ones()** : 튜플 형태의 shape 값을 입력하면 모든 값을 1로 채운 해당 shape를 가진 ndarray를 반환
- 여기서 함수 인자로 dtype을 정해주지 않으면 default로 float64형의 데이터로 ndarray를 채움

In [None]:
zero_array = np.zeros((3,2),dtype='int32')                        # row 3개, column 2개인 ndarray에 데이터 타입이 int32인 0으로 모든 값을 채움
print(zero_array)
print(zero_array.dtype, zero_array.shape)                         # ndarray 내의 데이터 타입 : int / shape : (3,2) → 2차원 array, 6개의 데이터 가짐

one_array = np.ones((3,2))                                        # row 3개, column 2개인 ndarray에 default로 데이터 타입이 float64인 1로 모든 값을 채움
print(one_array)
print(one_array.dtype, one_array.shape)                           # ndarray 내의 데이터 타입 : float / shape : (3,2) → 2차원 array, 6개의 데이터 가짐

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### ndarray의 차원과 크기를 변경하는 reshape()

- **reshape()** : ndarray를 특정 차원 및 크기로 변환

In [None]:
array1 = np.arange(10)                  # 0 ~ 9까지의 1차원 ndarray 생성 
print('array1:\n', array1)

array2 = array1.reshape(2,5)            # array1을 2 row, 5 column인 2차원 ndarray로 변환
print('array2:\n',array2)

array3 = array1.reshape(5,2)            # array1을 5 row, 2 column인 2차원 ndarray로 변환
print('array3:\n',array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


- reshape()는 지정된 사이즈로 변경이 불가능하면 오류 발생

In [None]:
array1.reshape(4,3)     # (10,) 데이터를 (4,3) shape 형태로 변경 불가능하므로 오류 발생

ValueError: ignored

- -1을 인자로 사용하면 원래 ndarray와 호환되는 새로운 shape로 변환해줌.

In [None]:
array1 = np.arange(10)                      # 0 ~ 9까지의 1차원 ndarray 생성 
print(array1)

array2 = array1.reshape(-1,5)               # array1을 -1 row, 5 column인 2차원 ndarray로 변환해야 하는데, 이때 -1 row는 10개의 1차원 데이터와 호환될 수 있는 고정된 5 column에 맞는 2 row로 변환됨.
print('array2 shape:',array2.shape)

array3 = array1.reshape(5,-1)               # array1을 5 row, -1 column인 2차원 ndarray로 변환해야 하는데, 이때 -1 column은 10개의 1차원 데이터와 호환될 수 있는 고정된 5 row에 맞는 2 column으로 변환됨
print('array3 shape:',array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


- 하지만 -1을 사용하더라도 호환될 수 없는 형태는 반환할 수 없음.

In [None]:
array1 = np.arange(10)                  
array4 = array1.reshape(-1,4)           # (10,) 데이터를 고정된 4개의 컬럼을 가진 로우로는 변경 불가능하므로 오류 발생

ValueError: ignored

- -1인자는 reshape(-1,1)와 같은 형태로 자주 사용됨.
- reshape(-1,1)은 어떤 ndarray가 오더라도 2차원이고 여러 개의 로우를 가지되 반드시 1개의 컬럼을 가진 ndarray로 변환됨.  
(여러 개의 넘파이 ndarray는 stack이나 concat으로 결합할 때 각각의 ndarray의 형태를 통일함)  
(ndarray는 tolist() 메서드를 이용해 리스트 자료형으로 변환 가능)

In [None]:
array1 = np.arange(8)                           # 0 ~ 8까지의 1차원 ndarray 생성 
array3d = array1.reshape((2,2,2))               # (2,2,2)인 3차원 ndarray로 변환
print('array3d:\n',array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)                  
print('array5:\n',array5.tolist())              
print('array5 shape:',array5.shape)             # (2,2,2)인 3차원 ndarray를 (8,1)인 2차원 ndarray로 변환됨

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n',array6.tolist())
print('array6 shape:',array6.shape)             # (8,)인 1차원 ndarray를 (8,1)인 2차원 ndarray로 변환 

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


### 넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing)



#### **단일값 추출** (특정한 데이터만 추출) : 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환됨

- 1개의 데이터값을 선택하려면 ndarray 객체에 해당하는 위치의 인덱스 값을 [ ] 안에 입력


In [None]:
# 1에서 부터 9 까지의 1차원 ndarray 생성 
array1 = np.arange(start=1, stop=10)
print('array1:',array1)
# index는 0 부터 시작하므로 array1[2]는 3번째 index 위치의 데이터 값을 의미
value = array1[2]           # 3번째 index 위치의 데이터 값을 value에 넣음
print('value:',value)
print(type(value))          # array1[2]의 타입은 더이상 ndarray 타입이 아니고 ndarray 내의 데이터값을 의미

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


- 인덱스에 마이너스 기호를 이용하면 맨 뒤에서부터 데이터를 추출 가능.
- 인덱스 -1은 맨 뒤의 데이터 값 / 인덱스 -2는 맨 뒤에서 두 번째에 있는 데이터 값

In [None]:
print('맨 뒤의 값:',array1[-1], ', 맨 뒤에서 두번째 값:',array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두번째 값: 8


- 단일 인덱스 이용해 ndarray 내의 데이터값 수정 가능

In [None]:
array1[0] = 9                   # array1[0]을 1 → 9로 수정
array1[8] = 0                   # array1[8]을 9 → 0으로 수정
print('array1:',array1)

array1: [9 2 3 4 5 6 7 8 0]


- 다차원 ndarray에서 단일 값 추출 
- 사실 ndarray에서는 row, column 형식이 아닌 axis 0(row 방향 축), axis 1(column 방향 축)로 사용해야 함  
(3차원이면 axis 0, axis 1, axis 2로 3개의 축을 가짐)

In [None]:
array1d = np.arange(start=1, stop=10)                           # 1에서 부터 9 까지의 1차원 ndarray 생성
array2d = array1d.reshape(3,3)                                  # 1차원 ndarray를 2차원의 3x3 ndarray로 변환
print(array2d)                      

# index는 0 부터 시작하므로 array2d[0,0]는 1 row, 1 column index 위치의 데이터 값을 의미
print('(row=0,col=0) index 가리키는 값:', array2d[0,0] )        # 1 row(= axis 0), 1 column(= axis 1) index 위치의 데이터 값 = 1
print('(row=0,col=1) index 가리키는 값:', array2d[0,1] )        # 1 row(= axis 0), 2 column(= axis 1) index 위치의 데이터 값 = 2
print('(row=1,col=0) index 가리키는 값:', array2d[1,0] )        # 2 row(= axis 0), 1 column(= axis 1) index 위치의 데이터 값 = 4
print('(row=2,col=2) index 가리키는 값:', array2d[2,2] )        # 3 row(= axis 0), 3 column(= axis 1) index 위치의 데이터 값 = 9

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0,col=0) index 가리키는 값: 1
(row=0,col=1) index 가리키는 값: 2
(row=1,col=0) index 가리키는 값: 4
(row=2,col=2) index 가리키는 값: 9


#### **슬라이싱(Slicing)** : 연속된 인덱스상의 ndarray를 추출하는 방식

- ':' 기호 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스 -1 위치에 있는 데이터의 ndarray를 반환

In [None]:
array1 = np.arange(start=1, stop=10)            # 1에서 부터 9까지의 1차원 ndarray 생성 
array3 = array1[0:3]                            # 인덱스 0에서 인덱스 2의 위치에 있는 데이터의 ndarrray인 [1,2,3] 반환
print(array3)
print(type(array3))                             

[1 2 3]
<class 'numpy.ndarray'>


- 슬라이싱 기호인 ':' 사이의 시작, 종료 인덱스는 생략이 가능

In [None]:
array1 = np.arange(start=1, stop=10)            # 1에서 부터 9까지의 1차원 ndarray 생성 
array4 = array1[:3]                             # ':' 기호 앞에 시작 인덱스를 생략하면 자동으로 맨 처음 인덱스인 0으로 간주
print(array4)

array5 = array1[3:]                             # ':' 기호 뒤에 종료 인덱스를 생략하면 자동으로 맨 마지막 인덱스로 간주
print(array5)

array6 = array1[:]                              # ':' 기호 앞/뒤에 시작/종료 인덱스를 생략하면 자동으로 맨 처음/맨 마지막 인덱스로 간주
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


- 다차원 ndarray에서의 슬라이싱 : 2차원 ndarray에서의 슬라이싱도 1차원 ndarray에서의 슬라이싱과 유사  
(단지, 콤마(,)로 로우와 컬럼 인덱스 지칭하는 부분만 다름)
- array2d[:2,0]와 같이 로우나 컬럼 축 한 쪽에만 슬라이싱을 적용하고, 다른 쪽 축에는 단일 값 인덱스를 적용 가능
- array2d[0]과 같이 2차원에서 뒤에 오는 인덱스를 없애면 axis 0의 첫 번째 로우 ndarray 반환 (반환되는 ndarray는 (차원값 - 1)차원)

In [None]:
array1d = np.arange(start=1, stop=10)                   # 1에서 부터 9까지의 1차원 ndarray 생성 
array2d = array1d.reshape(3,3)                          # 1차원 ndarray를 2차원의 3x3 ndarray로 변환
print('array2d:\n',array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])        # 1번째부터 2번째까지의 axis 0, 1번째부터 2번째까지의 axis 1의 겹치는 index 위치의 데이터 값 = [[1, 2],[4, 5]]
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])        # 2번째부터 3번째까지의 axis 0, 1번째부터 3번째까지의 axis 1의 겹치는 index 위치의 데이터 값 = [[4, 5, 6],[7, 8, 9]]
print('array2d[1:3, :] \n', array2d[1:3, :])            # 2번째부터 3번째까지의 axis 0, 축 한쪽만 슬라이싱한 데이터 값 = [[4, 5, 6],[7, 8, 9]]
print('array2d[:, :] \n', array2d[:, :])                # axis 0, axis 1 축 양쪽으로 슬라이싱한 데이터 값 = [[1, 2, 3],[4, 5, 6],[7, 8, 9]]
print('array2d[:2, 1:] \n', array2d[:2, 1:])            # 1번째부터 2번째까지의 axis 0, 2번째부터 3번째까지의 axis 1의 겹치는 데이터 값 = [[2, 3],[5, 6]]
print('array2d[:2, 0] \n', array2d[:2, 0])              # 1번째부터 2번째까지의 axis 0, 1번째 axis 1 축의 겹치는 데이터 값 = [1, 4]

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


In [None]:
print(array2d[0])                                                                           # axis 0의 첫 번째 로우 ndarray인 [1, 2, 3] 반환
print(array2d[1])                                                                           # axis 0의 두 번째 로우 ndarray인 [4, 5, 6] 반환
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape )        # 2차원에서 뒤에 오는 인덱스를 없앴기 때문에 반환되는 ndarray는 1차원

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


#### **팬시 인덱싱(Fancy Indexing)** : 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당위치에 있는 데이터의 ndarray 반환


In [None]:
array1d = np.arange(start=1, stop=10)                       # 1에서 부터 9까지의 1차원 ndarray 생성 
array2d = array1d.reshape(3,3)                              # 1차원 ndarray를 2차원의 3x3 ndarray로 변환

array3 = array2d[[0,1], 2]                                  # array2d[[0,1],2] 로우 축에 팬시 인덱싱인 [0,1]을, 컬럼 축에는 단일값 인덱싱 2를 적용
print('array2d[[0,1], 2] => ',array3.tolist())              # 따라서 (row, col) 인덱스가 (0,2), (1,2)로 적용돼 [3,6] 반환

array4 = array2d[[0,1], 0:2]                                # array2d[[0,1],0:2]는 ((0,0),(0,1)), ((1,0),(1,1))로 적용돼 [[1, 2],[4, 5]] 반환
print('array2d[[0,1], 0:2] => ',array4.tolist())

array5 = array2d[[0,1]]                                     # array2d[[0,1]]는 ((0,:),(1,:)) 인덱싱이 적용돼 [[1, 2, 3],[4, 5, 6]] 반환
print('array2d[[0,1]] => ',array5.tolist())

array2d[[0,1], 2] =>  [3, 6]
array2d[[0,1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0,1]] =>  [[1, 2, 3], [4, 5, 6]]


#### **불린 인덱싱(Boolean Indexing)** : 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환

- 조건 필터링과 검색을 동시에 할 수 있기 때문에 매우 자주 사용되는 인덱싱 방법

In [None]:
array1d = np.arange(start=1, stop=10)                       # 1에서 부터 9까지의 1차원 ndarray 생성 
# [ ] 안에 array1d > 5 Boolean indexing을 적용  
array3 = array1d[array1d > 5]                               # 1차원 ndarray [1,2,3,4,5,6,7,8,9]에서 데이터값이 5보다 큰 데이터만 추출
print('array1d > 5 불린 인덱싱 결과 값 :', array3)

array1d > 5 불린 인덱싱 결과 값 : [6 7 8 9]


#### <불린 인덱싱이 동작하는 단계>

1. ndarray의 필터링 조건을 [ ] 안에 기재

In [None]:
array1d > 5             # 1차원 ndarray [1,2,3,4,5,6,7,8,9]에서 데이터값이 5보다 큰 데이터인지 검정

array([False, False, False, False, False,  True,  True,  True,  True])

2. False 값은 무시하고 True 값에 해당하는 인덱스 값만 저장  
(유의사항 : True 값 자체인 1을 저장하는 것이 아닌 **True 값을 가진 인덱스를 저장**한다는 뜻)

In [None]:
boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])     # 5보다 큰 데이터가 있는 위치는 True 값, 그렇지 않은 경우는 False 값 반환
array3 = array1d[boolean_indexes]                                                               # 조건으로 반환된 이 ndarray 객체를 인덱싱을 지정하는 [ ] 내에 입력하면 False값은 무시하고 True값이 있는 위치 인덱스 값으로 자동 변환해 해당 인덱스 위치의 데이터 반환
print('불린 인덱스로 필터링 결과 :', array3)

불린 인덱스로 필터링 결과 : [6 7 8 9]


3. 저장된 인덱스 데이터 세트로 ndarray 조회

In [None]:
indexes = np.array([5,6,7,8])
array4 = array1d[ indexes ]                             # 직접 인덱스 집합을 만들어 대입한 것과 불린 ndarray를 만들고 이를 array1d[] 내에 인덱스 입력한 것이 동일
print('일반 인덱스로 필터링 결과 :',array4)

일반 인덱스로 필터링 결과 : [6 7 8 9]


### 행렬의 정렬 – sort( )와 argsort( )



#### 행렬 정렬  


- **np.sort()** : 넘파이에서 sort()를 호출하는 방식 → 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환
- **ndarray.sort()** : 행렬 자체에서 sort()를 호출하는 방식 → 원 행렬 자체를 정렬한 형태로 변환하며 반환값은 None


In [None]:
org_array = np.array([ 3, 1, 9, 5]) 
print('원본 행렬:', org_array)
# np.sort( )로 정렬 
sort_array1 = np.sort(org_array)                                    # 원본 행렬 [3 1 9 5]에 대해서 np.sort()는 원본 행렬을 변경하지 않고 정렬된 형태로 반환
print ('np.sort( ) 호출 후 반환된 정렬 행렬:', sort_array1) 
print('np.sort( ) 호출 후 원본 행렬:', org_array)
# ndarray.sort( )로 정렬
sort_array2 = org_array.sort()
print('org_array.sort( ) 호출 후 반환된 행렬:', sort_array2)        # ndarray.sort()는 반환값을 None,
print('org_array.sort( ) 호출 후 원본 행렬:', org_array)            # 원본 행렬 자체를 정렬한 값으로 변환

원본 행렬: [3 1 9 5]
np.sort( ) 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort( ) 호출 후 원본 행렬: [3 1 9 5]
org_array.sort( ) 호출 후 반환된 행렬: None
org_array.sort( ) 호출 후 원본 행렬: [1 3 5 9]


- 둘 다 기본적으로 **오름차순**으로 행렬 내 원소를 정렬
- 내림차순으로 정렬하기 위해서는 [::-1]을 적용

In [None]:
sort_array1_desc = np.sort(org_array)[::-1]             # np.sort()[::-1]을 사용해 내림차순으로 정렬
print ('내림차순으로 정렬:', sort_array1_desc) 

내림차순으로 정렬: [9 5 3 1]


행렬이 2차원 이상인 경우, axis 축 값 설정을 통해 로우 방향 또는 컬럼 방향으로 정렬을 수행 가능

In [None]:
array2d = np.array([[8, 12], 
                   [7, 1 ]])

sort_array2d_axis0 = np.sort(array2d, axis=0)               # axis 0 방향 (row 방향)으로 정렬
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)               # axis 1 방향 (column 방향)으로 정렬
print('컬럼 방향으로 정렬:\n', sort_array2d_axis1)

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
컬럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


#### 정렬 행렬의 인덱스 반환하기

- **np.argsort()** : 원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 인덱스를 필요로 할때 이용  
(정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환함)

In [None]:
org_array = np.array([ 3, 1, 9, 5])                                 # 원본 행렬 [3, 1, 9, 5]
sort_indices = np.argsort(org_array)                                # 정렬된 행렬의 원본 행렬 인덱스 추출
print(type(sort_indices))                                           # 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환함
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


- 내림차순으로 정렬 시에 원본 행렬의 인덱스 구하기 위해선 **[::-1]** 적용

In [None]:
org_array = np.array([ 3, 1, 9, 5])                                         # 원본 행렬 [3, 1, 9, 5]
sort_indices_desc = np.argsort(org_array)[::-1]                             # 내림차순으로 정렬된 행렬의 원본 행렬 인덱스 추출
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


- 넘파이의 ndarray는 메타 데이터를 가질 수 없음 → 실제값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 각각 가져야 함.

In [None]:
import numpy as np

# 2개의 ndarray 필요 (학생의 이름, 시험 성적)
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])                      # 학생별 시험 성적을 데이터로 표현하기 위해 학생의 이름을 ndarray로 가짐
score_array= np.array([78, 95, 84, 98, 88])                                             # 학생별 시험 성적을 데이터로 표현하기 위해 시험 성적을 ndarray로 가짐

sort_indices_asc = np.argsort(score_array)                                              # 시험 성적 순으로 학생의 이름 출력하고자 np.argsort() 이용해 인덱스 반환
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])        # 반환된 인덱스를 name_array에 팬시 인덱스로 적용해 추출할 수 있음

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 선형대수 연산 – 행렬 내적과 전치 행렬 구하기


#### 행렬 내적 (행렬 곱)

- **np.dot()** : 두 행렬 A와 B의 내적  
(왼쪽 행렬의 로우와 오른쪽 행렬의 컬럼의 원소들을 순차적으로 곱한 뒤 그 결과를 모두 더한 값)
- 행렬 내적의 특성으로 왼쪽 행렬의 열 개수와 오른쪽 행렬의 행 개수가 동일해야 내적 연산이 가능.

In [None]:
A = np.array([[1, 2, 3],                    # 2 row, 3 column인 행렬 생성
              [4, 5, 6]])                   
B = np.array([[7, 8],                       # 3 row, 2 column인 행렬 생성
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


#### 전치 행렬


- 전치 행렬(A^T) : 원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬
- **transpose()** : 전치 행렬 구할 때 사용

In [None]:
A = np.array([[1, 2],                       # 2 row, 2 column인 행렬 생성
              [3, 4]])
transpose_mat = np.transpose(A)             # 원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬로 변환
print('A의 전치 행렬:\n', transpose_mat)    

A의 전치 행렬:
 [[1 3]
 [2 4]]


## 데이터 핸들링 - 판다스

- **판다스** : 대부분의 데이터 세트는 *2차원* 데이터 (즉, 행(Row) x 열(Column)로 구성됨)  
(2차원데이터가 인기있는 이유 : 인간이 가장 이해하기 쉬운 데이터구조이면서 효과적으로 데이터를 담을 수 있는 구조)  
 많은부분 넘파이 기반 작성됐지만 *넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링 가능하게 함*  
(파이썬의 리스트, 컬렉션, 넘파이 등의 내부데이터뿐만 아니라 CSV 등의 파일을 쉽게 데이터프레임으로 변경해 데이터 가공/분석 편리하게 수행하게끔 함)

- **DataFrame** : 판다스의 핵심 객체로 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체
- **Index** : 개별 데이터를 고유하게 식별하는 Key 값
- Series 와 DataFrame **공통점** : 둘 다 **Index를 Key 값으로 가짐**
- Series 와 DataFrame **차이점** : Series는 컬럼이 하나 뿐인 데이터 구조체, DataFrame은 컬럼이 여러 개인 데이터 구조체  
(**DataFrame = 여러개의 Series**)

### 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

In [2]:
import pandas as pd

In [3]:
# 구글 드라이브와 연결
from google.colab import auth
auth.authenticate_user()

from google.colab import drive
drive.mount('/content/drive')

MessageError: ignored

- **read_csv()** : CSV 뿐만 아니라 어떤 필드 구분 문자 기반의 파일 포맷도 DataFrame으로 변환이 가능  
(seq 인자 생략시, 자동으로 콤마(,)로 할당)  
(가장 중요한 인자는 filepath / 나머지 인자는 지정하지 않으면 디폴트 값으로 할당됨)
- read_table() : CSV(컬럼을 탭'\t'으로 구분한 파일 포맷) 파일 포맷 변환을 위한 API
- read_fwf : 고정 길이 기반의 칼럼 포맷을 DataFrame으로 로딩하기 위한 API

In [4]:
titanic_df = pd.read_csv('/content/drive/My Drive/titanic_train.csv')       # 구글 드라이브의 titanic_train.csv 파일 불러오기
print('titanic 변수 type:',type(titanic_df))                                # read csv (데이터 파일 경로명)을 입력해 데이터를 DataFrame으로 로딩 가능
titanic_df                                                                  # 맨 마지막에 titanic_df를 호출하면 DataFrame의 모든 데이터를 출력함

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


- **DataFrame.head()** : DataFrame의 맨 앞에 있는 N개의 row 반환 

In [5]:
titanic_df.head(3)      # 맨 앞 3개 row 반환 (Default : 5개)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


DataFrame 객체의 **shape 변수** : DataFrame의 행과 열 크기를 알아보는 가장 좋은 방법  
(shape는 DataFrame의 행과 열을 튜플 형태로 반환)

In [7]:
print('DataFrame 크기: ', titanic_df.shape)         # 생성된 DataFrame 객체인 titanic_df는 891개의 row와 12개의 column

DataFrame 크기:  (891, 12)


- 데이터뿐만 아니라 칼럼의 타입. Null 데이터 개수, 데이터 분포도 등의 메타데이터 등 도 조회 가능
- **info()** 메서드 : 총 데이터 건수와 데이터 타입, Null 건수 파악 가능

In [8]:
titanic_df.info()                               # RangeIndex는 RangeIndex는 DataFrame index의 범위를 나타내므로 전체 row 수를 알 수 있음. 전체 데이터는 891개 row, 12개 column
                                                # 컬럼별 데이터 타입 (Ex. Name 컬럼의 데이터 타입 = object(문자열))
                                                # 몇 개의 데이터가 non-null(Null 값이 아님)인지 나타냄
                                                # 전체 12개의 칼럼들의 타입을 요약. (float64 2개, int64 5개, object 5개)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- **describe()** 메서드 : 컬럼별 숫자형 데이터값의 n-percentile 분포도, 평균값, 최댓값, 최솟값  
(오직 숫자형 (int, float 등) 컬럼의 분포도만 조사하며 자동으로 object 타입의 컬럼은 출력에서 제외)  
숫자형 컬럼에 대한 개략적인 수준의 분포를 확인할 수 있어 유용

In [9]:
titanic_df.describe()                   # count Not Null인 데이터 건수, mean은 전체 데이터의 평균값, std는 표준편차, min은 최솟값, max는 최댓값, 25%는 25 percentile 값 50%는 50 percentile 값, 75%는 75 percentile 값을 의미

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


- Survived의 경우 min 0, 25~75%도 0, max도 1이므로 0과 1로 이뤄진 숫자형 카테고리 컬럼일 것.   
- Pclass의 경우도 min 1, 25%~75%가 2와 3, max가 3이므로 1, 2,
3으로 이뤄진 숫자형 카테고리 컬럼일 것.

- **DataFrame의 [ ] 연산자** 내부에 컬럼명을 입력하면, Series 형태로 특정 컬럼 데이터 세트가 반환됨
- **value_counts()** 메서드 : 지정된 컬럼의 데이터값 건수를 반환

In [6]:
value_counts = titanic_df['Pclass'].value_counts()          # value_counts( )의 반환 결과 = Pclass값 3이 491개, 1이 216개, 2가 184개 (많은 건수 순서로 정렬되어 값을 반환)
print(value_counts)                                         

3    491
1    216
2    184
Name: Pclass, dtype: int64


In [11]:
titanic_pclass = titanic_df['Pclass']   # DataFrame의 [ ] 연산자 내부에 칼럼명을 입력하면 해당 칼럼에 해당하는 Series 객체를 반환
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [12]:
titanic_pclass.head()       # 맨 앞 5개 row 반환
                            # 맨 왼쪽에 0부터 시작하는 순차 값 : DataFrame의 인덱스와 동일한 인덱스
                            # 오른쪽 : Series의 해당 칼럼의 데이터값

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

- 인덱스는 단순히 순차 값과 같은 의미 없는 식별자만 할당하는 것이 아니라 **고유성이 보장된다면 의미 있는 데이터값 할당도 가능**


In [13]:
value_counts = titanic_df['Pclass'].value_counts()          # value_count()가 반환하는 데이터 타입 : Series 객체
print(type(value_counts))                                   # 맨 왼쪽 : 인덱스값, 오른쪽 : 데이터값
print(value_counts)

<class 'pandas.core.series.Series'>
3    491
1    216
2    184
Name: Pclass, dtype: int64


- **value_counts( )** : Null 값을 포함하여 개별 데이터 값의 건수를 계산할지를 dropna 인자로 판단
- **dropna** : 기본값은 True이며 Null 값을 무시하고 개별 데이터 값의 건수를 계산

In [8]:
print('titanic_df 데이터 건수:', titanic_df.shape[0])                                   # 타이타닉 데이터 세트의 전체 건수는 891건 / Embarked 칼럼은 전체 891건 중에 2건의 데이터가 Null
print('기본 설정인 dropna=True로 value_counts()')                                   
# value_counts()는 디폴트로 dropna=True이므로 value_counts(dropna=True)와 동일.
print(titanic_df['Embarked'].value_counts())                                            # 'S', 'C', 'Q' 값으로 각각 644, 168, 77을 반환, 전체를 합하면 889(644+168+77)가 되기에 2건의 Null 데이터를 제외하였음을 알 수 있음
print(titanic_df['Embarked'].value_counts(dropna=False))                                # Null 값을 포함하여 value_counts()를 적용

titanic_df 데이터 건수: 891
기본 설정인 dropna=True로 value_counts()
S    644
C    168
Q     77
Name: Embarked, dtype: int64
S      644
C      168
Q       77
NaN      2
Name: Embarked, dtype: int64


#### DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

- 넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기  
: DataFrame으로 변환 시 컬럼명 지정 (지정하지 않으면 자동으로 컬럼명 할당)  
(2차원 이하의 데이터들만 DataFrame으로 변환 가능)

In [15]:
import numpy as np

col_name1=['col1']                                          # 1차원 데이터이므로 컬럼은 1개만 필요하며, 컬럼명을 'col1'으로 지정
list1 = [1, 2, 3]                                           # 1차원 형태의 리스트 생성
array1 = np.array(list1)                                    # 1차원 형태의 넘파이 ndarray 생성
print('array1 shape:', array1.shape )

# 1차원 형태의 데이터를 기반으로 DataFrame을 생성하므로 컬럼명이 한 개만 필요하다는 사실 주의

# 리스트를 이용해 DataFrame 생성.
df_list1 = pd.DataFrame(list1, columns=col_name1)           # 1차원 형태의 리스트를 DataFrame으로 변환
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
# 넘파이 ndarray를 이용해 DataFrame 생성.
df_array1 = pd.DataFrame(array1, columns=col_name1)         # 1차원 형태의 넘파이 ndarray를 DataFrame으로 변환
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [16]:
# 2차원 형태의 데이터를 기반으로 DataFrame 생성 
# 2행 3열 형태의 리스트와 ndarray를 기반으로 DataFrame을 생성하므로 3개의 칼럼명이 필요함.
col_name2=['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성한 뒤 이를 DataFrame으로 변환.
list2 = [[1, 2, 3],                                         # 2행 x 3열 형태의 리스트 생성
         [11, 12, 13]]                                      
array2 = np.array(list2)                                    # 2행 x 3열 형태의 ndarray 생성
print('array2 shape:', array2.shape )
df_list2 = pd.DataFrame(list2, columns=col_name2)           # 2행x3열 형태의 리스트를 DataFrame으로 변환
print('2차원 리스트로 만든 DataFrame:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)         # 2행x3열 형태의 ndarray를 DataFrame으로 변환
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

array2 shape: (2, 3)
2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


- 딕셔너리를 DataFrame으로 변환하기 : 딕셔너리의 키(Key)는 컬럼명, 딕셔너리의 값(Value)은 키에 해당하는 컬럼 데이터로 변환  
(키의 경우에는 문자열, 값의 경우에는 리스트(또는 ndarray) 형태로 딕셔너리를 구성)

In [17]:
# Key는 컬럼명으로 매핑, Value는 리스트 형(또는 ndarray) (= 각 Value는 각 컬럼 데이터로 매핑됐음)
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    22    33


- DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기  
: 많은 머신러닝 패키지가 기본 데이터 형으로 넘파이 ndarray를 사용하므로 데이터 핸들링은 DataFrame을 이용하더라도 다시 넘파이 ndarray로 변환하는 경우 빈번히 발생

In [18]:
# DataFrame을 ndarray로 변환
array3 = df_dict.values                                                                 # DataFrame 객체의 values를 이용해 DataFrame을 ndarray로 변환 가능
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [19]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()                                 # 리스트로의 변환은 values로 얻은 ndarray에 tolist()를 호출하는 것
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')                                 # 딕셔너리로의 변환은 DataFrame 객체의 to_dict() 메서드를 호출하는데, 인자로 'list'를 입력하면 딕셔너리 값이 리스트형으로 반환됨.
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


#### DataFrame의 컬럼 데이터 세트 생성과 수정

- DataFrame의 컬럼 데이터 세트 생성과 수정 : [ ] 연산자를 이용

In [20]:
titanic_df['Age_0']=0           # Titanic DataFrame의 새로운 칼럼 Age_0을 추가하고 일괄적으로 0 값을 할당
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [21]:
# 기존 칼럼 Series의 데이터를 이용해 새로운 칼럼 Series를 생성
titanic_df['Age_by_10'] = titanic_df['Age']*10  
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [22]:
# DataFrame 내의 기존 칼럼 값도 쉽게 일괄적으로 수정 가능
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100     # 수정을 원하는 컬럼 Series를 DataFrame[] 내에 컬럼명으로 입력한 뒤에 값을 할당
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


#### DataFrame 데이터 삭제


- **drop()** 메서드 : DataFrame에서 데이터의 삭제
- drop()  메서드의 원형 : DataFrame.drop(**labels=None**, **axis=0**, index=None, columns=None, level=None, **inplace=False**, errors='raise')
- **axis** :  DataFrame의 로우를 삭제할 때는 axis = 0, 칼럼을 삭제할 때는 axis = 1으로 설정.  
(주로 axis=1로 설정하고 드롭하나, 이상치 데이터를 삭제하는 경우에는 axis=0으로 설정)

In [23]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1 )         # 'Age_0' 컬럼을 삭제
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


- **inplace = False** : 원본 DataFrame은 유지하고 드롭된 DataFrame을 새롭게 객체 변수로 받고 싶다면 inplace=False로 설정  
(디폴트 값이 False임)
- **inplace = True** : 원본 DataFrame에 드롭된 결과를 적용할 경우
- 원본 DataFrame에서 드롭된 DataFrame을 다시 원본 DataFrame 객체 변수로 할당하면 원본 DataFrame에서 드롭된 결과를 적용할 경우와 같음  
(단, 기존 원본 DataFrame 객체 변수는 메모리에서 추후 제거됨).

In [25]:
titanic_df.head(3)          # 원본 DataFrame 데이터 그대로임

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


- **label** 파라미터 : 여러 개의 컬럼을 삭제하고 싶으면 리스트 형태로 삭제하고자 하는 컬럼명 입력

In [26]:
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)            # inplace = True로 원본 DataFrame에서 'Age_0', 'Age_by_10', 'Family_No' 삭제
print(' inplace=True 로 drop 후 반환된 값:',drop_result)                                            # drop() 시 inplace = True로 설정하면 반환 값이 None(아무 값도 아님)이 되므로 inplace = True로 설정한 채로 반환 값을 다시 자신의 DataFrame 객체로 할당하면 안 됨.
titanic_df.head(3)

 inplace=True 로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


-  axis=0으로 설정해 index 0, 1, 2(맨 앞 3개 데이터) 로우를 삭제

In [27]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))

titanic_df.drop([0,1,2], axis=0, inplace=True)          # 맨 앞 3개 데이터 로우 삭제

print('#### after axis 0 drop ####')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
#### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


#### Index 객체

- **Index** 객체 : DataFrame, Series의 레코드를 고유하게 식별하는 객체
- **DataFrame.index** 또는 **Series.index** 속성 : DataFrame, Series에서 Index 객체만 추출

In [29]:
# 원본 파일 재 로딩 
titanic_df = pd.read_csv('/content/drive/My Drive/titanic_train.csv')       # drop으로 원본 Titanic.DataFrame의 일부 데이터가 삭제되었으므로 다시 csv 파일에서 로딩 후 시행
# Index 객체 추출
indexes = titanic_df.index                                                  # 반환된 Index 객체의 실제 값 = 넘파이 1차원 ndarray
print(indexes)
# Index 객체를 실제 값 arrray로 변환 
print('Index 객체 array값:\n',indexes.values)                               #  Index 객체의 values 속성 = ndarray 값

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

In [30]:
print(type(indexes.values))                 # 반환된 Index 객체의 실제 값 = 1차원 array
print(indexes.values.shape)

# ndarray와 유사하게 단일값 반환 및 슬라이싱 가능
print(indexes[:5].values)                   # 처음부터 5번째까지의 Index 객체의 실제 값
print(indexes.values[:5])                   
print(indexes[6])                           # 7번째 index 위치의 데이터 값

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


- 하지만 한 번 만들어진 DataFrame 및 Series의 Index 객체는 함부로 변경할 수 없음

In [31]:
indexes[0] = 5          # 첫 번째 Index 객체의 값을 5로 변경하는 작업은 수행 불가능

TypeError: ignored

- Series 객체는 Index 객체를 포함하지만, Series 객체에 연산 함수를 적용할 때 Index는 연산에서 제외됨.
- **Index는 오직 식별용으로만** 사용됨.

In [11]:
series_fair = titanic_df['Fare']                            # titanic_df의 'Fare' 컬럼 선택
print('Fair Series max 값:', series_fair.max())             # Fair Series의 최댓값
print('Fair Series sum 값:', series_fair.sum())             # Fair Series의 합계
print('sum() Fair Series:', sum(series_fair))               # sum() 함수 이용한 Fair Series의 합계
print('Fair Series + 3:\n',(series_fair + 3).head(3) )      # Fair Series 객체에 3을 더한 값

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


- **reset_index()** 메서드 : 새롭게 인덱스를 연속 숫자 형으로 할당하며 기존 인덱스는 'index'라는 새로운 컬럼명으로 추가함
- Series에 reset_index()를 적용하면 Series가 아닌 DataFrame이 반환됨  
(기존 인덱스가 칼럼으로 추가돼 칼럼이 2개가 되므로 Series가 아닌 DataFrame이 반환됨)

In [33]:
titanic_reset_df = titanic_df.reset_index(inplace=False)        # reset_index()는 인덱스가 연속된 int 숫자형 데이터가 아닐 경우에 다시 이를 연속 int 숫자형 데이터로 만들 때 주로 사용
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [34]:
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입:',type(value_counts))

new_value_counts = value_counts.reset_index(inplace=False)          # Series에 reset_index()를 적용하면, 새롭게 연속 숫자형 인덱스가 만들어지고 기존 인덱스는 'index' 칼럼명으로 추가되면서 DataFrame으로 변환됨
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:',type(new_value_counts))

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
value_counts 객체 변수 타입: <class 'pandas.core.series.Series'>
### After reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


- reset_index()의 parameter 중 drop=True로 설정하면 기존 인덱스는 새로운 컬럼으로 추가되지 않고 삭제(drop)됨
- 새로운 컬럼이 추가되지 않으므로 **그대로 Series로 유지됨**

#### 데이터 셀렉션 및 필터링

#### DataFrame의 [ ] 연산자 : 컬럼만 지정할 수 있는 '컬럼 지정 연산자'

- DataFrame 바로 뒤의 [ ] 연산자는 넘파이의 [ ]나 Series의 [ ]와 다름.
- DataFrame 바로 뒤의 [ ] 내 입력값은 컬럼명(또는 컬럼의 리스트)을 지정해 컬럼 지정 연산에 사용하거나 불린 인덱스 용도로만 사용해야 함.
- DataFrame[0:2]와 같은 슬라이싱 연산으로 데이터를 추출하는 방법은 사용하지 않는 게 좋음.

In [35]:
print('단일 컬럼 데이터 추출:\n', titanic_df[ 'Pclass' ].head(3))                           # DataFrame에 ['컬럼명']으로 '컬럼명'에 해당하는 컬럼 데이터의 일부만 추출 가능
print('\n여러 컬럼들의 데이터 추출:\n', titanic_df[ ['Survived', 'Pclass'] ].head(3))       # 여러 개의 컬럼에서 데이터를 추출하려면 ['컬럼1', '컬럼2]와 같이 리스트 객체를 이용
print('[ ] 안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])                         # DataFrame 뒤의 [ ]에는 컬럼명을 지정해야 하는데, 0이 컬럼명이 아니기 때문에 오류 발생

단일 컬럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 컬럼들의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: ignored

- 판다스의 인덱스 형태로 변환 가능한 표현식은 [ ] 내에 입력 가능

In [36]:
titanic_df[0:2]     # titanic_df의 처음 2개 데이터 추출하고자 titanic_df[0:2]와 같은 슬라이싱을 이용

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C


- 불린 인덱싱 표현도 가능

In [12]:
titanic_df[ titanic_df['Pclass'] == 3].head(3)      # 불린 인댁싱을 이용해 Pclass 컬럼 값이 3인 3개만 추출

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### DataFrame iloc[ ] 연산자

- 개별 또는 여러 컬럼 값 전체를 추출하고자 한다면, iloc[ ]나 loc[ ]를 사용하지 않고 data_df[Name']과 같이 **DataFrame['컬럼명']**만으로 충분   
하지만 행과 열을 함께 사용하여 데이터를 추출해야 한다면 iloc[ ]나 loc[ ]를 사용해야 함.

- **iloc[ ]** : 위치(Location) 기반 인덱싱 방식(0부터 시작하는 행, 열의 위치 좌표에만 의존하는 것)으로 동작  
→ 행과 열 위치 값으로 정수형 값을 지정해 원하는 데이터를 반환

In [14]:
data = {'Name': ['Chulmin', 'Eunkyung','Jinwoong','Soobeom'],
        'Year': [2011, 2016, 2015, 2015],
        'Gender': ['Male', 'Female', 'Male', 'Male']
       }
data_df = pd.DataFrame(data, index=['one','two','three','four'])      # 생성한 DataFrame은 인덱스 값으로 숫자값이 아닌 문자열로 'one', 'two', 'three','four' 를 가지고 있으며, Name, Year, Gender 3개의 칼럼을 가짐
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


- **iloc[행 위치 정숫값, 열 위치 정숫값]**과 같이 명확하게 DataFrame 의 행 위치와 열 위치를 좌표 정숫값 형태로 입력하여 해당 위치에 있는 데이터를 가져올 수 있음

In [15]:
data_df.iloc[0, 0]      # DataFrame인 data_df의 첫 번째 행, 첫 번째 열의 데이터를 iloc[]를 이용해 추출

'Chulmin'

-  iloc[ ]에 DataFrame의 인덱스 값이나 칼럼명을 입력하면 오류를 발생시킴

In [16]:
# 아래 코드는 오류를 발생시킵니다.
data_df.iloc[0, 'Name']     # iloc[ ]의 열 위치에 위치 정숫값이 아닌 컬럼 명칭을 입력하여 오류 발생 

ValueError: ignored

In [41]:
# 아래 코드는 오류를 발생합니다.
data_df.iloc['one', 0]       # iloc[]의 행 위치에 DataFrame의 인덱스 값인 'one'을 입력하여 오류가 발생

ValueError: ignored

- data_df iloc[ ] 연산자 내에 위치 정숫값 및 위치 정수 슬라이싱을 이용하여 데이터 추출 가능

- **data_df.iloc[1,0]** : 두번째 행의 첫번째 열 위치에 있는 단일 값 반환
- **data_df.iloc[2,1]** : 세번째 행의 두번째 열 위치에 있는 단일 값 반환
- **data_df.iloc[0:2,[0,1]]** : 0:2 슬라이싱 범위의 첫번째에서 두번째 행과 첫번째, 두번째 열에 해당하는 DataFrame 반환
- **data_df.iloc[0:2,0:3]** : 0:2 슬라이싱 범위의 첫번째에서 두번째 행의 0:3 슬라이싱 범위의 첫번째부터 세번째 열 범위에 해당하는 DataFrame 반환
- **data_df.iloc[:]** : 전체 DataFrame 반환
- **data_df.iloc[:,:]** : 전체 DataFrame 반환

In [42]:
print("\n 맨 마지막 칼럼 데이터 [:, -1] \n", data_df.iloc[:, -1])                       # iloc[:,-1]을 하면 맨 마지막 컬럼의 값, 즉 타깃 값을 가져옴
print("\n 맨 마지막 칼럼을 제외한 모든 데이터 [:, :-1] \n", data_df.iloc[: , :-1])      # iloc[:, :-1]을 하게 되면 처음부터 맨 마지막 컬럼을 제외한 모든 컬럼의 값, 즉 피처값들을 가져옴


 맨 마지막 칼럼 데이터 [:, -1] 
 one        Male
two      Female
three      Male
four       Male
Name: Gender, dtype: object

 맨 마지막 칼럼을 제외한 모든 데이터 [:, :-1] 
            Name  Year
one     Chulmin  2011
two    Eunkyung  2016
three  Jinwoong  2015
four    Soobeom  2015


- iloc[]는 슬라이싱과 팬시 인덱싱은 제공하나 명확한 위치 기반 인덱싱이 사용되어야 하는 제약으로 인해 불린 인덱싱은 제공하지 않음

#### DataFrame loc[ ] 연산자

- **loc[ ]** : 명칭(Label) 기반 인덱싱 방식(DataFrame의 인덱스나 컬럼명으로 데이터에 접근하는 것)으로 동작  
→ 행 위치에는 DataFrame 인덱스 값을, 그리고 열 위치에는 컬럼명을 입력해 **loc[인덱스값, 컬럼명]**와 같은 형식으로 데이터 추출 가능  


In [43]:
data_df.loc['one', 'Name']          # 인덱스값이 'one'인 행의 컬럼명이 'Name인 데이터를 추출

'Chulmin'

In [44]:
# 아래 코드는 오류를 발생합니다. 
data_df_reset.loc[0, 'Name']        # 첫번째 행 위치의 인덱스 값을 0으로 착각하고 행 위치에 0을 입력했지만, data_df는 0을 인덱스 값으로 가지고 있지 않기에 오류를 발생

NameError: ignored

- 슬라이싱을 시작값:종료 값과 같이 지정하면 시작 값 ~ 종료 값-1까지의 범위를 의미
- 하지만 loc[ ]에 슬라이싱 기호를 적용하면, 종료 값-1이 아니라 종료 값까지
포함하는 것을 의미   
(명칭은 숫자형이 아닐 수 있어 -1을 할 수 없다는 명칭 기반 인덱싱의 특성 때문)

In [17]:
print('위치기반 iloc slicing\n', data_df.iloc[0:1, 0],'\n')             # 위치기반인 iloc[]에 슬라이싱 기호를 적용하면, 종료 값-1까지 포함한다. → 0번째 행 위치에 해당하는 1개의 행을 반환
print('명칭기반 loc slicing\n', data_df.loc['one':'two', 'Name'])       # 명칭기반인 loc[]에 슬라이싱 기호를 적용하면, 종료 값까지 포함한다. → 2개의 행 반환

위치기반 iloc slicing
 one    Chulmin
Name: Name, dtype: object 

명칭기반 loc slicing
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


- **data_df.loc['three','Name']** : 인덱스 값 three인 행의 Name 컬럼의 단일값 반환
- **data_df.loc['one':'two',['Name','Year']]** : 인덱스 값 one부터 two까지 행의 Name과 Year 컬럼에 해당하는 DataFrame 반환
- **data_df.loc['one':'three','Name':'Gender']** : 인덱스 값 one부터 three까지 행의 Name부터 Gender 컬럼까지의 DataFrame 반환
- **data_df.loc[:]** : 모든 데이터 값
- **data_df.loc[data_df.Year >= 2014]** : ilod[ ]와 다르게 loc[ ]는 불린 인덱싱이 가능. Year 컬럼의 값이 2014 이상인 모든 데이터를 불린 인덱싱으로 추출

#### 불린 인덱싱


- 불린 인덱싱은 **[ ]**, **loc[ ]**에서 공통으로 지원하지만, **iloc[ ]**는 정수형 값이 아닌 Boolean 값에 대해서는 지원하지 않기 때문에 불린 인덱싱이 지원되지 않음

In [18]:
titanic_df = pd.read_csv('/content/drive/My Drive/titanic_train.csv')       # 타이타닉 데이터 세트 DataFrame으로 로드
titanic_boolean = titanic_df[titanic_df['Age'] > 60]                        # 승객 중 나이(Age)가 60세 이상인 데이터 추출 (titanic_df[titanic_df['Age']> 60]은 titanic_df의 'Age' 컬럼 값이 60보다 큰 데이터를 모두 반환)
print(type(titanic_boolean))                                                # 반환된 titanic_boolean 객체의 타입은 DataFrame
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [47]:
titanic_df[titanic_df['Age'] > 60][['Name','Age']].head(3)      # [ ] 내에 불린 인덱싱을 적용하면 반환되는 객체가 DataFrame이므로, 원하는 컬럼명만 별도로 추출할 수 있는데 컬럼이 2개 이상이므로 [[ ]] 사용

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [48]:
titanic_df.loc[titanic_df['Age'] > 60, ['Name','Age']].head(3)      # loc[ ]를 이용해도 동일하게 적용 가능하나, ['Name', 'Age']는 컬럼 위치에 놓여야 함

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


- 여러 개의 복합 조건 결합 적용 가능
1. **and** 조건일 때 : **&**
2. **or** 조건일 때 : **|**
3. **Not** 조건일 때 : **~**

In [19]:
titanic_df[ (titanic_df['Age'] > 60) & (titanic_df['Pclass']==1) & (titanic_df['Sex']=='female')]   # 나이가 60세 이상이고, 선실 등급이 1등급이며, 성별이 여성인 승객을 추출

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


- 개별 조건을 변수에 할당하고, 이들 변수를 결합해 불린 인덱싱 수행 가능

In [50]:
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass']==1
cond3 = titanic_df['Sex']=='female'
titanic_df[ cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


#### 정렬, Aggregation함수, GroupBy 적용

#### DataFrame, Series의 정렬 - sort_values()

- sort_values()의 주요 입력 파라미터 : **by**, **ascending**, **inplace**
- **by** : 특정 컬럼 입력하면 해당 컬럼으로 정렬 수행
- **ascending = True** : 오름차순 정렬 (Default : ascending = True)
- **ascending = False** : 내림차순 정렬 
- **inplace = True** : 호출한 DataFrame의 정렬 결과 그대로 적용 
- **inplace = False** : sort_values()를 호출한 DataFrame은 그대로 유지  (Default : inplace = False)

In [51]:
titanic_sorted = titanic_df.sort_values(by=['Name'])    # titanic_df를 Name 컬럼으로 오름차순 정렬하여 반환
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


In [52]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)     # 여러 개의 컬럼으로 정렬하려면 by에 리스트 형식으로 정렬하려는 컬럼을 입력하면 됨 → Pclass와 Name를 내림차순으로 정렬
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


#### Aggregation 함수 적용

-  DataFrame의 경우, DataFrame에서 바로 aggregation을 호출할 경우 모든 칼럼에 해당 aggregation을 적용

In [53]:
titanic_df.count()      # titanic_df에 count()를 적용하면 모든 컬럼에 count() 결과를 반환 (단, count()는 Null 값을 반영하지 않은 결과를 반환)

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

- 특정 칼럼에 aggregation 함수를 적용하기 위해서는 **DataFrame에 대상 칼럼들만 추출**해 aggregation을 적용하면 됨

In [54]:
titanic_df[['Age', 'Fare']].mean()      # titanic_df의 'Age', 'Fare' 컬럼의 평균

Age     29.699118
Fare    32.204208
dtype: float64

#### groupby() 적용

- 입력 파라미터 by에 컬럼을 입력하면 대상 컬럼으로 groupby됨.
- DataFrame에 groupby()를 호출하면, DataFrameGroupBy라는 **또 다른 형태의 DataFrame**을 반환

In [55]:
titanic_groupby = titanic_df.groupby(by='Pclass')       # groupby(by='Pclass')를 호출하면 Pclass 컬럼 기준으로 GroupBy된 DataFrame Groupby 객체를 반환
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


- DataFrame에 groupby()를 호출해 반환된 결과에 aggregation 함수를 호출하면 groupby() 대상 컬럼을 제외한 **모든 컬럼에 해당 aggregation 함수를 적용**


In [20]:
titanic_groupby = titanic_df.groupby('Pclass').count()      # groupby() 대상 컬럼을 제외한 모든 컬럼에 해당 aggregation 함수를 적용
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


- DataFrame의 groupby()에 특정 칼럼만 aggregation 함수를 적용하려면 groupby()로 반환된 DataFrameGroupBy 객체에 **해당 칼럼을 필터링한 뒤 aggregation 함수를 적용**

In [57]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()     # titanic_df.groupby('Pclass')로 반환된 DataFrameGroupBy 객체에 [['PassengerId','Survived']]로 필터링해 PassengerId와 Survived 컬럼에만 count()를 수행
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


- DataFrame groupby()의 경우 적용하려는 **여러 개의 aggregation 함수명**을 DataFrameGroupBy 객체의 **agg() 내에 인자**로 입력해서 사용함.

In [58]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])     #  groupby( )로 반환된 DataFrameGroupBy 객체에 agg()를 적용해 구현 가능 → max(Age), min(Age) = agg([max, min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


- agg() 내에 입력값으로 **딕셔너리 형태로 aggregation이 적용될 컬럼들과 aggregation 함수를 입력**해 여러 개의 컬럼이 서로 다른 aggregation 함수를 groupby에서 호출

In [59]:
agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}      # 딕셔너리 형태로 aggregation이 적용될 컬럼들과 aggregation 함수를 입력
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


#### 결손 데이터 처리하기

- 결손 데이터 (= 넘파이의 NaN) : 컬럼에 값이 없는, 즉 NULL인 경우  
→ 머신러닝 알고리즘은 NaN 값을 처리하지 않으므로 이 값을 **다른 값으로 대체**해야 함.

#### isna()로 결손 데이터 여부 확인

- **isna()** : 데이터가 NaN인지 아닌지 여부 확인하는 API  
→ DataFrame에 isna()를 수행하면 모든 칼럼의 값이 NaN인지 아닌지를 True나 False로 알려줌

In [60]:
titanic_df.isna().head(3)       # titanic_df의 isna()로 결손 데이터의 개수를 파악 가능 (head(3)으로 결손데이터의 맨 앞 3개를 보여줌)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


- **결손 데이터의 개수** : **isna() 결과에 sum() 함수를 추가**해 구할 수 있음  
→ sum() 호출 시, True는 내부적으로 숫자 1로, False는 숫자 0으로 변환되므로 결손 데이터 개수 구할 수 있음

In [61]:
titanic_df.isna( ).sum( )

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### fillna( ) 로 결손 데이터 대체하기

In [62]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')        # 타이타닉 데이터 세트의 'Cabin' 컬럼의 NaN 값을 'C000'으로 대체
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


- fillna()를 이용해 **반환 값을 다시 받거나 inplace = True** 파라미터를 fillna()에 추가해야 실제 데이터 세트 값이 변경됨

In [63]:
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())  # 'Age' 컬럼의 NaN 값을 평균 나이로 대체해 모든 결손 데이터 처리
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')             # 'Embarked' 컬럼의 NaN 값을 'S'로 대체해 모든 결손 데이터 처리
titanic_df.isna().sum()                                                 # titanic_df의 결손 데이터 개수 반환

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

#### apply lambda 식으로 데이터 가공

- **lambda 식** : 함수의 선언과 함수 내의 처리를 한 줄의 식으로 쉽게 변환하는 식

In [64]:
def get_square(a):                          # def get_square(a): 와 같이 함수명과 입력 인자를 먼저 선언하고 이후 함수 내에서 입력 인자를 가공한 뒤 결과값을 return과 같은 문법으로 반환해야 함
    return a**2

print('3의 제곱은:',get_square(3))

3의 제곱은: 9


In [65]:
lambda_square = lambda x : x ** 2           # lambda x : x ** 2에서 ':'로 입력 인자와 반환될 입력 인자의 계산식을 분리 ← ':'의 왼쪽의 x는 입력인자 / 오른쪽의 계산식은 반환값
print('3의 제곱은:',lambda_square(3))

3의 제곱은: 9


- **map()** 함수 : lambda 식을 이용해 여러 개의 값을 입력 인자로 사용해야 할 경우, map() 함수 결합해 사용

In [66]:
a=[1,2,3]
squares = map(lambda x : x**2, a)   # map() 함수를 이용해 여러 개의 값을 입력 인자로 사용
list(squares)

[1, 4, 9]

- DataFrame의 apply에 lambda 식을 적용해 데이터를 가공 가능

In [67]:
titanic_df['Name_len']= titanic_df['Name'].apply(lambda x : len(x))     # 'Name' 컬럼의 문자열 개수를 별도의 컬럼인 'Name_len'에 생성
titanic_df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


- lambda 식은 if else를 지원

In [68]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <=15 else 'Adult' )     # 나이가 15세 미만이면 'Child', 그렇지 않으면 'Adult'로 구분하는 새로운 컬럼 'Child_Adult'를 apply lambda를 이용해 생성
titanic_df[['Age','Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


- 이때 if절의 경우, **if식보다 반환 값을 먼저 기술**해야 함  
(이는 lambda 식 ':' 기호의 오른편에 반환 값이 있어야 하기 때문)
- else의 경우, else 식이 먼저 나오고 반환 값이 나중에 오면 됨
- if, else만 지원하고 else if는 지원하지 않음  
→ else if를 이용하기 위해선, **else 절을 ()로 내포해 () 내에서 다시 if else 적용**해 사용

In [69]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x<=15 else ('Adult' if x <= 60 else       # 나이가 15세 이하이면 Child, 15~60세 사이는 Adult, 61세 이상은 Elderly로 분류하는 'Age_Cat' 컬럼 생성
                                                                                  'Elderly'))
titanic_df['Age_cat'].value_counts()                                                                            

Adult      786
Child       83
Elderly     22
Name: Age_cat, dtype: int64

- else if가 많이 나와야 하는 경우나 switch case 문의 경우는 **별도의 함수를 만드는 게 더 나을 수 있음**

In [21]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성. 
def get_category(age):
    cat = ''
    if age <= 5: cat = 'Baby'                                                   # 5살 이하는 Baby
    elif age <= 12: cat = 'Child'                                               # 12살 이하는 Child
    elif age <= 18: cat = 'Teenager'                                            # 18살 이하는 Teenage
    elif age <= 25: cat = 'Student'                                             # 25살 이하는 Student
    elif age <= 35: cat = 'Young Adult'                                         # 35살 이하는 Young Adult
    elif age <= 60: cat = 'Adult'                                               # 60세 이하는 Adult
    else : cat = 'Elderly'                                                      # 그 이상은 Elderly로 분류
    
    return cat

# lambda 식에 위에서 생성한 get_category( ) 함수를 반환값으로 지정. 
# get_category(X)는 입력값으로 ‘Age’ 컬럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))     
titanic_df[['Age','Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
