## 1. 머신러닝의 개념

`머신러닝 (Machine Learning)`이란 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭합니다.
머신러닝 알고리즘은 자연어 처리, 데이터 마이닝, 영상 및 음성 인식 등의 다양한 분야에서 데이터를 기반으로 숨겨진 패턴을 인지해 주어진 문제를 해결합니다.

머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 구분합니다.

`지도 학습(Supervised Learning)`이란 정답 라벨이 있는 데이터를 학습시키는 것으로, 입력 값(X) 와 그 입력 값에 대응하는 정답 (Y) 를 주어 학습시켜 새로운 입력 값에 대응하는 정답을 찾는 것을 목표로 합니다. 대표적인 예로 분류, 회귀, 추천 시스템, NLP 등이 있습니다.

`비지도 학습(Un-supervised Learning)`이란 정답 라벨이 없는 데이터를 학습시키는 것으로, 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 것을 목표로 합니다. 대표적인 예로 클러스터링, 차원 축소 등이 있습니다.

`강화 학습(Reinforcement Learning)`이란 앞선 두 학습 방법과 달리, 에이전트가 행동을 취하고 그 행동에 대한 보상을 받으며 최대한 큰 보상을 받기 위한 행동을 스스로 학습하는 방식을 말합니다.

머신러닝에서 알고리즘만큼이나 중요한 요소가 `데이터` 입니다. 머신러닝의 가장 큰 단점은 데이터에 매우 의존적이라는 것이기 때문에, 올바른 학습 결과를 얻기 위해서는 최적의 머신러닝 알고리즘과 모델 파라미터를 구축하는 능력만큼 데이터를 올바르고 효율적으로 가공, 처리, 추출하는 능력 역시 매우 중요합니다.

## 2. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

머신러닝 프로그램을 작성하는데 가장 많이 사용되는 프로그램 언어는 파이썬과 R입니다. 이 책은 그중 파이썬을 이용한 머신러닝을 다루고 있으며, 저 또한 파이썬이 더 익숙하기 때문에 이 책을 골랐습니다. 이 책에서는 `scikit-learn` (머신러닝), `numpy` & `scipy` (선형대수/통계), `pandas` (데이터 핸들링), `matplotlib` & `seaborn` (시각화) 등을 사용하여 머신 러닝 프로그램을 작성하는 법을 익힙니다.

저는 `Windows 10` 에서 `Anaconda` 를 통해 실습 환경을 구성하여 `python 3.8.12` 버전에서 `jupyter notebook`을 이용해 실습을 진행하였습니다.


## 3. 넘파이(Numpy)

머신러닝의 주요 알고리즘은 선형대수와 통계에 기반합니다. `Numpy` 패키지를 통해 파이썬에서 선형대수 연산을 쉽게 수행할 수 있기 때문에 대부분의 머신러닝 알고리즘이 넘파이 기반으로 작성되어 있고 입력과 출력 데이터를 넘파이 배열 타입으로 사용합니다. 넘파이를 이해하는 것은 파이썬 기반의 머신러닝에서 매우 중요합니다.

### 3.1 넘파이 ndarray 개요

Numpy 패키지를 사용하기 위해서 다음과 같이 Numpy를 임포트합니다.

In [1]:
import numpy as np

Numpy 의 `array()` 함수를 통해 파이썬의 리스트로 인자를 입력을 받아 `ndarray` 형태의 변환할 수 있습니다. `ndarray` 배열의 `shape` 변수를 이용해 행과 열의 수를 튜플 형태로 받고 배열의 차원을 알 수 있습니다.

In [4]:
array1=np.array([1,2,3])
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)

array2=np.array([[1,2,3],[4,5,6]])
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)

array3=np.array([[1,2,3]])
print('array3 type:', type(array3))
print('array3 array 형태:', array3.shape)

print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)
array1: 1차원, array2: 2차원, array3:  2차원


간단한 예제입니다. 주의하여야 할 점은 array1과 array3은 서로 다르다는 것입니다. array1은 3개의 원소로 이루어진 1차원의 array이며, array3은 1개의 행과 3개의 열로 이루어진 2차원 array입니다.

### 3.2 ndarray의 데이터 타입

서로 다른 데이터 타입을 저장할 수 있는 `list`와는 달리, `ndarray`에서는 모든 원소가 같은 자료형을 가져야 합니다. 따라서 여러 자료형이 섞여있는 리스트를 `ndarray`로 변환할 경우 더 큰 자료형으로 변환됩니다. 따로 변환을 원하는 자료형이 있을 경우에는 `astype()` 매서드를 이용하여 변경이 가능합니다.
`ndarray` 내 원소들의 데이터 타입은 `dtype`을 사용하여 확인할 수 있습니다.

In [6]:
list1=[1,2,3]
array1 = np.array(list1)
print(array1, array1.dtype)

list2=[1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3=[1.1, 3.5, 4.7]
array3 = np.array(list3).astype('int32')
print(array3, array3.dtype)

[1 2 3] int32
['1' '2' 'test'] <U11
[1 3 4] int32


첫 번째 리스트의 경우 모든 원소가 `int32` 자료형이기 때문에 `ndarray`형으로 변환시켰을 때 `int32` 자료형 원소들을 가진 행렬이 자동으로 생성됩니다. 한편 두 번째 리스트의 경우 원소에 정수와 문자열이 섞여 있기 때문에 `<U11` 형의 문자열로 모든 원소가 변환되어 저장이 됩니다. 세 번째 리스트의 경우 모든 원소가 실수형이지만, `astype(int32)` 매서드를 사용하였기 때문에 모든 원소가 `int32` 형으로 소숫점 아래를 버린 `ndarray` 가 생성됩니다.

### 3.3 ndarray를 편리하게 생성하기 - arange, zeros, ones

`arange()`, `zeros()` , `ones()` 매서드를 사용하면 쉽게 ndarray를 생성하고 초기화할 수 있습니다.

In [8]:
array = np. arange(1, 15, 2)
print(array)
print(array.dtype, array.shape)


zero_array = np.zeros((3,2))
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((2,3), dtype='int32')
print(one_array)
print(one_array.dtype, one_array.shape)

[ 1  3  5  7  9 11 13]
int32 (7,)
[[0. 0.]
 [0. 0.]
 [0. 0.]]
float64 (3, 2)
[[1 1 1]
 [1 1 1]]
int32 (2, 3)



`array`에는 1에서 시작하여 2 씩 증가하며, 15 미만의 값까지를 저장한 `ndarray`가 저장됩니다.`zero_array` 와 `one_array`에는 지정한 크기와 자료형에 맞게 각각 0과 1로 채워진 `ndarray`가 저장됩니다.

### 3.4 ndarray의 차원과 크기를 변경하는 reshape()

`reshape()` 매서드는 `ndarray`를 원하는 차원과 크기로 변환할 수 있습니다. 이때 바꾸고자 하는 사이즈로 변경이 불가능할 경우 (처음 `ndarray`과 나중 `ndarray`의 원소 수가 다른 경우)에는 에러가 발생합니다. 함수 인자로 -1 을 사용하는 경우에는 원래 `ndarray`와 호환되는 새로운 차원과 크기로 자동으로 변환시켜 줍니다.

In [10]:
array1=np.arange(8)
print('array1:\n', array1)

array2=array1.reshape(2,2,2)
print('array2:\n', array2)

array3=array1.reshape(4,-1)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7]
array2:
 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]]


`array2` 는 원소가 8개인 `array1` 을 2x2x2의 형태로 변환하여 저장합니다. `array3`은 `array1`을 4개의 행을 갖도록, 4x2의 형태로 자동으로 변환하여 저장합니다.

### 3.5 넘파이의 ndarray의 데이터 세트 선택하기- 인덱싱(Indexing)

#### 3.5.1 단일 값 추출
일반적인 파이썬에서의 `list`와 같은 방법으로, `ndarray`에서 구하고자하는 위치의 인덱스 값을 [] 안에 넣어 단일 값을 찾거나, 수정할 수 있습니다.

In [13]:
array= np.arange(1, 10).reshape(3,3)

print('row=1, col=2 가 가리키는 값:',  array[1][2])
array[1][2] = 5;
print('row=1, col=2 가 가리키는 값:',  array[1][2])

row=1, col=2 가 가리키는 값: 6
row=1, col=2 가 가리키는 값: 5


간단한 예제로 설명은 생략하겠습니다.

#### 3.5.1 슬라이싱

`:` 기호를 이용해 연속한 데이터를 슬라이싱하여 추출할 수 있습니다. `:` 기호를 사이에 두고 시작 인덱스와 종료 인덱스를 표시하면 시작 ~ 종료-1 인덱스의 위치에 있는 데이터의 `ndarray`를 반환합니다. 시작/끝 인자가 생략되면 자동으로 맨 처음/맨 끝 인덱스로 간주됩니다. 다차워 슬라이싱을 위해서는 `,` 로 각 차원의 인덱스 범위를 구분해 주면 됩니다.

In [20]:
array= np.arange(1, 10)
print('array[3:7]\n',  array[3:7])

array2= np.arange(1, 10).reshape(3,3)
print('array2[0:2,0:2]\n',  array2[0:2,0:2])
print('array2[1:,1:2]\n',  array2[1:,1:2])
print('array2[:2,0]\n',  array2[:2,0])


array[3:7]
 [4 5 6 7]
array2[0:2,0:2]
 [[1 2]
 [4 5]]
array2[1:,1:2]
 [[5]
 [8]]
array2[:2,0]
 [1 4]


간단한 예제로 설명은 생략하겠습니다.

#### 3.5.3 팬시 인덱싱

팬시 인덱싱 (Fancy Indexing) 은 `list` 나 `nparray` 로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 `ndarray`를 반환하는 인덱싱 방식입니다.

In [33]:
array= np.arange(1, 10).reshape(3,3)

print('array[[0,2],2]\n', array[[0,2],2])

array[[0,2],2]
 [3 9]


`array[[0,2],2]` 는 `array`의 0행과 2행의 2번쨰 열만 인덱싱하여 새로운 `ndarray` [3 9] 를 리턴합니다.

#### 3.5.4 불린 인덱싱

불린 인덱싱 (Boolean Indexing) 은 조건 필터링과 검색을 동시에 할 수 있기 때문에 매우 자주 사용되는 인덱싱 방식입니다.

In [34]:
array= np.arange(1, 10).reshape(3,3)

print('array[array>5]\n', array[array>5])

array[array>5]
 [6 7 8 9]


`ndarray` 의 인덱스로 조건을 넣어주면 그 조건을 만족하는 값들만 필터링하요 새로운 `ndarray` 를 리턴합니다.

### 3.6 행렬의 정렬 - sort()와 argsort()

#### 3.6.1 행렬 정렬
행렬을 정렬하기 위해서는 `sort()` 매서드를 사용하면 됩니다. 기본적으로 오름차순 정렬을 수행하며, `sort()[::-1]` 을 이용하면 내림차순 정렬을 수행합니다.

`sort()`를 호출하는 방법에는 `np.sort()` 와 `ndarray.sort()`가 있습니다. `np.sort()`는 원 행렬을 유지한 채 정렬된 행렬을 새롭게 생성하여 리턴하는 반면, `ndarray.sort()` 는 원 행렬 자체를 정렬된 상태로 변환합니다.

In [37]:
org_array = np.array([3, 1, 9, 5])
print('원본 행렬:', org_array)

print('np.sort 호출 후 반환된 정렬 행렬:', np.sort(org_array)[::-1])
print('np.sort 호출 후 원본 행렬:', org_array)

org_array.sort()
print('ndarray.sort 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort 호출 후 반환된 정렬 행렬: [9 5 3 1]
np.sort 호출 후 원본 행렬: [3 1 9 5]
ndarray.sort 호출 후 원본 행렬: [1 3 5 9]



간단한 예제로 설명은 생략하겠습니다.

행렬이 2차원 이상인 경우 `axis` 값을 함수인자로 제공하여 축 방향의 정렬을 수행할 수 있습니다.

In [46]:
org_array = np.arange(9,0,-1).reshape(3,3)
print('원본 행렬:\n', org_array)

print('열 방향 정렬:\n', np.sort(org_array, axis=0))
print('행 방향 정렬:\n', np.sort(org_array, axis=1))

원본 행렬:
 [[9 8 7]
 [6 5 4]
 [3 2 1]]
열 방향 정렬:
 [[3 2 1]
 [6 5 4]
 [9 8 7]]
행 방향 정렬:
 [[7 8 9]
 [4 5 6]
 [1 2 3]]



간단한 예제로 설명은 생략하겠습니다.

#### 3.6.1 정렬된 행렬의 인덱스 반환하기

원본 행렬이 정렬되었을 때 기존 원본 행렬의 원본에 대한 인덱스를 필요로 할 때 np.argsort()를 이용합니다.

In [48]:
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78, 95, 84, 98, 88])
print('성적 오름차순 정렬:',np.sort(score_array))

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬: [78 84 88 95 98]
성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']



다음과 같은 예시에서, 학생들의 점수를 오름차순으로 정렬하고 각 점수에 대응되는 학생을 찾기 위해 점수에 대한 원본 행렬에서의 인덱스가 필요하므로 `argsort()`를 이용하여 해당 과정을 수행해 줄 수 있습니다.

### 3.7 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

#### 3.7.1 행렬 내적 (행렬 곱)

행렬의 내적은 np.dot()을 이용하여 수행합니다.

In [49]:
A = np.array([[1,2,3],[4,5,6]])
B = np.array([[7,8],[9,10],[11,12]])

dot_product = np.dot(A,B)
print('행렬 내적 결과 \n', dot_product)

행렬 내적 결과 
 [[ 58  64]
 [139 154]]


#### 3.7.2 전치 행렬

전치 행렬은 np.transpose()를 이용하여 구할 수 있습니다.

In [50]:
A=np.array([[1,2],[3,4]])
transpose_mat= np.transpose(A)
print('전치 행렬 \n',transpose_mat)

전치 행렬 
 [[1 3]
 [2 4]]


In [1]:
import pandas as pd

In [3]:
titanic_df = pd.read_csv('titanic_train.csv')
print('titanic 변수 type:', type(titanic_df))
titanic_df.head(3)

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [4]:
print('DataFrame 크기:', titanic_df.shape)
titanic_df.info()

DataFrame 크기: (891, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [5]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [6]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


## 4. 판다스 (Pandas)

판다스는 파이썬의 데이터 핸들링 라이브러리입니다. 데이터를 2차원의 `DataFrame` 객체로 변환하여 각종 데이터 핸들링을 수행할 수 있습니다.

### 4.1 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

`Pandas` 패키지를 사용하기 위해서 다음과 같이 `Pandas`를 임포트합니다.



In [15]:
import pandas as pd

판다스 사용법을 익히기 위해 데이터로 캐글의 타이타닉 탑승자 데이터 파일을 사용할 것입니다. 데이터는 [링크](https://www.kaggle.com/c/titanic/data)를 통해 다운받을 수 있습니다.

가장 먼저 해야 할 일은 불러온 저장한 데이터를 불러와 `DataFrame` 의 형태로 변환시키는 것입니다. 데이터의 확장자에 따라 판다스의 `read_csv()`, `read_table()`, `read_fwf()` 등의 API 중에 골라 사용하면 됩니다. 함수인자로는 데이터 파일의 경로가 주어집니다.

저장한 타이타닉 탑승자 데이터 파일을 불러와보겠습니다.

In [16]:
titanic_df = pd.read_csv('titanic_train.csv')
print('titanic 변수 type:', type(titanic_df))
titanic_df

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


불러온 데이터 titanic_df 는 `DataFrame` type 임을 알 수 있습니다. 891개의 행과 12개의 열로 구성되어 있으며, 상위 5행과 하위 5행의 값을 살펴볼 수 있습니다.

이처럼 불러온 데이터는 매우 크기 때문에 그 값을 모두 확인하는 것은 효율적이지 못합니다. 따라서 불러온 데이터의 구성을 살펴보기 위해 판다스의 다양한 매서드들을 사용해 볼 수 있습니다.

`head()` 매서드는 주어진 함수인자 n 에 대해 상위 n 행을 출력합니다. `shape()` 매서드는 행과 열의 개수를 튜플의 형태로 반환합니다. `info()` 매서드는 각 열별 데이터의 건수와 데이터 타입, `Null` 데이터의 개수를 표시하여 줍니다. `describe()` 매서드는 각 열의 평균값, 최댓값, 최솟값, 표준편차 등의 통계적인 정보를 제공합니다. 타이타닉 탑승자 데이터에 다음 매서드들을 적용해봅시다.

In [17]:
titanic_df.head(3)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [18]:
print('Dataframe 의 크기: ', titanic_df.shape)

titanic_df.info()

Dataframe 의 크기:  (891, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [19]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


한 열의 데이터의 분포를 살펴보고 싶을 때는 그 행을 따로 분리하여 `Series`의 형태로 만든 다음, `.value_counts()` 매서드를 통해 각 값의 개수를 세주면 됩니다. 타이타닉 탑승자 데이터에서 `Pclass` 열의 데이터 분포를 살펴봅시다.

In [20]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


Pclass 값이 3 인 행이 491개, 1인 행이 216개, 2인 행이 184개 존재한다는 것을 알 수 있습니다.

### 4.2 DataFrame 과 리스트, 딕셔너리, 넘파이 ndarray 상호변환

데이터의 가공을 위해 `DataFrame`을 다양한 데이터형으로 변환하여 사용하고, 다양한 데이터형을 다시 `DataFrame` 으로 변환시킬 수 있습니다.

### 4.2.1 넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기

DataFrame의 특징은 리스트와 넘파이 ndarray와 다르게 칼럼명을 가지고 있다는 점입니다. 넘파이 ndarray, 리스트를 DataFrame 으로 변환시켜 줄 때는 `pd.DataFrame()` 매서드를 사용하고, 인자로 사용할 칼럼명들을 넘겨주면 됩니다. 딕셔너리를 DataFrame 으로 변환시켜줄 때는 저절로 딕셔너리의 키가 칼럼명으로 변환됩니다.
주의하여야 할 점은 DataFrame은 2차원이기 때문에 2차원 이하의 리스트와 ndarray 만 DataFrame으로 변환이 가능합니다.

In [21]:
import numpy as np
import pandas as pd
col_name=['col1', 'col2', 'col3']

list = [[1,2,3,],[4,5,6]]
array = np.array(list)
dict = {'col1': [1, 4], 'col2': [2, 5], 'col3': [3, 6]}

print('2차원 리스트로 만든 DataFrame:\n', pd.DataFrame(list, columns= col_name))
print('2차원 ndarray로 만든 DataFrame:\n', pd.DataFrame(array, columns= col_name))
print('Dictionary 로 만든 DataFrame:\n', pd.DataFrame(dict))

2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1     4     5     6
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1     4     5     6
Dictionary 로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1     4     5     6


In [22]:
data = {'col1': [1, 4], 'col2': [2, 5], 'col3': [3, 6]}
dataframe = pd.DataFrame(data)

array = dataframe.values
print("array의 타입:",type(array))
print(array)

list = dataframe.values.tolist()
print("array의 타입:",type(list))
print(list)

dict = dataframe.to_dict()
print("array의 타입:",type(dict))
print(dict)

array의 타입: <class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]]
array의 타입: <class 'list'>
[[1, 2, 3], [4, 5, 6]]
array의 타입: <class 'dict'>
{'col1': {0: 1, 1: 4}, 'col2': {0: 2, 1: 5}, 'col3': {0: 3, 1: 6}}


### 4.3 DataFrame 과 리스트, 딕셔너리, 넘파이 ndarray 상호변환

`[]` 연산자를 활용하여 `DataFrame` 의 칼럼 데이터 세트 생성과 수정을 쉽게 할 수 있습니다. 다음과 같은 예시를 살펴봅시다.

In [23]:
titanic_df['Age_by_10']= titanic_df['Age']*10
titanic_df['Family_No']= titanic_df['SibSp'] + titanic_df['Parch'] +1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


[실행결과]
![실행결과](./images/1-2/4.PNG)

기존 칼럼들의 데이터를 가공하여 새로운 칼럼 `Age` 와 `Family_No` 가 만들어지는 것을 확인할 수 있습니다.

### 4.3 DataFrame 데이터 삭제

`DataFrame` 에서 데이터를 삭제하기 위해서는 `drop()` 매서드를 사용합니다. `drop()` 매서드의 원형은 다음과 같습니다.

In [None]:
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

가장 중요한 파라미터는 `labels`, `axis`, 그리고 `inplace` 입니다.

`axis` 는 축의 방향을 지정하는 파라미터로, 값이 0 일 경우 로우 방향 축, 1일 경우 칼럼 방향 축으로 데이터를 삭제합니다. `labels` 파라미터는 제거할 데이터의 인덱스를 지정합니다.

`inplace` 는 원본 `DataFrame`에서 삭제를 수행할지를 지정하는 코드입니다. `inplace` 의 값이 False 로 지정되었다면, 원본에서는 삭제를 수행하지 않고, 삭제가 수행된 결과의 새로운 `DataFrame`을 결과값으로 리턴합니다. 반면 `inplace` 의 값이 True 로 지정되었다면, 원본에서는 삭제를 수행합니다.

In [24]:
titanic_drop_df = titanic_df.drop(['Age_by_10', 'Family_No'], axis=1)
titanic_drop_df.head(3)
                                  

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


실행 결과 `Age_by_10` 칼럼과 `Family_No` 칼럼이 삭제된 새로운 데이터셋이 생성된 것을 확인할 수 있습니다.

In [25]:
titanic_df.drop([0,1,2], axis=0, inplace=True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,350.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,350.0,1
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,,1


실행 결과 원본 `dataFrame`에서 3개의 행이 삭제된 새로운 데이터셋이 생성된 것을 확인할 수 있습니다. 이때 위에서 `inplace=False` 로 칼럼들을 삭제하였기 떄문에 아직 `Age_by_10` 칼럼과 `Family_No`칼럼이 남아있다는 사실도 확인할 수 있습니다. 또, `inplace=True` 로 매서드를 사용할 때에는 반환 값이 없기 때문에 반환 값을 다시 자신에게 할당하지 않고 매서드를 호출해야 한다는 것도 확인할 수 있습니다.


### 4.4 Index 객체

`Index` 매서드를 통해 `DataFrame` 또는 `Series` 를 1차원 넘파이 `ndarray`의 형태로 추출할 수 있습니다. 단, Index 객체의 값은 함부로 변경 할 수 없다는 특징을 갖습니다.

In [26]:
titanic_df = pd.read_csv('titanic_train.csv')
indexes= titanic_df.index
print(indexes)
print('Index 객체 array 값:\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array 값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 23

연산으로 Index의 구성에 변화가 생겼을 시, `reset_index()` 매서드를 수행하면 새롭게 인덱스를 연속 숫자 형으로 할당하고 기존 인덱스를 `index` 라는 새로운 칼럼 명으로 추가할 수 있습니다.

In [28]:
titanic_reset_df= titanic_df.reset_index(inplace= False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### 4.5.1 DataFrame의 [] 연산자
넘파이에서 `[]` 연산자를 활용한 것과 유사하게 판다스에서도 데이터 추출을 할 수 있습니다. 단, `DataFrame`에서는 [] 칼럼 명 문자 또는 인덱스로 변환 가능한 표현식만 들어갈 수 있습니다.

In [31]:
print('단일 칼럼 데이터 추출:\n',titanic_df['Pclass'].head(3))

print('\n여러 칼럼 데이터 추출:\n',titanic_df[['Survived','Pclass']].head(3))

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 칼럼 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


In [32]:
titanic_df[ titanic_df['Pclass'] ==3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S


### 4.5.2 DataFrame ix[] 연산자

(생략)

### 4.5.3 명칭 기반 인덱싱과 위치 기반 인덱싱 구분

(생략)

위 두개의 단원은 생략합니다. `ix[]` 연산자는 데이터를 추출할 때 숫자를 이용한 칼럼의 위치 기반 인덱싱 구분을 지원하지만, 이로 인해 숫자가 행 인덱스와 칼럼 인덱스 중 어떤 것을 의미하는지 구분하기 어려워 코드의 가독성을 떨어뜨립니다. 이를 개선하기 위해 아래에 설명할 `iloc[]` 과 `loc[]` 연산자를 주로 사용합니다.

### 4.5.4 DataFrame iloc[] 연산자

`iloc[]` 는 위치 기반 인덱싱만 허용하기 때문에 행과 열 값으로 `integer` 값을 입력해 주어야 합니다.

In [33]:
titanic_df.iloc[0, 0:3]

PassengerId    1
Survived       0
Pclass         3
Name: 0, dtype: object


위의 예시에서는 인덱스가 0 인 첫 행의 0~2번 칼럼의 값을 출력하는 것을 확인할 수 있습니다.

### 4.5.4 DataFrame loc[] 연산자

`loc[]` 는 명칭 기반 인덱싱만 허용하기 때문에 칼럼 값으로 칼럼의 명칭을 입력해 주어야 합니다.

In [35]:
titanic_df.loc[0:2, ['Pclass','Name']]

Unnamed: 0,Pclass,Name
0,3,"Braund, Mr. Owen Harris"
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,3,"Heikkinen, Miss. Laina"


위의 예시에서는 인덱스가 0~2인 행의 `Pclass`와 `Name` 칼럼의 값을 출력하는 것을 확인할 수 있습니다.

### 4.5.5 불린 인덱싱

데이터 필터링을 위해 불린 인덱싱을 사용할 수 있습니다.

In [40]:
titanic_df[(titanic_df['Age'] > 60) & (titanic_df['Pclass'] == 1) & (titanic_df['Sex'] =='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


불린 인덱싱을 통해 나이가 60 이상이고, `Pclass` 가 1이며, 성별이 여성인 조건을 만족하는 행 두 개만 필터링하는 것을 확인할 수 있습니다.

## 4.6 정렬, Aggregation, GroupBy 적용

### 4.6.1 DataFrame, Series의 정렬 - sort_values()

`DataFrame` 과 `Series`를 정렬하기 위해서는 `sort_values()` 매서드를 사용합니다. `sort_values()` 매서드는 파라미터로 `by`,`ascending`,`inplace`를 받습니다. `by`로 칼럼을 입력하면 해당 칼럼으로 정렬을 수행합니다. `ascending` 이 true 라면 오름차순, false라면 내림차순으로 정렬을 수행하며 기본값은 true입니다. `inplace`가 true라면 원본 데이터에 정렬을 적용하며, false라면 정렬이 적용된 데이터셋을 새로 생성하여 리턴하며 기본값은 false입니다.

In [41]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5,,S


`Pclass` 와 `Name` 을 기준으로 정렬된 결과를 확인할 수 있습니다.

### 4.6.2 Aggregation 함수 적용
`min()`, `max()`, `sum()`, `count()`와 같은 aggregation 함수도 쉽게 적용할 수 있습니다. 이때 `DataFrame`에 함수를 적용하면 모든 칼럼의 결과를 반환하고, 특정 칼럼의 결과만 얻기 위해서는 특정 칼럼만 추출해 함수를 적용하면 됩니다.

In [42]:
titanic_df[['Age', 'Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64


### 4.6.3 groupby() 적용

특정 칼럼의 값을 기준으로 다른 데이터들을 분석하고 싶다면 `groupby()`를 사용하면 됩니다. `DataFrame` 에 `groupby(by = '칼럼명')` 을 적용시켬 원하는 칼럼의 값을 기준으로 그룹이 나누어진 새로운 `DataFrame Groupby` 객체가 반환됩니다. 새로운 객체에 Aggergation 함수들을 적용시켜 데이터를 분석할 수 있습니다. 여러 개의 Aggergation 함수를 적용한 결과를 확인하고 싶을 때에는 `.agg()` 매서드를 적용하여  인자로 사용할 함수들의 이름을 제공하면 됩니다.

In [47]:
titanic_groupby = titanic_df.groupby(by='Pclass')
titanic_groupby['Age'].agg([min, max])


Unnamed: 0_level_0,min,max
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.92,80.0
2,0.67,70.0
3,0.42,74.0


`Pclass` 값에 따라 `Age` 값의 최솟값과 최댓값을 확인할 수 있습니다.

만약 여러 칼럼에 대하야 각 칼럼마다 다른 aggregation 함수를 적용하고 싶다면 각각의 칼럼에 사용할 함수를 딕셔너리로 만든 다음에 `agg`의 함수 인자로 전달하면 됩니다.

In [48]:
titanic_groupby = titanic_df.groupby(by='Pclass')
agg_format = {'Age' : 'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_groupby.agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


`Pclass` 값에 따라 `Age`의 최댓값, `SibSp`의 합, `Fare`의 평균값을 확인할 수 있습니다.

## 4.7 결손 데이터 처리하기

판다스는 머신 러닝 알고리즘에서 처리되지 않는 NaN 값의 결손 데이터를 다른 값으로 대체하기 위해 결손 여부를 확인하는 `isna()`와 결손값을 대체하는 `fillna()`을 제공합니다.

### 4.7.1 isna()로 결손 데이터 여부 확인
`DataFrame`에 `isna()`를 수행하면 모든 칼럼의 값이 NaN인지 아닌지를 True 또는 False의 형태로 제공합니다.

In [49]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [51]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')

titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


결측값이 존재하는 칼럼을 각각 `fillna()`를 통해 결측치를 대체한 다음, `isna()`를 활용하여 더 이상 결측치가 없다는 것을 확인할 수 있습니다.

### 4.8 apply lambda 식으로 데이터 가공

복잡한 데이터 가공의 경우 파이썬의 lambda 식을 활용할 수 있습니다.
lambda 식은 다음과 같이 구성됩니다.

```python
lamda (입력 인자) : (입력 인자를 기반으로 한 계산식)
```


다음 예시를 한번 살펴봅시다.

In [54]:
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x : len(x))

titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


다음과 같이 람다 식을 활용하여 이름의 길이를 나타내는 새로운 칼럼을 만들어 줄 수 있습니다.

람다 식을 사용할 경우 주의하여야 할 점은 `if else` 문을 사용할 때에는, `if` 문의 리턴 값이 `if` 보다 먼저 나와야 하며 `elif` 는 사용이 불가능하다는 점입니다.

다음 예시를 살펴봅시다.

In [56]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: 'chlid' if x<=15 else ('Adult' if x <= 60 else 'Elderly'))

titanic_df['Age_cat'].value_counts()

Adult      786
chlid       83
Elderly     22
Name: Age_cat, dtype: int64


`Age` 칼럼의 값을 기준으로 `Age_cat`이라는 새로운 칼럼을 만들 때 `lambda` 식을 사용하는 예시입니다. 이때 리턴값 `child` 가 if 문 앞에 온다는 점과, `elif` 를 사용할 수 없기 때문에 `else` 뒤에 괄호를 이용해 `if else` 문을 한번 더 사용한다는 점을 확인할 수 있습니다.

따라서 연산 내용이 길어질 경우 해당 부분을 함수로 따로 분리하여 작성한 다음 람다 식에 함수를 적용하는 것이 가독성이 더 좋을 수도 있습니다.
