# CH01. 파이썬 기반의 머신러닝과 생태계 이해
---
## 01. 머신러닝의 개념
---
- 머신러닝(Machine Learning):        
  - 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭함  
  - 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해냄.     
  
 
### 1) 머신러닝의 분류
일반적으로 머신러닝은 지도학습(Supervised Learning)과 비지도학습(Un-supervised Learning), 강화학습(Reinforcement Learning)으로 나뉨.

#### 지도학습
- 분류, 회귀, 추천 시스템, 시각/음성 감지/인지, 텍스트 분석, NLP    

#### 비지도학습
- 클러스터링, 차원 축소, 강화학습


### 2) 데이터 전쟁
머신러닝의 가장 큰 단점은 데이터에 매우 의존적이라는 것임. 가비지 인(Garbage In), 가비지 아웃(Garbage out), 즉 좋은 품질의 데이터를 갖추지 못한다면 머신러닝의 수행 결과도 좋을 수 없음. 머신러닝을 이용해 데이터만 집어넣으면 자동으로 최적화된 결과를 도출할 거라는 믿음은 환상임. 머신러닝 모델을 개선하기 위해서는 많은 노력이 필요함. 이를 위해서 최적의 머신러닝 알고리즘과 모델 파라미터를 구축하는 능력도 중요하지만 데이터를 이해하고 효율적으로 가공, 처리, 추출해 최적의 데이터를 기반으로 알고리즘을 구동할 수 있도록 준비하는 능력이 더 중요할 수 있음. 

## 03. 넘파이
---
넘파이(NumPy)는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지임. 
### 1) 넘파이 ndarray 개요
넘파이의 기반 데이터 타입은 ndarray임. ndarray를 이용해 넘파이에서 다차원(Multi-dimension) 배열을 쉽게 생성하고 다양한 연산을 수행할 수 있음. 
![image.png](attachment:image.png)
넘파이 array() 함수는 파이썬의 리스트와 같은 다양한 인자를 입력 받아서 ndarray로 변환하는 기능을 수행함. 생성된 ndarray 배열의 shape 변수는 ndarray의 크기, 즉 행과 열의 수를 튜플 형태로 가지고 있으며 이를 통해 ndarray 배열의 차원까지 알 수 있음. 

In [2]:
import numpy as np

array1 = np.array([1, 2, 3])
print(type(array1))
print(array1.shape)
# (3, 1) 행렬

array2 = np.array([[1, 2, 3],
                   [2, 3, 4]])
print(type(array2))
print(array2.shape)
# (2, 3) 행렬

array3 = np.array([[1, 2, 3]])
print(type(array3))
print(array3.shape)
# (1, 3) 행렬 

<class 'numpy.ndarray'>
(3,)
<class 'numpy.ndarray'>
(2, 3)
<class 'numpy.ndarray'>
(1, 3)


- np.array() 사용법:  ndarray로 변환을 원하는 객체를 인자로 입력하면 ndarray 를 반환함. ndarray.shape는 ndarray의 차원과 크기를 튜플(tuple) 형태로 나타내줌. 

- 각 array의 차원을 ndarray.ndim을 이용해 확인해보기

In [3]:
print(array1.ndim, array2.ndim, array3.ndim)

1 2 2


### 2) ndarray의 데이터 타입
- ndarray내의 데이터값은 숫자, 문자열, 불 값 등이 모두 가능  
- ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능
- ndarray내의 데이터 타입은 dtype 속성을 확인할 수 있음

In [4]:
list1 = [1, 2, 3]
print(type(list1))

array1 = np.array(list1)
print(array1.dtype)

<class 'list'>
int32


- 서로 다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용함. 

In [5]:
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2.dtype)

<U11


int형 값과 문자열이 섞여 있는 list2를 ndarray로 변환한 array2는 숫자형 값이 모두 문자열 값으로 변경됨. 

- ndarray 내 데이터값의 타입 변경은 astype() 메서드를 이용해 할 수 있음. astype()에 인자로 원하는 타입을 문자열로 지정하면 됨.              
=> 주로 대용량 데이터의 ndarray를 만들 때 많은 메모리가 사용되는데, 메모리를 더 절약해야 할 때 보통 이용됨. 

In [6]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

[1. 2. 3.] float64


### 3) ndarray를 편리하게 생성하기 - arange, zeros, ones
특정 크기와 차원을 가진 ndarray를 연속값이나 0 또는 1로 초기화해 쉽게 생성해야 할 필요가 있는 경우가 발생할 수 있음. 주로 테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우에 사용됨. 
- arange(): 0부터 함수 인자 값 -1까지의 값을 순차적으로 ndarray의 데이터값으로 변환해줌

In [8]:
sequence1 = np.arange(10)
print(sequence1)

sequence2 = np.arange(2,10,2)
print(sequence2)

[0 1 2 3 4 5 6 7 8 9]
[2 4 6 8]


- zeros(): 함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운 해당 shape을 가진 ndarray를 반환함
- ones(): 모든 값을 1로 채운 해당 shape을 가진 ndarray를 반환함
- 함수 인자로 dtype을 정해주지 않으면 default로 float64 형의 데이터로 ndarray를 채움

In [10]:
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)

one_array = np.ones((2, 3))
print(one_array)

[[0 0]
 [0 0]
 [0 0]]
[[1. 1. 1.]
 [1. 1. 1.]]


### 4) ndarray의 차원과 크기를 변경하는 reshape()
reshape() 메서드는 ndarray를 특정 차원 및 크기로 변환함. 변환을 원하는 크기를 함수 인자로 부여하면 됨. 

In [11]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(2, 5)
print(array2)

array3 = array1.reshape(5, 2)
print(array3)

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


- reshape()에 -1을 인자로 사용하면 원래 ndarray와 호환되는 새로운 shape로 변환해줌. 

In [13]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(-1, 5)
print(array2)

array3 = array1.reshape(5, -1)
print(array3)

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


### 5) 행렬의 정렬 - sort(), argsort()
넘파이에서 행렬을 정렬하는 대표적인 방법인 np.sort()와 정렬된 행렬의 인덱스를 반환하는 argsort()에 대해서 알아보자
#### 행렬 정렬
넘파이의 행렬 정렬은 np.sort()와 같이 넘파이에서 sort()를 호출하는 방식과 ndarray.sort()와 같이 행렬 자체에서 sort()를 호출하는 방식이 있음. 
- 두 방식의 차이는 np.sort()의 경우 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환하며, ndarray.sort()는 원 행렬 자체를 정렬한 형태로 변환하며 반환 값은 None임. 

In [15]:
org_array = np.array([3, 1, 9, 5])
print(org_array)
# np.sort()로 정렬 - 원본은 그대로 
sort_array1 = np.sort(org_array)
print(sort_array1)
print(org_array)
# ndarray.sort()로 정렬 - 원본이 정렬됨
sort_array2 = org_array.sort()
print(sort_array2)
print(org_array)

[3 1 9 5]
[1 3 5 9]
[3 1 9 5]
None
[1 3 5 9]


모두 기본적으로 오름차순으로 행렬 내 원소를 정렬함.
- 내림차순으로 정렬하기 위해서는 [::-1]을 적용해야함

In [19]:
sort_array1_desc = np.sort(org_array)[::-1]
print(sort_array1_desc)

[9 5 3 1]


- 행렬이 2차원 이상일 경우에 axis 축 값 설정을 통해 로우 방향 또는 칼럼 방향으로 정렬을 수행할 수 있음.
 > axis=0: 행 방향, axis=1: 열 방향

![image.png](attachment:image.png)

In [3]:
array2d = np.array([[8, 12],
                    [7, 1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print(sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print(sort_array2d_axis1)

[[ 7  1]
 [ 8 12]]
[[ 8 12]
 [ 1  7]]


#### 정렬된 인덱스를 반환하기
- np.argsort(): 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환함
![image.png](attachment:image.png)

In [4]:
org_array = np.array([3, 1, 9, 5])
sort_indices = np.argsort(org_array)
print(sort_indices)

[1 0 3 2]


- 내림차순으로 정렬 시에 원본 행렬의 인덱스 구하기: [::-1] 적용 

In [5]:
org_array = np.array([3, 1, 9, 5])
sort_indices_desc = np.argsort(org_array)[::-1]
print(sort_indices_desc)

[2 3 0 1]


- 넘파이의 ndarray는 메타 데이터를 가질 수 없음. 따라서 실제 값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 각각 가져야만함. 

In [6]:
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)

# 성적 오름차순으로 이름 출력 
print(name_array[sort_indices_asc])

['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 6) 선형대수 연산 - 행렬 내적과 전치 행렬 구하기
#### 행렬 내적(행렬 곱)
- np.dot()을 이용해 행렬 내적(행렬 곱) 계산 가능
![image.png](attachment:image.png)

In [7]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])

B = np.array([[7, 8],
              [9, 10], 
              [11, 12]])

dot_product = np.dot(A, B)
print(dot_product)

[[ 58  64]
 [139 154]]


#### 전치 행렬
- 넘파이의 np.transpose()를 이용해 구할 수 있음
![image.png](attachment:image.png)

In [8]:
A = np.array([[1, 2],
              [3, 4]])

transpose_mat = np.transpose(A)
print(transpose_mat)

[[1 3]
 [2 4]]


## 04. 데이터 핸들링 - 판다스
---
판다스의 핵심 객체는 DataFrame이다. DataFrame은 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체이다. Index는 개별 데이터를 고유하게 식별하는 Key 값임. Series와 DataFrame은 모두 Index를 key 값으로 가지고 있다. Series와 DataFrame의 가장 큰 차이는 **Series는 칼럼이 하나뿐인 데이터 구조체이고, DataFrame은 칼럼이 여러 개인 데이터 구조체라는 점이다.**
- 판다스는 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 API를 제공함
- read_csv(): CSV(칼럼을 ','로 구분한 파일 포맷) 파일 변환, 필드 구분 문자가 콤마(','), sep 지정 가능하고 생략하면 디폴트인 콤마로 할당함
> 파라미터 지정 없으면 파일의 맨 처음 로우를 칼럼명으로 지정
- read_table(): 필드 구분 문자가 탭('\t')

In [10]:
import pandas as pd
titanic_df = pd.read_csv('C:/Users/JIEUN OH/OneDrive/바탕 화면/Kaggle_data/Titanic/train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


- DF의 행과 열 크기 알아보기: shape 변수 

In [11]:
titanic_df.shape

(891, 12)

-> 891개의 행과 12개의 열로 이뤄짐.

- 칼럼의 타입, null 데이터 개수, 데이터 분포도 등의 메타 데이터등 조회: info(), describe()

In [12]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- describe(): 오직 숫자형 칼럼의 분포도만 조사함

In [13]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


- Pclass 칼럼의 분포 알아보기
- value_counts() 메서드를 호출하면 해당 칼럼값의 유형과 건수를 확인할 수 있음 

In [14]:
value_counts = titanic_df.Pclass.value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


- 왼쪽 값은 series의 index, 오른쪽 값은 series의 데이터 값
- Series는 Index와 단 하나의 칼럼으로 구성된 데이터 세트임

In [15]:
titanic_df.Pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

### 1) DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환 
- DF와 ndarray의 상호 간의 변환은 매우 빈번하게 발생함
#### 넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기
- DF로 변환 시 칼럼평을 지정해줌(지정하지 않으면 자동으로 칼럼명을 할당함)
- data 인자에는 리스트나 딕셔너리 또는 ndarray를 입력받고, columns 인자에는 컬럼명 리스트를 입력 받아서 DF을 생성할 수 있음


- ndarray를 dataframe으로 변환

In [17]:
# 1차원 형태 데이터 기반으로 DF 생성
array1 = np.array([1, 2, 3, 'do'])
df_array1 = pd.DataFrame(array1, columns=['col1'])
print(df_array1)

  col1
0    1
1    2
2    3
3   do


In [19]:
# 2차원 형태 데이터 기반으로 DF 생헝
array2 = np.array([[1, 2, 3],
                   [11, 12, 13]])
df_array2 = pd.DataFrame(array2, columns=['col1', 'col2', 'col3'])
print(df_array2)

   col1  col2  col3
0     1     2     3
1    11    12    13


- 딕셔너리를 dataframe으로 변환
> 딕셔너리의 키(key)는 칼럼명으로, 딕셔너리의 값(value)은 키에 해당하는 칼럼 데이터로 변환됨

In [20]:
dict1 = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict1)
print(df_dict)

   col1  col2  col3
0     1     2     3
1    11    22    33


- DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기
  - DataFrame 객체의 values를 이용해 쉽게 할 수 있음 

In [21]:
# DF를 ndarray로 변환 - values
array3 = df_dict.values
print(array3)

# DF를 리스트로 변환 - values를 tolist 
list3 = df_dict.values.tolist()
print(list3)

# DF를 딕셔너리로 변환 - to_dict('list'): 딕셔너리 values가 리스트형으로 반환됨 
dict3 = df_dict.to_dict('list')
print(dict3)

[[ 1  2  3]
 [11 22 33]]
[[1, 2, 3], [11, 22, 33]]
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


### 3) DataFrame의 칼럼 데이터 세트 생성과 수정 
- []내에 새로운 칼럼명을 입력하고 값을 할당해주기만 하면 됨


In [22]:
titanic_df['Age_0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


### 4) DataFrame 데이터 삭제
- drop() 메서드를 사용해 데이터를 삭제할 수 있음
> - axis=0: 특정 로우를 드롭, axis=1: 특정 칼럼을 드롭         
> - inplace=True 지정하면 원본에서 drop 됨

In [24]:
titanic_df.drop('Age_0', axis=1, inplace=True)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


- 인덱스를 지정하여 drop 하기 (로우 데이터 인덱스로 삭제)

In [25]:
titanic_df.drop([1, 2, 3], axis=0, inplace=True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


## 5) Index 객체
Df, Series에서 index 객체만 추출하려면 DataFrame.index 또는 Series.index 속성을 통해 가능함

In [27]:
indexes = titanic_df.index
print(indexes)
# Index 객체를 실제 값 array로 변환
print(indexes.values)

Int64Index([  0,   4,   5,   6,   7,   8,   9,  10,  11,  12,
            ...
            881, 882, 883, 884, 885, 886, 887, 888, 889, 890],
           dtype='int64', length=888)
[  0   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20
  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38
  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56
  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74
  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92
  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107 108 109 110
 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128
 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146
 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164
 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182
 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
 201 202 203 204 2

- **DataFrame 및 Series에 reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자 형으로 할당하며 기존 인덱스는 'index'라는 새로운 칼럼명으로 추가함**

In [28]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
2,5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


## 6) 데이터 셀렉션 및 필터링
- DataFrame 바로 뒤의 [] 내 입력 값은 칼럼명(또는 칼럼의 리스트)을 지정해 칼럼 지정 연산에 사용하거나 불린 인덱스 용도로만 사용해야함.

In [29]:
titanic_df[['Survived', 'Pclass']].head(3)

Unnamed: 0,Survived,Pclass
0,0,3
4,0,3
5,0,3


In [30]:
titanic_df[titanic_df.Pclass == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


#### DataFrame - iloc[인덱스 값] 연산자
- iloc[]는 행과 열 위치에 위치 기반 인덱싱 값을 입력함 

In [31]:
titanic_df.iloc[0:2, 1]

0    0
4    0
Name: Survived, dtype: int64

In [33]:
titanic_df.iloc[0, 3]

'Braund, Mr. Owen Harris'

#### DataFrame - loc[인덱스, 칼럼명] 연산자
- loc[]는 명칭 기반으로 데이터를 추출함. 행 위치에는 인덱스 값을, 열 위치에는 칼럼 명을 입력함
- 명칭 기반 인덱싱이기 때문에 슬라이싱 할때 종료점도 포함함 

In [35]:
titanic_df.loc[4, 'Ticket']

'373450'

In [37]:
titanic_df.loc[5:7, 'Ticket']

5    330877
6     17463
7    349909
Name: Ticket, dtype: object

## 7) 정렬, Aggregation 함수, GroupBy 적용
### DataFrame, Series의 정렬 - sort_values()
- DataFrame과 Series의 정렬을 위해서는 sort_values() 메서드를 이용함 
> - by로 특정 칼럼을 입력하면 해당 칼럼으로 정렬을 수행함          
> - ascending=True로 설정하면 오름차순, False로 설정하면 내림차순으로 정렬함                 
> - inplace=True로 설정하면 호출한 DF의 정렬 결과를 그대로 적용함 

In [38]:
titanic_sorted = titanic_df.sort_values(by='Name')
titanic_sorted.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S
308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0,,C
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0,,C


In [39]:
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5,,S
286,287,1,3,"de Mulder, Mr. Theodore",male,30.0,0,0,345774,9.5,,S
559,560,1,3,"de Messemaeker, Mrs. Guillaume Joseph (Emma)",female,36.0,1,0,345572,17.4,,S


### Aggregation 함수 적용
- 특정 칼럼에 aggregation 함수를 적용하기 위해서는 DF에 대상 칼럼들만 추출해 aggregation을 적용하면 됨

In [40]:
titanic_df[['Age', 'Fare']].mean()

Age     29.68519
Fare    32.16401
dtype: float64

### groupby() 적용
- groupby() 의 입력 파라미터 by에 칼럼을 입력하면 대상 칼럼으로 groupby 됨

In [42]:
titanic_groupby = titanic_df.groupby('Pclass').count()
print(titanic_groupby)

        PassengerId  Survived  Name  Sex  Age  SibSp  Parch  Ticket  Fare  \
Pclass                                                                      
1               214       214   214  214  184    214    214     214   214   
2               184       184   184  184  173    184    184     184   184   
3               490       490   490  490  354    490    490     490   490   

        Cabin  Embarked  
Pclass                   
1         174       212  
2          16       184  
3          12       490  


In [44]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,214,214
2,184,184
3,490,490


- 서로 다른 aggregation 함수를 적용할 경우에는 여러 개의 aggregation 함수명을 groupby() 객체의 agg() 내에 인자로 입력해서 사용함 

In [45]:
titanic_df.groupby('Pclass').Age.agg([max, min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


- 여러 개의 칼럼이 서로 다른 aggregation 함수를 가질 때: agg() 내에 입력 값으로 딕셔너리 형태로 aggregation이 적용될 칼럼들과 aggregation 함수를 입력함

In [48]:
titanic_df.groupby('Pclass').agg({'Age':'max', 'SibSp':'sum', 'Fare':'mean'})

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,88,84.35995
2,70.0,74,20.662183
3,74.0,302,13.687286


## 8) 결손 데이터 처리하기
- NaN 값은 평균, 총합 등의 함수 연산 시 제외가 됨.
- isna(): NaN 인지 아닌지를 True나 False로 알려줌

In [49]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,True,False,False,False,False,True,False


- 결손 데이터의 개수 구하기: isna() + sum()

In [50]:
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          686
Embarked         2
dtype: int64

- fillna(): NaN 값을 다른 값으로 대체함
  - inplace=True를 설정해야 실제 데이터 세트 값이 변경됨                            

In [51]:
titanic_df.Cabin = titanic_df.Cabin.fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,C000,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,C000,Q


- Age 칼럼의 NaN 값을 평균 나이로, Embarked 칼럼의 NaN 값을 'S'로 대체해 모든 결손 데이터를 처리하기

In [52]:
titanic_df.Age.fillna(titanic_df.Age.mean(), inplace=True)
titanic_df.Embarked.fillna('S', inplace=True)
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## 9) apply lambda 식으로 데이터 가공
- 판다스는 apply 함수에 lambda 식을 결합해 DataFrame이나 Series의 레코드별로 데이터를 가공하는 기능을 제공함.

In [56]:
lambda_square = lambda x : x**2
print(lambda_square(3))

9


- lambda 식을 이용할 때 여러 개의 값을 입력 인자로 사용해야 할 경우에는 보통 map() 함수를 결합해서 사용함

In [55]:
a = [1, 2, 3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

- Name 칼럼의 문자열 개수를 별도의 칼럼인 Name_len에 생성해보기

In [58]:
titanic_df['Name_len'] = titanic_df.Name.apply(lambda x : len(x))
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Name_len
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S,23
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,C000,S,24
5,6,0,3,"Moran, Mr. James",male,29.68519,0,0,330877,8.4583,C000,Q,16


- 나이가 15세 미만이면 Child, 그렇지 않으면 Adult로 구분하는 새로운 칼럼 Child_Adult 만들기

In [59]:
titanic_df['Child_Adult'] = titanic_df.Age.apply(lambda x : 'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(3)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
4,35.0,Adult
5,29.68519,Adult


- lambda 안에 if 절의 경우 if 식보다 반환 값을 먼저 기술해야함.
  - if, else만 지원하고 else if는 지원하지 않음. else if를 이용하기 위해서는 else 절을 ()로 내포해 () 내에서 다시 if else를 적용해 사용함
- 나이가 15세 이하면 Child, 15~60세 사이는 Adult, 61세 이상은 Elderly로 분류하는 Age_Cat 칼럼을 만들기

In [60]:
titanic_df['Age_cat'] = titanic_df.Age.apply(lambda x : 'Child' if x<= 15 else ('Adult' if x<=60 else 'Elderly'))
titanic_df.Age_cat.value_counts()

Adult      783
Child       83
Elderly     22
Name: Age_cat, dtype: int64