# Chapter 01. 파이썬 기반의 머신러닝과 생태계 이해

## 01. 머신러닝의 개념

머신러닝 : 일반적으로, 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭

데이터 분석 영역은 재빠르게 머신러닝 기반의 예측 분석으로 재편되고 있다. 많은 데이터 분석가와 데이터 과학자가 머신러닝 알고리즘 기반의 새로운 예측 모델을 이용하며, 데이터에 감춰진 새로운 의미와 인사이트를 발굴해 놀랄 만한 이익으로 연결시키고 있다.

#### 파이썬을 R보다 선호하는 이유

* 쉽고 뛰어난 개발 생산성
* 오픈 소스 계열의 전폭적인 지원, 많은 라이브러리
* 인터프리터 언어 특성상 확장성, 유연성, 호환성 뛰어남
* 다양한 기업 환경으로의 확산 가능

## 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

* 사이킷런 - 머신러닝 패키지
* 넘파이, 사이파이 - 행렬, 선형대수, 통계 패키지
* 판다스 - 데이터 핸들링 패키지
* 맷플롯립, 시본 - 시각화 패키지

## 03. 넘파이(NumPy, Numerical Python)

ndarray : 넘파이 기반 데이터 타입

In [1]:
import numpy as np

In [2]:
array1 = np.array([1,2,3])
print('array1 type：', type(array1))
print('array1 형태：',array1.shape)

array2 = np.array([[1,2,3],[2,3,4]])
print('array2 type：', type(array2))
print('array2 형태：',array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type：', type(array3))
print('array3 형태：',array3.shape)

array1 type： <class 'numpy.ndarray'>
array1 형태： (3,)
array2 type： <class 'numpy.ndarray'>
array2 형태： (2, 3)
array3 type： <class 'numpy.ndarray'>
array3 형태： (1, 3)


array1 shape (3,) : 1차원 array에 3개의 데이터를 가지고 있음\
array2 shape (2,3) : 2차원 array에 2개의 row와 3개의 col 가지고 있음\
array3 shape (1,3) : 2차원 array에 1개의 row와 3개의 col 가지고 있음

* 차원을 알려주는 ndarray.ndim

In [4]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3:  2차원


In [5]:
#차원을 알려주는 ndarray.ndim
array1.ndim

1

* 데이터 타입을 알려주는 함수 dtype

In [7]:
list1 = [1, 2, 3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [8]:
list2 =[1,2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

['1' '2' 'test'] <U11


ndarray는 같은 데이터 타입만 연산할 수 있음. string을 섞었더니 모두 string 형태가 됨

* 데이터 타입 변경 astype

In [9]:
array_int = np.array([1, 2, 3])
print(array_int.dtype)
array_float = array_int.astype('float64')
print(array_float.dtype)
array_int2 = array_float.astype('int32')
print(array_int2.dtype)

int32
float64
int32


* 파이썬 표준함수 range()와 유사한 arange()

In [10]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


* 0으로 초기화하는 zeros, 1로 초기화하는 ones

In [12]:
#0으로 초기화
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)


In [13]:
#1로 초기화
one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


* 특정 차원 및 크기로 변환하는 함수 reshape

In [16]:
array1 = np.arange(10)
print('array1 ：\n', array1)
array2 = array1.reshape(2, 5)
print('array2：\n', array2)
array3 = array2.reshape(5, 2)
print('array3：\n', array3)

array1 ：
 [0 1 2 3 4 5 6 7 8 9]
array2：
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3：
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [17]:
array1 = np.arange(10)
print(array1)
array2 = array2.reshape(-1, 5)
print(array2)
print('array2 shape：', array2.shape)
array3 = array1.reshape(5, -1)
print(array3)
print('array3 shape：', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
array2 shape： (2, 5)
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
array3 shape： (5, 2)


reshape에 -1을 인자로 쓰면, 해당 array와 호환될 수 있는 차원으로 알아서 변환이 됨\
e.g. 10개 = 5 * 2 이므로 (5, -1) 하면 자동으로 5 * 2 행렬

In [19]:
array1 = np.arange(8)
array3d = array1.reshape((2, 2, 2))
print('array3d：\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1, 1)
print('array5：\n', array5.tolist())
print('array5 shape：', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = arrayl.reshape(-1, 1)
print('array6：\n', array6.tolist())
print('array6 shape：', array6.shape)

array3d：
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5：
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape： (8, 1)
array6：
 [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]]
array6 shape： (10, 1)


### 인덱싱

1. 슬라이싱(Slicing) : 연속된 인덱스상의 ndarray 추출
2. 팬시 인덱싱(Fancy indexing) : 일정한 인덱스 집합을 리스트 또는 ndarray 형태로 지정
3. 불린 인덱싱(Boolean indexing) : 특정 조건에 해당하는 인덱스 집합의 ndarray 추출

In [6]:
#팬시 인덱싱
array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3,3)

array3 = array2d[[0,2],0:2]
print('array2d[[0,2],0:2] => ', array3.tolist())

array2d[[0,2],0:2] =>  [[1, 2], [7, 8]]


In [7]:
#불린 인덱싱
array1d = np.arange(start = 1, stop = 10)
#[] 안에 array1d > 5 Boolean indexing 적용
array3 = array1d[array1d>5]
print('array1d > 5 불린 인덱싱 결과 값 : ', array3)

array1d > 5 불린 인덱싱 결과 값 :  [6 7 8 9]


In [8]:
#불린 인덱싱
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과 : ', array3)

불린 인덱스로 필터링 결과 :  [6 7 8 9]


### 행렬의 정렬 - sort()와 argsort()

* 행렬 정렬 sort() : sort() 적용한 행렬을 따로 저장해야 이후에도 사용할 수 있다.

In [11]:
org_array = np.array([3,1,9,5])
print('원본 행렬 : ', org_array)

sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬 : ', sort_array1)

sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬 : ', sort_array2)
print('org_array.sort() 호출 후 원본 행렬 : ', org_array)

원본 행렬 :  [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬 :  [1 3 5 9]
org_array.sort() 호출 후 반환된 행렬 :  None
org_array.sort() 호출 후 원본 행렬 :  [1 3 5 9]


In [12]:
#내림차순
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순 정렬 :', sort_array1_desc)

내림차순 정렬 : [9 5 3 1]


In [14]:
#행방향 정렬 : 같은 열 내에서 정렬
array2d = np.array([[8,12],[7,1]])
sort_row = np.sort(array2d, axis = 0)
print('행방향 정렬 :\n', sort_row)

#열방향 정렬 : 같은 행 내에서 정렬
sort_col = np.sort(array2d, axis = 1)
print('열방향 정렬 :\n', sort_col)

행방향 정렬 :
 [[ 7  1]
 [ 8 12]]
열방향 정렬 :
 [[ 8 12]
 [ 1  7]]


* 정렬된 행렬의 인덱스 반환 argsort()

In [17]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬시 원본 행렬 인덱스 :', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬시 원본 행렬 인덱스 : [1 0 3 2]


In [19]:
#정렬 인덱스 활용
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])
#내림차순
sort_indices_asc = np.argsort(score_array)[::-1]
print('성적순 이름 출력 : ', name_array[sort_indices_asc])

성적순 이름 출력 :  ['Kate' 'Mike' 'Samuel' 'Sarah' 'John']


### 선형대수 연산

In [20]:
A = np.array([[1,2,3], [4,5,6]])
B = np.array([[7,8],[9,10],[11,12]])

#행렬 내적
np.dot(A,B)

array([[ 58,  64],
       [139, 154]])

In [21]:
#전치 행렬
np.transpose(A)

array([[1, 4],
       [2, 5],
       [3, 6]])

## 04. 데이터 핸들링 - 판다스

In [23]:
import pandas as pd

titanic_df = pd.read_csv(r'C:\Users\JIHYE\Desktop\projects\Python_ML_guide\data\titanic\titanic_train.csv')
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [24]:
type(titanic_df)

pandas.core.frame.DataFrame

In [25]:
titanic_df.shape

(891, 12)

In [26]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [27]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [30]:
vc = titanic_df['Pclass'].value_counts()
vc

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [31]:
type(vc)

pandas.core.series.Series

Series는 인덱스와 하나의 칼럼으로 구성된 데이터 셋

#### 데이터프레임과 넘파이 ndarray, 리스트 딕셔너리 변환

In [33]:
#데이터프레임을 ndarray로 : values
df = pd.DataFrame({'col1':[1,11], 'col2':[2,22], 'col3':[3,33]})
array3 = df.values
type(array3), array3.shape

(numpy.ndarray, (2, 3))

In [39]:
#데이터프레임을 리스트로 : tolist
list3 = df.values.tolist()
type(list3), list3

(list, [[1, 2, 3], [11, 22, 33]])

In [38]:
#데이터프레임을 딕셔너리로 : to_dict
dict3 = df.to_dict('list') #딕셔너리 값이 리스트형으로 반환
type(dict3), dict3

(dict, {'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]})

#### 데이터프레임의 데이터 생성 및 삭제

In [44]:
#데이터 생성
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [46]:
titanic_drop_df = titanic_df.drop('Age_0', axis = 1) #칼럼 삭제를 위해 axis = 1
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [47]:
#원본에서 삭제하려면 inplace=True
titanic_df.drop('Age_0', axis = 1, inplace = True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [48]:
#열 삭제
titanic_df.drop([0,1,2], axis = 0, inplace = True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


### 데이터프레임의 인덱스 객체

In [50]:
titanic_df = pd.read_csv(r'C:\Users\JIHYE\Desktop\projects\Python_ML_guide\data\titanic\titanic_train.csv')

indexes = titanic_df.index
print(indexes)

RangeIndex(start=0, stop=891, step=1)


In [51]:
print(indexes.values)

[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 237 238 239 240 241 242 243 244 245 24

In [52]:
type(indexes.values)

numpy.ndarray

In [53]:
indexes.values.shape

(891,)

In [54]:
indexes[:5].values

array([0, 1, 2, 3, 4], dtype=int64)

In [55]:
indexes.values[:5]

array([0, 1, 2, 3, 4], dtype=int64)

In [56]:
indexes[0] = 5

TypeError: Index does not support mutable operations

인덱스 객체의 값은 함부로 변경할 수 없다.

In [61]:
#인덱스 초기화, 기존 인덱스 삭제
titanic_df = pd.read_csv(r'C:\Users\JIHYE\Desktop\projects\Python_ML_guide\data\titanic\titanic_train.csv')
titanic_df.drop([0,1,2],inplace = True, axis = 0)
print(titanic_df.head(3))
titanic_df.reset_index(inplace=True)
print(titanic_df.head(3))

   PassengerId  Survived  Pclass  \
3            4         1       1   
4            5         0       3   
5            6         0       3   

                                           Name     Sex   Age  SibSp  Parch  \
3  Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0   
4                      Allen, Mr. William Henry    male  35.0      0      0   
5                              Moran, Mr. James    male   NaN      0      0   

   Ticket     Fare Cabin Embarked  
3  113803  53.1000  C123        S  
4  373450   8.0500   NaN        S  
5  330877   8.4583   NaN        Q  
   index  PassengerId  Survived  Pclass  \
0      3            4         1       1   
1      4            5         0       3   
2      5            6         0       3   

                                           Name     Sex   Age  SibSp  Parch  \
0  Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0   
1                      Allen, Mr. William Henry    male  35.0  

### [] 연산자

데이터프레임의 [] 연산자는 칼럼만 지정할 수 있는 '칼럼 지정 연산자'이다. 즉, 숫자를 입력할 경우 오류가 발생한다. 단, 슬라이싱이나 불린 인덱싱은 가능하다.

In [62]:
#숫자 입력시 오류
titanic_df[0]

KeyError: 0

In [63]:
#슬라이싱은 가능
titanic_df[0:2]

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
1,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [64]:
#불린 인덱싱 가능
titanic_df[titanic_df['Pclass']==3].head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
2,5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
4,7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


#### 데이터프레임의 iloc[] 연산자 : 위치 기반 인덱싱

In [67]:
titanic_df.iloc[0,0]

3

#### 데이터프레임의 loc[] 연산자 : 명칭 기반 인덱싱

In [69]:
titanic_df.loc[0,'Pclass']

1

In [71]:
titanic_df.loc[0:2,'Pclass']

0    1
1    3
2    3
Name: Pclass, dtype: int64

loc는 명칭 기반 인덱싱이기 때문에 슬라이싱 사용시, 종료값-1 이 아니라 종료값까지 포함한다.

In [72]:
titanic_df.iloc[0:2,0:2]

Unnamed: 0,index,PassengerId
0,3,4
1,4,5


반면 iloc는 위치 기반이라 종료값-1까지 포함한다.

### 데이터프레임의 정렬, Aggregation, GroupBy

* sort_values()

In [74]:
titanic_df.sort_values(by=['Name'],inplace=True)
titanic_df.head(5)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
842,845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
743,746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
276,279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S
305,308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0,,C
871,874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0,,C


* Aggregation 함수

In [75]:
titanic_df.count()

index          888
PassengerId    888
Survived       888
Pclass         888
Name           888
Sex            888
Age            711
SibSp          888
Parch          888
Ticket         888
Fare           888
Cabin          203
Embarked       886
dtype: int64

* groupby() gkatn

In [76]:
titanic_Pclass_group = titanic_df.groupby(by="Pclass")
titanic_Pclass_group.head(5)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
842,845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
743,746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
276,279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S
305,308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0,,C
871,874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0,,C
362,365,366,0,3,"Adahl, Mr. Mauritz Nils Martin",male,30.0,0,0,C 7076,7.25,,S
398,401,402,0,3,"Adams, Mr. John",male,26.0,0,0,341826,8.05,,S
727,730,731,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
302,305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
294,297,298,0,1,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S


In [77]:
type(titanic_Pclass_group)

pandas.core.groupby.generic.DataFrameGroupBy

데이터셋의 외형에 변화는 없지만 타입은 데이터프레임groupby로 바뀐다. 해당 데이터셋에 다양한 Aggregation 함수를 적용할 수 있다.

In [79]:
titanic_Pclass_group.mean()

Unnamed: 0_level_0,index,PassengerId,Survived,Age,SibSp,Parch,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,462.734884,463.734884,0.627907,38.234703,0.413953,0.35814,84.214554
2,444.956522,445.956522,0.472826,29.87763,0.402174,0.380435,20.662183
3,439.94274,440.94274,0.241309,25.147082,0.615542,0.394683,13.70045


In [80]:
titanic_Pclass_group.agg([max, min])

Unnamed: 0_level_0,index,index,PassengerId,PassengerId,Survived,Survived,Name,Name,Sex,Sex,Age,Age,SibSp,SibSp,Parch,Parch,Ticket,Ticket,Fare,Fare
Unnamed: 0_level_1,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2
1,889,3,890,4,1,0,"Young, Miss. Marie Grice","Allen, Miss. Elisabeth Walton",male,female,80.0,0.92,3,0,4,0,WE/P 5735,110152,512.3292,0.0
2,886,9,887,10,1,0,"del Carlo, Mr. Sebastiano","Abelson, Mr. Samuel",male,female,70.0,0.67,3,0,3,0,W/C 14208,11668,73.5,0.0
3,890,4,891,5,1,0,"van Melkebeke, Mr. Philemon","Abbing, Mr. Anthony",male,female,74.0,0.42,8,0,6,0,W./C. 6609,12460,69.55,0.0


In [81]:
agg_format = {'Age':'max', 'SibSp':'sum','Fare':'mean'}
titanic_Pclass_group.agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,89,84.214554
2,70.0,74,20.662183
3,74.0,301,13.70045


### 결측치 처리

* 결측치 확인 isna()

In [84]:
titanic_df = pd.read_csv(r'C:\Users\JIHYE\Desktop\projects\Python_ML_guide\data\titanic\titanic_train.csv')

titanic_df.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [85]:
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

* 결측치 대체 fillna()

In [86]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000') #또는 inplace=True 이용
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


#### apply lambda를 통한 데이터 가공

In [88]:
titanic_df['Name len'] = titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name','Name len']].head(3)

Unnamed: 0,Name,Name len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [91]:
def get_category(age):
    cat = ''
    if age <= 20: cat = 'Child'
    elif age <= 60: cat = 'Adult'
    else: cat = 'Elderly'
    return cat

titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age', 'Age_cat']].head(5)

Unnamed: 0,Age,Age_cat
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
