# Chapter 1

# 04. 데이터 핸들링 - 판다스

* 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리
* 많은 부분이 넘파이 기반으로 작성
* 하지만 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링 가능
* 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터 및 CSV 등의 파일을 쉽게 DataFrame으로 변경해 줌

핵심 객체 : **DataFrame**
* 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체

중요 객체 : **Index**, **Series**
* Index - 개별 데이터를 고유하게 식별하는 Key
* Series - 칼럼이 하나뿐인 데이터 구조체 → DataFrame은 여러 개의 Series로 이뤄졌다.


## 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

판다스는 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 API를 제공
* read_csv() - 콤마(',')로 구분
    * CSV뿐만 아니라 어떤 필드 구분 문자 기반의 파일 포맷도 변환 가능 (sep 인자사용)
    * ex) read_csv('파일명', sep='\t') → 따라서, read_csv()만 사용가능
* read_table() - 탭('\t')으로 구분
* read_fwf() - 고정 길이 기반(Fixed Width)

In [42]:
import pandas as pd

In [43]:
titanic_df = pd.read_csv('titanic_train.csv')
print('titanic 변수 type:', type(titanic_df))
titanic_df

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [44]:
# DataFrame.head() : 맨 앞에 있는 N개의 row를 반환 (Default = 5)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [45]:
# DataFrame.shape : DataFrame의 행과 열을 튜플로 반환(행, 열 크기 확인)
print('DataFrame 크기:', titanic_df.shape)

DataFrame 크기: (891, 12)


In [46]:
# DataFrame.info() : 총 데이터 건수와 데이터 타입, Null 건수 확인
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [47]:
# DataFrame.describe() : n-percentile 분포도, 평균값, 최대값, 최소값 확인
# desribe()메서드는 오직 숫자형(int, float 등) column의 분포도만 조사(object 타입은 출력에서 제외)

titanic_df.describe()

# count : Not Null인 데이터 건수
# mean : 평균값
# std : 표준편차
# min : 최소값
# max : 최대값
# 25%, 50%, 75% : percentile

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


column이 숫자형 카테고리가 아니면 describe()로 분석한 것은 의미있는 속성이 아니다.

ex) Passengerid(1~891) / Pclass(1, 2, 3) / Survived(0, 1)

In [48]:
# Series 객체에 value_counts() 메서드를 호출하여 해당 column의 유형과 건수를 확인할 수 있다.
# value_counts()는 많은 건수 순서로 정렬되어 값을 반환한다.
# cf) DataFrame은 value_counts() 메서드를 가지고 있지 않다.

value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


In [49]:
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


In [50]:
# Series는 Index와 단 하나의 column으로 구성된 데이터 세트
titanic_pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

#### 인덱스에 관하여...

인덱스는 단순히 의미없는 순차 값 분만 아니라 고유성이 보장된다면 의미있는 데이터값 할당도 가능

DataFrame, Series가 만들어진 후에도 변경가능

숫자형뿐만 아니라 문자열도 가능(단, 고유성 보장)

## DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

DataFrame은 파이썬의 리스트, 딕셔너리, 넘파이 ndarray등 다양한 데이터로부터 생성 가능하며 역도 가능하다.

특히 사이킷런의 많은 API는 DataFrame을 인자로 입력받을 수 있지만, 기본적으로 넘파이 ndarray를 입력 인자로 사용하는 경우가 대부분이다.

(= DataFrame과 넘파이 ndarray 상호 간의 변환은 매우 빈번하게 발생한다.)

### 넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기

DataFrame은 리스트, ndarray와 다르게 column명을 가지고 있다.(이로 인해 편하게 데이터 핸들링이 가능) 

따라서, DataFrame으로 변환 시 column명을 지정해줘야 한다.(지정하지 않으면 자동으로 할당)

DataFrame은 2차원 데이터이므로 2차원 이하의 데이터들만 변환할 수 있다.

In [51]:
import numpy as np

# 1차원 형태의 데이터를 기반으로 DataFrame생성
# 리스트, ndarray → DataFrame

col_name1=['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape:', array1.shape)

# 리스트를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)

# 넘파이 ndarray를 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [52]:
# 2차원 형태의 데이터를 기반으로 DataFrame생성 
# 리스트, ndarray → DataFrame

# 3개의 column이 필요
col_name2 = ['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성한 뒤 이를 DataFrame으로 변환
list2 = [[1, 2, 3],
        [11, 12, 13]]
array2 = np.array(list2)
print('array2 shape:', array2.shape)
df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame:\n', df_list2)
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

array2 shape: (2, 3)
2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


In [53]:
# 딕셔너리 → DataFrame
# Key는 문자열 column명으로 매핑, Value는 리스트 형(또는 ndarray) column 데이터로 매핑
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

딕셔너리로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    22    33


### DataFrame을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기

대부분의 머신러닝 패키지가 기본 데이터 형으로 넘파이 ndarray를 사용

따라서, DataFrame → ndarray로 변환이 빈번하게 발생

DataFrame → ndarray 변환은 DataFrame 객체의 **values**를 이용

In [54]:
# DataFrame → ndarray

array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [55]:
# DataFrame → 리스트
# DataFrame.values.tolist()
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)

# DataFrame → 딕셔너리
# DataFrame.to_dict('list')
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]

 df_dict.to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


## DataFrame의 칼럼 데이터 세트 생성과 수정

DataFrame의 column 데이터 세트 생성과 수정 → '[ ]' 연산자를 이용

In [56]:
titanic_df['Age_0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [57]:
# 기존 column Series의 데이터를 이용해 새로운 column Series를 만들어보자.

titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [58]:
# DataFrame 내의 기존 column 값도 쉽게 일괄적으로 업데이트 할 수 있다.
titanic_df['Age_by_10'] = titanic_df['Age_by_10']+100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


## DataFrame 데이터 삭제
* **drop()** 메서드를 이용한다.

* drop() 메서드의 원형

DataFrae.drop(**labels=None**, **axis=0**, index=None, columns=None, level=None, **inplace=False**, errors='raise')

이 중 가장 중요한 파라미터는 *labels, axis, inplace*

#### axis : 값에 따라 특정 column 또는 row을 삭제
* 0은 row / 1은 column
    
#### labels : 삭제하고자 하는 column명 또는 인덱스
* column명 & axis=1을 지정하면 column을 삭제
* axis=0을 입력하면 특정 row를 삭제(DataFrame은 자동으로 labels에 오는 값을 인덱스로 간주)
    * row 레벨로 삭제하는 경우는 주로 이상치 데이터를 삭제할 때 사용
        
#### inplace : 원본 DataFrame에서 데이터 삭제 반영여부
* default값은 False → 원본 DataFrame 유지

In [59]:
# Age_0 column 삭제
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [60]:
titanic_df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked', 'Age_0', 'Age_by_10',
       'Family_No'],
      dtype='object')

In [61]:
# column삭제(inplace=True)
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True로 drop 후 반환된 값:', drop_result)
titanic_df.head(3)

# 주의해야할 점 : drop()시 inplace=True로 설정하면 반환 값은 None
# 따라서 inplace=True로 설정할 시 반환 값을 다시 자신의 DataFrame 객체로 할당하면 안된다.

inplace=True로 drop 후 반환된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [62]:
# row삭제
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))
titanic_df.drop([0, 1, 2], axis=0, inplace=True)

print('#### after axis 0 drop ###')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
#### after axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


## Index 객체

RDBMS의 PK(Primary Key)와 유사하게 DataFrame, Series의 레코드를 고유하게 식별하는 객체

DataFrame, Series에서 Index 객체만 추출
* DataFrame.index
* Series.index

In [63]:
# 원본 파일 다시 로딩
titanic_df = pd.read_csv('titanic_train.csv')

# Index 객체 추출
indexes = titanic_df.index
print(indexes)

# Index 객체를 실제 값 array로 변환
print('Index 객체 array값:\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

In [64]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [65]:
# 만들어진 DataFrame 및 Series의 Index 객체는 함부로 변경할 수 없다.
indexes[0] = 5

TypeError: Index does not support mutable operations

In [None]:
# Series 객체는 Index 객체를 포함하지만 연산 함수를 적용할 때 제외 → only 식별용
series_fair = titanic_df['Fare']
print('Fair Series max 값:', series_fair.max())
print('Fair Series sum 값:', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series + 3:\n', (series_fair + 3).head(3))

In [None]:
# reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자 형으로 할당
# 기존 인덱스는 'index'라는 새로운 column 명으로 추가
# 인덱스가 연속된 int 숫자형 데이터가 아닐 경우 다시 이를 연속 int 숫자형 데이터로 만들 때 주로 사용
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

In [None]:
# 주의할 점 : Series에 reset_index()를 적용하면 Series가 아닌 DataFrame이 반환된다.
# 왜냐하면 기존 인덱스는 'index'라는 column명으로 추가가 되므로 Series가 아닌 DataFrame이 된다.
# 하지만 reset_index()의 인자로 drop=True를 설정하면 기존인덱스는 삭제가 되어서 Series로 유지된다.
print('### Before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입:', type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:', type(new_value_counts))

## 데이터 셀렉션 및 필터링

numpy의 경우 '[ ]'연산자 내 단일 값 추출, 슬라이싱, 팬시 인덱싱, 불린 인덱싱을 통해 데이터를 추출

판다스의 경우 **ix[], iloc[], loc[]** 연산자를 통해 동일한 작업을 수행

주의) 데이터 셀렉션과 필터링은 넘파이와 상당히 유사하지만 다른 부분도 있어서 혼동하기 쉽다.

### DataFrame의 [ ] 연산자

numpy에서 [ ]연산자는 행, 열의 위치, 슬라이싱 범위 등을 지정해 데이터를 가져왔었다.

하지만 DataFrame 바로뒤의 [ ]연산자로 들어갈 수 있는 것은 다음과 같다.
* column명 문자(또는 column 명의 리스트 객체)
* 인덱스로 변환 가능한 표현식

암기) 현재 수준에서는 DataFrame 뒤 [ ]는 column만 지정할 수 있는 'column 지정 연산자'로 알아두자.

In [None]:
# DataFrame 뒤에 [ ]에는 칼럼명을 지정해야 한다. (숫자 값 입력 X)

print('단일 칼럼 데이터 추출:\n', titanic_df['Pclass'].head(3))
print('\n여러 칼럼의 데이터 추출:\n', titanic_df[['Survived', 'Pclass']].head(3))
print('[ ]안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])

In [None]:
# 인덱스 형태로 변환 가능한 표현식은 [ ]내에 입력할 수 있다. (하지만 권장되지는 않는 방법)

titanic_df[0:2]

In [None]:
# 불린 인덱싱 표현도 가능하다.

titanic_df[titanic_df['Pclass'] == 3].head(3)

### DataFrame ix[ ] 연산자

ix[ ] 연산자는 두 가지 방식을 제공한다.
* column 명칭(label) 기반 인덱싱 → loc 
* column 위치(position) 기반 인덱싱 → iloc

두 가지 방식을 모두 제공하다보니 혼돈을 주거나 가독성이 떨어져서 향후 사라질 예정이다.
(없어진 것 같다...)

In [None]:
print('칼럼 위치 기반 인덱싱 데이터 추출:', titanic_df.ix[0, 2])
print('칼럼 명 깁나 인덱싱 데이터 추출:', titanic_df.ix[0, 'Pclass'])

In [None]:
# DataFrame의 ix[ ]연산자는 단일 지정, 슬라이싱, 불린 인덱싱, 팬시 인덱싱 모두 가능하다.

data = {'Name': ['Chulmin', 'Eunkyung', 'Jinwoong', 'Soobeom'],
       'Year': [2011, 2016, 2015, 2015],
       'Gender': ['Male', 'Female', 'Male', 'Male']
       }
data_df = pd.DataFrame(data, index=['one', 'two', 'three', 'four'])
data_df

### 명칭 기반 인덱싱과 위치 기반 인덱싱의 구분

인덱스값이 숫자형(integer)일 경우 명칭 기반 인덱싱을 사용할 때 혼동이 온다.

In [None]:
# data_df를 reset_index()로 새로운 숫자형 인덱스를 생성
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})

# 인덱스값에 1을 더해서 1부터 시작하는 새로운 인덱스값 생성
data_df_reset.index = data_df_reset.index+1
data_df_reset

### DataFrame iloc[ ] 연산자

iloc[ ]는 위치 기반 인덱싱만 허용

따라서, 행과 열 값으로 **integer** 또는 **integer형의 슬라이싱, 팬시 리스트 값**을 입력해야 한다.

In [None]:
# 첫 번째 행, 첫 번째 열의 데이터

data_df.iloc[0, 0]

In [None]:
# iloc[ ]에 위치 인덱싱이 아닌 명칭을 입력하면 오류가 발생한다.
# 다음 코드는 오류를 발생한다.

data_df.iloc[0, 'Name']
data_df.iloc['one', 0]

In [None]:
data_df_reset.iloc[0, 1]

### DataFrame loc[ ] 연산자

loc[ ]는 명칭 기반으로 데이터를 추출

행 위치에는 DataFrame index 값을, 그리고 열 위치에는 column 명을 입력

In [None]:
# 인덱스 값이 'one', column명이 'name'인 데이터를 추출

data_df.loc['one', 'Name']

In [None]:
# 명칭 기반이라고 무조건 문자열을 입력하는건 X
# 인덱스가 정수형일 경우는 찾으려는 인덱스 값(정수)을 입력해주면 된다.
data_df_reset.loc[1, 'Name']

In [None]:
# 0인 행이 없으므로 다음 코드는 오류를 발생한다.

data_df_reset.loc[0, 'Name']

In [None]:
# loc[ ]는 명칭 기반 인덱싱의 특성으로인해 슬라이싱 기호 ':'를 적용할 때는 종료값까지 포함한다.
print('위치 기반 iloc slicing\n', data_df.iloc[0:1, 0], '\n')
print('명칭 기반 loc slicing\n', data_df.loc['one':'two', 'Name'])

### 불린 인덱싱

로직이나 조건에 의해 계산한 뒤에 데이터를 가져오기 때문에 많이 사용한다.

불린 인덱싱은 [ ], loc[ ]에서 공통으로 지원한다.

iloc[ ]는 정수형 값이 아닌 불린 값에 대해서는 지원하지 않는다.


In [None]:
# 승객 중 나이(Age)가 60세 이상인 데이터를 추출

titanic_df = pd.read_csv('titanic_train.csv')
titanic_boolean = titanic_df[titanic_df['Age']>60]
print(type(titanic_boolean))
titanic_boolean

In [None]:
# 위 결과값에 원하는 column 인덱싱 적용 가능
# column이 두 개 이상이므로 [[ ]]를 사용한다. (두 개 이상이면 리스트로 인덱싱)

titanic_df[titanic_df['Age']>60][['Name', 'Age']].head(3)

In [None]:
# loc[ ]를 이용해도 동일하게 적용할 수 있다. 단, ['Name', 'Age']는 column 위치에 놓여야 한다.

titanic_df.loc[titanic_df['Age']>60, ['Name', 'Age']].head(3)

여러 개의 복합조건도 가능하다.

#### 1. and 조건일 때는 &
#### 2. or 조건일 때는 |
#### 3. Not 조건일 때는 ~

In [None]:
# 나이 60세 이상이고, 선실 등급이 1등급이며, 성별이 여성인 승객

titanic_df[ (titanic_df['Age']>60) & (titanic_df['Pclass']==1) & (titanic_df['Sex']=='female')]

In [None]:
# 개별 조건을 변수에 할당하고 이들 변수를 결합해서 불린 인덱싱을 수행할 수도 있다.

cond1 = titanic_df['Age']>60
cond2 = titanic_df['Pclass']==1
cond3 = titanic_df['Sex']=='female'
titanic_df[cond1&cond2&cond3]

## 정렬, Aggregation 함수, GroupBy 적용

### DataFrame, Series의 정렬 - sort_values()

RDBMS SQL의 order by 키워드와 매우 유사

#### 주요 입력 파라미터
* by : 정렬하고 싶은 기준 column
* ascending
    * True : 오름차순
    * False : 내림차순
    * default : ascending=True
* inplace
    * default : inplace=False

In [None]:
# Name column기준 오름차순 정렬

titanic_df.sort_values(by='Name')

In [None]:
# 다수의 column으로 정렬하려면 by에 리스트 형식으로 입력하면 된다.
# Pclass, Name 기준 내림차순

titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(3)

### Aggregation 함수 적용
RDBMS SQL의 aggregation 함수 적용과 유사

단, DataFrame의 경우 바로 aggregation을 호출할 경우 **모든 column에 해당 aggregation을 적용한다.**

In [None]:
# titanic_df에 count()를 적용 → 모든 column에 count()결과를 반환

titanic_df.count()

In [None]:
# 특정 column에 aggregation 함수를 적용하기 위해서는 대상 column들만 추출해 적용하면 된다.

titanic_df[['Age', 'Fare']].mean()

### groupby() 적용

RDBMS SQL의 groupby 키워드와 유사(다른점도 있으니 주의할 것)

DataFrame의 groupby() 사용시 입력 파라미터 '**by**'를 이용 - 해당 column으로 groupby된다.

DataFrame에 groupby()를 호출하면 **DataFrameGroupBy**라는 또 다른 형태의 DataFrame을 반환한다.

In [None]:
# groupby - by='Pclass'
# type은 DataFrameGroupBy
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

In [None]:
# groupby()를 호출해 반환된 결과에 aggregation 함수를 호출하면 groupby() 대상 column을 제외한 모든 column에 aggregation 함수 적용
# 'Pclass'기준으로 groupby후 count()적용 → aggregation을 할 때 'Pclass' column은 제외되었다.

titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

In [None]:
# groupby를 진행한 DataFrameGroupBy 객체에 [[ ]] 필터링하여 특정 column에만 aggregation을 할 수 있다.

titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

In [None]:
# DataFrame에 서로 다른 aggregation 함수를 적용할 경우
# DataFrameGroupBy 객체의 agg() 내에 인자로 입력해서 사용한다.

titanic_df.groupby('Pclass')['Age'].agg([max, min])

In [None]:
# 여러개의 column이 서로 다른 aggregation 함수를 groupby에서 호출하려면 복잡해진다.
# agg()내에 입력 값으로 딕셔너리 형태로 주면 된다.

agg_format={'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

## 결손 데이터 처리하기

#### 결손데이터는 값이 없는 Null인 경우를 의미하며, 이를 넘파이의 NaN으로 표시한다.
#### 머신러닝 알고리즘은 NaN 값을 처리하지 않으므로 다른 값으로 대체해야한다.
#### NaN 값은 평균, 총합 등의 함수 연산 시 제외가 된다.

* isna() : NaN 여부를 확인

* fillna() : NaN을 다른 값으로 대체

### isna()로 결손 데이터 여부 확인

DataFrame에 isna()를 수행 → 모든 column의 값이 NaN인지 아닌지를 True/False로 알려준다.

In [67]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [68]:
# 결손 데이터의 개수는 isna() 결과에 sum() 함수를 추가해 구할 수 있다.
# True는 내부적으로 숫자1, False는 숫자0으로 변환되기 때문에 sum()을 사용

titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### fillna()로 결손 데이터 대체하기

In [69]:
# 'Cabin' 칼럼의 NaN 값을 'C000'으로 대체해보자.
# inplace=True 파라미터를 추가하여 원본 값을 변경할 수 있다.

titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


In [70]:
# 'Age' 칼럼의 NaN값을 평균 나이로, 'Embarked' 칼럼의 NaN값을 'S'로 대체해보자.

titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## apply lambda 식으로 데이터 가공

#### apply 함수에 lambda식을 결합해 DataFrame이나 Series의 데이터를 가공할 수 있다.
#### 복잡한 데이터 가공이 필요할 경우 apply lambda를 이용한다.

In [72]:
# lambda 실습
# 입력값의 제곱 값을 구해서 반환하는 get_square함수를 만들어보자.

def get_square(a):
    return a**2

print('3의 제곱은:', get_square(3))

3의 제곱은: 9


In [73]:
# lambda를 이용해 함수선언과 함수내의 처리를 한 줄의 식으로 쉽게 변환할 수 있다.
# lambda는 ':'로 입력인자와 반환될 입력인자의 계산식을 분리한다.
# ':' 왼쪽은 입력인자 / 오른쪽은 계산식

lambda_square = lambda x : x ** 2
print('3의 제곱은:', lambda_square(3))

3의 제곱은: 9


In [75]:
# map() : 여러개의 값을 입력 인자로 사용해야할 경우 map()함수를 결합해 사용한다.

a = [1, 2, 3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

In [79]:
# apply lambda식을 DataFrame에 적용해보자.

titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x: len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


In [81]:
# lambda 식에서 if else절을 사용해 조금 더 복잡한 가공을 해보자.
# 나이가 15세 미만이면 'Child', 그렇지 않으면 'Adult'로 구분해보자.

titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


#### 주의) lambda 식은 if, else를 지원하지만 else if는 지원하지 않는다.

#### 단, else if를 이용하기 위해서는 else절을 ()로 내포하여 ()내에서 다시 if else를 적용해 사용하면 된다.

In [83]:

# 15세 이하 'Child' / 15 ~ 60세 'Adult' / 61세 이상 'Elderly' 로 분류

titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else ('Adult' if x <= 60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      786
Child       83
Elderly     22
Name: Age_cat, dtype: int64

In [84]:
# else if가 많이 사용되는 경우나 switch case문의 경우 else를 계속 내포하기에는 부담스럽다.
# 이 때는 별도의 함수를 만드는게 더 효율적이다.

# 나이에 따라 세분화된 분류를 수행하는 함수 생성.

# 5살 이하 'Baby' / 12살 이하 'Child' / 18살 이하 'Teenager'  / 25살 이하 'Student' 
# 35살 이하 'Young Adult' / 60살 이하 'Adult' / 60살 초과 'Elderly'
def get_category(age):
    cat = ''
    if age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else: cat = 'Elderly'
    
    return cat

# lambda 식에 위에서 생성한 get_category( ) 함수를 반환값으로 지정.
# get_category(X)는 입력값으로 'Age' 칼럼 값을 받아서 해당하는 cat반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age', 'Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
